소식

GPT-4o 버전 "Her"가 드디어 출시되었습니다! 고양이처럼 농담도 하고 야옹거리기도 하는 AI 여자친구는 얼마나 섹시할까?

2024-07-31

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


새로운 지혜 보고서

편집자: 도자는 너무 졸려요

[새로운 지혜 소개] GPT-4o 음성 기능이 드디어 예상대로 도착하고 SF 버전의 그녀가 현실로 등장합니다! Grayscale을 테스트한 일부 네티즌들은 열광했습니다. 그러나 OpenAI는 현재 4개의 사전 설정된 음성만 제공합니다. 또한 신형 GPT-4o 모델의 출력 토큰도 64K로 16배나 급증했다.

울트라맨의 약속이 드디어 이루어졌습니다.

7월 말 이전에 GPT-4o 음성 모드가 마침내 그레이스케일 테스트를 시작했으며 소수의 ChatGPT Plus 사용자가 이미 얼리 어답터 티켓을 획득했습니다.


ChatGPT 앱을 연 후 다음 인터페이스가 표시되면 첫 번째 행운의 사람이 된 것을 축하합니다.


OpenAI에 따르면 고급 음성 모드는 보다 자연스러운 실시간 대화를 제공하고, 마음대로 중단할 수 있으며, 감정을 감지하고 반응할 수도 있습니다.

올 가을 모든 ChatGPT Plus 사용자가 이 기능을 사용할 수 있을 것으로 예상됩니다.


또한, 향후 더욱 강력한 영상 및 화면 공유 기능도 출시될 예정입니다. 즉, 카메라를 켜면 ChatGPT와 "대면" 채팅을 할 수 있습니다.


그레이스케일의 영향을 받은 일부 네티즌들은 잇달아 테스트를 시작했고 GPT-4o 음성 모드의 많은 사용 사례를 발견했습니다.


아니요, 어떤 사람들은 말하기 연습 방법을 스스로 가르치기 위해 "제2외국어 코치" 역할을 하게 합니다.


다음 강의에서는 ChatGPT를 통해 네티즌들이 크루아상(크로아상)과 바게트(프랑스식 바게트)의 발음을 교정할 수 있도록 도왔습니다.

동시에 GPT-4o의 출력 토큰은 초기 4,000개 토큰에서 64,000개 토큰으로 16배 급증했습니다.

이것은 OpenAI가 최근 공식 웹사이트에서 조용히 출시한 새로운 베타 모델 gpt-4o-64k-output-alpha입니다.


출력 토큰이 길다는 것은 약 4개의 완전한 장편 영화 대본을 한 번에 얻을 수 있다는 것을 의미합니다.


그녀가 왔다

GPT-4o 음성 기능이 출시된 이유는 OpenAI가 지난 몇 달 동안 이에 대한 보안 및 품질 테스트를 진행했기 때문입니다.

그들은 100명 이상의 레드팀 구성원과 함께 45개 언어로 GPT-4o의 음성 기능을 테스트했습니다.


사람들의 개인 정보를 보호하기 위해 팀은 4개의 "기본 음성"만을 사용하여 말하도록 모델을 훈련시켰습니다.

또한 이 네 가지 이외의 소리 출력을 차단하는 시스템도 만들었습니다.

또한 콘텐츠 필터링도 필수로, 폭력적이고 저작권 관련 콘텐츠가 생성되는 것을 방지하기 위한 조치도 강구했습니다.

OpenAI는 8월 초 GPT-4o의 기능, 제한 사항 및 보안 평가에 대한 자세한 보고서를 발표할 계획이라고 발표했습니다.


전체 네트워크에 대한 실제 측정

다음은 네티즌들이 공유한 GPT-4o 음성 모드의 일부 사례이다.

ChatGPT는 비트박싱을 수행할 수 있습니다.


ChatGPT는 또한 수줍어하고, 화가 났고, 더 화난 어조로 맥주 농담을 했습니다.

일부 네티즌들은 ChatGPT에 대해 특별히 "과학자들이 아담-아톰을 믿지 않는 이유는 아담-아톰이 모든 것을 구성하기 때문"이라는 농담을 했습니다.

ChatGPT는 어색하게 웃었다.

더욱 재미있는 점은 ChatGPT가 여전히 야옹을 학습하는 방법을 가지고 있다는 것입니다.

몇 가지 테스트를 거친 후 누군가 ChatGPT 고급 음성 모드가 매우 빠르고 응답에 지연이 거의 없다는 사실을 발견했습니다.

어떤 소리를 흉내내라고 하면 항상 그 소리를 사실적으로 재현해 줍니다. 그리고 다양한 악센트도 모방할 수 있습니다.


아래 영상은 AI가 축구 경기 해설자 역할을 하는 장면을 보여준다.

ChatGPT는 중국어로 이야기를 들려주는데, 그 내용도 매우 생생합니다.

OpenAI는 영상 및 화면 공유 기능이 추후 출시될 것이라고 주장하고 있지만 일부 네티즌들은 이미 이를 먼저 사용해 본 바 있다.


한 네티즌은 새로운 애완 고양이를 키웠는데, 고양이를 위해 둥지를 짓고 먹이를 준비했지만 어떻게 해야 할지 몰라 ChatGPT에 문의했습니다.

영상 속 대화 중 네티즌은 고양이 집을 보여주었고 이를 본 ChatGPT는 “정말 편하겠다”며 고양이가 잘 지내는지 걱정했다.

네티즌들은 아직 밥도 안 먹어서 좀 불안해 보인다고 하더군요. ChatGPT는 "이건 정상이다. 고양이가 적응하는 데 시간이 걸린다"고 위로했다.

전체 질문과 답변 과정이 매우 매끄럽게 진행되어 마치 실제 사람들과 소통하는 듯한 느낌을 준다는 것을 알 수 있습니다.

네티즌들은 게임 콘솔의 일본어 버전도 파헤쳤지만 일본어를 할 수 없습니다.

이때 그는 ChatGPT에 게임 인터페이스를 보여주며 번역을 부탁했습니다. 마침내 Hu는 함께 게임을 완성했습니다.

시각적 + 음성 모드의 축복으로 ChatGPT가 훨씬 더 강력해졌다고 말씀드리고 싶습니다.

GPT-4o Long 출력은 최대 64K의 출력으로 조용히 온라인 상태입니다.

또한 더 큰 토큰 출력을 지원하는 GPT-4o가 뒤따를 것입니다.

바로 어제 OpenAI는 테스터에게 요청당 최대 64K 토큰의 출력을 지원하는 GPT-4o Alpha 버전을 제공할 것이라고 공식 발표했습니다. 이는 200페이지 분량의 소설에 해당합니다.

테스터는 "gpt-4o-64k-output-alpha"에서 GPT-4o의 긴 출력 기능에 액세스할 수 있습니다.

그러나 새 모델의 가격은 다시 한 번 새로운 상한선을 설정했습니다. 백만 입력 토큰당 6달러, 백만 출력 토큰당 18달러의 비용이 듭니다.

출력 토큰은 GPT-4o의 16배이지만 가격도 3달러 올랐습니다.


이렇게 비교해 보면 gpt-4o-mini가 실제로 더 저렴합니다!


연구원 Simon Willison은 긴 출력이 주로 데이터 변환 사용 사례에 사용된다고 말했습니다.

예를 들어 문서를 한 언어에서 다른 언어로 번역하거나 문서에서 구조화된 데이터를 추출하려면 거의 모든 입력 토큰을 출력 JSON에 사용해야 합니다.

이전에 그가 아는 ​​가장 긴 출력 모델은 16K 토큰인 GPT-4o mini였습니다.


출력이 더 긴 모델을 출시하는 이유는 무엇입니까?

분명히 출력이 길어지면 GPT-4o가 더 포괄적이고 상세한 응답을 제공할 수 있으며 이는 일부 시나리오에 매우 유용합니다.

예를 들어, 코드를 작성하고 글쓰기를 개선하는 것입니다.

이는 또한 사용 사례를 충족하려면 더 긴 출력 콘텐츠가 필요하다는 사용자 피드백을 기반으로 OpenAI에서 조정한 것입니다.

컨텍스트와 출력의 차이점

GPT-4o는 출시 이후 최대 128K의 컨텍스트 창을 제공했습니다. GPT-4o 긴 출력의 경우 최대 컨텍스트 창은 여전히 ​​128K입니다.

그렇다면 OpenAI는 어떻게 전체 컨텍스트 창을 128K로 유지하면서 출력 토큰 수를 4,000에서 64,000으로 늘립니까?

이는 OpenAI가 처음에 출력 토큰 수를 최대 4,000개 토큰으로 제한했기 때문입니다.

즉, 사용자는 한 번의 상호 작용에서 최대 124,000개의 토큰을 입력으로 사용할 수 있고 최대 4,000개의 출력 토큰만 얻을 수 있습니다.

물론 더 많은 토큰을 입력할 수도 있는데, 이는 더 적은 토큰이 출력된다는 의미입니다.

결국 긴 컨텍스트(128K)의 길이는 입력이 어떻게 변경되더라도 출력 토큰은 4000을 초과하지 않습니다.

이제 OpenAI는 출력 토큰 길이를 64,000개 토큰으로 제한합니다. 즉, 이전보다 16배 더 많은 토큰을 출력할 수 있습니다.

결국, 출력은 더욱 계산 집약적이며 가격 인상도 더 큽니다.

마찬가지로 최신 GPT-4o mini의 경우 컨텍스트도 128K이지만 최대 출력은 16,000개 토큰으로 늘어났습니다.

그런 다음 사용자는 최대 112,000개의 토큰을 입력으로 제공하고 궁극적으로 최대 16,000개의 토큰을 출력으로 얻을 수 있습니다.

일반적으로 OpenAI는 컨텍스트 길이를 직접 확장하는 대신 LLM에서 더 긴 응답을 얻기 위해 입력 토큰을 제한하는 솔루션을 제공합니다.


시중에 나와 있는 다른 모델의 경우 긴 모델이 100만 개를 넘었고(Gemini), 약간 더 짧은 모델은 200K(Claude)에 이르렀으며 일부 모델 출력은 200K에 이르렀으며 OpenAI는 여전히 존재합니다.

이는 또한 개발자에게 어려운 문제를 던집니다. 더 많은 것을 입력하려면 더 적은 출력을 받아들여야 하고, 더 많은 출력을 원하면 더 적은 양을 입력해야 합니다.

그것을 측정하는 방법은 당신이 어느 것을 희생할 의향이 있는지에 따라 다릅니다...

참고자료:

https://x.com/OpenAI/status/1818353580279316863

https://x.com/tsarnick/status/1818402307115241608

https://x.com/kimmonismus/status/1818409637030293641

https://www.reddit.com/r/singularity/comments/1eg51gz/chatgpt_advanced_audio_helping_me_pronouce/

https://venturebeat.com/ai/openai-launches-experimental-gpt-4o-long-output-model-with-16x-token-capacity/