GPT-4o 버전 "Her"가 드디어 출시되었습니다! 고양이처럼 농담도 하고 야옹거리기도 하는 AI 여자친구는 얼마나 섹시할까?

2024-07-31

새로운 지혜 보고서

편집자: 도자는 너무 졸려요

[새 지혜 소개] GPT-4o 음성 기능이 드디어 예상대로 도착하고 SF 버전의 그녀가 현실로 등장합니다! Grayscale을 테스트한 일부 네티즌들은 미쳤습니다. 그러나 OpenAI는 현재 4개의 사전 설정된 음성만 제공합니다. 또한 신형 GPT-4o 모델의 출력 토큰도 64K로 16배 급증했다.

울트라맨의 약속이 드디어 이루어졌습니다.

7월 말 이전에 GPT-4o 음성 모드가 마침내 그레이스케일 테스트를 시작했으며 소수의 ChatGPT Plus 사용자가 이미 얼리 어답터 티켓을 획득했습니다.

ChatGPT 앱을 연 후 다음 인터페이스가 표시되면 첫 번째 행운의 사람이 된 것을 축하합니다.

OpenAI는 고급 음성 모드가 마음대로 중단할 수 있는 보다 자연스러운 실시간 대화를 제공하고 감정을 감지하고 반응할 수도 있다고 주장합니다.

올 가을 모든 ChatGPT Plus 사용자가 이 기능을 사용할 수 있을 것으로 예상됩니다.

또한, 향후 더욱 강력한 영상 및 화면 공유 기능도 출시될 예정입니다. 즉, 카메라를 켜면 ChatGPT와 "대면" 채팅을 할 수 있습니다.

그레이스케일의 영향을 받은 일부 네티즌들은 잇달아 테스트를 시작했고, GPT-4o 음성 모드의 활용 사례를 많이 발견했다.

아니요, 어떤 사람들은 말하기 연습 방법을 스스로 가르치기 위해 "제2외국어 코치" 역할을 하게 합니다.

다음 강의에서는 ChatGPT를 통해 네티즌들이 크루아상(크로아상)과 바게트(프랑스식 바게트)의 발음을 교정할 수 있도록 도왔습니다.

동시에 GPT-4o의 출력 토큰은 초기 4,000개 토큰에서 64,000개 토큰으로 16배 급증했습니다.

이것은 OpenAI가 최근 공식 웹사이트에서 조용히 출시한 새로운 베타 모델 gpt-4o-64k-output-alpha입니다.

출력 토큰이 길다는 것은 약 4개의 완전한 장편 영화 대본을 한 번에 얻을 수 있다는 것을 의미합니다.

그녀가 왔다

GPT-4o 음성 기능이 출시된 이유는 OpenAI가 지난 몇 달 동안 이에 대한 보안 및 품질 테스트를 진행했기 때문입니다.

그들은 100명 이상의 레드팀 구성원과 함께 45개 언어로 GPT-4o의 음성 기능을 테스트했습니다.

사람들의 개인 정보를 보호하기 위해 팀은 4개의 "기본 음성"만을 사용하여 말하도록 모델을 훈련시켰습니다.

또한 이 네 가지 이외의 소리 출력을 차단하는 시스템도 만들었습니다.

또한 콘텐츠 필터링도 필수로, 폭력적이고 저작권 관련 콘텐츠가 생성되는 것을 방지하기 위한 조치도 강구했습니다.

OpenAI는 8월 초 GPT-4o의 기능, 제한 사항 및 보안 평가에 대한 자세한 보고서를 발표할 계획이라고 발표했습니다.

전체 네트워크에 대한 실제 측정

다음은 네티즌들이 공유한 GPT-4o 음성 모드의 일부 사례이다.

ChatGPT는 비트박싱을 수행할 수 있습니다.

ChatGPT는 또한 수줍어하고, 화가 났고, 더 화난 어조로 맥주 농담을 했습니다.

일부 네티즌들은 특히 ChatGPT를 두고 "과학자들이 아담-원자(Adam-Atoms)가 모든 것을 구성하고 있기 때문에 왜 믿지 않는 걸까요?"라는 농담을 했습니다.

ChatGPT는 어색하게 웃었다.

더욱 재미있는 점은 ChatGPT가 여전히 야옹을 학습하는 방법을 가지고 있다는 것입니다.

몇 가지 테스트를 거친 후 누군가 ChatGPT 고급 음성 모드가 매우 빠르고 응답에 지연이 거의 없다는 사실을 발견했습니다.

어떤 소리를 흉내내라고 하면 항상 그 소리를 사실적으로 재현해 줍니다. 그리고 다양한 악센트도 모방할 수 있습니다.

아래 영상은 AI가 축구 경기 해설자 역할을 하는 장면을 보여준다.

ChatGPT는 중국어로 이야기를 들려주는데, 그 내용도 매우 생생합니다.

OpenAI는 영상 및 화면 공유 기능이 추후 출시될 것이라고 주장하고 있지만 일부 네티즌들은 이미 이를 먼저 사용해 본 바 있다.

한 네티즌은 새로운 애완 고양이를 키웠는데, 고양이를 위해 둥지를 짓고 먹이를 준비했지만 어떻게 해야 할지 몰라 ChatGPT에 문의했습니다.

영상 속 대화 중 네티즌은 고양이 집을 보여주었고 이를 본 ChatGPT는 “정말 편하겠다”며 고양이가 잘 지내는지 걱정했다.

네티즌들은 아직 밥도 안 먹어서 좀 불안해 보인다고 하더군요. ChatGPT는 "이건 정상이다. 고양이가 적응하는 데 시간이 걸린다"고 위로했다.

전체 질문과 답변 과정이 매우 매끄럽게 진행되어 마치 실제 사람들과 소통하는 듯한 느낌을 준다는 것을 알 수 있습니다.

네티즌들은 게임 콘솔의 일본어 버전도 파헤쳤지만 일본어를 할 수 없습니다.

이때 그는 ChatGPT에 게임 인터페이스를 보여주며 번역을 부탁했습니다. 마침내 Hu는 함께 게임을 완성했습니다.

시각적 + 음성 모드의 축복으로 ChatGPT가 훨씬 더 강력해졌다고 말씀드리고 싶습니다.

GPT-4o Long 출력은 최대 64K의 출력으로 조용히 온라인 상태입니다.

또한 더 큰 토큰 출력을 지원하는 GPT-4o가 뒤따를 것입니다.

바로 어제 OpenAI는 테스터에게 요청당 최대 64K 토큰의 출력을 지원하는 GPT-4o Alpha 버전을 제공할 것이라고 공식 발표했습니다. 이는 200페이지 분량의 소설에 해당합니다.

그러나 새 모델의 가격은 다시 한 번 새로운 상한선을 설정했습니다. 백만 입력 토큰당 6달러, 백만 출력 토큰당 18달러의 비용이 듭니다.

출력 토큰은 GPT-4o의 16배이지만 가격도 3달러 올랐습니다.

이렇게 비교해 보면 gpt-4o-mini가 실제로 더 저렴합니다!

연구원 Simon Willison은 긴 출력이 주로 데이터 변환 사용 사례에 사용된다고 말했습니다.

예를 들어 문서를 한 언어에서 다른 언어로 번역하거나 문서에서 구조화된 데이터를 추출하려면 거의 모든 입력 토큰을 출력 JSON에 사용해야 합니다.

이전에 그가 아는 가장 긴 출력 모델은 16K 토큰인 GPT-4o mini였습니다.

출력이 더 긴 모델을 출시하는 이유는 무엇입니까?

분명히 출력이 길어지면 GPT-4o가 더 포괄적이고 상세한 응답을 제공할 수 있으며 이는 일부 시나리오에 매우 유용합니다.

예를 들어, 코드를 작성하고 글쓰기를 개선하는 것입니다.

이는 또한 사용 사례를 충족하려면 더 긴 출력 콘텐츠가 필요하다는 사용자 피드백을 기반으로 OpenAI에서 조정한 것입니다.

컨텍스트와 출력의 차이점

GPT-4o는 출시 이후 최대 128K의 컨텍스트 창을 제공했습니다. GPT-4o 긴 출력의 경우 최대 컨텍스트 창은 여전히 128K입니다.

그렇다면 OpenAI는 어떻게 전체 컨텍스트 창을 128K로 유지하면서 출력 토큰 수를 4,000에서 64,000으로 늘립니까?

이는 OpenAI가 처음에 출력 토큰 수를 최대 4,000개 토큰으로 제한했기 때문입니다.

이는 사용자가 한 번의 상호 작용에서 최대 124,000개의 토큰을 입력으로 사용할 수 있고 최대 4,000개의 출력 토큰만 얻을 수 있음을 의미합니다.

물론 더 많은 토큰을 입력할 수도 있는데, 이는 더 적은 토큰이 출력된다는 의미입니다.

결국 긴 컨텍스트(128K)의 길이는 입력이 어떻게 변경되더라도 출력 토큰은 4000을 초과하지 않습니다.

이제 OpenAI는 출력 토큰 길이를 64,000개 토큰으로 제한합니다. 즉, 이전보다 16배 더 많은 토큰을 출력할 수 있습니다.

결국, 출력은 더욱 계산 집약적이며 가격 인상도 더 큽니다.

마찬가지로 최신 GPT-4o mini의 경우 컨텍스트도 128K이지만 최대 출력은 16,000개 토큰으로 늘어났습니다.

그런 다음 사용자는 최대 112,000개의 토큰을 입력으로 제공하고 궁극적으로 최대 16,000개의 토큰을 출력으로 얻을 수 있습니다.

일반적으로 OpenAI는 컨텍스트 길이를 직접 확장하는 대신 LLM에서 더 긴 응답을 얻기 위해 입력 토큰을 제한하는 솔루션을 제공합니다.

시중에 나와 있는 다른 모델의 경우 긴 모델이 100만 개를 넘었고(Gemini), 약간 더 짧은 모델은 200K(Claude)에 이르렀으며 일부 모델 출력은 200K에 이르렀으며 OpenAI는 여전히 존재합니다.

이는 또한 개발자에게 어려운 문제를 던집니다. 더 많은 것을 입력하려면 더 적은 출력을 받아들여야 하고, 더 많은 출력을 원하면 더 적은 양을 입력해야 합니다.

그것을 측정하는 방법은 당신이 어느 것을 희생할 의향이 있는지에 따라 다릅니다...

참고자료:

https://x.com/OpenAI/status/1818353580279316863

https://x.com/tsarnick/status/1818402307115241608

https://x.com/kimmonismus/status/1818409637030293641

https://www.reddit.com/r/singularity/comments/1eg51gz/chatgpt_advanced_audio_helping_me_pronouce/

https://venturebeat.com/ai/openai-launches-experimental-gpt-4o-long-output-model-with-16x-token-capacity/

소식