소식

ChatGPT 고급 음성 모드가 마침내 온라인 상태가 되었습니다. 중국어를 말하자마자 "Wai Guoren"이라는 신분이 노출됩니다.

2024-07-31

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

기계 심장 보고서

편집자: 계란 소스, Xiaozhou

OpenAI의 'Her'가 드디어 일부 사람들에게 공개되었습니다.

올해 5월 OpenAI는 '봄 신제품 출시'에서 차세대 플래그십 세대 모델 GPT-4o와 데스크톱 앱을 출시하고 일련의 새로운 기능을 시연했습니다.

이제 OpenAI는 소규모 ChatGPT Plus 사용자 그룹에게 ChatGPT의 고급 음성 모드를 공개하여 사용자가 처음으로 GPT-4o의 매우 사실적인 오디오 응답을 얻을 수 있다고 발표했습니다. 이러한 사용자는 ChatGPT 앱에서 알림을 받고 앱 사용 방법에 대한 지침이 포함된 이메일을 받게 됩니다.

"고급 음성 모드를 처음 시연한 이후 우리는 음성 대화의 보안과 품질을 향상하고 이 최첨단 기술을 수백만 명의 사람들에게 제공하기 위해 열심히 노력해 왔습니다." 2024년 가을. 모든 Plus 사용자에게 소개됩니다.

일부 사용자는 이미 고급 음성 모드 사용의 효과를 게시했습니다.

출처: https://x.com/tsarnick/status/1818402307115241608

ChatGPT로 농담을 하면 ChatGPT에서 웃음을 선사할 수 있습니다.

출처: https://x.com/yoimnotkesku/status/1818406786077970663

ChatGPT의 고급 음성 모드를 사용하면 "Her"는 이야기를 하면서 배경 음악을 만들 수 있으며 여러 언어로 제공됩니다.

출처: https://x.com/yoimnotkesku/status/1818415019349901354

프랑스어, 스페인어, 우르두어도 사용할 수 있습니다.

출처: https://x.com/yoimnotkesku/status/1818424494106853438

그러나 중국어 표현은 중국어를 배우는 "비뚤어진 견과류"처럼 그다지 정통하지 않습니다.

출처: https://x.com/yoimnotkesku/status/1818446895083139170

듣는 사람은 모두 깜짝 놀랐습니다.

악센트 문제는 중국어뿐만 아니라 독일어에서도 발생합니다.

출처: https://x.com/yoimnotkesku/status/1818445235606671670

마지막으로 텅 트위스터에 대해 이야기해 보겠습니다.

출처: https://x.com/yoimnotkesku/status/1818427991514337695

OpenAI는 고급 음성 모드가 ChatGPT가 현재 제공하는 것과 다르다고 말합니다.

ChatGPT의 이전 음성 모드 솔루션은 세 가지 개별 모델을 사용했습니다. 하나는 음성을 텍스트로 변환하는 모델이고, GPT-4는 프롬프트(프롬프트) 처리를 담당했으며, 세 번째 모델은 ChatGPT의 텍스트를 음성으로 변환하는 역할을 했습니다. GPT-4o는 다중 모드이며 보조 모델의 도움 없이 이러한 작업을 처리할 수 있으므로 대화 지연 시간이 크게 줄어듭니다. OpenAI는 또한 GPT-4o가 슬픔, 설렘 등 사용자 목소리의 감정적 억양을 감지할 수 있다고 밝혔습니다.

올해 5월 OpenAI는 처음으로 GPT-4o의 음성 기능을 선보였으며 "Her"의 반응 속도와 실제 사람의 목소리와의 놀라운 유사성은 청중을 놀라게 했습니다. 여기에 문제가 있습니다.

'스카이'라는 목소리는 영화 'Her'에서 인공 비서 역을 맡은 스칼렛 요한슨과 닮았다.

OpenAI 데모 직후 Johnson은 자신의 목소리를 사용하라는 OpenAI CEO Sam Altman의 여러 요청을 거부했으며 GPT-4o 데모를 본 후 자신의 목소리를 변호하기 위해 법률 고문을 고용했다고 말했습니다. OpenAI는 스칼렛 요한슨의 음성 사용을 거부했지만 데모에서 음성도 삭제했습니다.

지난 6월 OpenAI는 보안 조치를 개선하기 위해 고급 음성 모드 출시를 연기할 것이라고 밝혔습니다.

오랜 기다림 끝에 드디어 '그녀'가 모두를 만났습니다. 오픈AI는 이번에 출시된 고급 음성 모드는 유료 성우들과 협업해 주니퍼(Juniper), 브리즈(Breeze), 코브(Cove), 엠버(Ember) 등 4가지 사전 설정 음성을 제작한 ChatGPT에만 국한된다고 밝혔다.

이 네 가지 유형의 출력 사운드만 있다는 점은 주목할 가치가 있습니다. 5월 OpenAI 시연에 표시된 Sky 음성은 더 이상 ChatGPT에서 사용할 수 없습니다. OpenAI 대변인 Lindsay McCallum은 "ChatGPT는 개인이나 공인을 포함하여 다른 사람의 목소리를 가장할 수 없으며 미리 설정된 목소리 중 하나와 다른 출력을 차단합니다."라고 말했습니다.

이 설정의 원래 의도는 Deepfake 논란을 피하는 것입니다. 올해 1월에는 인공지능 스타트업 일레븐랩스(ElevenLabs)의 음성복제 기술을 사용해 뉴햄프셔주에서 바이든 미국 대통령을 사칭해 경선 유권자를 속이는 사건이 발생해 적지 않은 논란을 불러일으켰다.

OpenAI는 또한 음악이나 기타 저작권으로 보호되는 오디오를 생성하려는 특정 요청을 차단하는 새로운 필터를 도입했다고 밝혔습니다.

지난해에는 많은 이미지 생성 및 음악 생성 AI 기업이 저작권 침해로 법적 분쟁에 빠졌습니다. 특히 소송을 좋아하는 음반 회사는 인공 지능 오디오 생성기 Suno와 Udio를 고소했습니다. 그리고 GPT-4o와 같은 오디오 모델에는 불만을 제기할 수 있는 완전히 새로운 범주의 회사가 추가되었습니다.

OpenAI는 45개 언어로 100명 이상의 외부 '레드팀' 구성원을 대상으로 GPT-4o의 음성 기능을 테스트했다고 합니다. 이 핵심 정보는 8월 GPT-4o의 기능, 제한 사항 및 보안 평가에 대한 보고서에서 더 자세히 발표될 예정입니다.

참조 링크:

https://twitter.com/OpenAI/status/1818353580279316863

https://www.theverge.com/2024/7/30/24209650/openai-chatgpt-advanced-voice-mode

https://www.reuters.com/technology/openai-starts-roll-out-advanced-voice-mode-some-chatgpt-plus-users-2024-07-30/

https://www.bloomberg.com/news/articles/2024-07-30/openai-begins-rolling-out-voice-assistant-after-safety-관련-delay?srnd=phx-technology

https://techcrunch.com/2024/07/30/openai-releases-chatgpts-super-realistic-voice-feature/

https://www.theinformation.com/briefings/after-delay-openai-releases-ai-voice-assistant