OpenAI, 일부 ChatGPT Plus 사용자에게 고급 음성 모드 출시

2024-08-01

· 새로운 오디오 기능을 통해 사용자는 ChatGPT와 대화하고 즉시 실시간 응답을 받거나 ChatGPT가 말하는 동안 중단할 수 있습니다. 비디오 및 화면 공유와 같은 고급 기능은 나중에 도입될 예정입니다.

7월 31일, OpenAI는 일부 ChatGPT Plus 사용자에게 고급 음성 모드 출시를 발표했으며 가을에 모든 ChatGPT Plus 사용자에게 이를 공개할 계획입니다.

OpenAI는 차세대 인공지능 음성 비서 개발을 주도하고 있습니다. 새로운 오디오 기능을 사용하면 사용자는 ChatGPT와 대화하고 실시간 응답을 즉시 받을 수 있을 뿐만 아니라 말하는 동안 ChatGPT를 중단할 수 있습니다. 음성 패턴은 다양한 음성 억양으로 전달되는 정보를 구별합니다. 보다 자연스러우며 소리를 사용하여 다양한 감정을 전달합니다.

새로운 음성 모드는 음성, 텍스트 및 비전 기능을 결합한 OpenAI의 GPT-4o 모델을 기반으로 합니다. 피드백을 수집하기 위해 OpenAI는 처음에는 ChatGPT Plus의 "소규모 사용자 그룹"에 음성 프리미엄 기능을 출시했지만, OpenAI는 올 가을 모든 ChatGPT Plus 사용자가 이 기능을 사용할 수 있을 것이라고 밝혔습니다.

OpenAI는 출시 기준을 충족하는 데 시간이 걸릴 것이라고 말하면서 음성 통화 경험의 출시를 6월 말에서 7월로 연기했습니다. OpenAI는 45개 언어에 걸쳐 100개 이상의 외부 레드팀을 대상으로 GPT-4o의 음성 기능을 테스트했다고 밝혔습니다. 회사는 개인정보를 보호하고 모델이 딥페이크 음성을 생성하는 데 사용되는 것을 방지하는 등 여러 보안 메커니즘을 구축했다고 밝혔습니다. GPT-4o는 다른 사람의 음성을 모방하거나 생성하지 않는 4가지 사전 설정된 음성을 생성했습니다. .의 소리.

OpenAI가 GPT-4o를 처음 출시했을 때 여배우 스칼렛 요한슨의 목소리와 매우 흡사한 '스카이(Sky)'라는 음성을 사용했다는 이유로 반발에 직면했습니다. 스칼렛 요한슨은 모델이 자신의 목소리를 사용할 수 있도록 OpenAI로부터 연락을 받았지만 거절했다고 성명을 발표했습니다. OpenAI는 존슨의 목소리가 아니라고 부인했지만 Sky 사용을 중단했습니다.

OpenAI는 또한 음악이나 기타 저작권으로 보호되는 오디오 생성 요청을 식별하고 차단하는 필터를 채택했으며 텍스트 모델에서 사용되는 것과 동일한 보안 메커니즘을 GPT-4o에 적용하여 법률 위반 및 유해한 콘텐츠 생성을 방지했다고 밝혔습니다. "폭력적이거나 저작권이 있는 콘텐츠에 대한 요청을 차단하기 위한 가드레일을 마련했습니다. 또한 비디오 및 화면 공유와 같은 고급 기능은 나중에 출시될 예정입니다."

소식

OpenAI, 일부 ChatGPT Plus 사용자에게 고급 음성 모드 출시

소개

내 연락처 정보