소식

OpenAI는 일부 유료 사용자에게 GPT-4o 음성 모드를 개방하여 보다 자연스러운 실시간 대화를 제공합니다.

2024-07-31

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

IT하우스는 현지 시간 30일, 오픈AI가 앞으로 일부 ChatGPT 플러스 사용자에게 GPT-4o 음성 모드(IT하우스 노트: 알파 버전)를 공개하고, 점차적으로 모든 ChatGPT로 승격할 것이라고 밝혔다고 31일 보도했다. 올 가을 플러스 구독자입니다.


올해 5월 OpenAI 최고 기술 책임자인 Mira Murati는 연설에서 다음과 같이 언급했습니다.

GPT-4o에서 우리는 텍스트, 시각, 오디오 전반에 걸쳐 새로운 통합 모델을 학습시켰습니다. 즉, 모든 입력과 출력이 동일한 신경망에 의해 처리된다는 의미입니다. GPT-4o는 이러한 모든 모드를 결합한 최초의 모델이기 때문에 우리는 아직 이 모델의 기능과 한계를 탐색하는 초기 단계에 있습니다.

OpenAI는 당초 올해 6월 말 소수의 ChatGPT Plus 사용자를 초대해 GPT-4o 음성 모드를 테스트할 계획이었지만, 관계자는 6월에 필요하다고 밝히며 연기를 발표했습니다.연마하는 데 더 많은 시간모델, 모델을 개선하다특정 콘텐츠 감지 및 거부능력.

기존에 노출된 정보에 따르면, GPT-3.5 모델의 평균 음성 피드백 지연은 2.8초인 반면, GPT-4 모델의 지연은 5.4초로, 음성 통신에는 그다지 좋지 않으며, 곧 출시될 GPT- 4o는 지연을 크게 단축할 수 있습니다.거의 원활한 대화

GPT-4o 음성 모드에는빠른 응답목소리가 진짜 사람같네요그리고 OpenAI는 GPT-4o 음성 모드라고도 불리는 다른 기능을 통해 슬픔, 흥분, 노래 등 음성의 감정적 톤을 감지할 수 있습니다.

OpenAI 대변인 Lindsay McCallum은 다음과 같이 말했습니다. “ChatGPT 다른 사람의 목소리를 사칭하지 마세요개인과 공인, 블록의 목소리를 포함한기본 사운드와 다름 산출. "