ニュース

OpenAI は一部の有料ユーザーに GPT-4o 音声モードを開放し、より自然なリアルタイム会話を提供します

2024-07-31

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

IT Houseが7月31日に報じたところによると、OpenAIは現地時間30日、GPT-4o音声モード(IT House注:アルファ版)を今後一部のChatGPT Plusユーザーに開放し、段階的にすべてのChatGPTユーザーに広めていくと発表したという。この秋のプラス購読者。


今年5月、OpenAIの最高技術責任者ミラ・ムラティ氏は講演の中で次のように述べた。

GPT-4o では、テキスト、ビジョン、オーディオにわたって新しい統合モデルをエンドツーエンドでトレーニングしました。これは、すべての入力と出力が同じニューラル ネットワークによって処理されることを意味します。 GPT-4o はこれらすべてのモードを組み合わせた最初のモデルであるため、このモデルの機能とその制限を調査する初期段階にあります。

OpenAIは当初、今年6月末にChatGPT Plusユーザーの小グループを招待してGPT-4o音声モードをテストする予定だったが、関係者は6月に延期を発表し、以下のことが必要であると述べた。磨く時間が増えるモデル、モデルを改善する特定のコンテンツを検出して拒否する能力。

以前に公開された情報によると、GPT-3.5 モデルの平均音声フィードバック遅延は 2.8 秒であるのに対し、GPT-4 モデルの遅延は 5.4 秒であるため、音声通信があまり得意ではなく、今後の GPT- 4o は遅延を大幅に短縮できます。ほぼシームレスな会話

GPT-4o 音声モードには、迅速な対応声が本物の人間みたいに良いOpenAI には GPT-4o スピーチ モードとも呼ばれるその他の機能があり、悲しみ、興奮、歌など、スピーチ内の感情的な調子を感知できます。

OpenAIの広報担当者リンジー・マッカラム氏は次のように述べた。 他人の声を真似しないでください、個人や著名人の声、ブロックを含むデフォルトの音と違う出力。 」