ChatGPT の高度な音声モードがオンラインに: 中国語を話すとすぐに、あなたの身元が公開されます

ChatGPT の高度な音声モードはオンラインです: 中国語を話すとすぐに、あなたの身元が明らかになります

2024-07-31

マシンハートレポート

編集者: エッグソース、Xiaozhou

OpenAI の「Her」がついに一部の人に公開されました。

今年5月、OpenAIは「春の新製品発表会」で新世代フラッグシップ世代モデルGPT-4oとデスクトップアプリを発表し、一連の新機能をデモンストレーションした。

今回、OpenAI は、ChatGPT の高度な音声モードを ChatGPT Plus ユーザーの小グループに公開し、ユーザーが GPT-4o の超リアルなオーディオ応答を初めて得られるようにすると発表しました。これらのユーザーは ChatGPT アプリでアラートを受信し、アプリの使用方法が記載された電子メールを受け取ります。

OpenAI は、「高度な音声モードを初めて実証して以来、音声会話のセキュリティと品質を向上させるために懸命に努力し、この最先端のテクノロジーを何百万人もの人々に提供する準備をしてきました。この機能は秋に段階的に利用可能になる予定です。」と述べています。すべての Plus ユーザーに紹介されます。

一部のユーザーは、高度な音声モードを使用した場合の効果をすでに投稿しています。

出典: https://x.com/tsarnick/status/1818402307115241608

ChatGPT を使用してジョークを言うと、ChatGPT は笑いを提供します。

出典: https://x.com/yoimnotkesku/status/1818406786077970663

ChatGPT の高度な音声モードを使用すると、「Her」はストーリーを語りながら BGM を作成でき、複数の言語で利用できます。

出典: https://x.com/yoimnotkesku/status/1818415019349901354

フランス語、スペイン語、ウルドゥー語も利用できます。

出典: https://x.com/yoimnotkesku/status/1818424494106853438

しかし、中国語の表現はあまり本物ではなく、中国語を勉強している「外国人」のようなものです。

出典: https://x.com/yoimnotkesku/status/1818446895083139170

聞いていた人は皆唖然としました。

アクセントの問題は中国語だけでなくドイツ語でも発生します。

出典: https://x.com/yoimnotkesku/status/1818445235606671670

最後に、早口言葉について話しましょう。

出典: https://x.com/yoimnotkesku/status/1818427991514337695

OpenAIは、高度な音声モードはChatGPTが現在提供しているものとは異なると述べている。

ChatGPT の古い音声モードソリューションでは、3 つの別々のモデルが使用されていました。1 つのモデルは音声をテキストに変換し、GPT-4 はプロンプト (プロンプト) の処理を担当し、3 番目のモデルは ChatGPT のテキストを音声に変換するのを担当しました。 GPT-4o はマルチモーダルであり、補助モデルの助けを借りずにこれらのタスクを処理できるため、対話の待ち時間が大幅に短縮されます。 OpenAIはまた、GPT-4oは悲しみや興奮などを含むユーザーの声の感情的なイントネーションを感知できるとも述べた。

今年の 5 月、OpenAI は GPT-4o の音声機能を初めて実証し、「彼女」の反応速度と本物の人の声との驚くべき類似性が聴衆に衝撃を与えました。そしてここに問題があります。

「スカイ」と名付けられた声は、映画「Her」で人工助手を演じるスカーレット・ヨハンソンに似ている。

OpenAIのデモの直後、ジョンソン氏は、OpenAIの最高経営責任者（CEO）サム・アルトマンから自分の声を使用するよう何度も求められ、それに抵抗し、GPT-4oのデモを見た後、自分の声を守るために弁護士を雇ったと述べた。 OpenAIはスカーレット・ヨハンソンの声の使用を否定したが、デモから音声を削除した。

OpenAIは6月、セキュリティ対策を強化するために高度な音声モードのリリースを延期すると発表した。

長い待ち時間を経て、ついに「彼女」がみんなと会えました。 OpenAIによると、今回開始される高度な音声モードは、有料声優と協力してJuniper、Breeze、Cove、Emberの4つのプリセット音声を制作したChatGPTに限定されるという。

出力サウンドがこれら 4 種類のみであることは注目に値します。5 月の OpenAI のデモンストレーションで示された Sky 音声は、ChatGPT では利用できなくなりました。 OpenAIの広報担当者リンジー・マッカラム氏は、「ChatGPTは個人や著名人の声を含む他人の声を偽装することはできず、これらのプリセット音声の1つと異なる出力はブロックされる」と述べた。

この設定の本来の目的は、ディープフェイクの論争を避けることです。今年1月には、人工知能スタートアップ企業イレブンラボズの音声クローン技術を利用して、バイデン米大統領になりすましてニューハンプシャー州の予備選挙有権者を欺き、大きな物議を醸した。

OpenAIはまた、音楽やその他の著作権で保護されたオーディオを生成する特定のリクエストをブロックする新しいフィルターを導入したとも述べた。

昨年、多くの画像生成および音楽生成AI企業が著作権侵害で法的紛争に陥り、特に訴訟を好むレコード会社が人工知能オーディオジェネレーターのSunoとUdioを訴えた。また、GPT-4o のようなオーディオモデルは、苦情を申し立てることができるまったく新しいカテゴリの企業を追加します。

OpenAIは、100人以上の外部「レッドチーム」メンバーを対象に45の言語でGPT-4oの音声機能をテストしたと言われている。この重要な情報は、8 月に GPT-4o の機能、制限、セキュリティ評価に関するレポートで詳細に発表される予定です。

https://twitter.com/OpenAI/status/1818353580279316863

https://www.theverge.com/2024/7/30/24209650/openai-chatgpt-advanced-voice-mode

https://www.reuters.com/technology/openai-starts-roll-out-advanced-voice-mode-some-chatgpt-plus-users-2024-07-30/

https://www.bloomberg.com/news/articles/2024-07-30/openai-begins-rolling-out-voice-assistant-after-safety-popular-delay?srnd=phx-technology

https://techcrunch.com/2024/07/30/openai-releases-chatgpts-super-realistic-voice-feature/

https://www.theinformation.com/briefings/after-lay-openai-releases-ai-voice-assistant

ニュース

ChatGPT の高度な音声モードはオンラインです: 中国語を話すとすぐに、あなたの身元が明らかになります

導入

私の連絡先情報