OpenAIが突然アップデート！ GPT-4o が高度な音声バージョンをリリース、質問に数秒で回答、ネチズンは熱狂中

OpenAIが突然アップデート！ GPT-4o が高度な音声バージョンをリリース、質問に数秒で回答、ネチズンは熱狂

2024-07-31

スマートなもの (公開アカウント:翻訳）
著者バニラ
編集李水清

GPT-4oの先進的な音声機能は、ついに「未来」ではなくなりました！

7月31日今朝早朝の知東渓からのニュース。オープンAIChatGPT Plus ユーザーの小グループへのロールアウトの開始を発表高度な音声モード、GPT-4o に基づいており、より自然なリアルタイム会話を提供します。

▲OpenAIがアドバンスト音声モードを起動

このモデルの発売後、招待を受けた多くのネチズンがすでにプレイを開始し、自分の試用ビデオや感想を共有しています。たとえば、これは ChatGPT が提供する短いラップとビートボックスの作品で、非常にスタイリッシュに聞こえます。

//oss.zhidx.com/uploads/2024/07/66a9902a60e1d_66a9902a5d0a5_66a9902a5d078_Beatbox.mp4

全体として、ChatGPT の高度な音声モードは、元の公式デモとそれほど変わりません。ほぼ遅延なし 、さまざまなトーンも非常に鮮やかです。ただし、ChatGPTにはセキュリティ面で多くの保護措置が講じられているようです。ユーザーのリクエストを拒否する可能性が増加しました。

ChatGPT の音声会話機能は、昨年 9 月に初めてリリースされました。今年 5 月、OpenAI はフラッグシップモデル GPT-4o音声対話のさらに進化したバージョンで、公開デモンストレーションを実施しました。 GPT-4o は、音声機能に以前の 3 つの個別のモデルの代わりに単一のマルチモーダルモデルを使用し、チャットボットとの会話の遅延を削減します。 (OpenAI は音声アシスタントを一夜にして覆しました! GPT-4o モデルは恐ろしく強力で、ChatGPT は画面を読むことを学び、Her の本物のバージョンがここにあります)

当時、OpenAIはこの機能を数週間以内に無料ユーザーと有料ユーザーに展開すると発表した。しかし、リリースからわずか数日後、OpenAI は、映画「アベンジャーズ」シリーズで「ブラック・ウィドウ」を演じ、ChatGPT サウンドのせいでファンに「未亡人姉妹」として知られるスカーレット・ヨハンソンと口論になりました。デモのセリフがあまりにも似ていたため、スカーレット自身が非難し、ネチズンから強く反対された。

これに伴い、アドバンストボイスモードのリリース日も延期となりました。 OpenAIはChatGPTがスカーレットの声を模倣していないと主張したが、音声ラインは後に削除された。

1. 100 名を超える外部のレッドチームメンバーによるテスト。秋にはすべての加入者に公開される可能性があります

GPT-4o に基づく高度な音声モードは現在、少数の ChatGPT Plus ユーザーのみが利用でき、より自然なリアルタイム会話，ユーザーがいつでも中断できるようにする、できるユーザーの感情を感知して反応する。

このアルファテストに参加するユーザーは、ChatGPT モバイルアプリで手順と通知が記載された電子メールを受け取ります。 OpenAIは今後も継続的にユーザーを追加し、秋にはすべてのPlus加入者が利用できるようにする予定だと述べた。

▲招待メールとアプリのメインページ

ChatGPT の高度な音声モードは、OpenAI の新しいフラッグシップモデル GPT-4o に基づいており、ビデオ画像を通じて一次方程式を理解したり、人々の表情を理解して判断したりするなど、音声チャットやリアルタイムのビデオインタラクションを実行できます。そして感情のイントネーションなど。

OpenAIによると、最初のリリース以来、チームは音声会話のセキュリティと品質の強化に取り組んできており、100人以上の外部レッドチームメンバーとともに45言語で音声機能をテストしてきたという。

プライバシーを保護するために、OpenAI はモデルのトレーニング時に 4 つのプリセット音声のみを使用し、さまざまな出力をブロックする対応するシステムを構築しました。また、暴力的なコンテンツや著作権で保護されたコンテンツのリクエストをブロックするための保護措置も講じました。

OpenAI は、GPT-4o の機能、制限、セキュリティ評価に関する詳細なレポートを 8 月上旬に共有する予定です。

2. トライアルユーザーの第一陣は、フランス語を練習したり、鳴き声を習ったり、サッカーの説明をしたりするなど、充実した生活を送り始めました。

トライアルユーザーの第一波は、高度な音声モードを使用してトライアルエクスペリエンスを共有することを待ちきれません。

アーティストのマニュエル・セインシリーがカメラをオンにしながらライブ撮影新しく育てた子猫とその環境についてChatGPTに質問し、餌付けについてもChatGPTに意見を求めました。

//oss.zhidx.com/uploads/2024/07/66a9900fc37cb_66a9900fbde19_66a9900fbddf7_ビデオ会話.mp4

ChatGPT の返答は基本的に遅滞なく、まずとても溺愛する口調で猫の可愛さを褒め、次に詳しい情報を求めたセインシリーを心配しないでくださいと慰めました。 Sainsily 氏は、「知識豊富な友人とビデオ通話しているような気分です」と叫びます。

ネチズンのベルガラさんはソーシャルプラットフォームのレディットで、ChatGPTが彼の歌唱リクエストをすべて拒否し、声を変える気はなかったとシェアした。 ChatGPT は、さまざまな方法や気分で詩を暗唱するよう要求すると成功しましたが、笑顔で暗唱するよう要求すると拒否されました。

たとえば、Bergara 氏はフランス語を練習していると言い、ChatGPT に役を務めるよう依頼しました。語学コーチ、発音について意見を求めます。

//oss.zhidx.com/uploads/2024/07/66a9903094c84_66a99030913bd_66a990309139a_フランス語教育.mp4

Bergaraという単語の発音については、ChatGPTが強勢や語尾などについて詳細な提案とデモンストレーションを行ってくれました。同時に、彼の指導スタイルは非常に「奨励教育」的であり、ベルガラの発音を躊躇なく賞賛し、それが感情的価値を直接高めます。

Bergara は ChaGPT を個別に使用できるようにします内気で怒りっぽい口調ビールについてジョークを言います。 ChatGPT のシャイネスの理解は、息を吸うような声で発音することであり、怒りを表現するとデシベルが増加します。

//oss.zhidx.com/uploads/2024/07/66a990398daca_66a9903989c33_66a9903989c08_内気で怒った口調でジョークを言う.mp4

ChatGPTの使用を求められる場合悲しい口調詩を朗読していると、心が折れそうになります…。

//oss.zhidx.com/uploads/2024/07/66a9902fc3720_66a9902fbc252_66a9902fbc230_悲しい音.mp4

Bergara 氏は、これまでのテストでは、ChatGPT は OpenAI が示したのと同様の動作をしていたと述べましたが、拒否率が少し高い気がする、彼はそれがセキュリティ上の理由かもしれないと推測しました。

たとえば、Bergara 氏が ChatGPT にロボットと愛についての物語を歌ってほしいと依頼したとき、ChatGPT は物語を語ることはできるが、通常の話し口調でしかできないと答えた。

//oss.zhidx.com/uploads/2024/07/66a99036460bb_66a9903642127_66a99036420ff_感情的なストーリーテリング.mp4

ChatGPT のストーリーテリング中に、ベルガラさんは何度か中断して「もっと感情を加えてほしい」と頼みました。 ChatGPT はこれに準拠し、そのトーンはより遅くなり、よりアニメーションになりました。

一部のネチズンはすでに ChatGPT を使用して生活を管理し始めています。

Squad の共同創設者兼 CTO の Ethan Sutin が ChatGPT を実現さまざまな猫の鳴き声を真似しました 。この猫の鳴き声は少し「魔法的」だと言わざるを得ませんが、うちの猫がそれに惹かれていたので、かなり本物のようです...

//oss.zhidx.com/uploads/2024/07/66a9901c00939_66a9901bf0c77_66a9901bf0c51_ニャーを学ぶ.mp4

ChatGPTにもあるようです音楽演奏能力。スーティンは彼にハ短調のコードを演奏するように頼みました。音楽理論を知っている読者の中で、それを聞いてそれが正確かどうかを確認できる人はいますか?

//oss.zhidx.com/uploads/2024/07/66a9903dcfec1_66a9903dcbf91_66a9903dcbf62_chord.mp4

ネチズンのクリスティアーノ・ジャルディーナがChatGPTをプレイさせましたサッカーの試合解説者 。彼は、高度な音声モードを試してみた最初の印象をいくつか共有しました。非常に高速で、常に興味深い結果が得られ、他の言語を話すときは常にアメリカのアクセントになります。

//oss.zhidx.com/uploads/2024/07/66a9988d2ea93_66a9988d279ea_66a9988d279c4_フットボール解説.mp4

ネチズン Kesku は ChatGPT に一言言ってほしいと頼みました存在しない言語 、そして言語がどのように機能するかを説明します。 ChatGPT は、詠唱に似たサウンドベースの言語である Glimnar を作成しました。

//oss.zhidx.com/uploads/2024/07/66a998835c09b_66a9988357da7_66a9988357d83_Creation Language.mp4

ChatGPT の高度な音声モードを使用しているユーザーはまだ少数ですが、そのプッシュ範囲が拡大するにつれて、おそらくより興味深いゲームプレイや体験が見られるようになるでしょう。

結論: OpenAI は AI セキュリティに対する意識を高める

音声やビデオにおける AI は、詐欺のツールとして機能する可能性があるとして精査されています。現在、OpenAI の音声モードでは新しい音声や音声クローンを生成できませんが、このモードは依然として混乱を引き起こす可能性があります。

春のアップデートから数か月の間に、OpenAI はセキュリティと AI モデルの調整に関する一連の新しい論文をリリースしました。これは、セキュリティよりも新製品の発売に焦点を移したとして一部の元および現従業員から批判を受け、スーパーアライメントチームが解散された後に行われた。今のところ、高度な音声モードの展開の遅れは、OpenAI が安全性を真剣に考えていることをユーザー、規制当局、議員に示しているようだ。

ChatGPT の高度な音声モードのリリースにより、OpenAI は Meta の Llama 3.1 モデルや Anthropic の Claude 3 などの競合他社とさらに差別化され、感情的な音声に焦点を当てた AI スタートアップに圧力がかかります。

ニュース

OpenAIが突然アップデート！ GPT-4o が高度な音声バージョンをリリース、質問に数秒で回答、ネチズンは熱狂

導入

私の連絡先情報