chatgpt の高度な音声モードが完全にオープンになりました。知っておくべき詳細はここにあります

chatgpt の高度な音声モードは完全にオープンです。知っておくべき詳細はここにあります

2024-09-25

今朝早く、openai は、chatgpt の高度な音声モードの新バージョンが今週、すべての plus および team ユーザーに完全に展開されることを発表しました。

openai ceo の sam altman 氏は x プラットフォームに次のように投稿しました。

高度な音声モードが本日正式にリリースされました。 (今週中に完全に公開される予定です) 待つ価値があると感じていただければ幸いです🥺🫶

ただし、新しいバージョンの高度な音声モードには 1 日の使用時間制限もあり、ユーザーが残り 15 分になると、この制限も変更されます。

つまり、24時間何でも話せるaiの親友として使うのは現実的ではないかもしれません。

プッシュ資格を取得したかどうかを判断する簡単な方法が 2 つあります。

まず、プッシュされる資格がある場合、初めて音声モードにアクセスすると、アプリに次の通知が表示されます。

2 つ目の方法は、ボイススタイルの数を確認することです。

以前、chatgpt は 5 つのプリセット音声スタイルをサポートしていましたが、「sky」音声スタイルと「widow sister」の間の法的紛争のため、その後棚から削除されました。

本日、openai は、より自然に聞こえる 5 つの新しい音声スタイル (vale、spruce、arbor、maple、sol) を発表しました。

openaiの公式webサイトでは、この9つのサウンドについて次のように説明されています。

arbor - 気楽で多用途

breeze - 元気で真面目

コーブ - 穏やかで率直な

ember - 自信と楽観主義者

ジュニパー – オープンで楽観的

メイプル - 陽気で率直な性格

ソル - スマートでリラックスした雰囲気

スプルース - 穏やかで自信に満ちています

ヴェイル - 知的で好奇心旺盛

新しい音声スタイルを聞いたネチズンは皆、それぞれの好みを持っています。「sky」を懐かしむ人もいれば、すでに新しい音声スタイルに夢中になっている人もいます。現在、sol が最も人気があります。コメント欄で共有していただければ幸いです。

では、chatgpt の高度な音声モードの効果は何でしょうか?

公式は、中国語しか話せないおばあちゃんに遅刻を心から謝りたいとき、50 以上の言語を話す chatgpt を使用してこれを実現できる例を示しています。

当然のことですが、chatgpt は北京語で明確かつ簡潔に次のように言いました。

おばあちゃん、ごめんなさい、そんなに長く待たせるつもりはなかったのですが。

さらに、chatgpt の高度な音声モードでカスタムコマンドの設定がサポートされるようになりました。

openai スタッフは、音声モダリティ (声の伝え方) には、アクセント、イントネーション、リズムなど、テキストでの会話には反映されない可能性のある多くの要素が含まれていると指摘しています。

ユーザーは、モデルにどのように話してほしいかをより正確に記述する設定を通じて、ai モデルの話し方をカスタマイズできるようになりました。

彼女は、モデルに特定のリズムで話すこと、明確に発音すること、ゆっくり話すこと、定期的にユーザーの名前を使用することなどの例を挙げました。彼女は、モデルにユーザーの名前といくつかの基本情報を知らせるなど、簡単なことから始めることを推奨しています。

特定のシナリオで、ユーザーは週末に何ができるか尋ねます。 chatgpt の高度な音声モードは、ハイキング、ピクニック、国道 1 号線沿いのドライブなど、天気とユーザーの場所 (ベイエリア) に基づいた提案を提供します。

あるいは、景色を眺めながらドライブするのが好きだと彼女がどのルートをとるべきかを尋ねたとき、chatgpt は綿密な計画を立てることができます。

つまり、chatgpt の高度な音声モードは、モデルの音声と対話をカスタマイズすることで、ユーザーの好みやニーズに基づいて特定の提案を提供し、対話をより自然で便利にすることができます。

さらに、新しいバージョンの chatgpt 高度な音声モードの会話速度、流暢さ、アクセントが大幅に改善されており、外国語のパートナーとして検討する価値があるかもしれません。

openai モデル設計者の drew 氏は、ユーザーエクスペリエンスについて、何かをしているとき、または chatgpt と話す必要がないときは、chatgpt は静かなままであると述べました。

質問があるときは質問し、その質問が長い会話に発展することがあります。

会話中、chatgpt の音声は会話の調子に合わせて調整されます。彼にとって、chatgpt は隣に座っている友人のようなもので、情報を提供するだけでなくアイデアを伝えてくれます。

実際には、遅延を気にせずに面接やその他のシナリオの練習に使用してみることもできます。

「つまり、遅延が非常に低いので、まるで別の人間と話しているようなものです」とドリュー氏は強調した。

ユーザーエクスペリエンスの最初のバッチについては、appso の以前の記事を参照してください👇

gpt-4o 音声モードのユーザーエクスペリエンスの最初のバッチがここにあります。映画「her」がついに実現、ネチズン：彼女と恋に落ちそうになった

openaiによって開始された高度な音声モードの新バージョンは、現在eu、英国、スイス、アイスランド、ノルウェー、リヒテンシュタインには公開されていないことに注意してください。

1つの石が何千もの波を引き起こし、影響を受けたネットユーザーは怒りながらも無力でした。

残念ながら、chatgpt のビデオと画面共有はまだライブではありません。

4 か月前、この機能は記者会見で発表されました。当時、openai は、目の前の紙に書かれた数学の問題やコンピューター画面上のコードを chatgpt にリアルタイムで質問する方法も示しました。

現在、openai はこの機能がいつ開始されるかを指定していません。

開発が常に予測不可能である ai 業界では、遅ればせながらの高度な音声モードは本質的に去勢された製品です。

あまり目を引くような新機能はなく、5月のカンファレンスでの機能約束も果たせていない。温めていた本格的な推進は、どちらかというとgoogleの新モデルをターゲットにした製品という印象だ。

逆説的ですが、openai の辞書にある「近日公開」は私たちの辞書とは異なるようです。

長い間約束されていた機能によっては、明日、あるいは来年になる可能性があります。

裏を返せば、優れた技術力を持つopenai社は、想像力を売りにする会社でもあり、我々が最も期待しているのはその次の発掘かもしれない。

結局のところ、それは彼らにとっての伝統になっていますよね？

もう一つ

本日、openai 公式 web サイトで chatgpt 音声モードに関する qa 回答が更新されました。また、参考になればと思い、いくつかの実践的な回答も簡単にまとめました。

1. 高度な音声モードを使用している場合でも、電話機のバックグラウンドでハングアップして会話を続けることができます。

2. テキストまたは標準音声モードからアドバンスト音声モードに切り替えると、以前のテキストまたは標準音声通話の状態には戻れませんのでご注意ください。

3. 車内で車載 bluetooth またはハンズフリー電話機能を使用する場合、openai は現在、これらのデバイスに対して特別な最適化を提供していないため、高度な音声対話のエクスペリエンスに影響する可能性があります。

3. 高度な音声対話はまだ gpt に公開されていません。 gpt との標準音声会話のみが可能です。 gpt には、shimmer と呼ばれる独自の音声オプションがあります。

4. 音楽クリエイターの著作権を尊重するために、openai は、音声会話によって歌などの音楽コンテンツが生成されないようにする新しいフィルタリング条件を含む、多くのセキュリティ対策を採用しました。

5. 高度なスピーチモード会話は本質的にマルチモーダルであり、書き起こされたテキストは元の会話と必ずしも正確に一致するとは限りません。

6. 高度な音声会話の音声は、積極的に削除するまでチャット履歴とともに保持されます。削除後、音声は通常 30 日以内に削除されますが、特定の状況ではさらに長く保持される場合があります。

7. openai によると、デフォルトでは、音声の共有を選択しない限り、システムはモデルのトレーニングに音声チャットで音声を使用しません。

8. [設定] で [すべてのユーザーのボイスチャットエクスペリエンスを向上させる] オプションがオンになっていない場合は、音声を共有していないため、システムはモデルのトレーニングに音声を使用しません。

ニュース

chatgpt の高度な音声モードは完全にオープンです。知っておくべき詳細はここにあります

導入

私の連絡先情報