openai、中国語を含む50の言語を話すことができる人間のようなchatgpt音声アシスタントを完全リリース

2024-09-25

この記事の著者: 李丹

出典: ハード ai

openai の最初の公開リリースから 4 か月後、chatgpt の人間のような高度な人工知能 (ai) 音声アシスタント機能が、ついに有料ユーザーに利用可能になりました。

東部時間 9 月 24 日火曜日、openai は、openai chatgpt plus および team プランの購読料を支払ったすべてのユーザーが、新しい chatgpt 高度な音声モード advanced voice を使用できるようになると発表しました。この機能は次回から段階的に展開されます。数日以内に米国市場のオンラインで最初に入手可能になります。来週、この機能は openai edu および enterprise プランの加入者に利用可能になります。

これは、今週、chatgpt の plus バージョンの個人ユーザーと teams バージョンの小規模ビジネスチームユーザーの両方が、プロンプト単語を手動で入力して gpt 会話を行うことなく、話すだけで新しい音声機能を有効にできることを意味します。アプリの高度な音声モードにアクセスすると、ユーザーはポップアップウィンドウを通じて高度な音声アシスタントに入ったことを知ることができ、アプリから通知を受け取ります。

openaiは、chatgptの新しい音声バージョンに2つの機能を与えました。1つは音声アシスタントの「カスタム命令」を保存する機能、もう1つはユーザーが音声アシスタントに実行してほしい動作を記憶する「メモリ」機能です。 openaiが今年4月にchatgptに提供したものに、テキスト版にメモリ機能が導入されました。ユーザーはこれらの機能を利用して音声パターンを確実にパーソナライズすることができ、ai アシスタントがすべての会話に対してユーザーの好みに基づいて応答できるようになります。

openaiは火曜日、arbor、maple、sol、spruce、valeという異なるスタイルの5つの新しい音声をリリースし、これに以前の古いバージョンの音声モードでリリースされていたbreeze、juniper、cove、emberの4つの音声と、オプションの音声を加えた9種類を実現した。 openai は、一部の外国語の会話速度、流暢さ、アクセントも向上させます。

openaiは、高度な音声アシスタントが50の言語で「ごめんなさい、遅れました」と言えることを紹介し、ソーシャルメディアの投稿にビデオを添付して、ユーザーが音声アシスタントにおばあちゃんに連絡するよう依頼できることを実証した。長い間お詫びします。動画では、aiアシスタントがまずユーザーが必要に応じて表現したいことを要約し、それを英語で話した後、ユーザーがaiおばあちゃんに北京語だけを話すように促した後、aiアシスタントが再度英語で話したことがわかります。標準中国語。

新しい音声機能は、openai の ai モデル gpt-4o で利用できますが、最近リリースされたプレビューモデル o1 では利用できません。

新しい音声機能のリリースが待ち遠しかったです。今年5月、openaiが新フラッグシップモデルgpt-4oの発売時に音声モードvoice modeのデモンストレーションを行ったと、wall street newsがかつて報じた。当時の gpt-4o でサポートされていた chatgpt 音声は、大人のアメリカ人女性のように聞こえ、リクエストに瞬時に応答できました。デモのopenaiリサーチディレクター、マーク・チェン氏が過度に息を吐き出すのを聞いたとき、同氏の緊張を察知したようで、「マーク、君は掃除機じゃないよ」とチェン氏にリラックスして呼吸するよう指示したという。

openaiは当初、6月末に少数のplusプランユーザー向けに音声モードをリリースする予定だったが、機能が数百万のユーザーからのリクエストを安全かつ効果的に処理できるようにするため、リリースを1か月延期すると6月に発表した。。当時、openaiは、この秋にすべてのplusユーザーがこの機能にアクセスできるようにする計画であり、正確なスケジュールはセキュリティと信頼性に関する高い内部基準を満たすかどうかに依存すると述べた。

7月末、openaiは限られた数の有料plusユーザー向けにchatgptを高度な音声モードで起動し、音声モードでは他人の話し方を模倣できないとし、ソフトウェアが生成された特定の音楽を確実に検出して拒否できるようにするための新しいフィルタを追加したと述べた著作権で保護された音声に関するリクエスト。ただし、新しい音声モードには、コンピュータービジョン機能など、5 月に openai によって実証された多くの機能が欠けています。この機能により、gpt はスマートフォンのカメラを使用するだけで、ユーザーのダンスの動きについて音声フィードバックを提供できるようになります。

ニュース

openai、中国語を含む50の言語を話すことができる人間のようなchatgpt音声アシスタントを完全リリース

導入

私の連絡先情報