openai が音声 ai エンジンを開発者に公開

2024-10-02

外国の報道によると、whip bulls は 10 月 2 日、openai が chatgpt の高度な音声モードのサポートを提供する音声 ai エンジンを他の開発者に公開すると報告しました。

開発者は、ai が音声コマンドを理解し、ライブ電話のようなシナリオで音声会話を行うことができるテクノロジーにリアルタイムでアクセスできるようになります。

これまでのプロセスでは、開発者は少なくとも 3 つのステップを経る必要がありました。まず、音声を書き起こし、次に生成されたテキストモデルを実行してクエリに対する答えを導き出し、最後に別のテキスト読み上げモデルを使用します。

この動きは、会話型音声インターフェイスを提供する人工知能アプリケーションの波への道を切り開きます。

新しい音声読み上げ機能は、火曜日にサンフランシスコで開催された devday イベントで openai が行ったいくつかの発表のうちの 1 つです。

この機能の初期のテスターには、栄養およびフィットネスアプリの healthify や言語学習アプリの speak などがあります。

開発者が利用できるその他の新機能には、画像に基づいてモデルを微調整する機能などがあります。

openai幹部らは記者向けのデモで、twilioのapiと組み合わせた新しい音声機能の例を披露した。これにより、aiアシスタントが架空のキャンディーストアに電話して、チョコレートで覆われたイチゴを400個注文できるようになる。

このツールのカスタマイズデモの中には、イチゴなどの地元産品の検索を支援するために ai システムと対話する一例がありました。次に、ai は販売者にイチゴを注文するよう電話をかけ、ユーザーから注文数量と予想されるコストの指示を受けます。

openaiは、そのようなテクノロジーを使用する者は、それが人間ではなく人工知能であることを隠すことは許されず、開発者には新しいサウンドを作成するのではなく6つのプリセットしか提供しないと述べている。

開発者は、openai によって提供されるサウンドのみを使用できます (chatgpt と同じオプション)。

音声にはいかなる透かしも入れられておらず、開発者は自分自身をaiシステムに認識させる必要はないが、openaiは自社のシステムを利用してスパムを送信したり、人々を誤解させたりすることは同社の利用規約に違反すると主張している。

この発表は、現在進行中の大規模な資金調達キャンペーンや最高技術責任者のミラ・ムラティ氏と他の2人の幹部の先週の退職など、chatgptメーカーを取り巻くニュースが相次ぐ中で行われた。

ニュース