GPT-4o の先物へのスポット変更、何が妨げになっているのか OpenAI

GPT-4o の先物へのスポット変更、何が OpenAI を妨げているのでしょうか?

2024-07-17

RTC テクノロジーは、リアルタイム AI の普及の鍵の 1 つです。

著者 | レイ
編集| ジンユ

彼女は映画から現実へ移りつつあります。

今年5月、OpenAIは最新のAIマルチモーダル大型モデルGPT-4oをリリースした。以前の GPT-4 Turbo と比較して、GPT-4o は 2 倍の速度と半分のコストを実現し、リアルタイム AI 音声対話の平均遅延は 2.8 秒 (GPT-3.5) から 5.4 秒 (GPT) です。 .-4)、320 ミリ秒に達する場合もありますが、これは人間の日常会話の応答速度とほぼ同じです。

効率の向上だけでなく、会話における感情分析も今回の製品アップデートの特徴の1つとなった。ホストとの会話中、AIはホストが話したときの「緊張感」を聞き取って、深呼吸するよう的を絞った提案をします。

オープンAIは、大型モデルの時代におけるシリコンベースの「クリエイター」になりつつあります。

しかし、記者会見は衝撃的でしたが、その実態は非常に痩せていました。製品の発売後、この大型モデル技術革命の仕掛け人である OpenAI は、徐々に「未来」企業のようになりつつあります。

オールラウンドで低遅延の GPT-4o のリリース後、リアルタイムオーディオおよびビデオ機能のリリースは依然として遅れていますが、ビデオマルチモーダル製品 Sora もリリースされています。

しかし、これは OpenAI だけの問題ではありません。ChatGPT のリリース後、川を渡るフナと同じくらい多くの ChatGPT の国内バージョンが登場しましたが、現時点では GPT-4o に対して真のベンチマークを行う SenseTime 5.5 は 1 つだけです。進捗状況は同じです。月内はオープンベータ版のままです。

リアルタイムマルチモーダル大型モデルは、記者会見では世界を変える一歩手前にあるのに、実際に製品化に向かう過程では、常に「スポット」から「オプション」に変わってしまうのはなぜでしょうか。

新たな声が浮上しつつある。多峰性の世界では、おそらく（アルゴリズムによる）暴力には奇跡はないのではないか。

リアルタイム音声、ワンピース

必ず通過しなければならないのAI事業化ルート

テクノロジーの成熟により、新たなブルー・オーシャン産業が徐々に形を整えつつあります。

シリコンバレーの有名なベンチャーキャピタル機関である a16z のデータによると、世界中のユーザーを持つ AI アプリケーションの上位 50 件のうち、9 件がコンパニオン製品であることが示されています。 AI 製品リストのデータによると、今年 5 月の AI Companion への訪問数は 4 億 3,200 万件に達し、前年比 13.87% 増加しました。

高い需要、高い成長率、高い市場スペース、そして AI の連携により、ビジネスモデルと人間とコンピューターの相互作用に二重の変化がもたらされます。

ビジネスの成熟により、テクノロジーの継続的な進歩も逆行しています。今年の前半だけをノードとして考えると、リアルタイム AI 音声テクノロジーは、わずか 6 か月の間にすでに 3 回の反復を経ています。

テクノロジーの第一波の代表的な製品はPiです。

今年3月、新興企業のInflection AIは、個人ユーザー向けに感情的なチャットボットPiをアップデートした。

Pi の製品インターフェイスは非常にシンプルで、テキスト + ダイアログボックスが中核となるインタラクティブインターフェイスですが、音声読み上げや通話などの AI 音声機能も追加されています。

この種の音声対話を実現するために、Pi は、STT (音声認識、音声合成) - LLM (大規模モデル意味分析) - TTS (テキスト音声変換) という従来の 3 ステップの音声テクノロジーに依存しています。技術は成熟していますが、応答が遅く、トーンなどの重要な情報が理解できず、真のリアルタイムの音声対話を実現できないことが特徴です。

同時期のもう 1 つの注目製品は Call Annie です。 Pi と比較して、Call Annie は完全なビデオ通話エクスペリエンス設計を備えており、通話への応答と切断の設計に加えて、従属機能を最小化して他のアプリに切り替えることもでき、40 を超える会話役割設定をサポートしています。

ただし、それらはすべて、待ち時間が長く、感情的な色彩が欠如しているという共通の技術的問題を抱えています。遅延に関しては、業界で最も先進的な OpenAI であっても、2.8 秒 (GPT-3.5) から 5.4 秒 (GPT-4) の遅延が発生します。感情面では、対話中に声の高さ、音程、話すスピードなどの情報が失われ、笑いや歌などの高度な音声表現を出力できなくなります。

この後、新たなテクノロジーの波の代表となるのがEVIと呼ばれる製品です。

この製品はHume AIによって今年4月に発売され、シリーズB資金調達でHume AIに5,000万米ドル（約3億6,200万元）をもたらした。

製品設計の面では、Hume AI は基礎となるアルゴリズムにプレイグラウンド機能を導入しており、公式のデフォルトに加えて、Claude、GPT-4 Turbo なども選択できます。ただ、違うのは声に感情が乗るので、表情のリズムやイントネーションの変化もあります。

この機能の実現は主に、従来の STT-LLM-TTS の 3 段階プロセスに新しい SST (意味空間理論、意味空間理論) アルゴリズムを追加することに依存しています。 SST は、広範なデータ収集と高度な統計モデルを通じて人間の感情の全範囲を正確に描画し、人間の感情状態間の連続性を明らかにし、EVI に多くの擬人化機能を与えます。

感情的な進歩の代償として、時間の遅れがさらに犠牲になる、ユーザーが EVI と話すために待つ必要がある時間は、Pi や Call Annie と比べてさらに長くなります。

5 月中旬までに GPT-4o がリリースされ、マルチモーダル技術の統合がこの時期の技術的な方向性になりました。

過去の 3 ステップの音声インタラクション製品と比較して、GPT-4o はテキスト、ビジュアル、オーディオにわたってエンドツーエンドでトレーニングされた新しいモデルです。つまり、すべての入力と出力が同じニューラルネットワークによって処理されます。

遅延問題も大幅に改善されました。 OpenAI は、GPT-4o のリアルタイム音声インタラクションが最速 232 ミリ秒、平均 320 ミリ秒で音声入力に応答できることを正式に発表しました。感情面では、ユーザーと AI の間の対話はますますインテリジェントになり、発話速度の変化や感情的な理解が実現されています。

製品レベルでは、人間が AI に夢中になり、AI が視覚障害者の代わりに世界を見ることが可能になります。

最近音声通話機能を開始し、2024年のシリコンバレーで注目を集める新星であるCharacter.aiは、このテクノロジーの波の最大の受益者となった。

Character.ai では、ユーザーは超現実的なロールプレイでアニメキャラクター、テレビのタレント、歴史上の人物のレプリカとテキストメッセージを送信する機会があります。この斬新な設定により、製品ユーザーの数が急増しました。Similarweb のデータによると、Character.ai は 1 秒あたり 20,000 件の AI 推論リクエストを処理でき、5 月のアクセス数は 2 億 7,700 万件にも達しました。

Character.ai と perplexity.ai のトラフィック比較｜画像出典：Similarweb

同時に、MicrosoftやGoogleなどが、自社の大型モデルでリアルタイム音声通話機能を開始すると正式に発表した。

しかし、防水製品の設計は、実際の実装では常に三峡ダムの洪水放出の実装効果を示しています。第3波では、記者会見でのほぼ「彼女」スタイルのコンパニオン製品はすべて実際の実装で変更されました。発売の「計画」となり、間もなく発売され、内部テスト中です。

疑う余地のない結論は、リアルタイムのオーディオとビデオが人間とコンピューターの対話の究極の形式になる可能性があるということです。人工知能コンパニオンのシーンに加えて、ゲームのインテリジェントな NPC 、AI の音声教師、リアルタイム翻訳などのシーンが爆発的に増えることが予想されますが、その前に、「記者会見」から製品発売までのラストマイルをどのように解決するかが課題です。これは今日の業界で最も難しい問題です。

AIリアルタイム音声、

大きな力による奇跡は起こらない

人工知能リアルタイムの声「多大な努力をしても奇跡は起こらない」という悲観的な言葉がシリコンバレーで静かに広がっている。

抵抗はテクノロジー、規制、ビジネスのあらゆる側面から生じます。

技術的な反対派の精神的なリーダーは、「畳み込みネットワークの父」であるヤン・ルカン氏です。

過去のさまざまなAIアルゴリズムと比較して、ラージモデル技術の最大の特徴は「努力が奇跡を生む」ことだと同氏は語る。ビッグデータフィード、および数億のパラメーターと高性能を備えたコンピューティングクラスターのハードウェアサポートを通じて、アルゴリズムを使用してより複雑な問題を処理し、より高いスケーラビリティを実現できます。しかし、私たちは現在、大規模モデル、特にマルチモーダル大規模モデルが世界モデルである可能性があるという見解について過度に楽観的ですが、これはさらにナンセンスです。

たとえば、人間には世界の真の理解を形成する五感があり、LLM は大量のインターネットのテキストに基づいて訓練されていますが、物理的な世界との観察と対話が欠けており、十分な常識が欠けています。したがって、ビデオや音声を生成するプロセスでは、常に一見シームレスなコンテンツ、動きの軌跡、または音声の感情が存在しますが、現実感が欠けています。さらに、モデルのサイズとインタラクションの次元の増大に伴い、現在の大規模モデルにはそのような情報を処理するための十分な帯域幅が不足しているという厳しい物理的制限も問題となっています。

規制レベル、人工知能リアルタイム音声、つまりエンドツーエンドの音声大規模モデルは、テクノロジーと倫理の間のゲームに直面しています。

従来の AI 音声業界における STT-LLM-TTS の 3 段階のプロセスは、最初は未熟なテクノロジーによって引き起こされていましたが、エンドツーエンドの大規模音声モデルに進化するには、モデルアーキテクチャやトレーニング方法の点で追加の実装が必要でした。、そしてマルチモーダルなインタラクション。同時に、音声自体はテキストよりも監視が難しいため、AI 音声は電話詐欺、ポルノ、スパムマーケティングなどのシナリオで簡単に使用できます。レビューを容易にするために、中間のテキストリンクもある程度必要になりました。

そしてビジネスレベルでは, エンドツーエンドのオーディオおよびビデオの大規模モデルのトレーニングでは、トレーニング段階で大量の YouTube およびポッドキャストのデータが必要となり、そのコストは以前のテキストトレーニングモデルの数十倍からさらに高くなります。何百万ドルも。

この種のコストに関しては、現時点で通常の AI 企業にとっては、空からお金を降ろしても意味がありません。また、NVIDIA のハイエンド AI コンピューティングカード、ギガビットストレージ、無尽蔵のリスクのないオーディオとビデオの著作権にも支払わなければなりません。。

もちろん、楊立坤氏の技術的判断であれ、規制上の困難の可能性であれ、商業化に伴うコストのジレンマであれ、これらはオープン AI の中核問題ではありません。

GPT-4oクラスを本当にリアルタイムにする人工知能音声インタラクション製品がスポットから先物に変わった根本的な理由は、プロジェクトの実装レベルにあります。

ネットワークケーブルを接続したデモンストレーション用の GPT-4o、

有用な RTC アシストがまだ欠けている

業界の暗黙の秘密は、、GPT-4oクラス人工知能リアルタイム音声製品は、エンジニアリングレベルでは、戦いの半分にすぎません。

GPT-4o の発表時、低遅延が謳われていましたが、目の鋭いユーザーの中には、デモビデオ内の携帯電話がネットワークケーブルに接続されたままであることに気づきました。これは、GPT-4o によって公式に発表された平均レイテンシ 320 ミリ秒は、固定機器、固定ネットワーク、固定シナリオのデモである可能性が高く、理想的な条件下で達成できる実験室の指標であることを意味します。

OpenAI の GPT-4o 発表カンファレンスは、携帯電話が接続されていることを明確に示しています。画像ソース: OpenAI |

問題はどこだ？

AI リアルタイム音声通話を実現するために、技術レベルから分解すると、アルゴリズムレベルの 3 つのステップが 1 つに結合されます。これはコアリンクの 1 つであり、もう 1 つのコアリンクである RTC 通信レベルも一連の処理に直面します。技術的な課題の解決。いわゆる RTC は、リアルタイムネットワーク環境におけるオーディオとビデオの送信とインタラクションとして理解できます。これは、リアルタイム音声、リアルタイムビデオ、その他のインタラクションをサポートするテクノロジーです。

Agora のオーディオ技術責任者である Chen Ruofei 氏は Geek Park に対し、実際のアプリケーションシナリオでは、ユーザーは通常、常に固定機器、固定ネットワーク、固定物理環境にいるとは限らないと語った。日常のビデオ通話シナリオでは、一方のネットワークが貧弱な場合、音声の遅れや遅延が増加します。この状況は AI リアルタイム音声通話でも発生するため、RTC 送信には低遅延の送信と優れたネットワークの最適化が重要です。

また、マルチデバイス適応や音声信号処理などもAIリアルタイム音声の実装において無視できない技術的要素となります。

これらの問題を解決するにはどうすればよいでしょうか?

その答えは、OpenAI の最新の採用要件にあります。OpenAI は、最先端のモデルを RTC 環境に導入できるようエンジニアリング人材を採用したいと特に述べています。

具体的なソリューションの選択に関しては、GPT-4o で使用される RTC テクノロジは WebRTC ベースのオープンソースソリューションであり、技術レベルで特定の遅延を解決できるほか、さまざまなネットワーク環境、通信コンテンツのセキュリティ、およびクロスプラットフォームの互換性の問題。

ただし、オープンソースのB面には製品化の弱点があります。

簡単な例を挙げると、マルチデバイス適応の問題に関して、RTC の使用シナリオは主に携帯電話で代表されますが、携帯電話のモデルごとに通信および集音機能は大きく異なります。現在、Apple の携帯電話は安定した遅延を達成できます。ただし、比較的複雑な Android エコシステムには多くのモデルがあるだけでなく、一部のローエンドモデルのデバイスでは、その遅延も明らかです。収集レベルと通信レベルでは数百ミリ秒に達する可能性があります。

別の例として、AI リアルタイム音声アプリケーションシナリオでは、AI が人間をよりよく理解できるように、ノイズとエコーを除去してきれいで高品質な音声入力を確保するために、複雑な信号処理が必要になる場合があります。と言った言葉。

マルチデバイス互換性と高度なオーディオノイズリダクション機能も、オープンソース WebRTC に欠けているものです。

オープンソース製品の適用においては、業界での経験がボトルネックになります。したがって、オープンソースソリューションと比較して、大規模なモデルメーカーとプロの RTC ソリューションプロバイダーが協力してソリューションを磨き、最適化することで、将来の業界のトレンドをある程度よく表すことができます。

RTCの分野では、AgoraはClubhouseにオーディオ技術を提供していることで有名で、世界の汎エンターテインメントアプリの60％以上がAgoraのRTCサービスを選択しているとのこと。国内の有名企業に加えて、Xiaomi、Bilibili、Momo、Xiaohongshu などのアプリに加えて、中東および北アフリカ最大の音声ソーシャルおよびエンターテイメントプラットフォームである Yalla、「ソーシャルライブの王」である Kumu などもあります。東南アジアの放送プラットフォーム、HTC VIVE、The Meet Group、Bunch など、世界中の有名企業が Agora の RTC テクノロジーを採用しています。

業界経験の蓄積と世界中の顧客の磨き上げは、技術的リーダーシップのさらなる証拠です。 Chen Ruofei 氏によると、SoundNet が自社開発した SD-RTN™ リアルタイム伝送ネットワークは、世界中の 200 以上の国と地域をカバーしており、オーディオとビデオの世界的なエンドツーエンド遅延は平均 200 ミリ秒に達します。ネットワーク環境の変動に対応して、SoundNet のインテリジェントルーティングテクノロジーと脆弱ネットワーク対策アルゴリズムにより、通話の安定性と流暢さを確保できます。シェンワンは端末機器の違いを考慮し、世界中で数億のプリインストールアプリを蓄積し、複雑な環境に適応するノウハウを蓄積してきた。

技術的なリーダーシップに加えて、業界での経験も目に見えない障壁となります。

実際、これが RTC 業界のビジネス状況が長年にわたって比較的安定している理由です。RTC で良い仕事をするために、私たちは「大きな努力は奇跡を生む」という大規模なモデルに依存したことはありません。

音声遅延の究極の最適化とリアルタイム音声インタラクションの普遍的な商業化を達成する唯一の方法は、時間をかけて集中的に作業を蓄積することです。

そして、この観点から、人工知能リアルタイムの音声インタラクションは、想像力と難しさの点で過小評価すべきではありません。

その将来 - アルゴリズム、監査、RTC はあらゆるレベルに合格する必要があります。この長い道のりをやり遂げるには、技術の星空を見上げるだけでなく、工学の地に足をしっかりとつける必要があります。

※ヘッダー画像出典：Visual China

この記事は Geek Park によるオリジナル記事です。転載については WeChat geekparkGO の Geek Jun までご連絡ください。

オタクが尋ねた

どの AI コンパニオンアプリを使用したことがありますか?？

ザッカーバーグの成功の秘訣：映画に騙されてはいけない、そもそもその方法を誰も知らない。

いいねとフォローGeek Park ビデオアカウント，

ニュース

GPT-4o の先物へのスポット変更、何が OpenAI を妨げているのでしょうか?

導入

私の連絡先情報