OpenAI の「Her」を実現するのが難しいのは何ですか?

2024-07-27

メンチェンはアオフェイ寺院の出身です
パブリックアカウント QbitAI

2 か月と 2 週間が経過しましたが、OpenAI「Her」の一般公開バージョンはまだ表示されていません。

5 月 14 日、OpenAI は GPT-4o をリリースし、エンドツーエンドのリアルタイム音声およびビデオ会話モード、人間と同じくらいスムーズなAI対話のライブデモンストレーション。

呼吸のリズムを感知し、これまでよりも豊かな音色でリアルタイムに応答することができ、いつでもAIを中断することができ、その効果は驚くべきものです。

でも、みんなも楽しみにしているので、たまには延期するというニュースが出てきました。

OpenAI を妨げているものは何でしょうか?既知の情報によると:

持っている法的紛争, 声の音色が「未亡人姉妹」スカーレット・ヨハンソンのように再び物議を醸さないようにするためです。

もあります秘密の質問、適切に調整する必要があり、リアルタイムの音声とビデオの会話により、新たな使用シナリオが開かれ、詐欺ツールとして使用されることもその 1 つになります。

しかし、上記以外に、克服する必要のある技術的な問題や困難はありますか?

最初の興奮の後、専門家はドアを見始めました。

鋭い観察力を持つネチズンは気づいたかもしれないが、記者会見でのデモンストレーション中、携帯電話はネットワークケーブルで接続されていました。。

業界関係者の目には、GPT-4o カンファレンスのデモンストレーションは非常にスムーズでしたが、まだいくつかの制限があります。

必要「固定ネットワーク、固定機器、固定物理環境」。

実際に公開されても、グローバルユーザーが記者会見と比べて妥協のない体験を得ることができるかはまだ未知数だ。

記者会見にはもう一つ興味深い人物がいた。それはハンサムな研究者バレット・ゾフだ。ChatGPT はビデオ通話のデモンストレーション時にテーブルとして使用されました。

ビデオ通話部分の遅延は明らかです。質問の音声部分は処理されていますが、ビジュアル部分はまだ前のショットを処理中です。、これは、電話を手に取ったばかりのときにカメラが捉えた木製のテーブルです。

最終的にリリースされた後、何人の人がそれを使用するか想像してみてください。

プロモーションビデオで最も話題になったケースの1つは、目の見えない男性がAI音声の助けを借りてタクシーに手を振るというもので、すぐにネチズンの話題になりました。

ただし、これは、低遅延機能に大きく依存するシナリオ, AIの案内がもう少し遅くなるとタクシーが通り過ぎてしまいます。

空港や駅、観光地など、多くの人や機器が帯域を占有するシーンはもちろん、屋外でもネットワーク信号が安定しているとは限らないため、難易度は非常に高くなります。

また、屋外シーンでは騒音問題も発生する。

大型モデルは本質的に「錯覚」の問題を抱えており、ノイズがユーザーの音声の認識に影響を与えたり、指示に関係のない単語が表示されたりすると、答えが不明瞭になってしまいます。

最後に、見落とされがちな問題がもう 1 つあります。マルチデバイスへの適応。

現在行われているOpenAIカンファレンスやプロモーションビデオはすべて新しいiPhone Proを使用していることがわかります。

下位モデルでも同じ体験が得られるかどうかは正式リリースまで待つ必要がある。

OpenAI は、GPT-4o が次の分野で使用できることを宣伝しています。最短232ミリ秒、平均320ミリ秒人間が会話中に応答する速度と一致する時間内に音声入力に応答すること。

ただし、これは大規模モデルの入力から出力までの時間にすぎず、システム全体ではありません。

全体として、AI がうまく機能するだけでは、「Her」のようなスムーズなエクスペリエンスを生み出すことはまだ不可能です。また、低遅延、マルチデバイスへの適応、対応能力などの一連の能力も必要です。さまざまなネットワーク状況やノイズの多い環境。

AIだけでは「彼女」は作れない

低遅延、マルチデバイス適応などを実現するには、RTCC の(リアルタイム通信、リアルタイム通信) テクノロジー。

AI 時代以前、RTC テクノロジーはライブブロードキャスト、ビデオ会議、その他のシナリオで広く使用されており、その開発は比較的成熟していました。

RTC の観点から見ると、ユーザーの音声プロンプトの言葉は、大規模モデルに入力される前に、一連の複雑なプロセスを通過する必要があります。

信号の取得と前処理:携帯電話などのエンドサイドデバイスでは、ユーザーの音声が元の信号に収集され、その後の認識に備えてノイズリダクションやエコー除去などの処理が行われます。

音声のコーディングと圧縮:伝送帯域幅をできるだけ節約するには、音声信号をエンコードして圧縮する必要があります。同時に、ネットワークのパケット損失を防ぐために、実際のネットワーク条件に応じて、いくつかの冗長性とエラー訂正メカニズムを適応的に追加する必要があります。

ネットワーク送信:圧縮された音声データはデータパケットに分割され、インターネット経由でクラウドに送信されます。サーバーからの物理的な距離が長い場合、送信は複数のノードを通過する必要があり、各ホップで遅延やパケット損失が発生する可能性があります。

音声のデコードと復元:データパケットがサーバーに到着すると、システムはそれをデコードし、元の音声信号を復元します。

ついにAIが行動を起こす番が来た。最初に埋め込みモデルを通じて音声信号をトークンに変換することによってのみ、エンドツーエンドのマルチモーダル大規模モデルが応答を理解して生成できるようになります。

もちろん、大規模モデルが応答を生成した後、一連の逆のプロセスを経る必要があり、その後、最終的に応答の音声信号がユーザーに送信されます。

リアルタイムの AI オーディオおよびビデオ対話を真に実現するには、プロセス全体の各ステップで極端な最適化が必要です。

その中でも、大規模モデル自体の圧縮や量子化などの手法は、最終的には AI の能力に影響を与えるため、オーディオ信号処理やネットワークパケット損失などの要素と組み合わせた共同最適化が特に重要です。

OpenAIはこの問題を独自に解決したのではなく、サードパーティと協力することを選択したことが理解されています。

パートナーはオープンソース RTC ベンダー LiveKit、現在、ChatGPT 音声モードのサポートにより業界の注目を集めています。

OpenAI に加えて、LiveKit は Character.ai やイレブンラボなどの関連 AI 企業とも協力しています。

おそらく、比較的成熟した自社開発の RTC テクノロジーを持っている Google のような少数の巨大企業を除いて、業界に特化した RTC メーカーと協力することが、AI リアルタイムオーディオおよびビデオ対話プレーヤーの現在の主流の選択肢です。。

もちろん、この波には国内企業の参加も含まれており、すでに多くの国内 AI 企業がエンドツーエンドのマルチモーダル大規模モデルや AI リアルタイム音声およびビデオ対話アプリケーションの開発を強化しています。

国内のAIアプリケーションはOpenAIの成果に追いつくことができるのか、そして誰もがそれを実際に体験できるのはいつになるのでしょうか?

これらのプロジェクトは基本的に初期段階にあるため、多くの情報は公開されていませんが、RTC パートナーはサウンドネットワークそれは画期的な出来事となった。

QubitはSound Networkから問い合わせたところ、現在の国内の技術レベルであれば、1回の対話の遅延は1秒程度までに短縮できる。、さらなる最適化テクニックと組み合わせることで、タイムリーに応答できるスムーズな会話を実現することはもはや問題ではありません。

RTC をうまく行うには、AI は単なる「彼女」ではありません

サウンドネットとは何ですか?

RTC 業界を代表する企業であり、2020 年には初の世界的なリアルタイムインタラクティブクラウドサービスプロバイダーとなります。

SoundNet が初めて業界から撤退したのは、大ヒットしたオーディオソーシャルアプリケーションである Clubhouse に技術サポートを提供したためです。

実際、Bilibili、Xiaomi、Xiaohongshu などの多くの有名なアプリケーションが Agora の RTC ソリューションを採用しており、近年海外ビジネスも急速に発展しています。

では、AI リアルタイム音声およびビデオ対話アプリケーションでは、低遅延とマルチデバイス適応という困難を具体的にどのように解決し、どのような効果を達成できるのでしょうか?

私たちが招待しましたZhong Sheng 氏、Shengwang の主席科学者兼 CTOこの質問に答えるために。

Zhong Sheng 氏によると、大規模なモデルの推論は計算されません。信号がネットワーク回線上を行き来するのにかかる時間は、すでに 70 ～ 300 ミリ秒になる可能性があると言えます。。

具体的には主に3つの側面からの最適化に注力しています。

初め、Shengwang は世界中で 200 以上のデータセンターを構築しており、接続を確立する際には常にエンドユーザーに最も近い場所が選択されます。

インテリジェントルーティングテクノロジーと組み合わせることで、特定の回線が混雑した場合、システムは遅延と帯域幅がより優れた他の経路を自動的に選択し、通信品質を確保します。

リージョン間の送信が関与しない場合、エンドツーエンドは 100 ミリ秒未満になる可能性があります。中国から米国など、リージョンをまたぐ通信が含まれる場合は、200 ～ 300 ミリ秒かかる可能性が高くなります。

2番、 Shengwang は 2014 年に設立され、長年にわたって蓄積された膨大な実際の現場データに基づくデータマイニングを通じて、さまざまな脆弱なネットワークシナリオを分析し、実験室で再現しています。これにより、送信アルゴリズムを最適化するための「発射範囲」が提供され、複雑で変化しやすいネットワーク環境に対処できるようになります。また、リアルタイム送信中に対応する弱いネットワークモードが発生した場合に、送信戦略をタイムリーに調整して送信を行うこともできます。よりスムーズに。

三番目、垂直産業や特定のタスク向けに、Agora は大規模なモデルの応答時間を短縮するために、より小さいパラメータでモデルをカスタマイズすることも試みています。大規模な言語モデルと特定のサイズの音声モデルの優れた機能は、検討する価値のある方向性であり、会話型 AI またはチャットボットの費用対効果と低遅延エクスペリエンスを最適化するための鍵となります。

やっと、 Shengwang が開発した RTC SDK は、さまざまな端末デバイス、特に一部のローエンドモデル向けに適応および最適化されており、低消費電力、低メモリ使用量、非常に小さなパッケージサイズなどを実現できます。特に、AI アルゴリズムに基づく音声ノイズの低減、エコーキャンセル、ビデオ品質の向上といったデバイス側の機能は、AI チャットボットの範囲と効果に直接影響を与える可能性があります。

Zhongsheng氏はまた、RTCと大型モデル技術の組み合わせを模索する過程で、RTC技術自体の範囲も変化しつつあると紹介した。

彼は、オーディオ信号の送信から大規模なモデルで直接理解できるトークンの送信への変更、さらには音声からテキストへの変換 (STT) と感情認識を最後に実装して、テキストと関連情報を送信できます。

このようにして、より多くの信号処理プロセスをエンド側に配置でき、必要なコンピューティング能力が低いエンベディングモデルをユーザーの近くに配置できるため、プロセス全体の帯域幅要件とクラウドモデルのコストが削減されます。

Zhong Sheng 氏は、この時点から AI と RTC テクノロジーの最終的な組み合わせは、デバイスとクラウドの統合に向かうと考えています。

つまり、クラウド内の大規模なモデルに完全に依存することは、コスト、エネルギー消費、レイテンシーの点で最良の選択ではありません。

エンドクラウド統合の観点からは、インフラストラクチャ全体もそれに応じて変化する必要があり、そのコンピューティング能力はクラウド内にあるだけでなく、携帯電話のコンピューティング能力も使用されることになります。エッジの送信ノードも計算能力を分散し、それに応じてデータ送信プロトコルも変更されます...

現在、Agora と大規模なモデルアプリケーションメーカーは、次の方法を見つけ出しました。3つの協力モデルつまり、システム全体の 3 つの部分（大規模モデル、RTC、クラウドサーバー）の異なる供給方法です。

プライベート展開:Shengwang は、パートナー自身のデータセンターに大規模モデルとともに展開される RTC SDK のみを提供します。これは、自社開発の大規模モデルまたは大規模モデル推論インフラストラクチャを持つ企業に適しています。
Shengwang クラウドプラットフォーム: Shengwang は RTC SDK とクラウドサーバーリソースを提供し、開発者はニーズに応じてモデル、導入場所、コンピューティングリソースを柔軟に選択できます。独自のインフラストラクチャを構築する必要はなく、AI 音声アプリケーションをすぐに構築できます。
Agora のエンドツーエンドソリューション: Shengwang は、自社開発の大規模モデル、RTC SDK、クラウドサーバーリソースを提供します。垂直モデルは、教育、電子商取引、ソーシャルエンターテイメント、顧客サービスなどのセグメント化された業界に合わせてカスタマイズでき、RTC 機能と深く統合されて、統合された音声対話ソリューションを提供します。

さらに、既存の協力プロジェクトでは、最速のアプリケーションを全員に提供することもそう遠くありません。

Acoustic Network との通信では、注目に値する量子ビット発見のもう 1 つの新しいトレンドがあります。

国内の AI アプリケーションは、AI アシスタントの質疑応答や AI の感情的な交友関係の範囲を徐々に超えています。

ソーシャルエンターテイメント、電子商取引のライブストリーミング、オンライン教育などの業界を例に挙げると、誰もが最も注目しているのは、インターネットの有名人のアンカーや有名な教師です。 AI のリアルタイム音声およびビデオ対話によって駆動されるデジタルピープルは、その「デジタルクローン」となり、各ファンや生徒とさらに 1 対 1 で対話することができます。同時に、ユーザー自身の時間とエネルギーも限られており、複数のタスクを実行するスキルがなく、独自の AI クローンに対するニーズもあります。テクノロジーの発展、AI アバターテクノロジーの経験の向上、コストの削減に伴い、その適用範囲はますます拡大します。

「人間にとって最も不足しているものは時間である」という鍾生の言葉を取り上げましょう。

誰もがこのような経験があるはずです。2 つの会議が競合し、1 つしか出席できない場合はどうなるでしょうか。

自分自身でイベントに参加したり、AI アシスタントを別のイベントに派遣してエキサイティングな情報を持ち帰ったりすることもできます。将来的には、このアシスタントが自分自身の AI アバターになることもでき、アクティビティ中に、パーソナライズされたコミュニケーションを行ったり、自分の興味や懸念に基づいてさまざまな質問に答えたり、他の人や他の人のアバターと対話したりすることができます。

したがって、AI のリアルタイム音声およびビデオ対話は、単に「彼女」以上のことを行うことができます。

ニュース

OpenAI の「Her」を実現するのが難しいのは何ですか?

導入

私の連絡先情報