ニュース

Her の ChatGPT バージョンだけに注目するのではなく、マルチモーダル AI 擬人化インタラクションにも興味を持っています。

2024-07-31

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

マシーンハートオリジナル

著者: 杜偉

人間の感情を識別する点で、AI は今日どの程度進歩していますか?今月初め、より感情豊かな AI に挑戦する注目のコンテストが終了しました。

これは第 2 回マルチモーダル感情認識チャレンジ (MER24)清華大学のTao Jianhua教授、中国科学院オートメーション研究所のLian Zheng氏、インペリアルカレッジのBjörn W. Schuller氏、オウル大学のZhao Guoying氏、南洋理工大学のErik Cambra氏の共同後援により実施されました。トップ AI カンファレンス IJCAI2024 では、テキストの使用方法を探り、オーディオやビデオなどのマルチモーダル データを使用して AI 感情認識を実行し、実際の人間とコンピューターの対話シナリオで関連テクノロジーの応用を促進します。



コンテスト公式ウェブサイト:https://zeroqiaova.github.io/MER2024-website/#organization

このチャレンジには、Semi (半教師あり学習トラック)、Noise (ノイズ耐性トラック)、Ov (オープンボキャブラリー感情認識トラック) の合計 3 つのトラックがあります。セミトラックは参加チーム数が最も多く、最も難しく、最も激しい競争が繰り広げられます。

セミトラックを例にとると、参加チームは少量のラベル付きデータと大量のラベルなしデータのビデオデータを使用して独自のモデルをトレーニングし、ラベルなしデータセットでのモデルのパフォーマンスと汎化能力を評価する必要があります。このトラックで勝つための鍵は、感情カテゴリの予測精度などの半教師あり学習テクノロジーを改善することにより、モデルの感情認識パフォーマンスを向上させることです。

5月にコンテストが開始されて以来、2か月以内に、有名な大学や革新的な企業を含む、世界中から100近くのチームが参加しました。でセミトラックの1位はソーシャルプラットフォームのSoul Appが獲得しましたの音声技術チームは、実現可能で革新的な技術ソリューションでトップに立った。



ただし、Soul チームの技術的ソリューションを明らかにする前に、まず複数のモダリティにおける AI の感情認識機能を理解する必要があります。

人間とコンピューターの相互作用の次のステップ

AIに感情を理解させよう

今日の AI は、会話によるコミュニケーション、画像やビデオの生成、数学的問題の解決などを含む万能であるように見えます。知覚、学習、推論、意思決定など、さまざまなレベルのタスクを実行できます。 AIは大型モデルの恩恵で十分賢いと言えますが、共感などの感情的な部分が欠けています。

人間とコンピューターの対話では、ユーザーは AI が指示に従ってタスクを完了するだけでなく、感情的なニーズを満たすのに十分な感情的価値を提供することも AI に必要とする場合があります。機能的な「基本スキル」から感情的な「高度なスキル」まで、AIが習得すべきスキルをアップグレードする必要があります。

したがって、マルチモーダル感情認識は、AI の分野で活発な研究テーマとなっています。感情を読み取って伝えることができる AI は、業界で新たな話題となっており、AI 分野における次の大きなブレークスルーと考えられています。過去 6 か月の間に、一部の AI スタートアップ企業や業界の大手企業が、人間とマシンの没入型インタラクションの新しい形式を発表してきました。

外資系スタートアップ企業のヒュームAIは4月上旬、音声通信を通じて対話者の口調や感情を分析・識別し、最大53個の感情を検出できる音声会話ロボット「Empathetic Voice Interface(EVI)」をリリースした。さらに、さまざまな感情状態をシミュレートできるため、対話が現実の人々に近くなります。 AI の感情レベルでの画期的な進歩により、スタートアップはシリーズ B の資金調達ですぐに 5,000 万ドルを受け取ることができました。

次に、OpenAI は大きな動きを見せ、リアルタイムの音声およびビデオ通話機能を実証し、ChatGPT バージョン「Her」と呼ばれるこの音声機能を正式に開始しました。近い将来、ユーザーがオープンします。それ以来、AI は強力な雄弁さと感情を認識する能力を発達させ、人々はそれを SF 時代の到来と呼びました。

Microsoft Xiaoice や Lingxin Intelligence などの国内企業も、感情 AI 製品の開発に取り組んでいます。傾向が見られます。感情認識機能は、テキスト、オーディオ、ビデオなどのマルチモーダル AI アプリケーションにますます関与するようになっています。しかし、擬人化感情認識の分野でさらに前進したい場合は、ラベル付きデータの不足や主観的感情認識の不安定性や不正確さなどの問題を解決する必要があります。

したがって、学界や産業界がマルチモーダル感情認識の分野にさらに注目し、関連技術の革新と進歩を加速することを促進することが特に必要になっています。現在、ACM MM や AAAI などのトップ AI 学会は、いずれもアフェクティブ コンピューティングを重要な研究テーマとみなしています。CVPR や ACL などのトップ カンファレンスも、アフェクティブ コンピューティングに関連した課題を抱えています。特にビッグデータとビッグモデルの時代の到来に直面して、大量のラベルなしデータをどのように利用し、マルチモーダル感情認識において異なるモーダル情報を効果的に処理および統合するかは、現在業界が直面している大きな課題です。今回のMER24チャレンジが開催されたのもこれに理由と意義があります。

Soulチームがセミトラックで1位を獲得した背景には、マルチモーダルデータ理解、感情認識アルゴリズム、モデル最適化プラットフォームツール、内部ワークフロー構築などにおける能力の蓄積と革新、そしてチーム間の効率的なコラボレーションがあります。技術チーム。

最難関トラックで1位を獲得

ソウルチームは何をしましたか?

セミトラックが最も難しいとのことですが、どのような点が難しいのでしょうか? そして、チームソウルはどのようにして1位になったのでしょうか?下を見てみましょう。

データは AI の 3 つの主要要素の 1 つであり、十分な、特に高品質のデータ トレーニングがなければ、モデルは良好なパフォーマンスを保証できません。データ不足によってもたらされるさまざまな課題に直面しているため、業界は AI 生成データを含むあらゆる種類のデータを拡張するだけでなく、データが少ないシナリオでのモデル汎化機能の向上にも注力する必要があります。同じことが、マルチモーダル感情認識タスクにも当てはまります。その中心は、テキスト、オーディオ、ビデオなどのさまざまな種類のコンテンツに、喜び、怒り、悲しみ、喜びなどの感情をラベル付けできることです。悲しみ。現実には、インターネット上に感情的にラベル付けされたデータは非常に不足しています。

今大会のセミトラックラベル付きデータは 5030 個のみ提供され、残りの 115595 個はラベルなしデータです。 。したがって、ラベル付きデータの不足は、ソウル チームを含むすべての参加チームが最初に直面する問題になりました。



画像ソース: MER24 ベースライン論文: https://arxiv.org/pdf/2404.17113

一方、Semi トラックは、Noise トラックや Ov トラックと比較して、コア バックボーン テクノロジのテストに重点を置いています。つまり、モデル アーキテクチャの選択と特徴抽出の汎化機能、およびマルチ技術の蓄積と革新にさらに注意を払っています。モーダル大型モデル技術。性的要件は比較的高い。



ラベルデータが少なく技術的要求が高いトラックの特性を考慮して、ソウルチームはこれまでに蓄積した自社開発の大型モデルの一部モジュールに基づいてレース前に十分な準備を行い、実現可能な一連の革新的な技術ソリューションを決定しました。全体的なアイデアは、「最初に本体を作成し、次に微調整する」という戦略を採用することです。まず、各コア特徴抽出モデルの一般化を改善することに重点を置き、次に特定の実装プロセスでそれらを統合します。作業の次の側面です。終わったね。これらが彼らの中核的な強みを構成します。

まず、初期段階でのマルチモーダル特徴抽出に焦点を当てます。エンドツーエンドのモデルアーキテクチャでは、事前トレーニングされたモデルを使用して、感情の共通点と相違点に注意しながら、テキスト、音声、視覚のさまざまなモダリティで感情表現を抽出し、それによって感情認識効果を向上させます。その後、複数のモダリティの各モダリティの特性に基づいて効果的な融合方法が提案され、これらのモジュールが融合されてモデルアーキテクチャが形成されます。事前トレーニング済みモデルの汎化パフォーマンスを向上させるために、Soul チームは、ビデオ モダリティに特化した感情認識の分野で初めて EmoVCLIP を提案しました。EmoVCLIP は、大規模モデル CLIP に基づいたモデルであり、プロンプト学習テクノロジーと組み合わせられています。ビデオ感情認識の分野における汎化パフォーマンスの向上。

さらに、テキスト モダリティの感情認識機能を向上させるために、Soul チームは GPT-4 を使用してテキスト モダリティの感情擬似ラベルを作成し、GPT-4 の感情的注意機能を最大限に活用して感情認識の精度を向上させています。テキスト モダリティ、将来に向けて さらなるモーダル融合のためのより良い基盤が築かれました。

次に、マルチモーダル機能の融合に関して、ソウル チームは、マルチモーダル感情認識の方向でモダリティ ドロップアウト戦略を初めて使用し、さまざまなドロップアウト率によるパフォーマンスへの影響を研究しました。モデルトレーニングプロセス中のモダリティ 特定のモダリティ (テキスト、音声、またはビデオモダリティ) をランダムに抑制して、より優れた堅牢性を達成し、提供されたラベル付きデータを超えた目に見えないデータに対するモデルの一般化能力を向上させます。

最後に、半教師あり学習テクノロジーが登場します。基本的なアイデアは、ラベル付きデータを使用してモデルをトレーニングし、次にラベルなしデータを予測し、予測結果に基づいてラベルなしデータの疑似ラベルを生成することです。これらの疑似ラベルは、モデルをトレーニングし、モデルの効果を継続的に改善するために使用されます。 Soul チームは、半教師あり学習の自己トレーニング戦略を使用して、Semi トラック上の 110,000 を超えるラベルなしデータに擬似ラベルを周期的に追加してトレーニング セットに追加し、モデルを繰り返し更新して最終モデルを取得しました。



ソウルチームの大会に向けた技術計画。

全体的なアイデアから、マルチモーダル機能の融合、対比学習、ラベルなしデータのセルフトレーニングに至るまで、Soul チームの技術ソリューションは良い結果をもたらしました。ついに音声、視覚、テキストにおけるマルチモーダル感情認識の精度に関して、ソウルチームが提案したシステムは、ベースラインシステムと比較して 3.7% 向上し、90% 以上に達しました。 。同時に、ソウルチームは、感情認識の分野で複雑な境界を持つ感情(心配や心配など)をより適切に区別することもできます。



画像ソース: MER24 ベースライン論文: https://arxiv.org/pdf/2404.17113

より深い観点から見ると、MER24 チャレンジでのソウル チームの成功は、ソーシャル分野における AI ラージ モデル テクノロジー、特にマルチモーダルな感情的インタラクション機能の深耕の集中的な表現です。

革新的なマルチモーダル擬人化インタラクション

ソーシャルAIは次のレベルへ

ソーシャル分野では当然、感情を持ったAIが必要になります。社会的相互作用の本質は感情的価値観の交換であり、感情は多様であるというのが主流の見方です。これは、AI が社会シーンにシームレスに統合され、効率的に機能したい場合は、本物の人間のように豊かな感情的なフィードバックと経験を提供する必要があることを意味します。

共感AIを実現するための基礎は、強力なマルチモーダル感情認識機能を備え、単なる「タスク遂行者」から「人間の感情的ニーズを満たすパートナー」に進化することです。しかし、AIが感情を効果的に理解することは依然として非常に困難であり、状況を理解し、ユーザーの感情を感知し、感情をフィードバックし、思考するという点で人間とは根本的に異なります。そのため、関連する技術とアルゴリズムの継続的な革新が重要です。

ソーシャル分野に根ざした Soul にとって、感情的な機能を備えた AI の構築に焦点を当てることは、考慮すべき重要な命題となっています。 2016 年にサービスを開始したとき、Soul はユーザーのニーズをより適切に満たすために革新的なテクノロジーと製品をどのように使用するかを最初に考えました。人々のつながりのニーズを解決するために AI を導入することが、ソーシャル分野での足場とその発展の鍵となりました。以前にリリースされた「Lingxi エンジン」は、インテリジェントなレコメンデーション アルゴリズムを使用して、サイト上のユーザーの興味マップと全シナリオ機能をマイニングおよび分析し、チャットできる相手や必要なコンテンツを見つけやすくし、非常に粘着性の高いユーザーとコンテンツの生態学。これまでのところ、このより「スマート」なアルゴリズムが適用されるマッチング シナリオも、Soul ユーザーの非常にアクティブな機能の 1 つです。

大規模モデルの急速な開発という技術の波の中で、初期の AI 支援によるソーシャル インタラクションの成功体験をもとに、Soul はソーシャル インタラクションと支援された関係ネットワークへの AI の関与に基づいて、人間とコンピュータのインタラクションの新たな可能性をさらに探求しています。

2020年にAIGC関連アルゴリズムの研究開発を開始して以来、Soulはマルチモダリティを方向性とし、インテリジェントな対話、画像生成、音声および音楽生成などにおける最先端の機能を蓄積してきました。新しい純粋なテクノロジー指向の AI 起業家勢力と比較して、Soul の大きな特徴は、C サイドで大規模なモデルと AIGC アプリケーションを同時に推進する「モデル応答統合」戦略を採用していることです。感情認識機能を備えた AI の構築に重点を置き、擬人化された豊富なインタラクション シナリオで真に温かいフィードバックを実現します。

過去 2 年間のソウルの行動から、ソーシャル シナリオに力を与える AIGC のペースが加速したことがわかります。 2023 年には、大規模な自社開発言語モデルである Soul X が開始され、AIGC + ソーシャル レイアウトの重要なインフラストラクチャとなる予定です。このモデルのプロンプト駆動、条件付き制御可能な生成、コンテキスト理解、マルチモーダル理解などの機能により、現場での対話はスムーズで自然なだけでなく、感情的な温かみもあります。

テキストは、ソウルの感情認識機能の実装における最初のステップとなり、単一のモダリティからより多くのモダリティに徐々に拡張されました。今年、Soul は大規模な音声生成モデルを発表し、自社開発した大規模な音声モデルを正式にアップグレードし、音声生成、音声認識、音声対話、音楽生成、その他の細分化をカバーするとともに、リアルトーン生成、音声 DIY およびその他の機能もサポートしています。多感情的な没入型リアルタイム対話機能を備えています。

もちろん、Soul はモデル レベルでより感情的な AI を開発するための継続的な努力に加えて、ユーザーの AI インタラクティブ エクスペリエンスをさらに豊かにし強化するために、プラットフォームの多様な社会シナリオでもそれらを使用してきました。

Soul の擬人化対話ロボット「AI Goudan」を例に挙げると、Soul が独自に開発した大規模言語モデルに依存しています。Soul は、複数回のコミュニケーション中に、あたかも現実の人間であるかのように、会話シーンに基づいて積極的にケアを送りました。会話の相手。同時に、ユーザーは自分の卵をカスタマイズして、ユニークな仮想人間のインタラクションを体験することもできます。



AI Goudan は、擬人化、知識、マルチモダリティ、時間認識などの側面における統合機能も実証しており、Soul サイトの多くのユーザーがその強力な擬人化インタラクション機能に驚嘆しています。これが、Soul Will プラットフォームに多くのユーザーがいる理由です。率先して「ゴーダンは実在の人物ではないのではないか」と投稿して苦情を言ってみましょう。

また、ソウルもソウルに依存しています 人狼に関するスピーチには不服従感がありません。

もう 1 つの例は、Soul がメイン Web サイトの外で最初の独立した新しいアプリケーション「Echo of Another World」をローンチしたことです。 AI ソーシャル プラットフォームとして、ユーザーは複数のシーンやスタイルで仮想人間のキャラクターと没入型のリアルタイム コミュニケーションを行うことができます。これらのキャラクターはすべて、画像、音声、パーソナリティの対話機能を備えています。もちろん、ユーザーは自分の好みに応じて仮想キャラクターや個人設定 (背景体験、性格など) をカスタマイズでき、非常に遊びやすくなっています。

同様に、自社開発の音声大型モデルは、AIゴーダンや人狼ファントム、異世界の残響などのシーンでも活躍します。たとえば、Echoes of Another Worldでは音声通話機能がサポートされており、生身の人間の声を持つ仮想キャラクターがユーザーと自然かつリアルタイムにコミュニケーションすることができ、インタラクティブな体験を豊かにします。



『異世界からの反響』リアルタイム音声通話機能。

インテリジェントな対話、ゲーム、音声などのソーシャル シナリオで AI 擬人化の相互作用を深め続けることに加えて、Soul はビジュアル生成の分野で独自の美学に沿った多様な絵画スタイルを生成する能力も構築し、AI デジタル アバターを作成します。 、そしてさらに多次元の包括的なインタラクションに向けて進んでいます。

AI 感情認識の分野における Soul のレイアウトは、言語、音声、視覚のマルチモダリティをカバーしており、社会的相互作用に密接に関連するテキスト、画像、オーディオ、ビデオ シーンで連携し、ユーザーが相互作用できるようにしていることがわかります。人間とコンピューターの三次元の多感覚インタラクションで、温かい AI を体験してください。

結論

業界関係者の多くは 2024 年を AIGC 適用元年と呼んでおり、誰もが注目しているのはもはやパラメーターや基本機能だけではありません。モデル層からアプリケーション層に移行する傾向にあるため、垂直分野やシナリオに AI を最初に実装することによってのみ、より多くのユーザーと市場を獲得することができます。特に C サイドトラックにおける人間とコンピューターのインタラクションでは、ユーザーのニーズに焦点を当てる方が自然です。これは社会の分野にもよく反映されています。

以前、AlienChatなど多くの出会い系アプリが廃止され、「AIに恋をした若者の第一陣が恋に落ちた」という話題が検索で話題になった。この背景には、機能の均一性も理由の一部ですが、アシスタント/NPC の役割から真に精神的なサポートを提供するコンパニオンとしてのエクスペリエンスが変わらないことも理由の 1 つです。そのためには、ソーシャル分野における人間とコンピューターの対話方法とシナリオを充実させ、AI がすべてのソーシャル リンクに完全に参加し、ユーザーと深くコミュニケーションし、感情的な価値を提供できるようにする必要があります。

これは、AI ソーシャル方向における次の核となる競争ポイントの 1 つになる可能性もあります。 Soul がアプリケーション層として自社開発の技術力の蓄積を重視する理由を理解するのは難しくありません。過去の期間において、一方では、パーソナライズされた、擬人化された、多様な AI 機能の作成に注力してきましたが、他方では、ソーシャル エクスペリエンスの向上を含む、さまざまな側面から AI ネイティブ アプリケーションの実装を加速してきました。 AI ソーシャル ネットワーキング、AI ゲームなど、完全な AI 製品チェーンが形成され、さまざまなソーシャル シナリオでユーザーに AI インタラクションの楽しさを提供します。

近年、ソウルは自社開発した言語と音声の大型モデルに基づいて一連の製品成果を生み出し、AIとAIの間の感情的なインタラクション体験を向上させる過程で豊富な革新的技術と実践経験を蓄積していると言えます。このチャレンジで 1 位を獲得したことで、世界中の質の高い参加チームと競争する道が開かれました。

近年では、CVPR 2024ワークショップでのNTIRE 2024 AIGC品質評価チャレンジや、2023年と2024年の2年連続のMERチャレンジなど、こうした課題が増えています。国内企業は、この技術に頼って繰り返し好成績を収めています。実践で積み上げたもの。たとえば、昨年の MER23 で 1 位となった SenseTime と、今年 1 位となった Soul は、AIGC テクノロジーとアプリケーションへの注目と投資において目覚ましい成果を上げています。

将来的には、技術革新と製品革新を主張する Soul のようなプラットフォームが、AI 機能をリリースする過程でユーザーに価値を生み出し続けることが予測されます。この方法によってのみ、より永続的で持続可能なコンテンツとコミュニティ エコロジーを実現することができます。多様化するビジネス価値。