ニュース

AIは「TikTokをリフレッシュ」もできる!清華大学が主導してショートビデオのフルモーダル理解のための新しいモデルをリリース | ICML 2024

2024-07-31

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


新しい知恵のレポート

編集者: LRST とても眠いです

【新しい知恵の紹介】オーディオおよびビデオの大規模言語モデルは、ビデオ コンテンツを処理するときに音声の役割を十分に発揮できないことがよくあります。 ビデオ SALMONN モデルは、オーディオとビデオのコーディングと時間的アライメント、多重解像度因果 Q-Former、ダイバーシティ損失関数、およびペアになっていないオーディオとビデオの混合データ トレーニングの 3 つの部分を通じて革新します。このモデルは、単一モダリティのタスクで優れたパフォーマンスを発揮するだけでなく、視聴覚の共同タスクでも優れたパフォーマンスを示し、その包括性と正確性を証明しています。

短いビデオを理解したい場合、視覚的なコンテンツに加えて、ビデオ音楽、効果音、音声コンテンツなどの音声やオーディオなどの聴覚情報も短いビデオを理解する上で重要な役割を果たします。

視聴覚大規模言語モデル (av-LLM) は近年大幅な進歩を遂げていますが、ビデオにおける人間の言語の主な伝達手段としての音声は、これらのモデルではまだ十分に調査されていません。音声は豊富な言語情報と意味情報を提供するだけでなく、ビデオの感情や根底にある意味を理解するのにも役立ちます。

同時に、音声信号には、ビデオの理解に不可欠な要素である話者の多様な属性(年齢、性別、アクセント、アイデンティティなど)だけでなく、ピッチやピッチなどの豊富なパラ言語情報も含まれています。

ただし、汎用の視聴覚大規模言語モデルの音声機能を強化することは非常に困難であり、時間的に細かいモデリングと、粗い (ビデオの主題など) および細かい (唇の動きなど) の両方の時間スケールでの他のモダリティとの複雑な相互作用が必要です。

最近、ICML 2024 で発表された論文「video-SALMONN: Speech-Enhanced Audio-Visual Large Language Models」は、ビデオ内のすべてのオーディオおよびビデオ要素 (自然画像、テキスト、音声、オーディオ イベント、音楽)。


ビデオ-SALMONN 論文リンク: https://openreview.net/pdf?id=nYsh5GFIqX

SALMONN 論文リンク: https://arxiv.org/abs/2310.13289

Githubページ:https://github.com/bytedance/SALMONN

次の例を通じて、video-SALMONN が音声、音声、ビデオ情報を通じてビデオ コンテンツをどのように解釈するかを見てみましょう。

まずは、「タイタニック」のクラシックなクリップです。

このビデオがなぜそれほどロマンチックなのかを video-SALMONN に語ってもらいましょう:


質問:

ビデオ、オーディオ、キャラクターの会話を組み合わせて、ビデオがロマンチックである理由を説明してください

答え:

このビデオには、ボートに乗った男性と女性のロマンチックなシーンが映されています。男性は女性を腕に抱き、一緒に夕日を眺めた。 BGMはロマンチックな雰囲気を盛り上げる曲です。女性は「飛んでいる」「ジャック」と言い、幸せでこの瞬間を楽しんでいることを示します。ボートと夕日の背景が美しく穏やかな環境を作り出し、ビデオのロマンチックな雰囲気を高めます。男性と女性のボディランゲージや顔の表情も、お互いへの愛情を伝えます。全体として、ビデオは二人の間のロマンチックで親密な瞬間を完璧に捉えています。

ビデオ・サルモンは、自分が見た光景を説明するだけでなく、聞いた音楽や登場人物の会話も説明に組み込みました。

さらに驚くべきことは、ビデオ-SALMONNはさらに尋ねると、「私は飛んでいる」と言ったのが女性であることも知ることができるということです。

さらに、ビデオ-SALMONNは、男の名前が「ジャック」であることも推測できます。

この古典的なシーンを生み出したのはこの 2 行の会話であることは誰もが知っていますが、ビデオ SALMONN はまさにこのシーンの本質を捉えています。

こちらは「ズートピア」の別のアニメーション クリップです。

SALMONN がナマケモノの面白い点をどのように理解しているかをビデオでご覧ください。


質問:

その場面にはウサギ、キツネ、ナマケモノがいます。ナマケモノは何と言ったでしょうか。ナマケモノはなぜ面白いのでしょうか?

答え:

ナマケモノはビデオの最後に「ニック」と言いました。ナマケモノは動きが遅い動物で、ビデオの中では非常に怠け者で、何かをするのに時間がかかるので面白いです。これは、ウサギやキツネなどの他の動物の活発でエネルギッシュな性質とは対照的で、ナマケモノを際立たせ、ユーモアを加えています。さらに、ビデオ内のナマケモノのスローモーションと表情がコメディー効果を高めています。

この例は、音声と映像の組み合わせによる話者の認識を示しています。私たちはビデオを本当に理解しています!

そして、この非常に人気のあるミーム:

このビデオが面白い理由を video-SALMONN に尋ねてください:


質問:

なぜこのビデオが面白いのか説明してもらえますか?

答え:

このビデオは、男性が変な顔をして「いいね」と言う様子を映しており、面白いです。真剣な表情と「素敵」という言葉のコントラストがユーモアと驚きを生む。さらに、男性のげっぷや大きなポップ音の効果音がビデオのエンターテイメント性を高めます。

ナショナル ジオグラフィックのドキュメンタリー クリップをもう一度見て、音声の理解がどのように役立つかを見てみましょう。

SALMONN のビデオに登場するサメの種類について質問させてください。


質問:

動画に映っているサメは何のサメですか?

音声入力で応答します。

動画のサメはジンベエザメです

音声入力なしで回答します:

動画のサメはホホジロザメです

動画を見ただけでは専門的な知識がないと何のサメなのか全く分からず、モデルは推測するしかなく、幻覚を見がちです。


しかし、音声説明を聞いた後、video-SALMONN はそのビデオがジンベエザメに関するものであることを正確に知ることができるため、推測する必要はありません。

偉い人たちの会話のビデオクリップもあります。

video-SALMONN は会話の内容を理解するだけでなく、話者と会話の内容を結び付けます。


質問:

映像と音声から判断すると、映像の中でフィレンツェに飛んだのは男性でしょうか、それとも女性でしょうか?

答え:

フィレンツェに飛んだのは女性でした‍‍

この例は、ビデオ SALMONN がビデオ内の音声を包括的に理解していることをさらに示しています。

スピーチの書き起こしのテキストを直接入力した場合、モデルは誰がフィレンツェに飛んだのかを知ることはできませんが、video-SALMONN ではスピーチの内容と発言者の情報を緊密に組み合わせることができます。

次は実践的な部分です。video-SALMONN がどのようにして音声、オーディオ、ビデオの包括的な理解を達成するかを見てみましょう。

コアテクノロジー


ビデオ - SALMONN モデル

大規模なオーディオおよびビデオ モデルにおける音声理解の課題に直面して、video-SALMONN には次の 3 つの革新部分があり、自然画像、ビジュアル フレーム シーケンス、音声、オーディオ イベント、音楽要素などのさまざまな基本的なビデオ要素を処理できるようになります。

パート 1: オーディオとビデオのエンコードとタイムアライメント

ビデオ - SALMONN は、Whisper スピーチ エンコーダと BEATs オーディオ エンコーダを使用して、それぞれ音声とオーディオのエンコード ベクトル シーケンス (オーディオの 1 秒ごとに 50 個のベクトル) を取得します。また、InstructBLIP ビジュアル エンコーダを使用して、ビデオ サンプリング レートでビジュアルを取得します。 2 FPS のエンコーディング ベクトル シーケンス (ビデオの 1 秒あたり 2 フレーム、64 個のベクトルに相当)。

時間次元では、音声オーディオ シーケンスはビジュアル シーケンスよりわずかに短く、ゼロ パディングが追加されるため、ビデオ フレームに基づいて 0.5 秒ごとに 3 つのシーケンスが位置合わせされ、結合されます (時間的きめ細かい同期)。短い部分。

パート 2: マルチ解像度因果 Q-Former

マルチ解像度因果 (MRC) Q-Former 構造はビデオ SALMONN の革新的なコアであり、時間同期されたオーディオビジュアル入力機能と複数の異なるタイム スケールのテキスト表現を空間的に位置合わせするだけでなく、さまざまなビデオに依存するタスクを満たします。要素の要件を満たし、連続するビデオ フレーム間のイベントの時間的因果関係を強化するために、特別な因果マスクを備えた因果的自己注意構造が導入されます。


MRC Q-Former の構造

まず、MRC Q-Former は入力シーケンスを異なる長さのウィンドウに分割します。次に、各ウィンドウ内で、Q-Former を使用して、スプライスされたマルチモーダル表現を意味表現空間にマッピングします。最後に、各解像度レベルの各ウィンドウ Q-Former によって出力されたベクトルが連結されて、意味空間内のベクトル シーケンスが形成されます。

出力ベクトルの数とウィンドウの長さの比率が一定であることを保証することで、MRC Q-Former は、異なる解像度レベルの出力シーケンスをフィーチャー次元で直接接続できるようにし、接続されたベクトルが線形レイヤーを介してマッピングされるようにします。大規模な言語モデルへの入力として使用されます。

トレーニングを通じて、高解像度の Q-Former は、音声の内容や音声と唇の動きの関係などのきめ細かい情報をキャプチャできます。低解像度の Q-Former は、ビデオ レベルの情報と全体的な内容を効果的に抽出できます。ビデオと複数のフレーム間の関係をより深く理解できるようになります。

(注: MRC Q-Former 構造は空間での多重解像度にも適しています。この論文では、入力として画像を異なる精度のサブ画像シーケンスに分割できる画像スポットライト法を初めて提案しており、これにより大幅に解像度が向上します。画像理解のパフォーマンス)

パート 3: ダイバーシティ損失関数と、ペアになっていないオーディオとビデオの混合データのトレーニング

さらに、ビデオ内の特定のフレームの優位性を回避するために、video-SALMONN は、モデルがシーケンス全体のさまざまな部分を探索することを促進する、クロスエントロピーに基づく新しいダイバーシティ損失関数を提案および使用しています。

同時に、オーディオとビデオのペア データにおける単一モダリティの優位性を防ぐために (たとえば、ビデオ内の非音声オーディオは、多くの場合、非常に少量の補助情報しか提供せず、簡単に無視されます)、video-SALMONNビデオ SALMONN が 2 つのモダリティの情報に同時に注意を払わなければならないように、ペアになっていないオーディオとビデオを混合する戦略を使用します。

主な成果

Video-SALMONN の論文は、テスト用の音声視聴覚評価 (SAVE) ベンチマークを提案しており、音声、非音声オーディオ、画像、およびビデオのタスクで優れたパフォーマンスを示しています。

SAVE のテスト タスクには、音声認識 (ASR)、音声説明 (AAC)、画像説明 (IC)、視覚的テキスト認識 (OCR)、画像の質問と回答 (VQA)、ビデオの質問と回答 (ビデオ QA)、その他の視覚的および聴覚的なものが含まれます。単一入力モダリティには、オーディオビジュアル音声認識 (AVSR)、オーディオとビデオの質問応答 (AVQA)、オーディオとビデオの音源検出 (AVSSD)、オーディオとビデオのマッチング (AVM)、4 つのオーディオとビデオの共通入力も含まれます。認識タスク。

このうち、AVQA は新しく提案されたテスト セットであり、AVM は新しく提案されたタスクであり、オーディオとビデオが一致するかどうかを判断するモデルを必要とします。


まず第一に、video-SALMONN は単一モーダル入力タスクにおいて、視覚または聴覚モーダル入力のみを処理できるモデルと同等またはそれ以上の結果を達成します。

音声とビデオも処理できる大型モデルである Video-LLaMA と比較して、video-SALMONN は音声入力を理解する能力が向上するだけでなく、さまざまなシングルモーダル タスクにおけるパフォーマンスをはるかに上回ります。


オーディオとビデオの共同入力を理解するタスクにおいて、video-SALMONN は他のモデルよりもはるかに優れたパフォーマンスを示しました。


音声を理解する能力のおかげで、video-SALMONN は AVQA における同様の大型モデル Video-LLaMA を大幅に上回ります。

さらに重要なことは、video-SALMONN は、AVM と AVSSD という完全に訓練されていない 2 つのタスクにおける共同音声・視聴覚推論において、優れたゼロサンプル創発能力を実証していることです。


これらの共同推論機能の出現には、モデルが入力された視覚情報と聴覚情報に同時に同じ注意を払い、音声と視覚の間の複雑な関係を理解できることが必要です。


ただし、既存のオープンソース モデルはオーディオを完全に理解できないか、単一の入力モダリティを個別に記述することしかできません。

結論

video-SALMONN の開始は、ビデオ理解技術の包括性と精度の向上に役立ち、ビデオ コンテンツ分析、感情認識、マルチモーダル インタラクションなどの分野に新たな機会をもたらします。


このモデルは学術研究において重要な意味を持つだけでなく、実用化に対する強力な技術的サポートも提供します。

参考文献:

https://openreview.net/pdf?id=nYsh5GFIqX