ニュース

ビデオモデルに速い目と遅い目を追加すると、Apple のトレーニング不要の新しいメソッドはすべての SOTA を数秒で上回ります

2024-08-12

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Sora のリリース以来、AI ビデオ生成の分野はさらに「忙しく」なりました。過去数か月間、私たちは Jimeng、Runway Gen-3、Luma AI、Kuaishou Keling が順番に爆発するのを目撃してきました。

モデルが AI によって生成されたことが一目でわかる過去とは異なり、この大規模なビデオ モデルのバッチは、これまで見た中で「最高」である可能性があります。

ただし、ビデオ大規模言語モデル (LLM) の驚くべきパフォーマンスは、非常に高いコストを必要とする、大規模で細かく注釈が付けられたビデオ データ セットと切り離すことができません。最近、追加のトレーニングを必要としない多くの革新的な方法が研究分野で登場しました。つまり、トレーニングされた画像の大規模言語モデルを使用してビデオタスクを直接処理し、「高価な」トレーニングプロセスを回避します。

さらに、ほとんどの既存のビデオ LLM には 2 つの大きな欠点があります。(1) 限られた数のフレームのビデオ入力しか処理できないため、モデルがビデオ内の微妙な空間的および時間的コンテンツをキャプチャすることが困難になります。(2) ) 時間モデリング設計は欠如していますが、単純にビデオ特徴を LLM に入力し、LLM の動きをモデル化する機能に完全に依存しています。

上記の問題に対応して、Apple の研究者は SlowFast-LLaVA (略して SF-LLaVA) を提案しました。このモデルは、Byte チームによって開発された LLaVA-NeXT アーキテクチャに基づいており、追加の微調整は必要なく、すぐに使用できます。。研究チームは、動作認識の分野で成功した 2 ストリーム ネットワークに触発されて、ビデオ LLM 用の新しい SlowFast 入力メカニズムを設計しました。

簡単に言えば、SF-LLaVA は 2 つの異なる視聴速度 (低速と高速) を通じてビデオの詳細と動きを理解します。

スロー パス: 可能な限り多くの空間詳細を保持しながら、低いフレーム レートで特徴を抽出します (たとえば、8 フレームごとに 24×24 トークンを保持します)。

高速パス: 高フレーム レートで実行しますが、より大きな空間プーリング ステップでビデオの解像度を下げて、より大きな時間的コンテキストをシミュレートし、アクションの一貫性を理解することに重点を置きます。

これは、モデルが 2 つの「目」を持っていることに相当します。1 つはゆっくり見て細部に注意を払い、もう 1 つは素早く見て動きに注意を払います。これにより、ほとんどの既存のビデオ LLM の問題点が解決され、詳細な空間セマンティクスとより長い時間的コンテキストの両方をキャプチャできるようになります。



論文リンク: https://arxiv.org/pdf/2407.15841

実験結果は、SF-LLaVA がすべてのベンチマーク テストにおいて、トレーニング不要の既存の手法を大幅に上回ることを示しています。丁寧にチューニングされたSFTモデルと比較して、SF-LLaVAは同等以上のパフォーマンスを実現します。



モデルアーキテクチャ

以下の図に示すように、SF-LLaVA は標準のトレーニング不要のビデオ LLM プロセスに従います。ビデオ V と質問 Q を入力として受け取り、対応する回答 A を出力します。



入力の場合、任意のサイズと長さの各ビデオから N フレームが均一にサンプリングされます (I = {I_1, I_2, ..., I_N})。選択したビデオ フレームの特別な組み合わせや配置は必要ありません。フレーム単位で独立に抽出された周波数特徴は F_v ∈ R^N×H×W です。ここで、H と W はそれぞれフレーム特徴の高さと幅です。





実験結果

研究チームは、SF-LLaVA の包括的なパフォーマンス評価を実施し、複数のビデオ質問応答タスクにおいて、現在の SOTA トレーニング不要モデル (IG-VLM や LLoVi など) と比較しました。さらに、ビデオ データセットに対して教師あり微調整 (SFT) された VideoLLaVA や PLLaVA などのビデオ LLM と比較しました。

ビデオ Q&A を開く

以下の表に示すように、自由形式のビデオ質問応答タスクでは、SF-LLaVA はすべてのベンチマークにわたって既存のトレーニング不要の手法よりも優れたパフォーマンスを示しています。具体的には、パラメータ サイズがそれぞれ 7B および 34B の LLM が装備されている場合、SF-LLaVA は、MSRVTT-QA では IGVLM より 2.1% および 5.0% 高く、TGIF-QA では 5.7% および 1.5% 高く、TGIF-QA では 5.7% および 1.5% 高くなります。アクティビティネットは-2.0%、QAでは0.8%上昇。

微調整された SFT 手法と比較しても、SF-LLaVA はほとんどのベンチマークで同等のパフォーマンスを示しますが、ActivityNet-QA ベンチマークでのみ、PLLaVA と LLaVA-NeXT-VideoDPO がわずかに優れています。



多肢選択式ビデオ Q&A

以下の表からわかるように、SF-LLaVA は、すべてのベンチマークにおいて、多肢選択ビデオ質問応答において、トレーニング不要の他の手法よりも優れています。複雑な長期推論を必要とする EgoSchema データ セットでは、SF-LLaVA7B および 34B バージョンは、IG-VLM モデルよりもそれぞれ 11.4% および 2.2% 高いスコアを示しました。

VideoTree はベンチマーク テストでリードしていますが、GPT-4 をベースにした独自モデルであるため、そのパフォーマンスはオープンソースの LLM よりもはるかに優れています。 SFT 手法と比較して、SF-LLaVA 34B モデルは EgoSchema でも優れた結果を達成しています。これは、SlowFast 設計が長いビデオを処理する強力な能力を裏付けています。

テキスト生成



ヴィンセント・ビデオ

表 3 に示すように、SF-LLaVA はテキスト生成ビデオのタスクに関していくつかの利点も示しています。 SF-LLaVA-34B は、全体的なパフォーマンスにおいて、トレーニングなしのすべてのベンチマークを上回りました。ただし、ディテール指向の点では、SF-LLaVA は LLaVA-NeXT-Image よりわずかに劣ります。 SlowFast 設計に基づいた SF-LLaVA は、より少ない視覚トークンでより長い時間的コンテキストをカバーできるため、時間的理解タスクで特に優れたパフォーマンスを発揮します。

さらに、SF-LLaVA-34B は、Vincent ビデオ パフォーマンスの点でもほとんどの SFT 方式を上回っています。



詳細については、原著論文を参照してください。