動画による文脈学習！大型モデルは「猫を真似てトラを描く」ことを学ぶ、MSRA

動画による文脈学習！大きなモデルは「猫を真似て虎を描く」ことを学ぶ（MSRAより）

2024-07-17

Vid-ICL チームによる寄稿
パブリックアカウント QbitAI

ビデオ生成も「コンテキスト」を指すのでしょうか？！

MSRA が提案するビデオコンテキスト学習(Video In-Context Learning、Vid-ICL)、大きなモデルに「猫を真似て虎を描く」スタイルを学習させます模倣世代。

Vid-ICL は、サンプルビデオを使用して新しいシナリオでのモデルの生成をガイドし、生成された結果が新しいシナリオのサンプルビデオで完了したタスクを「模倣」できるようにします。

たとえば、サンプルビデオカメラの視点は下に移動し (左)、生成されたビデオも視点は下に移動します (右)。

サンプルビデオオブジェクトは上に移動し (左)、生成されたビデオも上に移動します (右)。

オブジェクトの掴みもシミュレートできます。

△左: ロボットアームが物体を掴むサンプルビデオ。右: 生成されたビデオ。

ドロワーを開くことは、次の例のように行うこともできます。

△左: サンプルビデオ、中央の引き出しを開きます。右: ビデオを生成します。

同じ電動ファンのシナリオで、さまざまなサンプルビデオを使用して、モデルが次のような効果を生成するようにガイドします。

△左: サンプルビデオ、カメラが左に移動、右: 生成されたビデオ。

△左: サンプルビデオ、カメラが右に移動、右: 生成されたビデオ。

理想的な世界モデルでは、モデルと外部環境の間の相互作用は多様である必要があることを知っておく必要があります。既存の研究のほとんどは、インタラクションの主なモードとしてのテキストそのため、生成される結果の詳細と多様性を制御することが困難になります。

そしてビデオは非常に具体的かつ普遍的です、物体の移動や掴みなど、さまざまなタスクの完了例など、幅広い情報を伝えることができます。

研究チームが提案したVid-ICL手法は、言語や画像に代わる手法を提供する。新しいインターフェース、モデルと現実世界の間の相互作用がより多様になります。

上記の生成されたビデオに加えて、Vid-ICLはエミュレータと組み合わせることも可能、生成されたビデオと現在の状態を使用して、環境との正しい相互作用に対応するアクションを予測します。実環境とのインタラクションを実現。

以下の図は、t=0 の状態から開始して、RoboDesk シミュレーターと対話して「Push_red」タスクを完了する Vid-ICL と実際の環境との対話を示しています。 Vid-ICL は、環境の相互作用をより正確に制御します。

いい奴だ、映画「アイアン・アーマー」が現実になったんだ。

Vid-ICL は正確にどのように機能しますか?

Vid-ICL フレームワークの解釈

Vid-ICL はビデオを基本単位として動作します。

具体的には、クエリビデオクリップと k 個のサンプルビデオクリップが与えられた場合、Vid-ICL の目標は、最初に必要なビデオクリップを生成することです。クエリビデオクリップとの知覚的一貫性を維持する，同時に意味論的にも(カメラの動き、アクションなど)上記はサンプルビデオと一致しています。

自己回帰モデルのトレーニング

Vid-ICL はモデル構造として Transformer を使用します。

Transformer は、大規模なテキストモデルの基本アーキテクチャとして、言語コンテキストの推論および生成タスクにおける強力な機能を実証してきました。視覚情報の Generative Transformer トレーニングは 2 つの段階で構成されます。

まず、VQ-VAE などのビジュアルエンコーダーをトレーニングして、各画像を個別のトークンに変換します。

第 2 に、各トレーニングサンプルはトークンシーケンスとして構築され、Transformer デコーダーの目標はこのトークンシーケンスを復元することです。

具体的な実装に関しては、Vid-ICLLlama アーキテクチャの使用、使用RMSNorm 正規化そして回転位置埋め込み (RoPE)、自己回帰的な方法で Transformer デコーダをトレーニングします。トレーニングフェーズでは、さまざまなビデオからのビデオクリップを接合することなく、生のビデオから各シーケンスがサンプリングされます。

ゼロサンプル能力

研究チームはこの記事で重要な観察を行っています。

モデルは、明示的なコンテキスト形式なしでビデオデータから開始できます。連続したビデオクリップから状況に応じた推論能力を自発的に学習、つまり、ビデオインコンテキスト学習の「ゼロサンプル能力」です。

これには 2 つの重要な要因が考えられます。まず、各ビデオフレーム間に特別な区切り文字が挿入されないため、モデルはトレーニング中に連続ビデオシーケンスをサンプルビデオ + クエリビデオとして暗黙的に扱うことができます。これは、モデルが同様のサンプルクエリ構造のシーケンスを処理することを学習したことを意味します。

第 2 に、Transformer の自己回帰特性により、単一シーンのビデオシーケンス予測機能を、例とクエリが異なるビデオから取得されるシーンに拡張し、テキストコンテキスト学習のパラダイムをビデオコンテキスト学習にシームレスに一般化できます。

他のモダリティを統合する

Vid-ICL は例としてビデオに焦点を当てていますが、テキストなどの他のモダリティにも拡張できます。

これを行うには、事前にトレーニングされた言語モデルを通じて元のテキスト記述を潜在表現に変換し、Transformer をトレーニングして文脈推論を実行するときにこの潜在表現をプレフィックスとして使用し、Transformer の潜在空間に配置します。投影層を介して。

実験によると、Vid-ICL例としてテキストとビデオの両方を受信できます、テキストを追加すると、生成される結果の品質がさらに向上します。

データとモデルのサイズ

Vid-ICL はサンプルビデオに含まれるセマンティック情報を学習し、それを新しいシーンに移行して生成できることがわかります。これには、トレーニングデータに主に明確な因果関係と強いインタラクティブ性を持つビデオが含まれている必要があります。

したがって、研究者らは主なトレーニングデータソースとして 2 つのデータセット、Ego4d と Kinetics-600 を選択しました。

さらに、ビデオコンテンツの多様性を高めるために、Webvid のデータの一部もトレーニングセットに追加されます。

また、インターネットビデオに含まれる意味情報は比較的曖昧で多岐にわたるため、インターネットビデオを追加するだけでデータサイズが増加する可能性があることも検証しました。モデルの状況に応じたパフォーマンスの向上には役立たない。

モデルのサイズに関して、チームは 300M、700M、1.1B の 3 つのサイズのモデルをトレーニングし、モデルによって生成されたビデオの品質とコンテキストに応じたパフォーマンスがスケーリング則に従っていることを発見しました。

実験結果

Vid-ICLは主にパスします同じクエリビデオに対して異なるセマンティクスを持つサンプルビデオを提供する、ビデオコンテキスト学習の有効性と精度を評価します。

例えば、物体を左に動かすというクエリ動画に対して、左に移動する動画、ランダムに移動する動画、逆方向に移動する動画を例に挙げて異なる動画を生成し、生成された結果の評価を利用することができます。モデルが実際に関連ビデオを生成したかどうかを確認します。

定性的結果の観点から、以下の図は、さまざまなビデオ例の下で生成されたビデオを示しています (その他の例については、論文の原文を参照してください)。

それは観察できます:

1) の場合単一ビデオ生成Vid-ICL の品質は、生成されたビデオとクエリビデオの一貫性を維持しており、どちらも良好な生成品質を持っています。

2) について生成されたビデオとサンプルビデオの間の意味上の一貫性、生成されたビデオはすべてサンプルビデオのプロセスに従っていることがわかります。これは、Vid-ICL がサンプルビデオの意味情報を自発的に取得し、対応するビデオを生成する機能を備えていることを示しています。

以下の図に示すように、同じクエリビデオクリップに対して、Vid-ICL は、サンプルビデオ内のレンズの動きに基づいて、生成されたビデオを適宜移動することを選択します。

定量的な結果に関して、研究チームは次の 2 つの側面からの自動評価指標を提案しました。

1）ビデオ品質一方、PSNR、FID など、従来の視覚タスクでのピクセルマッチングまたは分布に基づく指標が使用されます。

2）意味の一貫性上記では、分類精度に基づく 2 つの指標 (ビデオ分類精度とプローブ分類精度) が使用されています。

さまざまな指標において、Vid-ICL はベースラインモデルよりも優れた結果を示しています。同様のサンプルビデオの指導の下、Vid-ICL はより現実的で意味的に一貫したビデオを生成することがわかります。

詳細については元の論文を参照してください。

プロジェクトのホームページ: https://aka.ms/vid-icl
論文リンク: https://arxiv.org/abs/2407.0735

ニュース

動画による文脈学習！大きなモデルは「猫を真似て虎を描く」ことを学ぶ（MSRAより）

Vid-ICL フレームワークの解釈

実験結果

導入

私の連絡先情報