私の連絡先情報
郵便メール:
2024-07-17
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
Vid-ICL チームによる寄稿
パブリックアカウント QbitAI
ビデオ生成も「コンテキスト」を指すのでしょうか? !
MSRA が提案するビデオコンテキスト学習(Video In-Context Learning、Vid-ICL)、大きなモデルに「猫を真似て虎を描く」スタイルを学習させます模倣世代。
Vid-ICL は、サンプル ビデオを使用して新しいシナリオでのモデルの生成をガイドし、生成された結果が新しいシナリオのサンプル ビデオで完了したタスクを「模倣」できるようにします。
たとえば、サンプル ビデオ カメラの視点は下に移動し (左)、生成されたビデオも視点は下に移動します (右)。
サンプル ビデオ オブジェクトは上に移動し (左)、生成されたビデオも上に移動します (右)。
オブジェクトの掴みもシミュレートできます。
△左: ロボットアームが物体を掴むサンプルビデオ。右: 生成されたビデオ。
ドロワーを開くことは、次の例のように行うこともできます。
△左: サンプルビデオ、中央の引き出しを開きます。右: ビデオを生成します。
同じ電動ファンのシナリオで、さまざまなサンプル ビデオを使用して、モデルが次のような効果を生成するようにガイドします。
△左: サンプルビデオ、カメラが左に移動、右: 生成されたビデオ。
△左: サンプルビデオ、カメラが右に移動、右: 生成されたビデオ。
理想的な世界モデルでは、モデルと外部環境の間の相互作用は多様である必要があることを知っておく必要があります。既存の研究のほとんどは、インタラクションの主なモードとしてのテキストそのため、生成される結果の詳細と多様性を制御することが困難になります。
そしてビデオは非常に具体的かつ普遍的です、物体の移動や掴みなど、さまざまなタスクの完了例など、幅広い情報を伝えることができます。
研究チームが提案したVid-ICL手法は、言語や画像に代わる手法を提供する。新しいインターフェース、モデルと現実世界の間の相互作用がより多様になります。
上記の生成されたビデオに加えて、Vid-ICLはエミュレータと組み合わせることも可能、生成されたビデオと現在の状態を使用して、環境との正しい相互作用に対応するアクションを予測します。実環境とのインタラクションを実現。
以下の図は、t=0 の状態から開始して、RoboDesk シミュレーターと対話して「Push_red」タスクを完了する Vid-ICL と実際の環境との対話を示しています。 Vid-ICL は、環境の相互作用をより正確に制御します。
いい奴だ、映画「アイアン・アーマー」が現実になったんだ。
Vid-ICL は正確にどのように機能しますか?
Vid-ICL はビデオを基本単位として動作します。
具体的には、クエリ ビデオ クリップと k 個のサンプル ビデオ クリップが与えられた場合、Vid-ICL の目標は、最初に必要なビデオ クリップを生成することです。クエリビデオクリップとの知覚的一貫性を維持する,同時に意味論的にも(カメラの動き、アクションなど)上記はサンプルビデオと一致しています。
Vid-ICL はモデル構造として Transformer を使用します。
Transformer は、大規模なテキスト モデルの基本アーキテクチャとして、言語コンテキストの推論および生成タスクにおける強力な機能を実証してきました。視覚情報の Generative Transformer トレーニングは 2 つの段階で構成されます。
まず、VQ-VAE などのビジュアル エンコーダーをトレーニングして、各画像を個別のトークンに変換します。
第 2 に、各トレーニング サンプルはトークン シーケンスとして構築され、Transformer デコーダーの目標はこのトークン シーケンスを復元することです。
具体的な実装に関しては、Vid-ICLLlama アーキテクチャの使用、使用RMSNorm 正規化そして回転位置埋め込み (RoPE)、自己回帰的な方法で Transformer デコーダをトレーニングします。トレーニング フェーズでは、さまざまなビデオからのビデオ クリップを接合することなく、生のビデオから各シーケンスがサンプリングされます。
研究チームはこの記事で重要な観察を行っています。
モデルは、明示的なコンテキスト形式なしでビデオ データから開始できます。連続したビデオクリップから状況に応じた推論能力を自発的に学習、つまり、ビデオ インコンテキスト学習の「ゼロ サンプル能力」です。
これには 2 つの重要な要因が考えられます。まず、各ビデオ フレーム間に特別な区切り文字が挿入されないため、モデルはトレーニング中に連続ビデオ シーケンスをサンプル ビデオ + クエリ ビデオとして暗黙的に扱うことができます。これは、モデルが同様のサンプルクエリ構造のシーケンスを処理することを学習したことを意味します。
第 2 に、Transformer の自己回帰特性により、単一シーンのビデオ シーケンス予測機能を、例とクエリが異なるビデオから取得されるシーンに拡張し、テキスト コンテキスト学習のパラダイムをビデオ コンテキスト学習にシームレスに一般化できます。
Vid-ICL は例としてビデオに焦点を当てていますが、テキストなどの他のモダリティにも拡張できます。
これを行うには、事前にトレーニングされた言語モデルを通じて元のテキスト記述を潜在表現に変換し、Transformer をトレーニングして文脈推論を実行するときにこの潜在表現をプレフィックスとして使用し、Transformer の潜在空間に配置します。投影層を介して。
実験によると、Vid-ICL例としてテキストとビデオの両方を受信できます、テキストを追加すると、生成される結果の品質がさらに向上します。
Vid-ICL はサンプル ビデオに含まれるセマンティック情報を学習し、それを新しいシーンに移行して生成できることがわかります。これには、トレーニング データに主に明確な因果関係と強いインタラクティブ性を持つビデオが含まれている必要があります。
したがって、研究者らは主なトレーニング データ ソースとして 2 つのデータセット、Ego4d と Kinetics-600 を選択しました。
さらに、ビデオ コンテンツの多様性を高めるために、Webvid のデータの一部もトレーニング セットに追加されます。
また、インターネット ビデオに含まれる意味情報は比較的曖昧で多岐にわたるため、インターネット ビデオを追加するだけでデータ サイズが増加する可能性があることも検証しました。モデルの状況に応じたパフォーマンスの向上には役立たない。
モデルのサイズに関して、チームは 300M、700M、1.1B の 3 つのサイズのモデルをトレーニングし、モデルによって生成されたビデオの品質とコンテキストに応じたパフォーマンスがスケーリング則に従っていることを発見しました。
Vid-ICLは主にパスします同じクエリビデオに対して異なるセマンティクスを持つサンプルビデオを提供する、ビデオコンテキスト学習の有効性と精度を評価します。
例えば、物体を左に動かすというクエリ動画に対して、左に移動する動画、ランダムに移動する動画、逆方向に移動する動画を例に挙げて異なる動画を生成し、生成された結果の評価を利用することができます。モデルが実際に関連ビデオを生成したかどうかを確認します。
定性的結果の観点から、以下の図は、さまざまなビデオ例の下で生成されたビデオを示しています (その他の例については、論文の原文を参照してください)。
それは観察できます:
1) の場合単一ビデオ生成Vid-ICL の品質は、生成されたビデオとクエリ ビデオの一貫性を維持しており、どちらも良好な生成品質を持っています。
2) について生成されたビデオとサンプルビデオの間の意味上の一貫性、生成されたビデオはすべてサンプル ビデオのプロセスに従っていることがわかります。これは、Vid-ICL がサンプル ビデオの意味情報を自発的に取得し、対応するビデオを生成する機能を備えていることを示しています。
以下の図に示すように、同じクエリ ビデオ クリップに対して、Vid-ICL は、サンプル ビデオ内のレンズの動きに基づいて、生成されたビデオを適宜移動することを選択します。
定量的な結果に関して、研究チームは次の 2 つの側面からの自動評価指標を提案しました。
1)ビデオ品質一方、PSNR、FID など、従来の視覚タスクでのピクセル マッチングまたは分布に基づく指標が使用されます。
2)意味の一貫性上記では、分類精度に基づく 2 つの指標 (ビデオ分類精度とプローブ分類精度) が使用されています。
さまざまな指標において、Vid-ICL はベースライン モデルよりも優れた結果を示しています。同様のサンプルビデオの指導の下、Vid-ICL はより現実的で意味的に一貫したビデオを生成することがわかります。
詳細については元の論文を参照してください。
プロジェクトのホームページ: https://aka.ms/vid-icl
論文リンク: https://arxiv.org/abs/2407.0735