ニュース

無制限のビデオ生成、計画と意思決定、次のトークン予測とフルシーケンス拡散の拡散強制統合

2024-07-23

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

マシンハートレポート

編集者:パンダW

現在、次のトークン予測パラダイムを使用した自己回帰大規模言語モデルが世界中で普及していると同時に、インターネット上の多数の合成画像やビデオがすでに拡散モデルの威力を示しています。

最近、MIT CSAIL の研究チーム (その 1 人は MIT の博士課程学生である Chen Boyuan です) は、全系列拡散モデルとネクスト トークン モデルの強力な機能を統合することに成功し、トレーニングおよびサンプリング パラダイムである拡散強制 ( DF)。

論文のタイトル: 拡散強制: 次トークン予測とフルシーケンス拡散の融合

論文アドレス: https://arxiv.org/pdf/2407.01392

プロジェクトウェブサイト:https://boyuan.space/diffusion-forcing

コードアドレス: https://github.com/buoyancy99/diffusion-forcing

以下に示すように、拡散強制は、一貫性と安定性の点でフルシーケンス拡散と教師強制の両方を大幅に上回っています。

このフレームワークでは、各トークンはランダムな独立したノイズ レベルに関連付けられており、共有次トークン予測モデルまたは次トークン予測モデルを、任意の独立したトークンごとのスキームに従ってノイズ除去に使用できます。

この方法は、トークンにノイズを追加するプロセスが部分的なマスキングの一種であるという観察からインスピレーションを受けました。ゼロ ノイズはトークンがマスキングされていないことを意味し、完全なノイズはトークンを完全にマスキングします。したがって、DF は、ノイズの多いトークンの変数セットを除去するマスクをモデルに強制的に学習させます (図 2)。

同時に、複数の次トークン予測モデルの組み合わせとして予測方法をパラメータ化することで、システムは異なる長さのシーケンスを柔軟に生成し、組み合わせ方式で新しい軌跡に一般化できます (図 1)。

チームは、シーケンス生成のための DF を因果拡散強制 (CDF) に実装しました。CDF では、将来のトークンが因果アーキテクチャを通じて過去のトークンに依存します。彼らは、シーケンスのすべてのトークンを一度にノイズ除去するようにモデルをトレーニングしました (各トークンは独立したノイズ レベルを持ちます)。

サンプリング中、CDF は一連のガウス ノイズ フレームを徐々にノイズ除去してクリーンなサンプルにします。この場合、異なるフレームは各ノイズ除去ステップで異なるノイズ レベルを持つ可能性があります。次のトークン予測モデルと同様に、CDF は可変長のシーケンスを生成できます。次のトークン予測とは異なり、CDF のパフォーマンスは、次のトークンを予測する場合でも、将来の数千のトークンを予測する場合でも、継続的なトークンを予測する場合でも非常に安定しています。

また、フルシーケンス拡散と同様に指導を受けることもでき、高額な報酬の発生も可能です。 CDF は、因果関係、柔軟なスコープ、可変ノイズ スケジューリングを連携して活用することにより、新機能であるモンテカルロ ツリー ガイダンス (MCTG) を有効にします。非因果的全系列拡散モデルと比較して、MCTG は高報酬生成のサンプリング レートを大幅に向上させることができます。図 1 は、これらの機能の概要を示しています。

実験

研究チームは、ビデオや時系列の予測、計画、模倣学習などのさまざまなアプリケーションにおける生成シーケンス モデルとしての拡散強制の利点を評価しました。

ビデオ予測: 一貫した安定したシーケンスの生成と無限の拡張

ビデオ生成モデリング タスクでは、Minecraft ゲーム ビデオと DMLab ナビゲーションに基づいて、因果拡散のための畳み込み RNN 実装をトレーニングしました。

図 3 は、拡散強制とベースラインの定性的な結果を示しています。

拡散強制はトレーニング範囲を超えても安定して拡張できる一方、教師強制とフルシーケンス拡散ベンチマークはすぐに発散することがわかります。

普及計画: MCTG、因果不確実性、柔軟な範囲制御

強制を拡散する能力は、意思決定に独特の利点をもたらします。チームは、標準のオフライン強化学習フレームワークである D4RL を使用して、新しく提案された意思決定フレームワークを評価しました。

表 1 に定性的および定量的な評価結果を示します。見てわかるように、拡散強制は 6 つの環境すべてでディフューザーとすべてのベースラインを上回っています。

制御可能なシーケンスの組み合わせの生成

研究チームは、サンプリング スキームを変更するだけで、トレーニング時に観察されたシーケンスのサブシーケンスを柔軟に組み合わせることができることを発見しました。

彼らは 2D 軌跡データセットを使用して実験を行いました。正方形の平面上では、すべての軌跡は 1 つの角から始まり、反対側の角で終わり、一種の十字形を形成します。

上の図 1 に示すように、組み合わせ動作が必要ない場合、DF は完全なメモリを維持し、十字型の分布を複製することができます。組み合わせが必要な場合は、モデルを使用して MPC を使用してメモリなしでより短い計画を生成し、それによって十字形のサブ軌道をステッチして V 字形の軌道を取得できます。

ロボティクス: 長距離模倣学習と堅牢な視覚運動制御

拡散強制は、実際のロボットの視覚的な動作制御に新たな機会ももたらします。

模倣学習は、専門家によって実証された観察されたアクションのマッピングを学習する、一般的に使用されるロボット操作技術です。ただし、記憶力が不足していると、長距離タスクの模倣学習が困難になることがよくあります。 DF はこの欠点を軽減するだけでなく、模倣学習をより堅牢にすることもできます。

記憶を模倣学習に使用します。 Franka ロボットを遠隔制御することで、チームはビデオとモーション データ セットを収集しました。図 4 に示すように、タスクは 3 番目の位置を使用してリンゴとオレンジの位置を交換することです。フルーツの初期位置はランダムであるため、可能な目標状態は 2 つあります。

さらに、3 番目の位置にフルーツがある場合、現在の観察から望ましい結果を推測することはできません。どのフルーツを移動するかを決定するために、ポリシーは初期構成を記憶しておく必要があります。一般的に使用される動作クローン作成手法とは異なり、DF は記憶を独自の隠れた状態に自然に統合できます。 DF は 80% の成功率を達成できましたが、拡散戦略 (現時点で最良の記憶を持たない模倣学習アルゴリズム) は失敗したことがわかりました。

さらに、DF はノイズに対してより堅牢であり、ロボットの事前トレーニングを容易にすることができます。

時系列予測: 拡散強制は優れた一般系列モデルです

多変量時系列予測タスクの場合、チームの研究は、DF が以前の拡散モデルと有利に比較するのに十分であり、以下に基づいていることを示しています。 変成器 モデルは同等です。

技術的な詳細と実験結果については、元の論文を参照してください。