ニュース

MotionClone: トレーニングは不要で、ワンクリックでビデオの動きのクローンを作成できます。

2024-07-15

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

AIxivコラムは、マシンハートが学術的・技術的な内容を掲載するコラムです。過去数年間で、Heart of the Machine AIxiv コラムには 2,000 件を超えるレポートが寄せられ、世界中の主要な大学や企業のトップ研究室がカバーされ、学術交流と普及を効果的に促進しています。共有したい優れた作品がある場合は、お気軽に寄稿するか、報告のために当社までご連絡ください。送信メール: [email protected]; [email protected]

トレーニングや微調整は必要なく、グローバルなカメラの動きでも、ローカルな体の動きでも、参照ビデオの動きを、プロンプトワードで指定された新しいシーンに複製できます。



論文: https://arxiv.org/abs/2406.05338

ホームページ: https://bujiazi.github.io/motionclone.github.io/

コード: https://github.com/Bijiazi/MotionClone

この論文では、MotionClone と呼ばれる新しいフレームワークを提案します。任意の参照ビデオを指定すると、モデルのトレーニングや微調整を行わずに、対応するモーション情報を抽出でき、テキスト生成されたビデオを実装することができます。カスタマイズされたモーション (text2video) 付き。



以前の研究と比較して、MotionClone には次の利点があります。

トレーニングや微調整は不要: 以前のアプローチでは、モーション キューをエンコードするためにモデルをトレーニングしたり、特定のモーション パターンに合わせてビデオ拡散モデルを微調整したりする必要がよくありました。モーション キューをエンコードするトレーニング モデルは、トレーニング ドメイン外のモーションに対する汎化能力が低く、既存のビデオ生成モデルを微調整すると、ベース モデルの基礎となるビデオ生成品質が損なわれる可能性があります。 MotionClone では追加のトレーニングや微調整を導入する必要がなく、ベース モデルの生成品質を最大限に維持しながらモーションの汎化機能が向上します。

モーション品質の向上: 既存のオープンソース Wensheng ビデオ モデルでは、大規模で合理的なモーションを生成することが困難です。MotionClone では、主成分時間的注意モーション ガイダンスを導入し、モーションの合理性を効果的に確保しながら、生成されたビデオのモーション振幅を大幅に強化します。

空間的位置関係の改善: ダイレクト モーション クローン作成によって引き起こされる可能性のある空間的意味論的な不一致を回避するために、MotionClone は、空間的意味論的情報と時空間的動き情報の正しい結合を支援するクロスアテンション マスクに基づく空間的意味論的情報のガイダンスを提案します。

時間的注意モジュールの動き情報



テキスト生成されたビデオ作品では、ビデオのフレーム間相関をモデル化するために時間的注意モジュール (Temporal Attendance) が広く使用されています。時間的アテンション モジュールのアテンション マップ スコアはフレーム間の相関関係を表すため、モーション クローンを実現するためにアテンション スコアを制約することでフレーム間の接続を複製できるかどうかが直感的にわかります。

ただし、実験の結果、アテンション マップ全体 (プレーン コントロール) を直接コピーすると、非常に大まかな動きの伝達しか実現できないことがわかりました。これは、アテンションの重みのほとんどがノイズまたは非常に微妙な動きの情報に対応しており、アテンション マップと組み合わせるのが難しいためです。一方では、テキストは、規定された新しいシナリオの組み合わせによって、潜在的に効果的な動作ガイダンスを覆い隠します。

この問題を解決するために、MotionClone は主コンポーネント時間注意ガイダンス メカニズム (プライマリ時間注意ガイダンス) を導入します。これは、時間注意の主コンポーネントのみを使用してビデオ生成をまばらにガイドし、それによってノイズや微妙な動き情報をフィルタリングします。 、テキストで指定された新しいシナリオでモーションの効果的な複製を実現します。



空間意味修正

主成分時間的注意モーション ガイダンスは、参照ビデオのモーション クローンを実現できますが、動く被写体がユーザーの意図と一致していることを保証できないため、ビデオ生成の品質が低下し、場合によっては動く被写体の位置がずれることさえあります。ケース。

上記問題を解決するために、MotionCloneでは空間意味誘導機構(Location-aware semantic guide)を導入し、クロスアテンションマスクを通じて映像の前後の背景領域を分割し、それぞれの意味情報を制約することで空間意味を確保しています。ビデオの前後の背景は、時間的な動きと空間的なセマンティクスの正しい結合を促進します。

MotionClone 実装の詳細



DDIM 反転: MotionClone は、DDIM 反転を使用して入力リファレンス ビデオを潜在空間に反転し、リファレンス ビデオの時間的注意の主成分抽出を実現します。

ガイダンス ステージ: 各ノイズ除去中に、MotionClone は主成分の時間的注意モーション ガイダンスと空間セマンティック情報ガイダンスを同時に導入します。これらは連携して、制御可能なビデオ生成のための包括的なモーションとセマンティック ガイダンスを提供します。

ガウス マスク: 空間セマンティック ガイダンス メカニズムでは、ガウス カーネル関数を使用してクロスアテンション マスクをぼかし、潜在的な構造情報の影響を排除します。

DAVIS データセットからの 30 個のビデオがテストに使用されました。実験結果は、MotionClone が以前のモーション転送方法を超えて、テキストの適合性、タイミングの一貫性、および複数のユーザー調査指標において大幅な改善を達成したことを示しています。具体的な結果を以下の表に示します。



MotionClone と既存のモーション転送手法の生成結果を比較すると、MotionClone が優れたパフォーマンスを発揮していることがわかります。



要約すると、MotionClone は、トレーニングや微調整を必要とせずに、リファレンス ビデオ内のモーションを、ユーザーが指定したプロンプト ワードで指定された新しいシーンに効果的にクローンできる、新しいモーション転送フレームワークです。ビデオ モデルはプラグ アンド プレイを提供します。スポーツカスタマイズ。

MotionClone は、既存のベースモデルの生成品質を維持しながら、効率的な主成分モーション情報ガイダンスと空間セマンティック ガイダンスを導入し、テキストとのセマンティック アライメント能力を確保しながら、参照ビデオとのモーションの一貫性を大幅に向上させ、高品質を実現します。 -制御可能なビデオ生成。

さらに、MotionClone は豊富なコミュニティ モデルに直接適応して多様なビデオ生成を実現でき、非常に高い拡張性を備えています。