アリババ、タッチするだけで猫が振り向く「マジックペン馬良版Sora」公開デモ動画20本と技術レポート10ページ

アリババ、タッチするだけで猫が振り向く「マジックペン馬良版Sora」を公開デモ動画20本と技術レポート10ページ

2024-08-03

スマートなもの (公開アカウント:翻訳）
著者 バニラ
編集 李水清

AIビデオ生成の分野は活況を呈しており、国内外でWenshengやTushengなどの斬新なビデオ製品が後を絶たない形で登場しています。大手メーカーの「巻き込み」により、現在の動画生成モデルはあらゆる面で「偽物と本物」の影響に近づいています。

しかし同時に、ほとんどのビデオ生成モデルの指示に従う精度と能力はまだ改善する必要があり、ビデオの生成は依然として「カードを引く」プロセスであり、多くの場合、ユーザーはニーズを満たす結果を得るために何度も生成する必要があります。。これは、過剰な計算能力コストやリソースの無駄などの問題も引き起こします。

ビデオ生成の精度を向上させ、「描画カード」の数を減らし、リソースをできるだけ少なくしてニーズを満たすビデオを取得するにはどうすればよいでしょうか?

Zhidongxi は 8 月 3 日、Alibaba チームが最近立ち上げたと報告しました。動画生成モデルトラ、に基づくことができますトラック、画像、テキストまたはそれらを組み合わせて、わずか数ストロークで正確なモーションコントロールビデオをすばやく生成し、サポートも提供します。最初と最後のフレーム制御、ビデオ生成の制御性を別のレベルに引き上げます。

//oss.zhidx.com/uploads/2024/08/66acd09cc2d2b_66acd09cbf165_66acd09cbf141_オープニング.mp4

トラさんは初の軌道指向の DiT フレームワークモデルDiT のスケーラビリティを利用して、Tora によって生成されたオブジェクトのモーションは、軌道を正確に追跡できるだけでなく、物理世界のダイナミクスを効果的にシミュレートすることもできます。関連する論文は 8 月 1 日に arXiv で公開されました。

▲トラ紙

Tora は現在、ビデオデモンストレーションのみを提供していますが、プロジェクトのホームページには、将来的にはオンラインデモと推論およびトレーニングコードをリリースする予定であることが示されています。

用紙のアドレス:

https://arxiv.org/abs/2407.21705

プロジェクトアドレス:

https://ali-videoai.github.io/tora_video/

1. モーション軌道を正確に制御するための 3 つのモーダル組み合わせ入力

トラサポートトラック、テキスト、画像3 つのモダリティ、またはそれらを組み合わせた入力により、異なる長さ、アスペクト比、解像度のビデオコンテンツを動的かつ正確に制御できます。

軌跡の入力には方向を持った様々な直線や曲線を入力でき、方向の異なる複数の軌跡を組み合わせることもできます。たとえば、S 字カーブを使用して浮遊オブジェクトの軌道を制御したり、テキストの説明を使用して速度を制御したりできます。以下のビデオでは、プロンプトの単語に「ゆっくり」、「エレガント」、「優しく」などの副詞が使用されています。

//oss.zhidx.com/uploads/2024/08/66acd0922df15_66acd0921dea0_66acd0921de7e_curve trajectory.mp4

同じ軌道を軸上で繰り返し移動させ、前後に揺れる絵を作成することもできます。

//oss.zhidx.com/uploads/2024/08/66acd09e8ab1e_66acd09e86884_66acd09e86862_前後トラック.mp4

同じ画像上に異なる軌跡を描画することで、Tora は異なる動作方向のビデオを生成することもできます。

//oss.zhidx.com/uploads/2024/08/66acd0948ef53_66acd0948af6b_66acd0948af47_同じ写真.mp4

Tora は、同じ軌跡入力に基づいて、被験者間の違いに基づいて異なる動作モードを生成します。

//oss.zhidx.com/uploads/2024/08/66acd09285368_66acd09281598_66acd09281575_circle.mp4

従来の一般的なモーションブラシ機能との違いは、入力画像がなくても軌跡とテキストの組み合わせから対応する動画を生成できる点です。

たとえば、以下のビデオの 2 つのビデオ 1 と 3 は、初期フレームなしで、軌跡とテキストのみが生成されます。

//oss.zhidx.com/uploads/2024/08/66acd09712f12_66acd0970ea1c_66acd0970e9fa_track text.mp4

Tora は最初と最後のフレーム制御もサポートしていますが、この場合は論文に写真として掲載されるだけで、ビデオによるデモは提供されません。

▲虎の最初と最後のフレーム制御

では、テキストと画像の 2 つのモーダル入力しかない場合、同じ効果を達成できるでしょうか?この疑問を念頭に置いて、同じ最初のフレームとプロンプトワードを他の AI ビデオジェネレーターに入力してみました。

以下のビデオの左から右、上から下の順に、Tora、Vidu、Qingying、および Keling によって生成されたビデオです。軌跡が直線の場合、軌跡入力なしの動画生成ではかろうじて要件を満たしていることがわかります。

//oss.zhidx.com/uploads/2024/08/66acd5287df2f_66acd5287a1b5_66acd5287a197_鱼.mp4

しかし、必要な動作軌跡が曲線になると、従来のテキスト + 画像入力では需要を満たすことができなくなります。

//oss.zhidx.com/uploads/2024/08/66acd51822425_66acd5181dfab_66acd5181df87_花.mp4

2. に基づいてオープンソラフレームワーク、革新的な 2 つのモーション処理モジュール

トラさんを養子にしましたオープンソラDiT アーキテクチャの基本モデルである OpenSora は、AI スタートアップの Luchen Technology によって設計され、オープンソース化されたビデオ生成モデルフレームワークです。

DiT ベースの軌道制御ビデオ生成を実現するために、Tora は 2 つの新しいモーション処理モジュールを導入しました。軌道抽出器（軌道抽出器）モーションガイダンスフュージョン(モーションガイダンスフューザー)、提供された軌道をマルチレベルの時空間モーションパッチにエンコードするために使用されます。

以下の図は Tora の全体的なアーキテクチャを示しています。このアプローチは DiT のスケーラビリティと一致しており、長時間持続する高解像度のモーション制御ビデオの作成を可能にします。

▲虎全体の建築

で、軌道抽出器3D モーション VAE (変動オートエンコーダー) を使用して、軌跡ベクトルがビデオパッチと同じ潜在空間に埋め込まれます。これにより、連続するフレーム間のモーション情報を効果的に保持できます。その後、積み重ねられた畳み込みレイヤーを使用して階層的なモーション特徴を抽出します。

モーションガイダンスフュージョン次に、適応正規化レイヤーを使用して、これらのマルチレベルの動き条件を対応する DiT ブロックにシームレスに入力し、ビデオ生成が常に定義された軌道に従うようにします。

DiT ベースのビデオ生成と軌道を組み合わせるために、著者らは融合アーキテクチャの 3 つのバリエーションを検討し、各 STDiT ブロックにモーションパッチを挿入し、Adaptive Norm が最高のパフォーマンスを実証しました。

▲運動誘導融合デバイスの 3 つのアーキテクチャ設計

特定のトレーニングプロセス中に、著者はさまざまな入力条件に対してさまざまなトレーニング戦略を採用しました。

軌道トレーニングでは、Tora は 2 段階のトレーニング方法を使用して、トレーニングビデオから密なオプティカルフローを抽出します。第 2 段階では、モーションセグメンテーションの結果とオプティカルフローに基づいて、オプティカルフローから 1 ～ N 個のオブジェクトをランダムに選択します。軌跡サンプルは、最終的にガウスフィルターを適用することによって調整されます。

画像トレーニングでは、Tora は視覚的な調整をサポートするために OpenSora が採用したマスキング戦略に従い、マスクされていないフレームのビデオパッチはノイズの影響を受けずに、テキスト、画像、軌跡を統合できます。ノイズを統合モデルにシームレスに統合します。

高度なモーション制御可能なビデオ生成モデルと定量的に比較すると、生成されるフレーム数が増加するにつれて、Tora は UNet ベースの方法よりもパフォーマンス上の利点が増し、軌道制御のより高い安定性が維持されます。

▲Toraと他の制御可能なビデオ生成モデルの比較

たとえば、同じ入力に基づいて、Tora によって生成されたビデオは、DragNUWA および MotionCtrl モデルによって生成されたビデオよりも滑らかで、モーション軌跡をより正確にたどります。

//oss.zhidx.com/uploads/2024/08/66acd0bd4936e_66acd0bd456db_66acd0bd456b9_比較ビデオ.mp4

3. 「未来」は実現し、アリババは計画を立て続ける人工知能ビデオ

AIビデオ生成プレーヤーは本格化しており、アリババはAIビデオトラックを継続的に包囲しています。ビデオ生成の長さと品質に焦点を当てた Sora や他の一般的なモデルと比較して、アリババチームのプロジェクトは、さまざまなビデオ生成形式でのアルゴリズムの特定のアプリケーションに重点を置いているようです。

今年1月にTongyi Qianwenが「National Dance King」を立ち上げ、「兵馬俑舞主題3」で有名になり、2月にはアリババが写真に写った人物を登場させるポートレートビデオ生成フレームワークEMOをリリースした。たった一枚の写真で。

当時、Zhidongzhi はアリババの AI ビデオのレイアウトを数えたところ、ビンセントビデオ、トゥシェンビデオ、キャラクターダンス、ポートレートトークなどをカバーする、4 か月間に少なくとも 7 つの新しいプロジェクトを立ち上げていたことがわかりました。（国産神級AI登場！ガオ・チー強がルオ・シャンに変身、蔡徐坤がキング・オブ・ラップとなりソラと連携）

半年が経った今、EMOは「未来」からTongyiアプリの「全国的な歌と演奏」機能に変わり、誰でも利用できるようになりました。アリババはさらに多くのAIビデオプロジェクトもリリースしている。

1、アトモビデオ: 高忠実度の画像からビデオへの生成

AtomoVideo は 3 月 5 日にリリースされました。これは、高忠実度の Tusheng ビデオフレームワークであり、多粒度の画像挿入と高品質のデータセットおよびトレーニング戦略に基づいて、生成されたビデオと指定された参照画像の間の高い忠実度を維持できます。豊富な運動強度と適切なタイミングの一貫性を実現します。

▲ATOMOVideoはビデオエフェクトを生成します

プロジェクトのホームページ:https://atomo-video.github.io/

2、イージーアニメイトv3:単一画像+テキストから高解像度の長いビデオを生成

EasyAnimate は、アリババが 4 月 12 日に開始したビデオ生成処理プロセスで、わずか 3 か月で v3 バージョンまで反復されました。 DiT フレームワークを拡張することでモーションモジュールを導入し、時間的なダイナミクスをキャプチャする機能を強化し、生成されるビデオの滑らかさと一貫性を確保します。さまざまな解像度と 24fps のフレームレートで約 6 秒のビデオを生成できます。

▲EasyAnimate v3はビデオエフェクトを生成します

プロジェクトのホームページ:https://github.com/aigc-apps/EasyAnimate

結論：人工知能ビデオ生成がより制御可能になりました

AIビデオ生成の長さと品質が一定のレベルに達したとき、生成されたビデオをどのようにより制御しやすく、よりニーズに合わせたものにするかが現時点での重要な命題です。

精度、制御性、リソース利用効率の継続的な最適化により、AIビデオ生成製品の使用体験は新たな段階を迎え、価格もより手頃になり、より多くのクリエイターが参加できるようになります。

ニュース

アリババ、タッチするだけで猫が振り向く「マジックペン馬良版Sora」を公開デモ動画20本と技術レポート10ページ

導入

私の連絡先情報

ニュース

アリババ、タッチするだけで猫が振り向く「マジックペン馬良版Sora」を公開 デモ動画20本と技術レポート10ページ

導入

私の連絡先情報

アリババ、タッチするだけで猫が振り向く「マジックペン馬良版Sora」を公開デモ動画20本と技術レポート10ページ