Zhipu オープンソース Qingying CogVideoX 2B モデル、単一の RTX 4090 を推論に使用可能

2024-08-06

著者｜大型モデルモバイルグループ
メール｜ [email protected]

大規模モデル技術の継続的な開発により、ビデオ生成技術は徐々に成熟してきています。 Sora や Gen-3 などのクローズドソースのビデオ生成モデルに代表されるテクノロジーは、業界の将来の展望を再定義しています。ただし、現時点では、商用レベルのアプリケーションの要件を満たすことができるオープンソースのビデオ生成モデルはまだありません。

Zhipu AI は、「先進的なテクノロジーで世界の開発者にサービスを提供する」というコンセプトを堅持し、すべての開発者とすべての企業が自由に開発できることを願って、「Qingying」と同じ起源を持つビデオ生成モデルである CogVideoX をオープンソース化すると発表しました。独自のビデオ生成モデルを使用して、業界全体の迅速な反復と革新的な開発を促進します。

Cog Video は、1 枚の A6000 グラフィックスカードで推論を実行し、微調整を行うことができます。

CogVideoX-2B のプロンプトワードの上限は 226 トークン、ビデオの長さは 6 秒、フレームレートは 8 フレーム/秒、ビデオ解像度は 720*480 です。私たちはビデオ品質の向上のために広いスペースを確保しており、ワードの最適化、ビデオの長さ、フレームレート、解像度、シーンの微調整、およびビデオ関連のさまざまな機能の開発を促進するための開発者のオープンソースへの貢献を期待しています。

より強力なパフォーマンスとより大きなパラメータを備えたモデルが準備中ですので、ご期待ください。

コードリポジトリ:
https://github.com/THUDM/CogVideo

モデルのダウンロード:
https://huggingface.co/THUDM/CogVideoX-2b

技術レポート: https://github.com/THUDM/CogVideo/blob/main/resources/CogVideoX.pdf

モデル

VA：

動画データは空間的・時間的な情報を含むため、画像データをはるかに上回るデータ量と計算量を誇ります。この課題に対処するために、3D 変分オートエンコーダ (3D VAE) に基づくビデオ圧縮方法を提案します。 3D VAE は、3 次元の畳み込みを通じてビデオの空間的次元と時間的次元を同時に圧縮し、より高い圧縮率とより優れた再構成品質を実現します。

モデル構造にはエンコーダ、デコーダ、潜在空間正則化器が含まれており、圧縮は 4 段階のダウンサンプリングとアップサンプリングによって実現されます。時間的因果畳み込みにより、情報の因果関係が保証され、通信のオーバーヘッドが削減されます。大規模なビデオ処理に対応するために、コンテキスト並列処理技術を採用しています。実験の結果、高解像度のエンコードは一般化するのが簡単ですが、フレーム数を増やすのはより困難であることがわかりました。したがって、モデルを 2 段階でトレーニングします。最初は低いフレームレートとミニバッチで、次にコンテキスト並列処理を通じて高いフレームレートで微調整します。トレーニング損失関数は、L2 損失、LPIPS 知覚損失、および 3D 弁別器の GAN 損失を組み合わせます。

エキスパートトランスフォーマー

VAE のエンコーダを使用してビデオを潜在空間に圧縮し、その後、潜在空間をブロックに分割して、長いシーケンスの埋め込み z_vision に拡張します。同時に、T5 を使用してテキスト入力を z_text を埋め込んだテキストにエンコードし、シーケンス次元に沿って z_text と z_vision を連結します。スプライスされたエンベディングは、処理のためにエキスパート Transformer ブロックのスタックに供給されます。最後に、埋め込みをバックステッチして元の潜在空間形状を復元し、VAE を使用してデコードしてビデオを再構築します。

データ

ビデオ生成モデルのトレーニングでは、高品質のビデオデータをスクリーニングして現実世界のダイナミクスを学習する必要があります。人間による編集や撮影の問題により、ビデオが不正確になる可能性があります。私たちは、過度に編集されたビデオ、途切れ途切れの動き、低品質、講義形式のビデオ、テキスト中心のビデオ、画面ノイズの多いビデオなど、低品質のビデオを識別して除外するためのネガティブラベルを開発しました。 video-llama でトレーニングされたフィルターを使用して、20,000 のビデオデータポイントに注釈を付け、フィルター処理しました。同時に、オプティカルフローと美的スコアが計算され、生成されたビデオの品質を保証するためにしきい値が動的に調整されます。

通常、ビデオデータにはテキストの説明が含まれていないため、テキストからビデオへのモデルのトレーニングのためにテキストの説明に変換する必要があります。既存のビデオ字幕データセットには短い字幕が含まれており、ビデオコンテンツを完全に説明できません。画像字幕からビデオ字幕を生成し、エンドツーエンドのビデオ字幕モデルを微調整してより密度の高い字幕を取得するパイプラインを提案します。この方法では、Panda70M モデルを使用して短い字幕を生成し、CogView3 モデルを使用して高密度の画像字幕を生成し、GPT-4 モデルを使用して要約して最終的な短いビデオを生成します。また、CogVLM2-Video と Llama 3 に基づいて CogVLM2-Caption モデルを微調整し、高密度の字幕データを使用してトレーニングし、ビデオ字幕生成プロセスを高速化しました。

パフォーマンス

テキストからビデオへの生成の品質を評価するために、VBench で人間のアクション、シーン、ダイナミクスなどの複数のメトリクスを使用します。また、ビデオの動的特性に焦点を当てた、Devil の Dynamic Quality と Chrono-Magic の GPT4o-MT スコアという 2 つの追加ビデオ評価ツールも使用しました。以下の表に示すとおりです。

ビデオ生成におけるスケーリング則の有効性を検証しました。今後は、データ規模とモデル規模の拡大を継続しながら、より画期的なイノベーションを備えた新しいモデルアーキテクチャを探索し、ビデオ情報をより効率的に圧縮し、より完全に統合します。テキストとビデオのコンテンツ。

デモ

精巧に彫刻されたマストと帆を備えた精巧な木製のおもちゃの船が、海の波を模した豪華な青いカーペットの上を滑らかに滑走しています。船体は濃い茶色に塗られ、小さな窓があります。柔らかく質感のあるカーペットは、海の広がりを思わせる完璧な背景を提供します。船の周りにはさまざまなおもちゃや子供用のアイテムがあり、遊び心のある環境を暗示しています。このシーンは、おもちゃの船の旅が気まぐれな屋内設定での終わりのない冒険を象徴し、子供時代の無邪気さと想像力を捉えています。

カメラは、黒いルーフラックを備えた白いビンテージSUVの後ろを追い、険しい山の斜面にある松の木に囲まれた険しい未舗装道路をスピードを上げて行く。タイヤから土埃が舞い上がり、未舗装道路を疾走するSUVに太陽の光が当たり、シーン全体に暖かい輝きを投げかける。未舗装道路は遠くまで緩やかにカーブしており、他の車や乗り物は見えない。道路の両側の木はセコイアで、緑の木々が点在している。車がカーブを楽々とたどる後ろ姿が映っており、まるで険しい地形をドライブしているようだ。未舗装道路自体は険しい丘と山に囲まれ、上には薄い雲が浮かぶ澄んだ青空が広がっている。

戦争で荒廃した都市の不気味な背景、廃墟と崩れた壁が荒廃の跡を物語る中、心を打つクローズアップが若い少女を捉えている。彼女の顔は灰で汚れており、周囲の混乱を静かに物語っている。彼女の目は悲しみと回復力が入り混じった輝きを放ち、紛争の惨禍で純真さを失った世界の生々しい感情を捉えている。

ステンドグラスのような羽を持つ一匹の蝶が、花畑の中をひらひらと舞っています。このショットは、繊細な羽を通過する光を捉え、鮮やかで色鮮やかな光景を作り出しています。HD。

雪に覆われた森の風景と、その中を走る未舗装の道路。道路の両側には雪に覆われた木々が並び、地面も雪に覆われています。太陽が輝き、明るく穏やかな雰囲気が漂っています。道路は空っぽのようで、動画には人や動物は映っていません。動画のスタイルは、雪に覆われた森の美しさと道路の静けさに焦点を当てた、自然の風景を撮影したものです。

バーベキューの炎で焼くチキンとピーマンのケバブの超クローズアップ。浅いフォーカスと軽い煙。鮮やかな色彩

「」をクリックしていきましょう

ニュース

Zhipu オープンソース Qingying CogVideoX 2B モデル、単一の RTX 4090 を推論に使用可能

導入

私の連絡先情報