私の連絡先情報
郵便管理者@information.bz
2024-08-06
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
賢いもの
著者ZeR0
編集者モーイン
Zhidongxi は 8 月 6 日、良いニュースとして、Zhipu AI のビデオ生成モデル CogVideoX-2B が昨夜正式にオープンソース化されたと報じました。
モデルは GitHub に公開されており、FP16 精度での推論には 18 GB のビデオ メモリのみが必要ですが、微調整には 40 GB のみが必要です。推論には 1 つの 4090 グラフィックス カードを使用でき、微調整には 1 つの A6000 を使用できます。チューニング。
CogVideoX-2B のプロンプトワードの上限は 226 トークン、ビデオの長さは 6 秒、フレームレートは 8 フレーム/秒、ビデオ解像度は 720 * 480 です。
CogVideoX シリーズのオープンソース モデルは、Zhipu AI の商用ビデオ生成モデル「Qingying」と同じ起源を持ちます。 2B バージョンの発売後、将来的には、より強力なパフォーマンスとより大きなパラメータを備えたオープンソース モデルが店頭に並ぶ予定です。
コードリポジトリ:https://github.com/THUDM/CogVideo
モデルのダウンロード:https://huggingface.co/THUDM/CogVideoX-2b
技術レポート:https://github.com/THUDM/CogVideo/blob/main/resources/CogVideoX.pdf
論文によると、CogVideoX はレーダー チャートで他のいくつかのビデオ生成モデルよりも大きく、属性値は六角形に近づいています。
Vincent のビデオの品質を評価するために、Zhipu AI は人間の動き、シーン、ダイナミクスなどの複数の指標を VBench で使用します。また、Dynamic Quality in Devil と Chrono-Magic GPT4o-MT という 2 つの追加ビデオ評価ツールも使用します。スコア、これらのツールはビデオの動的な特性に焦点を当てています。以下の表からわかるように、CogVideoX は複数の指標でリードしています。
人間によるブラインド評価では、5 つの指標すべてにおいて CogVideoX が Kuaishou Keling よりも高いスコアを獲得しました。
GitHub ページには、CogVideoX-2B によって生成されたいくつかのビデオ作品が表示されます。
▲ ヒント:精巧に彫刻されたマストと帆を備えた精巧な木製のおもちゃの船が、海の波を模した豪華な青いカーペットの上を滑らかに滑っています。船体は濃い茶色に塗られ、小さな窓があります。柔らかく質感のあるカーペットは、海の広がりを彷彿とさせる完璧な背景を提供します。船の周りにはさまざまなおもちゃや子供用のアイテムがあり、遊び心のある環境を暗示しています。このシーンは、おもちゃの船の旅が気まぐれな屋内設定での無限の冒険を象徴し、子供時代の無邪気さと想像力を捉えています。
▲ ヒント:カメラは、黒いルーフラックを備えた白いビンテージSUVの後ろを追います。このSUVは、険しい山の斜面にある松の木に囲まれた険しい未舗装道路をスピードを上げて行きます。タイヤからほこりが舞い上がり、未舗装道路を疾走するSUVに太陽の光が当たり、シーン全体に暖かい輝きが投げかけられます。未舗装道路は遠くまで緩やかにカーブしており、他の車や乗り物は見えません。道路の両側の木はセコイアで、緑の斑点が点在しています。車は後ろからカーブを楽々とたどっており、まるで険しい地形をドライブしているようです。未舗装道路自体は険しい丘と山に囲まれ、上には薄い雲が浮かぶ澄んだ青い空が広がっています。
▲ヒント:擦り切れたデニムジャケットとカラフルなバンダナを身に着けたストリートアーティストが、中心部の広大なコンクリートの壁の前に立ち、スプレーペイントの缶を持って、まだら模様の壁にカラフルな鳥をスプレーペイントしています。
▲ ヒント:廃墟と崩れた壁が荒廃の跡を物語る、戦争で荒廃した都市の不気味な背景の中で、感動的なクローズアップが若い女の子を捉えています。彼女の顔は灰で汚れており、周囲の混乱を静かに物語っています。彼女の目は悲しみと回復力が混ざり合って輝き、紛争の荒廃によって無邪気さを失った世界の生々しい感情を捉えています。
CogVideoX は、3D VAE と専門的な Transformer アーキテクチャを使用して一貫した長いビデオを生成し、独自に開発したビデオ理解モデルを通じてテキスト説明を含む比較的高品質のビデオ クリップのコレクションを構築します。
動画データは空間的・時間的な情報を含むため、画像データをはるかに上回るデータ量と計算量を誇ります。Zhipu AIは以下に基づいて提案されています3D 変分オートエンコーダー (3D VAE)ビデオ圧縮方法は、3 次元畳み込みを通じてビデオの空間的次元と時間的次元を同時に圧縮し、より高い圧縮率とより優れた再構成品質を実現します。
▲CogVideoXの3D VAEアーキテクチャ
モデル構造にはエンコーダ、デコーダ、潜在空間正則化器が含まれており、圧縮は 4 段階のダウンサンプリングとアップサンプリングによって実現されます。時間的因果畳み込みにより、情報の因果関係が保証され、コンテキスト並列テクノロジが大規模なビデオ処理に適切に適応できます。
実験の結果、Zhipu AI は、高解像度のコーディングは一般化するのが容易であり、フレーム数を増やすことがより大きな課題であることを発見しました。そのため、モデルのトレーニングは 2 つの段階に分けられます。最初は低いフレーム レートで、小さなバッチでトレーニングします。次に、コンテキスト並列処理を使用して、より高いフレーム レートでトレーニングし、フレーム レートを微調整します。トレーニング損失関数は、L2 損失、LPIPS 知覚損失、および 3D 弁別器の GAN 損失を組み合わせます。
Zhipu AI は、VAE のエンコーダを使用してビデオを潜在空間に圧縮し、その潜在空間をブロックに分割して長いシーケンスに拡張して z_vision を埋め込みます。同時に、T5 を使用してテキスト入力を z_text を埋め込むテキストにエンコードします。次に、シーケンスに沿って z_text と z_vision を次元スプライシングし、スプライスされた埋め込みがフィードされます。エキスパートトランスフォーマーブロック スタックで処理された埋め込みは、最終的にバックステッチされて元の潜在空間形状が復元され、VAE を使用してデコードされてビデオが再構築されます。
▲CogVideoXアーキテクチャ
トレーニング データに関しては、Zhipu AI が低品質のビデオを識別して除外するためのネガティブ ラベルを作成し、video-llama によってトレーニングされたフィルターを通じて 20,000 のビデオ データ サンプルをマークしてスクリーニングし、同時にオプティカル フローと美的スコアを計算しました。しきい値は動的に調整され、生成されたビデオの品質が保証されます。
ビデオ字幕データの不足の問題に対応して、Zhipu AI は次のことを提案しました。画像字幕からビデオ字幕を生成するパイプライン 、エンドツーエンドのビデオ字幕モデルを微調整して、より密度の高い字幕を取得します。この方法では、Panda70M モデルを使用して短い字幕を生成し、CogView3 モデルを使用して高密度画像の字幕を生成し、次に GPT-4 モデルを使用して要約して最終的な短いビデオを生成します。
チームはまた、CogVLM2-Video と Llama 3 ベースの微調整も行いました。CogVLM2-キャプションモデル、高密度の字幕データを使用してトレーニングされ、ビデオ字幕生成プロセスを高速化します。
▲濃密字幕データ生成処理
Zhipu AI チームは、複雑なダイナミクスをキャプチャし、新しいモデル アーキテクチャを探索し、ビデオ情報をより効率的に圧縮し、テキストとビデオ コンテンツをより完全に統合する CogVideoX の能力を向上させるために、ビデオ生成モデルのスケーリング則を引き続き探索するために懸命に取り組んでいます。より大規模で強力なモデルをトレーニングして、より長く高品質のビデオを生成します。
現在、ビデオ生成モデルとアプリケーションはますます増えており、テクノロジーは徐々に成熟していますが、商用レベルのアプリケーションの要件を満たすことができるオープンソースのビデオ生成モデルはまだ存在していません。私たちは、より多くのビデオ生成モデルがオープンソースになり、より多くの開発者や企業がビデオ生成モデルやアプリケーションの開発に参加することを促進し、ビデオ生成に関するさまざまな技術的な最適化と機能開発に貢献することを期待しています。