ニュース

AI版Soraがオープンソース化!最初に商用利用可能なものとして、GitHub は 5 時間で 3.7,000 個のスターを収集しました

2024-08-06

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

ジン・レイはアオフェイ寺院の出身です

パブリックアカウント QbitAI

国内版のSoraは本当にヤバいです。

ちょうど今、ウィズダムスペクトルAI直接明確な影ビデオ生成の背後にある大きなモデルがもたらすものオープンソース

そして最初に市販されたものそんなこと!

このモデルの名前はコグビデオX、GitHub のみでリリースされたばかり5時間、だから彼はそれを乱暴に受け止めた3.7K スター️。

効果を直接見てみましょう。

プロンプト1,人々のクローズアップ

戦争で荒廃した都市の不気味な背景、廃墟と崩れた壁が荒廃の跡を物語る中、心を打つクローズアップが若い少女を捉えている。彼女の顔は灰で汚れており、周囲の混乱を静かに物語っている。彼女の目は悲しみと回復力が入り混じった輝きを放ち、紛争の惨禍で純真さを失った世界の生々しい感情を捉えている。

キャラクターの目などの細部が非常に高精細であるだけでなく、まばたきの前後の連続性も保たれていることがわかります。

もう一度プロンプト 2 に戻って、最後まで一発

カメラは、黒いルーフラックを備えた白いビンテージSUVの後ろを追い、険しい山の斜面にある松の木に囲まれた険しい未舗装道路をスピードを上げて行く。タイヤから土埃が舞い上がり、未舗装道路を疾走するSUVに太陽の光が当たり、シーン全体に暖かい輝きを投げかける。未舗装道路は遠くまで緩やかにカーブしており、他の車や乗り物は見えない。道路の両側の木はセコイアで、緑の木々が点在している。車がカーブを楽々とたどる後ろ姿が映っており、まるで険しい地形をドライブしているようだ。未舗装道路自体は険しい丘と山に囲まれ、上には薄い雲が浮かぶ澄んだ青空が広がっている。

光と影、遠景、近景、車両の走行過程などをすべて捉えます。

そして、これらのエフェクトは正式リリースアクションだけではなく、オンラインで誰でもプレイできます~

シングルカード A100、90 秒で生成可能

Zhipu AI の CogVideoX には複数の異なるサイズが含まれており、今回のオープンソースのものは CogVideoX-2B であることは言及する価値があります。

関連する基本情報は次のとおりです。

FP-16 精度での推論には 18 GB のビデオ メモリのみが必要で、微調整には 40 GB のビデオ メモリのみが必要です。これは、1 枚の 4090 グラフィックス カードで推論を実行でき、1 枚の A6000 グラフィックス カードで微調整を完了できることを意味します。

このモデルはすでに HuggingFace のディフューザー ライブラリでの展開をサポートしていることがわかり、操作は 2 つのステップのみで非常に簡単です。

1. 対応する依存関係をインストールします

ピップ インストール --opencv-python トランスフォーマーのアップグレード ピップ インストール git+https://github.com/huggingface/diffusers.git@878f609aa5ce4a78fea0f048726889debde1d7e8#egg=diffusers # まだPR中

2. コードを実行します

トーチをdiffusesからインポート CogVideoXPipelineをdiffuses.utilsからインポート export_to_video prompt = 「小さな赤いジャケットを着て小さな帽子をかぶったパンダが、静かな竹林の木の椅子に座っています。パンダのふわふわした足でミニチュア アコースティック ギターをかき鳴らし、柔らかくメロディアスな曲を奏でています。近くには、他のパンダが数頭集まって、興味深そうに見守ったり、リズムに合わせて手を叩いたりしています。背の高い竹の間から差し込む日光が、シーンに優しい輝きを放っています。パンダの顔は表情豊かで、演奏に集中し、楽しんでいる様子が伝わってきます。背景には、小川の流れと鮮やかな緑の葉が描かれ、このユニークな音楽パフォーマンスの平和で不思議な雰囲気を高めています。」 パイプ = CogVideoXPipeline.from_pretrained(「THUDM/CogVideoX-2b」, torch_dtype=torch.float16 ).to(「クダ」) prompt_embeds、_ = pipe.encode_prompt( prompt=prompt、do_classifier_free_guidance=True、num_videos_per_prompt=1、max_sequence_length=226、device=「クダ」, dtype=torch.float16, ) video = pipe( num_inference_steps=50, guided_scale=6, prompt_embeds=prompt_embeds, ).frames[0] export_to_video(video, 「出力.mp4」、fps=8)

また、シングルカード A100 では、今説明した手順に従ってビデオを生成するのにわずか 90 秒かかります。

それだけでなく、HuggingFace では、Zhipu AI は次のことも行いました。オンラインでプレイ可能デモ、個人テストの効果次のように:

ご覧のとおり、生成された結果は .mp4 形式だけでなく、GIF 形式でもダウンロードできます。

そこで次の疑問は、Zhipu AI はどのようにそれを行うのかということです。

論文も公開されました

Zhipu AIは今回、ビデオ生成モデルをオープンソース化しただけでなく、その背後にある技術レポートも公開した。

レポート全体を通して、説明する価値のある 3 つの主要な技術的ハイライトがあります。

まず第一に、チームは効率的なシステムを開発しました。3次元変分オートエンコーダ構造(3D VAE) は、元のビデオ空間をサイズの 2% に圧縮し、ビデオ拡散生成モデルのトレーニング コストとトレーニングの難易度を大幅に削減します。

モデル構造にはエンコーダ、デコーダ、潜在空間正則化器が含まれており、圧縮は 4 段階のダウンサンプリングとアップサンプリングによって実現されます。時間的因果畳み込みにより、情報の因果関係が保証され、通信のオーバーヘッドが削減されます。チームはコンテキスト並列処理を使用して大規模なビデオ処理に適応します。

研究チームは実験の結果、高解像度のエンコードは一般化するのが簡単だが、フレーム数を増やすのはより困難であることを発見しました。

したがって、チームは 2 段階でモデルをトレーニングしました。最初は低いフレーム レートとミニバッチで、次にコンテキスト並列処理を通じて高いフレーム レートで微調整しました。トレーニング損失関数は、L2 損失、LPIPS 知覚損失、および 3D 弁別器の GAN 損失を組み合わせます。

に続くエキスパートトランスフォーマー

チームは、VAE のエンコーダを使用してビデオを潜在空間に圧縮し、その後、潜在空間をチャンクに分割して、長いシーケンスの埋め込み z_vision に拡張しました。

同時に、T5 を使用してテキスト入力を z_text を埋め込んだテキストにエンコードし、シーケンス次元に沿って z_text と z_vision を連結します。スプライスされたエンベディングは、処理のためにエキスパート Transformer ブロックのスタックに供給されます。

最後に、チームは埋め込みをバックステッチして元の潜在空間形状を復元し、VAE を使用してデコードしてビデオを再構築しました。

最後のハイライトは、データ

チームは、過剰編集、途切れ途切れの動き、低品質、講義形式、テキスト中心のビデオ、画面ノイズの多いビデオなど、低品質のビデオを識別して除外するためのネガティブ タグを開発しました。

ビデオ ラマでトレーニングされたフィルターを使用して、20,000 個のビデオ データ ポイントに注釈を付け、フィルター処理しました。同時に、オプティカル フローと美的スコアが計算され、生成されたビデオの品質を保証するためにしきい値が動的に調整されます。

通常、ビデオ データにはテキストの説明が含まれていないため、テキストからビデオへのモデルのトレーニングのためにテキストの説明に変換する必要があります。既存のビデオ字幕データセットには短い字幕が含まれており、ビデオ コンテンツを完全に説明できません。

この目的のために、チームはまた、画像字幕からビデオ字幕を生成するパイプラインを提案し、より密度の高い字幕を取得するためにエンドツーエンドのビデオ字幕モデルを微調整しました。

この方法では、Panda70M モデルを使用して短い字幕を生成し、CogView3 モデルを使用して高密度の画像字幕を生成し、GPT-4 モデルを使用して要約して最終的な短いビデオを生成します。

また、CogVLM2-Video と Llama 3 に基づいて CogVLM2-Caption モデルを微調整し、ビデオ字幕生成プロセスを高速化するために高密度の字幕データを使用してトレーニングしました。

以上がCogVideoXの技術力です。

もう一つ

ビデオ生成の分野では、Runway の第3世代新たなアクションも――

Gen-3 Alpha の Vincent Video は、「フィード」画像をサポートするようになりました。これは、ビデオの最初のフレームとして使用できるだけでなく、ビデオの最後のフレームとしても使用できます。

AIが時間を巻き戻しているような気がします。

効果を見てみましょう:

最後に、Zhipu AIの大規模なオープンソースビデオ生成モデルに関しては、関連リンクを以下に添付します~

コードリポジトリ:
https://github.com/THUDM/CogVideo

モデルのダウンロード:
https://huggingface.co/THUDM/CogVideoX-2b

技術レポート:
https://github.com/THUDM/CogVideo/blob/main/resources/CogVideoX.pdf

オンライン体験:
https://huggingface.co/spaces/THUDM/CogVideoX