ニュース

Zhipu AIが大規模なビデオ生成モデルをリリース、Bilibiliが研究開発に参加、Yizhuangがコンピューティングパワーを提供 |

2024-07-26

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


ビデオの大きなモデルは、数百のモデルの戦いに参加します。

著者|趙建‍‍‍

今年は、大規模な「ビデオ生成」モデルが爆発的に増加した最初の年です。過去 2 か月間、Kuaishou Keling、SenseTime Vimi、Luma AI、Aishi Technology Pixverse、Runway Gen-3 およびその他の大型ビデオ モデルが互いに追いかけ合っているのを見てきました。

しかし、今年上半期、大手ビデオ生成モデル企業はビデオ生成の機能のみに焦点を当てる傾向がありました。

今年下半期には、主要な言語モデル企業が徐々に OpenAI の足跡をたどり、言語モデルとビデオ モデルを統合するために大規模なビデオ モデルの市場に参入するでしょう。

注目度の高い「6 大モデル」の中で、最も速く動いているのは Zhipu AI です。

今朝、この清華を拠点とする大型モデルのユニコーンは、すべてのユーザーに直接公開され、文盛ビデオと土盛ビデオをサポートするビデオ生成大型モデル製品「清英」を発表しました。

Zhipu Qingyan PC またはアプリにテキストまたは画像 (プロンプトなど) を入力した後、ユーザーは、漫画 3D、白黒、油絵、映画スタイルなど、生成したいスタイルを選択でき、Qingying 独自のスタイルが追加されます。音楽、AI の想像力に満ちたビデオ クリップを生成します。さらに、「AI ダイナミック フォト ミニ プログラム」は Tusheng ビデオをサポートします。

大規模ビデオモデルの分野の現状について、Zhang Peng 氏は、大規模言語モデルと同様に、おそらく 100 の学派が競合する状況になるだろうと考えています。

商業化戦略に関して、Qingying の現在の料金プランは次のとおりです。最初のテスト期間中は、すべてのユーザーが無料で使用でき、1 日 (24 時間) の高速チャネルの権利を解除するには 199 元を支払います。 1 年間の有料高速アクセス チャンネル権。 Zhipu AIのZhang Peng最高経営責任者(CEO)は、「現在の商業化はまだ非常に初期段階にあり、コストは実際には非常に高い。市場のフィードバックに基づいて徐々に反復していく」と述べた。

Qingying API は、Zhipu ラージ モデル オープン プラットフォームでも同時に起動され、企業や開発者は API を呼び出すことで Wensheng Video と Tusheng Video のモデル機能を体験して使用できます。

青英の研究開発は北京から強力な支援を受けている。海淀区はZhipu AIの本社が位置しており、産業投資、コンピューティングパワーの補助金、アプリケーションシナリオのデモンストレーション、Yizhuangに依存している大規模なモデルの研究開発を実行するための人材などの包括的なサポートを提供しています。北京市の高性能コンピューティング・パワー・クラスターの誕生は、将来的には北京市宜庄市の広大な高精度産業クラスターにも適用され、大型モデルが実体経済に力を与える新たなビジネス・フォーマットを形成することになる。


生態協力の観点から、bilibiliはパートナーとしてQingyingの技術研究開発プロセスにも参加しており、将来の応用シナリオの可能性を探求することに尽力している。同時に、パートナーの Huace Film and Television もモデルの共同構築に参加しました。

任意のテキストから 1.30 秒でビデオを生成

Qingyingの具体的な効果は何ですか?まず、公式にリリースされたビデオの事例をいくつか見てみましょう (すべて音楽付き)。

  • ヴィンセントのビデオ:

即答: 低い角度で上に押し上げ、ゆっくりと頭を上げます。すると、突然ドラゴンが氷山に現れます。すると、ドラゴンはあなたに気づき、あなたに向かって突進します。ハリウッド映画風

一言: ネオンが点滅するサイバーパンク風の都市の夜景で、手持ちカメラがゆっくりとズームインし、点滅する電子機器と未来的な装飾素材に囲まれ、機械式の小猿がハイテク工具を使ってカメラを修理しています。サイバーパンク風、神秘的な雰囲気、4K高解像度。

プロンプトワード: 広告撮影の視点、黄色の背景、白いテーブル、ジャガイモが投げられてフライド ポテトの一部に変わりました。

  • トゥシェンビデオ

一言: 古典的な美しさ

一言: ドラゴンが口から火を噴き、小さな村を焼き尽くしました。

一言: カピバラはカメラに頭を向けながら、ストローでコーラをのんびり飲みます

Qingyingのビデオ生成時間は約6秒、プロンプトワード入力後の待ち時間は約30秒です。 Zhang Peng 氏は、この世代速度はすでに業界で非常に速いと述べました。

Zhang Peng 氏は、マルチモーダル モデルの探求はまだ非常に初期段階にあると考えています。生成されたビデオの効果から判断すると、物理世界の法則の理解、高解像度、カメラの動きの連続性、長さの点で改善の余地がたくさんあります。モデル自体の観点から見ると、より画期的なイノベーションを備えた新しいモデル アーキテクチャが必要です。ビデオ情報をより効率的に圧縮し、テキストとビデオ コンテンツを完全に統合し、ユーザーの指示に準拠しながら生成されたコンテンツをより現実的にする必要があります。

2. 自社開発の DiT アーキテクチャ

Qingying Base のビデオ生成モデルは、テキスト、時間、空間の 3 次元を統合する CogVideoX であり、Sora のアルゴリズム設計を参照しています。 CogVideoX も DiT アーキテクチャであり、最適化により、CogVideoX の推論速度は前世代 (CogVideo) と比較して 6 倍向上しました。

Zhipu 氏は主に、コンテンツの一貫性、制御性、モデル構造という CogVideoX の 3 つの技術的特徴を共有しました。


まず、コンテンツの一貫性の問題を解決するために、Zhipu は、元のビデオ空間をサイズの 2% に圧縮する効率的な 3 次元変分オートエンコーダ構造 (3D VAE) を自社開発しました。これにより、ビデオ拡散生成モデルのトレーニング コストとトレーニングの難易度が軽減されます。

モデル構造の点では、Wisdom Spectrum は主要なモデル コンポーネントとして Causal 3D 畳み込みを使用し、オートエンコーダーで一般的に使用されるアテンション モジュールを削除して、モデルを移行してさまざまな解像度で使用できるようにしています。

同時に、時間次元における因果的畳み込みの形式により、ビデオのエンコードとデコードにおいてモデルが前後のシーケンスに独立していることも可能になり、微調整を通じてより高いフレーム レートとより長い時間に一般化することが容易になります。

エンジニアリング導入の観点から、Zhipu は、時間次元での時間シーケンシャル パラレルに基づいて変分オートエンコーダを微調整して導入し、より少ないグラフィックス メモリ フットプリントで非常に高いフレーム レートのビデオのエンコードをサポートできるようにします。 。

2点目はコントロール性です。現在のビデオ データのほとんどには、対応する説明テキストがないか、説明の品質が低いため、Zhipu は、大量のビデオ データに対して詳細でコンテンツに適した説明を生成するエンドツーエンドのビデオ理解モデルを開発しました。モデルのテキスト理解と指示に従う機能により、生成されたビデオがユーザー入力とより一貫性を持ち、超長く複雑なプロンプト指示を理解できるようになります。

これはSoraが使用した方法でもあります。 OpenAI は、DALL·E 3 の「再キャプション技術」を使用して高度に説明的な字幕ジェネレーター モデルをトレーニングし、それを使用してトレーニング データセット内のビデオのテキスト字幕を生成しました。さらに、OpenAI は GPT を活用して、短いユーザー プロンプトをより長い詳細な字幕に変換し、ビデオ モデルに送信します。

最後に、Zhipu によって開発された、テキスト、時間、空間の 3 つの次元を統合するトランスフォーマー アーキテクチャがあります。従来のクロス アテンション モジュールを放棄しますが、入力段階でテキストの埋め込みとビデオの埋め込みを連結して、2 つのモダリティとより完全に対話します。

ただし、2 つのモダリティの特徴空間は大きく異なります。Zhipu は、エキスパート適応レイヤーノルムを使用してテキスト モダリティとビデオ モダリティを個別に処理し、拡散モデルのタイム ステップ情報をより効果的に使用できるようにします。モデルがパラメータを効率的に利用して、視覚情報を意味情報とより適切に調整できるようにします。

注意モジュールは 3D の完全な注意メカニズムを採用しています。これまでの研究では、空間的および時間的注意を分離するか、または時空間的注意をブロックする必要があり、同時にモデリングの難易度が大幅に高まります。既存の効率的なトレーニング フレームワークに適応できない。

位置エンコード モジュールは 3D RoPE を設計します。これは、時間次元でフレーム間の関係をキャプチャし、ビデオ内の長距離依存関係を確立するのに役立ちます。

3.スケーリングの法則はまだ有効です

大規模モデル ルートでの AI の開始時に、Zhipu はマルチモーダル フィールドで関連するレイアウトをレイアウトし始めました。テキストから画像、ビデオに至るまで、大規模モデルによる世界の理解はますます複雑かつ多次元になっています。さまざまなモダリティの学習を通じて、さまざまなタスクを理解し、知識を持ち、処理する能力を備えた大規模なモデルが出現します。

Zhipu のマルチモーダル大型モデルの研究は 2021 年にまで遡ります。 2021 年から、Zhipu は CogView (NeurIPS'21)、CogView2 (NeurIPS'22)、CogVideo (ICLR'23)、Relay Diffusion (ICLR'24)、および CogView3 (2024) を開発しました。


CogView に基づいて、チームは大規模モデルベースのテキストからビデオへの生成モデルである CogVideo を開発し、高品質のビデオ クリップを生成するためにマルチフレーム レートの階層トレーニング戦略を採用し、再帰的補間に基づく方法を提案しました。各サブ説明に対応するテキストを段階的に生成し、これらのビデオ クリップをレイヤーごとに補間して、最終的なビデオ クリップを取得します。この成果は Facebook、Google、Microsoft から広く注目され、Facebook の Make-A-Video、Google の Phenaki および MAGVIT、Microsoft の DragNUWA、NVIDIA の Video LDM など、その後のビデオ生成モデルの成果に引用されています。

2024 年 5 月、GLM 大型モデル技術チームは、ICLR 2024 の基調講演で、ネイティブ マルチモーダル大型モデルが重要な役割を果たす、AGI 用 GLM 大型モデルの 3 つの主要な技術トレンドについて包括的に詳しく説明しました。 GLM 大型モデル チームは、次のように考えています。テキストが構築される 大規模モデルの重要な基盤である次のステップは、テキスト、画像、ビデオ、オーディオ、その他のモダリティを組み合わせてトレーニングし、真にネイティブなマルチモーダル モデルを構築することです。


Zhipuには大型モデルシリーズ製品の包括的なレイアウトがあり、マルチモーダルモデルは常に重要な役割を果たします。 Zhipu はビデオ生成におけるスケーリング則の有効性を検証しており、今後はデータ スケールとモデル スケールのスケールアップを継続しながら、より画期的なイノベーションを備えた新しいモデル アーキテクチャを探索し、ビデオ情報をより効率的に圧縮し、テキストをより完全にブレンドしていきます。そしてビデオコンテンツ。

Zhang Peng 氏は、将来の大規模モデルの技術的ブレークスルーの方向性の 1 つは、ネイティブ マルチモーダル大規模モデルであり、スケーリング則はアルゴリズムとデータの両方で引き続き役割を果たし続けると考えています。

「テクノロジーの進歩が鈍化する兆候はまだ見られません」とZhang Peng氏は語った。

(表紙画像および画像に付随するテキスト出典: Zhipu)