ニュース

Zhipu AI がビデオ生成に参入: 「Qingying」はオンライン、6 秒、無料、無制限

2024-07-26

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

マシンハートレポート

マシーンハート編集部

Zhipu 大型モデル チームは自社で開発および構築されています。

Kuaishou Keling AIが国内外で人気を集めているため、2023年には大文字モデルと同様に、国内のビデオ生成がますます人気が高まっています。

ちょうど今、別の大きなビデオ生成モデル製品が正式にリリースされました。Zhipu AI は「Qingying」を正式にリリースしました。良いアイデア (数語から数百語) と少しの忍耐力 (30 秒) があれば、「Qingying」は解像度 1440x960 の高精度ビデオを生成できます。



ビデオリンク: https://mp.weixin.qq.com/s/fNsMxyoutjVkEtX_xRnsMA

今後、Qingying は Qingyan アプリを開始し、すべてのユーザーが対話、写真、ビデオ、コード、エージェント生成の機能を完全に体験できるようになります。 Zhipu Qingyan の Web とアプリをカバーすることに加えて、「AI ダイナミック フォト ミニ プログラム」を操作して、携帯電話上の写真にダイナミックな効果をすばやく実現することもできます。



Zhipu「Qingying」によって生成されたビデオの長さは 6 秒、解像度は 1440×960 で、すべてのユーザーが無料で使用できます。



  • PCアクセスリンク:https://chatglm.cn/
  • モバイルアクセスリンク: https://chatglm.cn/download?fr=web_home

Zhipu AI は、技術の継続的な発展により、「Qingying」の生成機能は間もなくショートビデオ制作、広告生成、さらには映画編集にも使用されるようになるだろうと述べています。

生成 AI ビデオ モデルの開発において、スケーリング則はアルゴリズムとデータの両方で役割を果たし続けます。 「私たちはモデルレベルでより効率的なスケーリング手法を積極的に模索しています。」 Zhipu AI の CEO、Zhang Peng 氏は Zhipu Open Day で次のように述べました。強力な役割。」



さまざまなスタイルをピックアップ

現在のいくつかのデモと簡単なトライアルから判断すると、Zhipu AI の「Qingying」には次のような特徴があります。

  • 風景、動物、SF、人文科学、歴史などのビデオ コンテンツを生成する場合のパフォーマンスが向上します。
  • 私たちが得意とするビデオスタイルには、漫画スタイル、実写スタイル、二次元アニメーションスタイルなどが含まれます。
  • エンティティタイプの提示効果に関しては、動物 > 植物 > アイテム > 建物 > 人。

テキストや写真を含むビデオを生成でき、生成されるスタイルはファンタジーアニメーションスタイルをカバーします。

ヴィンセント・ビデオ

即答: 低い角度で上に押し上げ、ゆっくりと頭を上げます。すると、突然ドラゴンが氷山に現れます。すると、ドラゴンはあなたに気づき、あなたに向かって突進します。ハリウッド映画風。



一言: 魔術師が波の中で呪文を唱えています。宝石が海水を集めて魔法のポータルを開きます。



一言: キノコはクマに変わります。



実際のシーンへ:

一言: 森では、人間の視点から見ると、そびえ立つ木々が太陽を遮り、葉の隙間からいくらか日光が差し込みます。これがチンダル効果です。



一言: カピバラは人間のように立ち、手にアイスクリームを持って嬉しそうに食べています。



トゥシェンビデオ

Qingying では、テキストで生成されたビデオに加えて、画像で生成されたビデオで遊ぶこともできます。 Tusheng Video は、絵文字、広告制作、プロット作成、ショートビデオ作成など、さらに新しい遊び方をもたらします。同時に、Qingying をベースにした「Old Photos Animated」アプレットも同時に起動されます。古い写真を 1 ステップでアップロードするだけで、AI が古い時代の写真をアニメーション化できます。

一言: 自由に動くカラフルな魚。



一言: 写真の中の男性は風に髪をなびかせながら立っています。



即答: プールの水面に浮かぶ小さな黄色いアヒルのおもちゃの接写。



そして現代アートへ。

手がかりの言葉: カメラは、ニューヨークの博物館にある大きなギャラリーを舞台にした、1950 年代の SF 映画、ホラー映画、ニュース、静止画、70 年代のホームコメディなど、さまざまな番組を映すたくさんのビンテージ テレビの周りを回転します。



ヒント: iPhone を取り出して写真を撮ります。



即発的な言葉はありません。



あなたがよく使う絵文字を、Zhipu AI は「シリアル」に拡張できます。

一言: 師匠と弟子4人は困惑した表情で手を差し伸べ、ハイタッチを交わした。



ビデオリンク: https://mp.weixin.qq.com/s/fNsMxyoutjVkEtX_xRnsMA

即答: 子猫は口を大きく開け、困惑した表情を浮かべ、顔には疑問符がたくさん残りました。



ビデオリンク: https://mp.weixin.qq.com/s/fNsMxyoutjVkEtX_xRnsMA

Qingying はさまざまなスタイルに対応できることがわかり、さらに多くのプレイ方法が人々の発見を待っています。 Zhipu Qingyan PC/APP の「Qingying Intelligent」機能をクリックするだけで、あなたのアイデアをすべて瞬時に現実にすることができます。

全て自社開発技術

すべて大規模モデル Wisdom AI は、長年にわたってマルチモーダルな生成 AI モデルを展開してきました。 2021 年から Zhipu AI は、CogView (NeurIPS'21)、CogView2 (NeurIPS'22)、CogVideo (ICLR'23)、Relay Diffusion (ICLR'24)、CogView3 (2024) などの多くの研究をリリースしました。

レポートによると、「Qingying」は、Zhipu AI 大型モデル チームが独自に開発した新世代の大規模ビデオ生成モデルである CogVideoX に依存しています。

昨年 11 月、彼のチームは、ヴィンセント グラフ モデル CogView2 に基づいてテキストからビデオへの生成モデル CogVideo を作成し、その後それをオープンソース化しました。



CogVideo には 94 億のパラメータがあり、CogView2 を通じて一連の初期フレームを生成し、双方向注意モデルに基づいて画像のフレームを補間することでビデオ生成を実装します。さらに、CogVideo はテキストの説明に基づいて 3D 環境を生成し、事前トレーニングされたモデルを直接利用して、高価なトレーニングを回避できます。また、中国語プロンプト入力もサポートしています。

今回の Qingying Base のビデオ生成モデルは、Sora のアルゴリズム設計を参考にしており、前世代よりも優れています。 CogVideo) 推論速度が 6 倍向上しました。

OpenAI の Sora の登場により、AI はビデオ生成において大きな進歩を遂げましたが、ほとんどのモデルでは一貫性と論理的一貫性を備えたビデオ コンテンツを生成することが依然として困難です。

これらの問題を解決するために、Zhipu AI は、元のビデオ空間を 2% に圧縮できる効率的な 3 次元変分オートエンコーダー構造 (3D VAE) を開発しました。これにより、モデルのトレーニングのコストが大幅に削減され、トレーニングの難易度が大幅に軽減されます。

モデル構造は、Causal 3D 畳み込みを主要なモデル コンポーネントとして使用し、オートエンコーダーで一般的に使用されるアテンション モジュールを削除しているため、モデルはさまざまな解像度に転送できます。

同時に、時間次元での因果的畳み込みにより、モデルのビデオ エンコードおよびデコード シーケンスが前から後ろまで独立したものになり、微調整を通じてモデルをより高いフレーム レートやより長いシーンに拡張するのに役立ちます。

さらに、ビデオ生成では、ほとんどのビデオ データに対応する説明テキストがないか、説明の品質が低いという問題にも直面しています。このため、Zhipu AI は、大量のビデオ データに対するエンドツーエンドのビデオ理解モデルを独自に開発しました。コンテンツに適合するものを選択し、高品質のビデオとテキストのペアを多数構築することで、トレーニングされたモデルが指示に高度に準拠するようになります。

最後に、Zhipu AI がテキスト、時間、空間を統合するトランスフォーマー アーキテクチャを独自に開発したことは言及に値します。このアーキテクチャは、従来のクロス アテンション モジュールを使用せず、入力段階でテキスト エンベディングとビデオ エンベディングを順番に接続します。 2 つのモダリティ間でより完全に相互作用するため。

ただし、テキストとビデオの特徴空間には大きな違いがあります。Zhipu AI は、エキスパートの適応レイヤーノルムを通じて両方を個別に処理するため、モデルはパラメーターを効率的に利用して視覚情報と意味情報をより適切に調整できます。

Zhipu AI は、最適化テクノロジーにより、Zhipu AI の生成ビデオ モデルの推論速度が 6 倍に向上したと述べています。現在、モデルが 6 秒ビデオを生成するのにかかる理論上の時間は 30 秒です。

「Qingying」のリリースにより、ビデオ生成トラックの主要プレーヤーである Zhipu AI が再び登場しました。

誰でも試せるアプリケーションに加えて、Qingying API は大規模モデルのオープン プラットフォーム bigmodel.cn でも同時に起動され、企業や開発者は API を呼び出すことで Wensheng Video と Tusheng Video のモデル機能を体験して使用できます。

各社がAI動画生成機能を続々と投入する中、今年の生成AI競争は白熱の段階に入った。ほとんどのユーザーにとって、選択肢が増えました。ビデオ制作の経験がない人でも、プロのコンテンツ作成者でも、大規模なモデル機能を利用してビデオ作成を実現できるようになりました。