ニュース

AI版ソラ登場!誰でも無料で無制限、携帯電話を持っていればプレイでき、APIも公開されています

2024-07-26

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

ジン・レイはアオフェイ寺院の出身です
パブリックアカウント QbitAI

ちょうど今、ウィズダムスペクトルAIソラのバージョンが誕生しました。明確な影

さっそく、Qingying によって生成された画像を見てみましょう。短編映画



ビデオアドレス: https://mp.weixin.qq.com/s/XmXR-XZtMvhZHtLTCxU4ZQ

存在するヴィンセント・ビデオたとえば、Qingying にプロンプ​​トを与えると、次のことができます。その想像力に挑戦してください

ネオンが点滅するサイバーパンク風の都会の夜景の中で、手持ちカメラがゆっくりとズームインし、点滅する電子機器や未来的な装飾素材に囲まれ、修理にハイテク工具を使う機械式の小猿を映し出します。サイバーパンク風、神秘的な雰囲気、4K高解像度。



ビデオアドレス: https://mp.weixin.qq.com/s/XmXR-XZtMvhZHtLTCxU4ZQ

サイバーパンクと未来の風味に満ちており、私たちが頭の中で想像しているイメージに近いものとなっています。

そして例外としてヴィンセント・ビデオさらに今回は清英さんトゥシェンビデオ能力も一緒に解放されました。

さて、あなたの想像力と Qingying の創造性を比較して、どちらが優れているか見てみましょう。

最初の写真を見てください——洞窟文明



次のビデオは、Qingying が AI Power を使用して作成し、スコアを付けたバージョンです。



ビデオアドレス: https://mp.weixin.qq.com/s/XmXR-XZtMvhZHtLTCxU4ZQ

ビデオの最後で、Qingying は実際にキーフレームでカメラを振ることを学び、ビデオをより神秘的にしました。

次はラウンド2ですが、まずは一緒に写真を見ていきましょう——ファイアドラゴンブレス



この写真を基に Qingying が作成したビデオは次のように開きます。



ビデオアドレス: https://mp.weixin.qq.com/s/XmXR-XZtMvhZHtLTCxU4ZQ

ドラゴンが火を噴く準備をしていることは想像できたが、それが地上の村を焼き払うとは予想外だったが、それも当然だった。

しかし、Zhipu AI の発表イベント全体を見ると、高解像度と画像の一貫性の効果はハイライトの一部にすぎません。福利厚生の価値満タン!

誰でも無料、行列に並ぶ必要なし、回数無制限!

さらに、その効果は、自分のビデオから大きなモデルを直接生成することです。コグビデオ能力全出力、ハンガーマーケティングに参加しないでください。

Zhipu AI によると、6 秒の 1440x960 ビデオの生成にかかる時間はわずか 30 秒で、モデル推論の速度が 6 倍も向上します。



それだけではなく、今では芝浦青岩にいますPC版そしてアプリウェブサイト上で文盛ビデオ/土盛ビデオの機能が公開されました。アプレット一方、現在はTushengビデオのみをサポートしています。

今回は開発者にとっても朗報です。このビデオでは大規模なモデルが生成されます。APIこちらも全開です、はい国内初おお!

利便性と効率の面でも、今回は Zhipu AI が見事に成功したと言わざるを得ません。

それでは次に、Zhipu AI のビデオ生成機能を使用して、実際のテストを行っていきます。

計測された知恵スペクトラム AI版 ソラ

まずはテストを受けてみましょうヴィンセント・ビデオ効果。

Zhipu Qingyan APP または PC バージョンを開くと、Vincent Video への入り口がメインダイアログに表示されます。





APP を例に挙げると、インターフェイスは次のとおりです。



これで準備は完了です。プロンプトを入力するだけです。

ただし、これがビデオ生成の成功または失敗の鍵であることに注意する必要があります。

最も重要な原則の 1 つは次のとおりです。結び目!構造!セックス!式は次のとおりです。

  • 単純な計算式: [カメラの動き] + [シーンの構築] + [詳細]
  • 複雑な計算式: [レンズの言語] + [光と影] + [被写体 (被写体の説明)] + [被写体の動き] + [シーン (情景の説明)] + [雰囲気/雰囲気/スタイル]

それで、その影響はどれくらい悪化するのでしょうか?

たとえば、次のように入力したとします。コーヒーを飲む小さな男の子、生成された結果は次のようになります。



かなり満足ですが、一見するとAIっぽい感じがします。

しかし、プロンプトの単語が公式に従って強化されると、オープニングの方法はまったく異なります。

カメラがパンすると、公園のベンチに座って湯気の立つコーヒーを持った小さな男の子が映る。木漏れ日が差し込む公園を背景に、青いシャツを着た彼は元気そうに見えた。



ビデオアドレス: https://mp.weixin.qq.com/s/XmXR-XZtMvhZHtLTCxU4ZQ

いや、一気に映画感が出てきました。

ただし、今説明した公式に加えて、参照できる重要な原則がいくつかあります。

初め、繰り返しは力なり

プロンプトのさまざまな部分でキーワードを繰り返したり強化したりすると、出力の一貫性が向上します。たとえば、カメラが超高速でシーンを飛び回ります(「超高速」と「高速」という言葉が繰り返されています)。

次に、シーンに表示される内容に焦点を当ててプロンプトを表示するようにしてください。たとえば、雲一つない空ではなく、晴れた空を合図する必要があります。

これらの公式と原則が整っているので、試してみましょう。

王子さまとキツネは月の上で一緒に星を眺めました。キツネは時々王子さまを見つめました。



ビデオアドレス: https://mp.weixin.qq.com/s/XmXR-XZtMvhZHtLTCxU4ZQ

地面で寝ているチーターの体がわずかに上下する様子を至近距離からリアルに描写。



ビデオアドレス: https://mp.weixin.qq.com/s/XmXR-XZtMvhZHtLTCxU4ZQ

なお、Zhipu AIの紹介によれば、何度か試してみると予想外の効果が現れるかもしれない(何しろ無料だ)。

Vincent のビデオの後、もう一度テストしますトゥシェンビデオ

ここでも 2 つの重要なテクニックがあります。

まず、アップロードする写真はできるだけ鮮明である必要があり、できれば 3:2 の比率で jpg または png 形式にする必要があります。

2 番目はまだプロンプトですが、主題があるはずです, その後、プロンプトは「[件名]+[件名の動き]+[背景]+[背景の動き]」の式に従って書くことができます。

もちろんプロンプトなしでも可能ですが、AIが独自のアイデアに基づいて動画を生成します。

たとえば、Tang Monk の写真を「フィード」します。



次に、今与えられた数式テクニックによると、プロンプトは次のようになります。

タン・センは手を伸ばしてサングラスをかけた。



ビデオアドレス: https://mp.weixin.qq.com/s/XmXR-XZtMvhZHtLTCxU4ZQ

このことから、遊び方(物事のやり方)はたくさんあります。

たとえば、Zhen Huan と Shen Meizhuang が「壁を壊して」抱き合ったとしましょう。

画面の向こうでジェン・フアン・メイチュアンがハグする。



ビデオアドレス: https://mp.weixin.qq.com/s/XmXR-XZtMvhZHtLTCxU4ZQ

古い写真を復活させるのは簡単です:

胡施は振り返って立ち去った。



ビデオアドレス: https://mp.weixin.qq.com/s/XmXR-XZtMvhZHtLTCxU4ZQ

様々な効果から判断すると、Zhipu AIのQingyingは直接使用できるSoraの一種です。

そこで次の質問は次のとおりです。

どうやってやったのですか?

ビデオ生成の分野では、出力コンテンツの一貫性と一貫性が最終的な効果を決定する重要な要素です。

Zhipu AI によると、この目的のために、チームは効率的なシステムを開発しました。3次元変分オートエンコーダ構造(3D VAE) は、元のビデオ空間をサイズの 2% に圧縮し、ビデオ拡散生成モデルのトレーニング コストとトレーニングの難易度を大幅に削減します。

モデル構造の観点から、Zhipu チームは以下を採用しています。因果的三次元畳み込み(因果的 3D 畳み込み) が主要なモデル コンポーネントであり、オートエンコーダーで一般的に使用されるアテンション モジュールが削除され、モデルがさまざまな解像度に移行できるようになります。

同時に、時間次元での因果的畳み込みの形式により、モデルがビデオのエンコードとデコードに対して前後のシーケンスの独立性を持つことも可能になります。この目的は、微細化によるより高いフレーム レートと長時間への一般化を促進することです。 -チューニング。

エンジニアリング導入の観点から見ると、Zhipu AI は時間の次元に基づいています。シーケンスの並列性(Temporal Sequential Parallel) は、変分オートエンコーダーを微調整して展開し、より少ないグラフィックス メモリ フットプリントで非常に高いフレーム レートのビデオのエンコードとデコードをサポートできるようにします。



しかし、コンテンツの一貫性と一貫性に加えて、ビデオ生成には別の問題があります。現在のビデオ データのほとんどには、対応する説明テキストがないか、説明の品質が低いです。

この目的を達成するために、Zhipu AI は、大量のビデオ データに対して詳細でコンテンツに適した説明を生成する、エンドツーエンドのビデオ理解モデルを開発しました。

このようにして、モデルのテキスト理解と指示追従機能が強化され、生成されたビデオがユーザー入力とより一貫性を持ち、超長く複雑なプロンプト指示を理解できるようになります。

最後に、Zhipu AI は、テキスト、時間、空間の 3 次元を統合する Transformer アーキテクチャも開発しました。

従来のクロス アテンション モジュールを放棄しますが、入力段階でテキストの埋め込みとビデオの埋め込みを連結して、2 つのモダリティとより完全に対話します。

ただし、2 つのモダリティの特徴空間は大きく異なります。チームはエキスパートの適応レイヤーノルムを使用してテキスト モダリティとビデオ モダリティを個別に処理することで、拡散モデルのタイム ステップ情報をより効果的に利用できます。モデルはパラメータを効率的に利用して、視覚情報を意味情報とより適切に調整できます。

注意モジュールは 3D の完全な注意メカニズムを採用しています。これまでの研究では、空間的および時間的注意を分離するか、または時空間的注意をブロックする必要があり、同時にモデリングの難易度が大幅に高まります。既存の効率的なトレーニング フレームワークに適応できない。

位置エンコード モジュールは 3D RoPE を設計します。これは、時間次元でフレーム間の関係をキャプチャし、ビデオ内の長距離依存関係を確立するのに役立ちます。

以上が、Zhipu が Qingying になるまでの重要な技術力です。

もう一つ

この無料版に加えて、Zhipu AI は有料版もリリースしました。価格は次のとおりです。

  • 5元:24 時間高速のメリットを利用しましょう
  • 199元: 1年間の高速利用権を解除します

年会費を換算すると、1日あたりわずか5セント

うーん、確かにちょっと香ばしい匂いがしますね。

体験リンクは以下にあります。興味のあるお友達は試してみてください〜。

https://chatglm.cn/ビデオ