ニュース

本日リリースされた OpenAI の「Wisdom Spectrum Qingying」の中国語版が、30 秒で無料で無制限に再生されました。

2024-07-26

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


過去 6 か月間で、国内外のビデオ生成モデルは技術爆発の新たな段階を迎えました。そもそも、これらのモデルはソーシャル ネットワーク上で常に人気がありました。

しかし、言語生成モデルの「遅れ」とは異なり、最近の傾向は、ビデオ生成モデルの分野における国内の進歩が国際レベルを大きく上回っていることを示しています。多くの海外ネットユーザーは、OpenAIのSora氏が眠っている間に「中国のKeling AI Video」がインターネットを爆発させていると述べた。

本日、国内大手模型メーカーであるZhipu AIもAI動画生成製品「Qingying」をリリースしました。


もちろん、国内外には多くのAIビデオモデルがあり、それらにはすべて多くの欠陥がありますが、「未来」のSoraと比較すると、これらのAIビデオ製品は目に見えて具体的であり、せいぜい数回の試行が必要かもしれません. 確実な取引を「引く」ビデオ。

そして、この探査自体が技術進歩の一部です。

GPT-3 が誕生当初に疑問と批判を受け、最終的に過去を継承し未来を切り開くというその価値を証明するために時間を費やしたのと同じように、これらの AI ビデオ生成ツールに少し時間を与えれば、数日のうちにおもちゃから道具に変わります。

清営PCアクセスリンク:
https://chatglm.cn/video?fr=opt_homepage_PC
清営モバイルアクセスリンク:
https://chatglm.cn/video?&fr=opt_888_qy3

6秒ビデオを30分で生成、「Zhipu Qingying」が正式リリース

本日リリースされた Zhipu Qingying と比較すると、Zhipu Qingyan の方が馴染みのある人も多いかもしれませんが、広告を見て効果を確認するのではなく、まず「Qingying」が作成したデモを見てみるのも良いでしょう。

緑豊かな森では、葉の隙間から太陽の光が差し込み、ティンダル現象が起こり、光が形をとっていきます。


津波が猛獣のように唸りを上げると、まるで終末映画の名シーンのように、村全体が一瞬にして海に飲み込まれた。


ネオンが点滅する街の夜景の中で、機械美あふれる小猿がハイテク工具を手に、同じく点滅する超未来的な電子機器を修理している。


再び画風を変えて、子猫は口を大きく開け、顔中に疑問符を書きながら人間らしい困惑の表情を見せた。


宮殿での戦闘劇や陰謀はなく、時空を超えてスクリーンを越えたジェン・フアン・メイチュアンの抱擁があるのは、誠実な姉妹愛だけだ。


さらに、Zhipu 大型モデル チームが独自に開発し効率的に構築した大型ビデオ生成モデル CogVideo のおかげで、Qingying はテキスト生成ビデオ、画像生成ビデオなどのさまざまな生成方法をサポートし、広告制作にも使用できるようになりました。映画編集、ショートビデオ制作などの分野。

Qingying は強力なコマンド追従能力を備えており、ユーザーからの指示を完全に理解し、実行することができます。

レポートによると、Zhipu AI は、大量のビデオ データに対して詳細でコンテンツに適した説明を生成するエンドツーエンドのビデオ理解モデルを自社開発し、それによってモデルのテキスト理解と命令追従機能を強化し、ユーザーのニーズを満たすコンテンツを生成したとのことです。 。 ビデオ。


コンテンツの一貫性の点では、Zhipu AI は効率的な 3 次元変分オートエンコーダ構造 (3D VAE) を自社開発しました。これは、元のビデオ空間をサイズの 2% に圧縮し、3D RoPE 位置エンコード モジュールと組み合わせることで、より効果的です。時間次元でフレームをキャプチャすることにより、それらの間の関係がビデオ内での長距離依存性を確立します。

たとえば、ジャガイモをフライドポテトに変えるのに何段階かかりますか? 「火をつける」必要はなく、簡単な言葉をかけるだけで、ジャガイモが金色で魅力的なフライドポテトに変わります。当局者らは、どんなに突飛なアイデアでも、それを一つずつ現実にしていくことができると語る。


さらに、Sora アルゴリズムを参照して設計された CogVideoX も、テキスト、時間、空間の 3 つの次元を統合できる DiT アーキテクチャであり、技術的な最適化の後、前世代と比較して推論速度が 6 倍向上しました。 (コグビデオ)。理論的には、モデル側で 6 秒のビデオを生成するのにかかる時間はわずか 30 秒です。

比較のために、現在第 1 段階にある Keling AI は、1 つの 5 秒ビデオを生成するのに通常 2 ~ 5 分かかります。

今日の記者会見で、Zhipu AI CEO の Zhang Peng 氏は Qingying 氏に、体をわずかに波打たせて地面で寝ているチーターのビデオを作成するよう依頼しました。完成には約 30 秒かかりました。しかし、静止したバラを「咲かせる」にはさらに時間がかかります。

さらに、Qingying によって生成されるビデオの解像度は 1440x960 (3:2) に達し、フレーム レートは 16fps です。

Qingying はサウンドトラック機能も提供しており、生成されたビデオに音楽を追加して直接公開することもできます。

宇宙飛行士がギターを弾いている静止画だけでも想像力が豊かだと思っていましたが、それが動き、ゆったりとしたメロディーと相まって、まるで宇宙飛行士が宇宙でコンサートを開催しているかのようでした。

「Futures」Soraとは異なり、「Qingying」はオンラインになるとすぐに完全にオープンし、予約や行列なしで誰でも試すことができます。以降のバージョンでは、より高速かつ長時間のビデオを生成する機能が追加されます。

Zhang Peng 氏はまた、Zhipu Open Day で、「すべてのユーザーは、Ying を通じて AI のテキストベースのビデオと画像ベースのビデオ機能を体験できます」と述べました。

現在、Qingying は初期テスト期間中であり、すべてのユーザーが無料で使用できます。よりスムーズなエクスペリエンスを追求する場合は、199 元を支払えば 1 日 (24 時間) の高速アクセス権のロックを解除でき、1 年間の有料高速アクセス権のロックを解除できます。

さらに、Ying API はビッグ モデル オープン プラットフォーム bigmodel.cn でも同時に起動され、企業や開発者は API を呼び出すことで Wensheng Video と Tusheng Video のモデル機能を体験して使用できます。

始めるための敷居は低いですが、それでも「カードを引く」必要はあります。初心者は間違った手順を書くことを心配する必要はありません。

APPSO も Qingying を初めて体験し、いくつかのシナリオをテストした後、Qingying の使用に関するいくつかの経験をまとめました。

  • 動画生成は「錬金術」のようなもので、出力が不安定なので何度か試すことをお勧めします。
  • 効果の上限はプロンプトワードによって異なり、プロンプトワードの構造はできるだけ明確である必要があります
  • レンズの最大の効果は接写で、それ以外の撮影はあまり安定しません。
  • エンティティタイプ実装の並べ替え: 動物>植物>アイテム>建物>人物

芸術を理解していない科学者は優れた科学者ではありません。アインシュタインは水を得た魚のようにギターを弾き、自分のリズムに合わせて頭を振っていましたが、演技しているようには見えませんでした。


ジャイアントパンダはギターもスタイリッシュかつ多才に演奏します。


普段はストイックなタン・センさんも手を振り、リズムに合わせて体を揺らしました。


もちろん、上記はまだ比較的良いビデオの一部ですが、ビデオ生成の過程で、無駄なビデオも大量に蓄積されました。

たとえば、私はベッドに横たわっている皇帝に右手で鶏のドラムスティックを食べるように頼みました、そしてビデオの最後の秒で、私は皇帝が自分の女性を明らかにしようとしているように感じました。メイクと髪。


あるいは、レスリー・チャンが私を見た瞬間、彼の心の中の兄弟は「あの人」になったのかもしれません。


複雑なシーンでは、キャラクターの動きの遷移が不自然で、複雑なシーンの物理的特性を正確にシミュレートできない、生成されたコンテンツの精度が不十分などです。これらの欠点は Qingying の「特許」ではなく、現在のビデオ生成の限界です。モデル。

実際のアプリケーションでは、ユーザーはプロンプト ワードを最適化することでビデオ品質を向上させることができますが、幸いなことに、許容可能な品質のプロンプト ワードによってビデオ生成モデルの下限を大幅に確保することができます。

一部の初心者プレイヤーをケアするために、プロンプト単語に関するいくつかのヒントも特別に用意しました。

  • 単純な計算式: [カメラの動き] + [シーンの構築] + [詳細]
  • 複雑な計算式: [レンズの言語] + [光と影] + [被写体 (被写体の説明)] + [被写体の動き] + [シーン (情景の説明)] + [雰囲気/雰囲気]

カメラがパン(レンズの動き)すると、公園のベンチに座って湯気の立つコーヒーカップを持った小さな男の子(被写体の描写)が現れます(被写体の動作)。彼は青いシャツを着て幸せそうに見えます(被写体の詳細)。背景は木々が生い茂る公園で、葉の間から太陽の光が少年を照らしています(環境の説明)。

まだ何もわからない場合は、Zhipu Qingyan が提供するインテリジェント エージェントを使用して、ビデオ プロンプト ワードを作成することをお勧めします。生活の一般的なシーンを入力しても、高品質のプロンプト ワードを 3 つ取得できます。


たとえば、「コーギーがビーチで日光浴している」と言うと、次の自然風景写真スタイルのプロンプトが中国語と英語で表示されます。また、水彩画スタイル、3D アニメーション スタイル、その他のスタイルを選択するプロンプトも表示されます。から:

日本語: 晴れたビーチで、コーギーがビーチタオルの上でのんびりと寝そべり、暖かい日差しを楽しんでいます。カメラはローアングルから撮影されており、背景には穏やかな青い海と白い砂浜があり、画質は4Kです。 日本語: 晴れたビーチで、コーギーがビーチタオルの上でのんびりと横たわり、暖かい日差しを浴びています。カメラはその光景をローアングルから捉え、背景には穏やかな波が打ち寄せる広大な青い海と真っ白な砂浜が映し出されています。静かな雰囲気を4K超高解像度で撮影しました。

とても満足のいくプロンプトを見て、そう、それが当時私が本当に書きたかったことなのです。

清英プロンプト ワード エージェントのアドレス (文生ビデオ) を添付します: https://chatglm.cn/main/gdetail/669911fe0bef38883947d3c6

写真からビデオを生成する場合も同様です。画像の件名を入力し、画像スタイルを選択すると、Zhipu Qingyan が対応するプロンプト ワードの作成を支援します。即座の言葉がなかった状態から、「眼鏡をかける」、「唐僧が手を伸ばして眼鏡をかける」へと進化し、その効果も大きく異なります。


清英プロンプト ワード エージェントのアドレス (土生ビデオ) を添付します: https://chatglm.cn/main/gdetail/669fb16ffdf0683c86f7d903

仕事をうまくやり遂げたい場合は、まずツールを磨き、パターンをもう少し広げる必要があります。Zhipu Qingyan では、さらに多くのコンテンツ作成ツールを体験することもできます。

最初のトピック素材の収集から、脚本作成プロセス、写真とビデオの作成プロセス、そしてプロモーションのコピーライティングに至るまで、ビデオ生成の創造性の連鎖全体を開くことができるのは、ほとんどあなただけであることはほとんど明言されていません。創造性について考えれば、あとはあなたに任せられます。

Keling を含む最近リリースされた AI ビデオ製品は、最初と最後のフレーム制御によって制御性が向上していることがわかりました。


AI クリエイターの Chen Kun 氏はかつて APPSO に対し、商業的に配信できる AI 動画のほとんどは Tusheng 動画である、なぜなら文生動画ではまだこれができず、実際には制御性の問題であると語ったことがあります。

Zhipu AI が本日リリースした Qingying は、テキスト生成ビデオの制御性をさらに向上させます。Zhipu AI は APPSO とのインタビューで、テキスト生成ビデオはより普遍的な制御性を反映していると述べました。

AIによって生成されたビデオのほとんどは、依然として人間によって言語を使用して制御されています。したがって、テキストや簡単な言語の指示をどのように認識するかは、より高度な制御です。
AIビデオはおもちゃからクリエイターツールへ

昨年が大型モデルの爆発的な初年度だったとすれば、今年は AI ビデオの応用にとって重要な結節点となります。

このすべてのきっかけとなった Sora はまだオンラインにはなっていませんが、AI 動画にインスピレーションをもたらしました。

Sora は、合理的なディテール設計により、フレーム間のディテールのジャンプの問題を解決します。同時に、高解像度 (1080p) ビデオ画像が直接生成され、最大 60 秒の意味論的に豊富なビデオを生成できます。これは、その背後にあるトレーニング シーケンスも比較的長いことを示しています。


過去 2 か月だけでも、10 社以上の企業が新しい AI ビデオ製品やメジャー アップデートを発表しました。


Zhipu Qingying のリリースのわずか数日前に、Kuaishou の Keling AI が世界中で内部テストのために公開され、Sora と呼ばれる別の PixVerse が、1 ~ 5 の連続ビデオ コンテンツのワンクリック生成をサポートする V2 バージョンをリリースしました。


少し前に、Runway Gen 3 Alphaも有料ユーザー向けのパブリックベータテストを開始し、細部の精巧さと滑らかさが大幅に向上しました。先月発売されたばかりの映画レベルのビデオ生成モデル「Dream Machine」も最近、最初と最後のフレーム機能がアップデートされました。

わずか数か月で、AI ビデオ生成は、物理シミュレーション、動作の流暢さ、プロンプトワードの理解の点で大幅に向上しました。 AI ファンタジー ドラマの監督であるチェン クン氏は、AI ビデオ生成技術の進歩が想像よりも速いのではないかと考えています。

2023 年の AI ビデオは、キャラクターがスローモーションでパフォーマンスし、点を描画するためにモンタージュ編集に依存する、ダイナミック PPT に似ています。しかし今では、AI 動画の「PPT 風味」はかなり薄れてしまいました。

チェン・クン監督の初の国内AIGCスペクタクルドラマ「山と海:山と海の鏡:波を切る」が最近公開されたばかりであると彼は過去にAPPSOに語った。同様のファンタジー テーマを作成するには少なくとも 100 人が必要でしたが、チームには 10 人以上しかいないため、制作サイクルとコストが大幅に短縮されます。

過去 6 か月間で、より多くのプロの映画やテレビのクリエイターが AI 動画に挑戦し始めていることがわかります。国内のKuaishou DouyinはAI短編ドラマを発表し、AIGCクリエイター50人が協力した初のAI長編映画「Our T2 Remake」がロサンゼルスでプレミア上映された。


AI ビデオの生成には、キャラクターとシーンの一貫性、キャラクターのパフォーマンス、アクションのインタラクションなどの点でまだ限界がありますが、AI ビデオが昨年試みられたおもちゃからクリエイターのためのツールへと徐々に変わりつつあることは否定できません。

これは、Zhipu Qingying、Kuaishou Keling、Luma Dream Machine などの製品が会員制を開始し始めた重要な理由でもあるかもしれません。C エンド向けの国内大型モデル製品のほとんどは無料であることを知っておく必要があります。国内のサブスクリプション支払いの習慣と優先事項に沿って、ユーザー成長戦略の追求に関連して、AI ビデオの支払いを持続可能にするには、好奇心旺盛なユーザーに加えて、より多くのコンテンツ クリエイターがサポートする必要があります。

もちろん、AI ビデオ生成はまだ比較的初期の段階にあります。いわゆる「一文で映画を生成する」というのは、誤解を招く見出しにすぎません。物理的な世界。

Zhipu 氏は今日の記者会見で、マルチモーダル モデルの探求はまだ非常に初期段階にあるとも述べました。

生成されたビデオの効果から判断すると、物理世界の法則の理解、高解像度、カメラの動きの連続性、長さの点で改善の余地がたくさんあります。 モデル自体の観点から見ると、より画期的なイノベーションを備えた新しいモデル アーキテクチャが必要です。ビデオ情報をより効率的に圧縮し、テキストとビデオ コンテンツを完全に統合し、ユーザーの指示に準拠しながら生成されたコンテンツをより現実的にする必要があります。

「私たちはモデルレベルでより効率的なスケーリング方法を積極的に模索しています。」しかし、Zhang Peng 氏はまた、アルゴリズムとデータの継続的な反復により、スケーリング則が引き続き効果を発揮すると信じています。その強力な力。」

AI クリエイターの Chen Kun 氏は、AI によって生成されたショットが大画面に 100% 適したものになるのは時間の問題だと考えています。この時間がどれくらいかかるかは最も懸念されることではありませんが、Zhipu AI の CEO、Zhang Peng 氏が APPSO との以前のインタビューで述べたように、このプロセスに参加することがより重要です。

多くのことを次々と検討する必要があり、このプロセスは非常に重要であり、最終的な結果だけを見るのではなく、それよりも重要なことは、現時点で誰もがもっと注目すべきことだと思います。

著者: リー・チャオファン、モー・チョンユ