ニュース

AI ビデオを「ユニバーサル GC」の時代に突入させましょう。この中国企業はまさにそれをやってのけたのです

2024-07-24

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

この家はアオフェイ寺院に由来します
パブリックアカウント QbitAI

しきい値が低く、品質が高く、ロジックが多く、継続時間が長くなります。

これらのいくつかの「アップデート」は今朝デビューしたばかりです国産AI動画新製品PixVerse V2、一気に熱が上がりました。

そしてその起源は目を引くものです。

このトラックで最も注目されている国内のスタースタートアップ企業からアイシテクノロジー、今年上半期だけで同社は2回の資金調達を完了した。

Pixverse V2 の重要な「新しいアイデア」を直接見てみましょう。

モデル技術、DiT(Diffusion+Transformer)アーキテクチャを採用し、多くの面で独自の技術を採用し、発電効果を大幅に向上させています。

たとえば、時空間的注意メカニズムを導入すると、より大規模でより自然なビデオ生成を実現できます。

以下の小さなアルパカが楽しそうにサーフィンをしている様子を見てみましょう。LIama 3.1 がリリースされ、今日トップに到達したのに非常にぴったりです。



動画の量と質、ワンクリックで最大 5 つの連続したビデオ コンテンツの生成をサポートします。

また、メイン画像、ピクチャースタイル、シーン要素の一貫性はクリップ間で自動的に維持されます。



なお、Aishiの公式紹介文には、新製品についても記載されています。プロンプトワードのしきい値が再び大幅に引き下げられました

プロンプトワードテクニックを学んでいるかどうかに関係なく、絵の要件を明確かつ簡潔に表現できれば、簡単に実装できます。そして同じことが中国語の文脈にも当てはまります

さらに、一度に生成された複数のビデオ間では、スタイル、主題、シーンに一貫性があります—

今すぐ短いビデオを作成してください自分で写真を撮る必要がないだけでなく、自分でカットする必要もありません。

ワンクリックで生成し、さまざまなプラットフォームに直接アップロードして共有できます、グースガール!



質と量の両方が保証されており、敷居はますます低くなります。

AI ビデオの作成には、PixVerse、Runway、Luma などの企業が深く関わっています。誰もが楽しめる時代。

最大 5 つのビデオを生成して継続的な創造性を実現

ちょっと待って!

さまざまな企業が公開するデモに簡単に目をくらまされることはありません。

そこで、今朝 PixVerse V2 がリリースされたことを発見した後、すぐに Qubits がリリースされました。人体検査。

PixVerse 公式 Web サイトに入り、左側のメニュー バーにある PixVerse V2 に直接移動します。

現在それテキスト/画像とビデオの 2 つの生成モードをサポート, 実際の運用では、どちらかを選択することも、両方を併用することもできます。

テキスト入力プロンプト ボックス。下の図の黄色のボックスをクリックすると、写真をアップロードできます。



入力ボックスの右下隅のグレーのボックス選択部分には、5秒/8秒オプション、必要に応じて、生成される単一のビデオ クリップの長さを選択できます。

緑色のフレームで選択されたシーンは、生成する必要がある特定のビデオ クリップを指します。

実際、公式の紹介にあるように、最大​​ 5 つのビデオ (Scene1 ~ 5) を追加して生成できるようになりました。



すべてのシーン クリップのピクチャー スタイルはシーン 1 に従います。, 後続の他のシーンが参照画像をアップロードした場合でも、PixVerse は再描画のためにシーン 1 の画像スタイルを参照します。

つまり、5 つのビデオのスタイルを一貫させるために最善を尽くしました。

さらに、各シーンのプロンプトワード/プロンプト絵を個別に入力できます。

完了したら、入力ボックスの右下隅にある星ボタンをクリックして、生成状態に入ることができます。

経験の結果、生成する必要があるシーンの数に関係なく、各生成には 50 クレジット (PixVerse V2 の計算能力通貨) がかかることがわかりました。

体験中、入力内容を忠実に守る可能な限り単純なプロンプト原則として、入力するプロンプトワードは次の 5 つです。

  1. 早朝、小さな白いウサギがベッドの上で服を着ました
  2. 小さな白いウサギは仕事に行く途中に歩いていて、庭の前を通りました。
  3. 小さな白いウサギが湯気の立つコーヒーを持っています
  4. 小さな白いウサギがコーヒーを持ってエレベーターの列に並んでいます
  5. 諦めた小さな白ウサギは道で飛び跳ねた

生成後、オプションを使用して各ビデオを個別に微調整(被写体、シーン、アクション、カメラの動きを調整)することができますが、私たちは何も介入せず、元の味に重点を置きました。



生成された結果は次のとおりです。

△見た目や雰囲気を考慮して、この動画の再生速度は2.5倍のみとなっております。

5つのクリップをつなぎ合わせました。フルバージョンを直接ダウンロードできます、とても便利。

ちょっと面白いのは、退職した小さな白ウサギのピアが、品格をまったく失わずに作業服を脱いだことです。

このステップを開始してプレイした後、私は予算を気にする労働者ですが、素晴らしい発見をしたので、それを皆さんと共有しなければなりません。

一度に 1 つのビデオ クリップだけを生成したい場合は、PixVerse V2 のオプションを直接調整し、シーン 1 のみを削除すれば問題ありません。これを方法 1 と呼びます。

ただし、別の入り口から PixVerse V2 の別のモードに入る別の方法 (方法 2) があります。

オフィスで聞いてみたところ、単一のビデオ クリップを生成したい場合は、誰もが後者の方法を好むようです。

なぜ?

まず、方法 2 では、ビデオの比率やビデオのスタイルなどのパラメータに基づいてより多くの調整を行うことができ、「必要な」情報を与えるほどモデルが理解する可能性が高まり、生成されたビデオ画像がより正確になる可能性が高くなります。あなたが望むものと一致します。

一方、そろばんを鳴らして計算すると、方法 1 は 1 世代で 50 クレジットを消費します。1 つのフラグメントを生成する場合でも、5 つのフラグメントを生成する場合でも、これだけ差し引かれますが、方法 2 では 1 世代で 30 クレジットしかかかりません。

友達よ、お金を節約しましょう!



頭の中に手早く小さなノートを取り、方法 2 の操作プロセスを書き留めます——

左側のメニューバーの「Text to Video」をクリックし、「モデル」で「PixVerse V2」を選択します。

実行できるヴィンセント・ビデオ



また、プロンプトワードに「アニメ」や「リアル」などの単語を追加することで、生成されるコンテンツをスタイリッシュに変化させることができます。

全体としては難しく、現実世界には存在しないシーンがいくつか生成されます。プロンプトの単語を入力してください:

マシュマロ巨人は色とりどりのマシュマロの森をさまよっています。

結果を生成します。



わかった、わかった、信じられない、本当に「マシュマロの巨人」のような抽象的な説明が得られるとは思いませんでした。

盲目的な推測は、PixVerse V2 の背後にある意味の理解が大幅に最適化されているためです。

同様の方法も体験可能Tushengビデオ機能

左側のメニューバーのImage to Videoをクリックし、「モデル」で「PixVerse V2」を選択します。



先ほど述べたモーション ブラシが PixVerse の Tuxing ビデオでは使用できないのが少し残念です。

Tusheng Video は現在、「ペイントして移動」モーション ブラシを使用できないことに注意してください (これは、Aishi が先月リリースした新しい AI ビデオ機能です)。

Qubit は PixVerse V2 チームに次のように尋ねました。モーション ブラシは V2 バージョンでも間もなく利用可能になる予定です。

Runway や PixVerse のモーション ブラシは、迅速な言葉の説明の不足を補い、絵の動きの制御性を高めるため、以前から好評を博しています。

PixVerse V2 でこの機能が実装されれば、誰でももっと楽しくプレイできるようになり、ビデオ内のキャラクターやオブジェクトの動きがより物理法則に沿ったものになると思います。



人や動物の「キャットウォーク」は、筋肉を誇示するための AI ビデオでは常に必須のオプションであったという事実を考慮して (理由はわかりませんが)、今回 PixVerse V2 グラフィック ビデオ機能を体験する際に、そのまま激しさに向かい、路上での宇宙飛行士のパルクール

プロンプト画像を入力してください:



結果を生成します。



このタスクは、画像に基づいて非現実的なコンテンツのダイナミクスを生成する、ちょっとした積み重ねのバフです。

さらに必要なのは、その背後にあるモデルが強力な機能を持っていることです。視覚的な理解

エフェクトの観点から見ると、継続的なビデオ作成、テキストベースのビデオ、または画像ベースのビデオのいずれであっても、PixVerse V2 が簡単に勝つことができます。

最後に、文生であろうと土生であろうと、生成される 5 秒/8 秒ビデオごとに 30 クレジットがかかることを述べておきたいと思います。

しかし、生成速度は比較的速く、品質も安定しており、実際には 30 クレジットを費やす価値があると感じています。

DiTベース金型更新サポート

今年のボリュームキングの王様として知られるAIビデオトラックで、Ai Shiは突然別の動きをしました。

世界中のソラプレイヤー全員が期間の延長、グラフィックの品質の向上、難易度の低下を進めたとき、アイシがやることは敷居を大幅に下げること

プロンプト ワードは専門的すぎる必要がないだけでなく、さらに重要なのは、一度に (最大で) 5 つのビデオ (それぞれ 8 秒) を作成できることです。

これら 1 ~ 5 つのビデオ クリップ間のスタイル、主題、シーンの一貫性が保証され、各ビデオ クリップのプロンプト ワード間のロジックに基づいて、最終的に約 40 秒の長いビデオが合成されます。

一貫したプロットと一貫した内容を持つタイプ。

「スムーズな動きと豊かなディテール」を実現しており、画質は1080pに達するという。



言い換えれば、ユーザーは自分が望むものについて考え、プロンプトの単語を入力し、10 秒から 40 秒の範囲のビデオが生成されるのを待つことができます。

「頭の中にあるアイデアを映像に移す」ことを映像内で実現することができ、クリップが一貫性があり自然であるだけでなく、映像制作プロセスの時間と労力を節約でき、クリエイティブ効率が大幅に向上します。

PixVerse V2 がリリースされた後、一部のネチズンはすぐにそれを使い始めました。

PixVerse V2の登場により、これまでAI動画ツールを使ったことがなく、動画を作ったこともなかった多くの人がAI動画ツールを利用することで、生成作品数が0から5へ、作品数が0から1へというブレークスルーを達成できるようになりました。

AIGC ツールを使用する権利が再び委任されました

サークル外の AIGC ツール ユーザー (プロのユーザーに限定されなくなりました) の拡大は、テクノロジーの反復的な更新によって達成されます。

PixVerse V2 の背後には Aishi Technology がありますDiT アーキテクチャの基礎となる自社開発モデルの反復更新

これは、PixVerse の背後にあるコアテクノロジーでもあります。

以前の状況を見直すために、Qubit は Aishi/Wang Changhu の外部講演の公開情報を徹底的に調べたところ、同社が当初、Sora の出現前の主流の AIGC アプローチでもあった Diffusion+Unet アーキテクチャの技術的ルートを採用していたことを発見しました。 , しかし、さらに進むと、パラメーターの拡張と複雑な命令があるため、Unet では少し不十分です。

したがって、Aishi は非常に早い段階 (Sora が登場する前) に DiT アーキテクチャを試し始め、スケーリング則に従ってモデルのパフォーマンスを向上させました。

車の向きが非常に早かったため、ソラの登場はアイシを油断させず、逆にルートが正しいことを確認したため、今年はアイシのスピードが大幅に上がりました。



では、今回のPixVerse V2のDiTベースモデルのアップデートはどのようなものになるのでしょうか?

最初のポイントは、拡散時空モデリングです。

Aishi は、時空間分離やフルシーケンス アーキテクチャよりも「より合理的」で優れた、独自の時空間注意モデリング メカニズムを作成しました。

このメカニズムにより、時間と空間の認識が向上し、複雑なシーンをより適切に処理できるようになります。

2つ目のポイントは文章理解です。

PixVerse V2 のプロンプトを理解する能力は大幅に強化されました。舞台裏ではマルチモーダル モデルが使用されており、テキスト情報とビデオ情報をより適切に配置できるため、作成者の意図どおりの結果が生成されます。

三番目より高い計算効率を得るために、PixVerse V2 は従来の Flow モデルに基づいて損失を重み付けし、モデルがより速くより適切に収束できるようにします。

もう一つの点、より優れた 3D VAE モデルを設計したのは、PixVerse V2 の背後にある研究開発チームです。

ビデオ圧縮品質を向上させるために時空間アテンション メカニズムが導入され、ビデオ圧縮と再構成の結果をさらに向上させるために継続学習テクノロジも使用されます。



AIの恩恵で「シンプルで面白い」UGC傾向

AIGC は今年最もよく知られたトピックです。

しかしAIGC を適用する能力は、実際にはまだ少数の人々の手に渡っています。、プログラマー、デザイナー、その他の専門家など。

AIGCはまだUGCのような普遍的な「GC」の段階に入っていない。

このような状況に直面して、アイシテクノロジーが設立以来 1 年以上にわたって取り組んできたことは次のように要約できます。

  • AIテクノロジーの能力を継続的に向上させる
  • 動詞「G (Generated)」の主語グループを展開します。
  • 「C(コンテンツ)」の品質レベルに注目してください。

これは PixVerse V2 に反映されるだけでなく、今後も同様に反映されます—

調査によると、PixVerse V2 のリリースは、同社が AI ビデオ機能と製品に手を加えるのは今年 3 回目です。

今年 1 月、Aishi は Vincent のビデオ製品である PixVerse の Web バージョンを正式にリリースし、月間訪問者数はすぐに 100 万人を超えました。

4月には自社開発の動画モデルをベースに開発したC2V(Character to Video、役割一貫性)機能をリリースし、Webページ上で利用できるようになった。

PixVerse は、文字の特徴を正確に抽出し、ビデオ生成モデルに深く埋め込むことで、文字をロックインし、AI ビデオ作成における一貫性の問題を最初に解決できます。

6 月には、ビデオ画面を塗りつぶし、ビデオ要素の動きと方向を正確に制御するために使用する Magic Brush モーション ブラシがリリースされました。

AI動画生成会社としてもRunway以降同様の機能をリリースするのは初めてだ。



半年に3回というのは珍しくないが、最初の2回の行動は少し控えめに思えた。

これは、自社の作品を磨き上げることに集中したいという新興企業の願望に関係しているのかもしれないし、あるいは王長虎や他のリーダーの控えめな性格に関係しているのかもしれないが、私たちには分からない。

しかし、Aishi Technology が国内 AI ビデオ分野でトップであることは多くの人が知っていますが、なぜそれがトップなのか、また使いやすいのかについては必ずしも知らないという現象が起きています。

PixVerse V2 が登場したことで、老若男女、プロも素人も個人的に使用でき、確かに非常に効果的であると感じています。これが、PixVerse V2 が発売後すぐにヒットした理由の 1 つです。

そして、さまざまなアクションを振り返ってみると、これらのいくつかの製品機能のアップデートがすべて 1 つの本体を中心に行われていることがわかります。AIビデオ作成をより実践的かつ簡単に

同時に、以前の製品の機能は専門家の使用体験に焦点を当てていたことがわかります。

これは、王昌湖氏の以前の発言を裏付けるものでもあります。

AI ネイティブ ビデオをコンテンツ業界の制作と消費のリンクに統合できることが期待されています。

しかし、PixVerse V2 は異なります。この世代の製品は、AI ビデオ作成をより幅広い一般の人々が利用できるようにする方法に焦点を当てています。

結局のところ、Magic Brush は使いやすくて便利ですが、それでもユーザーが AI ビデオを生成しておく必要があります。

ビデオ プロンプトはテキスト生成やテキスト生成プロンプトよりも難しく、一般の人が AI ビデオ生成を使用する際の障害となることがよくあります。

PixVerse V2 がキャプチャするものは素晴らしいです——

即語の難易度を下げる、オプションで微調整する、生成するコンテンツの枠を広げる、後段の編集が不要になるなど、さまざまな面からAI動画制作のコストを可能な限り削減するよう努めています。

結果はどうなるでしょうか?

みんな、誰にでもチャンスがあり、誰もが参加できる、あなたの野生の想像力を目に見えるビデオ作品に変えることができます。

参加意識が強いため、より多くの人、さらには誰でも、創造性を発揮して AI ビデオの作成に参加できます。

長い目で見れば、徐々にAI時代のUGCエコシステムが形成され、UGCよりもシンプルで興味深いものとなるでしょう。

私は以前に興味深いミーム画像を見たことがあるので、多くの友人もそれを見たと思います。



「PixVerse は、Runway、Pika、SVD などの当時最高のビデオ生成製品とともに最前列に並ぶことができて光栄です。また、この写真に登場する唯一の中国企業でもあり、Wang Changhu 氏自身がこの写真を所有していたこともあります。」 「しかしその一方で、我々の前には巨人がいる。我々はまだそれをさらに超えなければならない」と冗談を言った。

AI 2.0 時代、特に Sora が大きな波を起こした後、AI ビデオがマルチモーダル トラックの焦点になっていることは否定できません。

すべての巨人、大手メーカー、新興企業の熱意は、1 つの問題を示しています。

AI ビデオは市場の可能性を広げ、刺激しており、AI マルチモーダル大型モデルによって推進されるイノベーションが成長しています。

Aishi がこのミーム写真に登場できるのは、写真に登場する唯一の中国企業である理由は非常に明白です。

一方で、アイシテクノロジーの模型技術や自社開発のベースモールドによる製品効果は確かに認められています。

一方で、テクノロジーのどの波にあっても、スタートアップは世界的な注目を集めるでしょう。

検索戦争中、Googleは革新的なWebページランキングアルゴリズムPageRankを使ってYahooのユーザーを奪い、後発企業を追い抜いて今日に至るまで検索市場のリーダーとなった。

大きな言語モデルの初期には、Transformer は Google から生まれましたが、GPT は小規模な研究機関 (当時) だった OpenAI の取り組みであり、徐々に今日の GPT-4o につながり、追われる対象となりました。

現在、OpenAI の追求者および競争相手の中に、Google がいます。

いつの時代も、大企業や巨大企業の包囲に直面しても、スタートアップが火花を散らして業界に火をつけ、スターが輝く物語は常に存在します。

アイシテクノロジーがテクノロジーとプロダクトで綴るのは、スタートアップ企業自身のストーリーであるAIビデオトラックです。