ニュース

PixVerse V2 が登場しました!一気に5つの「空」を生成し、映像生成トラック「音量」が飛び去る

2024-07-24

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


著者 |

電子メール | [email protected]

「巻き毛すぎる!」

6 月以来、ビデオ生成製品は Keling から Luma、Runway Gen3 まで爆発の波を迎え、そのモデル機能と製品化効果はますます向上しています。

ちょうど今、PixVerse が V2 バージョンをリリースしました。DiT アーキテクチャのアップデートに加えて、実際に 5 つの「Sora」エフェクト ビデオ コンテンツを連続して生成できるようになりました。

麺類を食べる猫やバイクに乗る犬などのクリエイティブなテストでは、PixVerse V2 のビデオの鮮明さ、ダイナミックな品質、美しさのすべてが良好な結果をもたらしました。

シリコンスターによると、時空間的注意メカニズムと組み合わせた DiT (拡散 + トランスフォーマー) アーキテクチャに基づいて、PixVerse V2 はモデル機能の段階的なアップグレードを受けています。一度に 8 秒のビデオの生成をサポートし、ビデオのダイナミック レンジ、詳細表現、信頼性が大幅に向上しました。もう 1 つの主要なアップデートは、PixVerse V2 が 1 ~ 5 の連続ビデオ コンテンツのワンクリック生成をサポートしていることです。クリップはメイン画像、ピクチャースタイル、シーン要素の一貫性を自動的に維持し、誰でも簡単に40秒のビデオコンテンツを生成できます。

生成効果の観点から見ると、一方で、PixVerse V2 バージョンのビデオ生成コンテンツは情報密度が高く、数秒でより多くの情報を送信できます。同時に、一貫性が向上し、生成されたコンテンツがより高速になります。一方、V2 の製品設計は複雑な機能を可能な限り単純化し、初心者でも作成できるようにしています。

ビデオ生成モデルのテクノロジーと製品が継続的に繰り返されることで、国内または海外を問わず、一般のユーザーが大きな需要を示していることがわかりました。 AI ビデオ コンテンツの作成は専門家グループに限定されるものではなく、一般のユーザーもシンプルで直感的なツールを使用して自分の創造性やアイデアを表現したいと考えています。

この観点から PixVerse V2 の製品イテレーションを見ると、すべての機能がユーザーに近づくよう努めていることがわかります。

1

1. 反復するたびにユーザーに一歩近づきます

発売以来、PixVerse は技術革新とユーザー ニーズへの深い洞察に基づいた最も人気のあるビデオ生成製品の 1 つになりました。

最新の V2 バージョンでは、画期的な機能の 1 つは、ビデオ間の要素の一貫性と一貫性を維持しながら、一度に複数のビデオを生成できる機能です。この機能は、長編ビデオ コンテンツの作成にとって非常に重要であり、クリエイターはテーマやストーリーに沿って相互に関連する一連のビデオ クリップを生成できます。


私たちの評価では、複雑なシーンや長いビデオ シーケンスを処理する場合に、PixVerse V2 が良好なパフォーマンスを発揮することがわかりました。さらに、一貫性には、視覚的な一貫性だけでなく、アクションやプロットのスムーズな移行も含まれます。これは、ナラティブ ビデオでは特に重要です。

使いやすさの向上もポイントです。短いクリップしか生成できず、継続的な「カード描画」と二次編集が必要な市販の「クリエイティブなおもちゃ」とは異なり、PixVerse V2 は高品質のビデオ クリップを生成できるだけでなく、短いクリップの創造性を拡張し、直接出力することもできます。完全で使用可能なクリエイティブなコンテンツ。

この機能により、PixVerse V2 は二次編集用のショートショットの生成に限定されなくなり、複数のプラットフォームや複数のシーンで使用できる完全なビデオを直接出力できるようになります。

実際に評価してみると、PixVerse V2のこの機能により動画作成の効率と利便性が大幅に向上しました。ユーザーはビデオ編集や合成に多くの時間を費やす必要がなくなり、創造性やコンテンツそのものに集中できるようになります。ソーシャル メディアで共有する短いビデオであっても、継続性が必要なドラマチックなビデオであっても、PixVerse V2 はワンストップ ソリューションを提供できます。利便性の向上により、AI動画生成技術の適用範囲がさらに広がり、一般ユーザーからプロのクリエイターまで幅広く活用できるようになりました。


PixVerse V2 の技術レベルでの革新性と、ユーザー エクスペリエンスの多面的な磨き上げがわかります。 Silicon Star によると、PixVerse V2 は、基礎となるモデルに革新的な時空間注意メカニズムを導入することにより、拡散時空間モデリングで画期的な進歩を遂げ、複雑なシーンの処理能力を大幅に向上させました。同時に、その強力なテキスト理解機能により、モデルはテキスト プロンプトとビデオ コンテンツをより正確に一致させ、深いマルチモーダル フュージョンを実現できます。

さらに、PixVerse V2 はコンピューティング効率の面でも最適化されています。従来のフロー モデルを改善し、損失関数に重み付けを行うことで、モデルの収束が速くなり、ビデオ生成の速度と精度が向上します。 3D VAE モデルの導入と時空間注意メカニズムの適用により、ビデオの圧縮と再構成の品質がさらに向上し、ビデオ コンテンツの効率的な送信と保存が保証されます。

PixVerse のリリース以来のいくつかの主要なマイルストーンを振り返ると、その背景にはその技術力だけでなく、市場とユーザーのニーズを鋭く把握していることがわかります。

5 月、PixVerse は革新的なモーション ブラシ機能をリリースしました。この機能により、ユーザーは軌跡を描くだけでビデオ内の特定の領域の動きを制御できるようになり、ビデオ作成の柔軟性と直感性が大幅に向上します。特定のシナリオの使用には、アニメーション制作、広告クリエイティブ、ソーシャル メディア コンテンツの生成などが含まれますが、これらに限定されません。ユーザーからのフィードバックは概ね好評で、この機能によりビデオ編集プロセスが大幅に簡素化され、より自由かつ直感的に作成できるようになったとのことです。

製品の機能設定に関しては、基本的には生成された結果に満足しているが、細部を調整したい場合に、PixVerse は二次編集機能や自由変形機能をサポートしており、ユーザーはさまざまなプラットフォームやシナリオのニーズに応じてビデオ表示効果を柔軟に調整できます。さらに、PixVerse ではさまざまなスタイルやアスペクト比も選択できるため、ユーザーはより高い自由度でビデオを作成できます。


モーション ブラシからキャラクター一貫性機能、V2 バージョンの一貫したビデオ生成に至るまで、すべてのアップデートがユーザーに一歩近づいています。このユーザー中心の革新的なコンセプトにより、PixVerse はテクノロジーによって実現される製品であるだけでなく、ユーザーの創造性を実現するパートナーにもなります。

1

2. 深さがイノベーションを決定する

ビデオ生成製品がおもちゃであるか生産性ツールであるかを評価する場合、情報密度はコンテンツの品質を示す重要な指標となります。

小さなボールが空白の背景上で不規則に動く場合、ボールは無限に動き続ける可能性がありますが、得られる情報はほとんどありません。

PixVerse V2 では、Aishi Technology は技術的手段を通じてビデオ生成の情報密度を高め、ユーザーを退屈なビデオ素材の編集から解放し、クリエイティブなビデオ コンテンツの作成に直接入力できるようにします。一貫性の究極の追求、複数のクリップの本体が変更されていないことの保証、その他の機能はすべて、ビデオ素材から直接公開可能なビデオ コンテンツに移行することを目的としています。

PixVerse のプロダクト マネージャーは次のように述べています。チームは常に「ユーザーとともに歩む」という製品理念を堅持しています。製品開発の初期段階で、チームは業界関係者とのコミュニケーション、実際のユーザーの観察、コミュニティからのフィードバックの収集など、綿密な事前調査を実施します。この総合的なユーザー調査手法により、Aishi はユーザーの微妙な、しかし重要なニーズを捉えることができ、ユーザーから提案された小さな特徴点も真剣に受け止め、テストされます。

このユーザー主導の革新的なコンセプトにより、PixVerse の機能はユーザーの実際のニーズに近づきます。アイシの製品づくりの代表格であるマジックブラシの誕生過程をアイシのプロダクトマネージャーが語った。

今年の初めに、Runway は最初のブラシであるモーション ブラシを発売しました。ユーザーはさまざまなブラシを選択し、下のコントロール ボタンを調整することで、被写体の動きの軌跡を調整できます。この機能を見て、市場調査、ユーザー インタビュー、コミュニティからのフィードバックを通じて、ユーザーはより柔軟なビデオ編集ツールに対する高い需要を持っているが、モーション ブラシの対話方法は十分に柔軟ではなく、デバッグも正確ではないことがわかりました。十分に制御可能です。


このニーズを発見した後、PixVerse 製品チームは、どのようなインタラクション方法を使用すれば、ユーザーがブラシ機能をより直観的かつ簡潔に使用できるようになるか、という議論に重点を置きました。

予備的なユーザー調査に基づいて、製品チームは、第一に、ユーザーは複数の被写体の動きの軌跡をデバッグする必要があること、そして第二に、被写体を選択した後、被写体の動きの軌跡が変更可能であることを発見しました。 、下、左、右のコントロール ボタンは実際の動きの効果をシミュレートできません。したがって、Magic Brush の作成において、製品チームは、スミアリングの方法、パーティションのインテリジェントな選択、およびユーザーが 360 度自由にモーション軌跡を描画できるインタラクティブな方法を選択しました。


ただし、この種の対話方法はユーザーにとって便利ですが、技術的には大きな課題が生じます。 DiT アーキテクチャに基づいて、Aishi の技術チームは、ユーザーのストローク入力を分析し、ビデオ内のモーション エフェクトに変換する Magic Brush 機能をサポートするコア アルゴリズムを開発しました。

Magic Brush は、ユーザー ニーズの発掘から製品プロジェクトの確立、技術的ソリューションまで、わずか 1 か月で迅速にリリースされました。これは、アイシの「短く、平坦で、速い」という企業運営モデルと切り離せないものです。

マーケティング部門はユーザーのフィードバックを迅速に収集し、製品チームと技術チームにタイムリーに伝えることができます。この迅速な情報の流れと意思決定プロセスにより、Aishi はニーズの実現可能性を迅速に検討し、A/B テストを実施し、迅速な意思決定を行うことができます。この機敏性はスタートアップ特有の利点であり、製品を迅速に反復できる Aishi の能力の鍵でもあります。

大手テクノロジー企業と比較して、スタートアップには対応速度と柔軟性の点で一定の利点があります。この機敏性は製品開発や市場戦略に反映されるだけでなく、企業文化や組織構造にも大きな影響を与えます。スタートアップ企業は規模が小さいため、リソースの割り当てがより柔軟になります。リソースをあるタスクから別のタスク、またはあるプロジェクトから別のプロジェクトにすばやく移動して、リソースを最大限に活用できます。

同時に、私たちはユーザーからのフィードバックにもっと注意を払い、ユーザーのニーズを製品開発の中心に置きます。このユーザー主導の製品開発アプローチにより、スタートアップ企業はユーザーのニーズを満たす製品をより迅速に発売できるようになります。多くのスタートアップは、迅速な反復と継続的な改善を重視するアジャイル開発手法を採用しています。新機能やバグ修正を定期的にリリースし、ユーザーのフィードバックに基づいて最適化することで、製品をより迅速に市場に投入します。

Aishiが体現する俊敏性と徹底したイノベーションは、大型モデルの新時代におけるスタートアップ企業ならではの強みです。

1

3. 私たちは優れた技術とさらに優れた製品を必要としています。

今日、テクノロジーがユーザーに届くまでには実際には長い道のりがあり、製品が最も重要なコネクタであることがわかりました。テクノロジーはイノベーションの原動力ですが、その価値はテクノロジーが製品を通じてユーザーとつながって初めて真に反映されます。

PixVerse の開発プロセス中、Aishi Technology チームは細部まで注意深く磨き上げました。 V2 バージョンでは、ビデオの使いやすさを向上させるために、PixVerse は生成された結果の二次編集をサポートしています。インテリジェントなコンテンツ認識と自動関連付け機能により、ユーザーは被写体、アクション、環境、カメラの動きを柔軟に置き換えたり調整したりできます。セックスの創造的な可能性をさらに豊かにするビデオ。


アイシの製品担当者も「技術的な強みや違いは重要だが、製品化やユーザーの壁、そして製品を通じてより多くのユーザーを結びつけることで形成される技術的なフィードバックはさらに重要だ」と述べた。

同時に、技術開発の初期段階では、製品は技術実装の出発点でもあります。高度なAIテクノロジーを、ユーザーが認識して操作できる実際の製品機能に変換します。テクノロジーから製品へのこの変革は、テクノロジーの応用を加速するだけでなく、ユーザーにこれまでにない利便性と創造性を提供します。

特に技術が目標レベルに達していない場合には、技術と製品の双方向の推進がより現実的な意義を持つ。

たとえば、上記のマジック ブラシに関して、一部のクリエイターは次のように報告しています。「現段階では、ベース モデルの機能が物理世界に従って複数の被写体を動かす段階に達していない場合、モーション ブラシをカスタマイズすることで、一部のキャラクターの創造的なスペースを増やすことができます。」まばたき、表情、複雑な相対的な動きはすべてモーション ブラシで実現できます。」

現段階では、Vincent Video は概念的には魅力的ですが、実際にコンテンツを生成するには限界に直面しています。 テキスト自体の情報密度が限られているため、テキストの説明をビデオ コンテンツに直接変換する場合、複雑なシーンや動的な変化の詳細をすべて伝えるのは難しいことがよくあります。 したがって、Tusheng Video は段階的なソリューションとして登場しました。

Vincent ビデオと比較して、Tusheng ビデオは視覚情報に基づいて生成され、シーンの複雑さをより正確にキャプチャして再現できるため、より高い情報密度を提供できます。ベース モールド機能がテキストとビデオの情報密度の違いを解決できるようになる前に、Tusheng Video の導入は技術の進歩を反映するだけでなく、製品設計のアイデアの革新でもありました。

テクノロジーの黎明期において、Aishi の戦略は、製品の実装により注意を払いながら技術的なブレークスルーを実現することに反映されていました。技術的な壁以外にもユーザーの壁が形成され、ユーザーへの理解と洞察によって製品の壁が形成され、技術の限界や製品の限界が押し広げられます。

本当に使えるビデオ生成製品だけが残されます。ユーザーの現在のニーズを満たすだけでなく、将来を見据えて持続可能な技術開発の道を選択する必要があります。

一貫性テクノロジーとの初期の「死闘」、Magic Brush の反復、または PixVerse V2 バージョンの新しいアップグレードのいずれであっても、Aishi の製品戦略は一方では現実的な問題を解決することに基づいています。将来を見据え、長期的な発展の道を選択し、持続可能な未来の構築に尽力しています。

ビデオ生成業界では、継続的なテクノロジーの研究開発、ユーザーの深い洞察、製品の詳細の入念な磨き上げを通じて、真に価値があり創造性を刺激できる製品を生み出すために、規模を問わず企業が継続的なテクノロジーの進歩を必要としています。

PixVerse V2 のスローガン「すべての人にクリエイティブな可能性を解き放つ」のように、これは PixVerse だけでなく、ビッグ モデルの時代におけるすべてのクリエイターにとってもチャンスです。