ニュース

無料のパブリックベータではサーバーを圧倒し、Sora はその物理的な感覚で賞賛されました。

2024-07-24

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

著者丨Zimo

Sora、Runway、Pika に続いて、画像ベースおよびビデオ生成の AI 製品である Dream Machine も爆発的に人気を博しています。

Dream Machine の背後には、2021 年に設立された Luma AI というアメリカの企業があります。 過去 3 年間で 3 回の資金調達に成功し、資金調達総額は 6,730 万米ドルに達しました。直近のシリーズ B の 4,300 万米ドルの資金調達は、著名なベンチャー キャピタル機関 a16z 主導で今年 1 月に行われ、NVIDIA の 2 回目の投資となり、資金調達後の評価額は 2 億〜3 億米ドルに達しました。


今年 6 月、Dream Machine は世界中で無料のパブリック ベータ版を開始しました。各ユーザーには毎月 30 回のビデオを無料で生成できます。各ビデオの長さは 5 秒です。ベンチマークを行い、先にゲームに参加したプレイヤーと競争するために、「効率」、「物理」、「ミラーの動き」の特性を強調します。主な特徴の 1 つは、120 フレームのビデオを生成するのにわずか 120 秒しかかからないことです (ただし、パブリック ベータ期間中に列に並ぶ人が多すぎて、ユーザーからはビデオの生成に 10 ~ 20 分かかるとの報告が一般的でした) 2 時間かかる場合もあります)。物理世界のシミュレーションでは、キャラクターの一貫性が特に重視され、自然なカメラ スキルを使用して、表現された感情と一体化した画像をよりスムーズかつリアルにすることができます。ユーザーのブレインストーミングにより、創造性と想像力に満ちたビデオが生成され、広告、教育、トレーニング、ストーリー作成などの分野での応用も、コストの削減と効率の向上に大きな役割を果たしています。

AIビデオ生成製品はどれが最適ですか?

Dream Machine のページのデザインは直感的でシンプルで、Vincent Video と Tusheng Video の 2 つの機能があります。 Wensheng ビデオでは、英語での説明がより効果的です。生成されたビデオをよりニーズに合わせたものにするには、できるだけ正確で詳細なテキスト説明を使用する必要があります。また、感情表現に関するいくつかの単語を追加することもできます。エフェクトをよりリアルにします。

ただし、テキスト作成能力がそれほど高くないユーザーにとっては、作品の二次加工に近いため、Tusheng ビデオ機能の方が人気があるでしょう。写真をアップロードし、頭の中にあるシーンに基づいたテキストの説明を追加するだけで、静止画像がアニメーション化され、ビデオの形式でストーリーが語られます。

Twitterでは、モナリザを動かしたり、セルフィーを使ってそのシーンを再現したり、大切な人を優しく「蘇らせて」そのシーンを再現したりするなど、ユーザーが共有するさまざまなクリエイティブな動画を見ることができます。 AI制作ツールとユーザーの豊かな想像力が、作品に新たな活力を与えていると言えるでしょう。

このトラックでは、ベンチマークは常に切り離せないトピックです。アーキテクチャの観点から見ると、Dream Machine と Sora はどちらも Diffusion Transformer アーキテクチャを使用しており、生成されるコンテンツの観点からは相関性が高くなります。Runway や Pika と比較して、Dream Machine の差別化は動作範囲の広さに反映されます。レンズの切り替えは、単にビデオ内のオブジェクトを動かすだけではなく、より多くの角度とより高速な機能を備えていますが、モデルがまだ初期段階にあるため、制御性の問題も発生します。例えば、ユーザーテストでは動物のレンズを切り替える際に不合理なマルチヘッド現象が発生しましたが、全体的にはデータとモデルに最適化できる点がたくさんあります。

1 回のビデオ生成時間を見ると、Dream Machine は 5 秒のビデオを 120 秒で生成できますが、Runway はさらに高速で、10 秒のビデオを 90 秒で生成でき、最新バージョンでは 18 秒まで延長できます。 Pika はまだ 3 秒のビデオしか生成できませんが、Sora は制限時間を超えて 1 分間のビデオを生成できますが、レンダリングには 1 時間近くかかります。 。いくつかの製品の価格を比較すると、無料試用期間後の全体的な価格は Dream Machine が最も高く、Pika のプロフェッショナル バージョンの価格は標準バージョンの 6 倍、その他の製品は約 2 ~ 3.5 倍です。


(AI動画生成製品価格比較)

最後に、ビデオ生成効果から判断すると、テキストの同じ段落が、異なる製品によって生成された異なるスタイルのビデオで表現されています。他の製品と比較して、Dream Machine を使用するときにユーザーが抱く一般的な感覚の 1 つは、映画のような感覚と物理的なリアリズムであり、それが生み出すビデオ映像と没入感はより強力です。要約すると、考えられる理由は 2 つあります。まず、この製品はモデルのトレーニング中に大量のムービー クリップを使用するため、生成されるビデオは元の画像にあるものに限定されず、追加のものが追加されます。アニメーションのキャラクターの処理と口の動きの追加により、キャラクターがよりリアルに見えます。もう 1 つの点は、3D モデリングにおける企業の技術と経験の蓄積と密接に関係しています。

ウェンシェン氏の3Dミニフィギュアは彼の技術の蓄積によって実現しました。

Luma AI は、設立以来 3D コンテンツの生成に注力してきました。以前にリリースされた Vincent 3D モデル アプリケーション Genie1.0 は、かつて世界的なヒットとなりました。アプリにはPC Web版とモバイルAPP版(Luma AIという名前)があり、海外で広く使われているDiscordサーバーでも利用可能です。

テキストの説明を入力するだけで、「小さなフィギュア」に似た 4 つのリアルな 3D モデルが 10 秒で生成され、好みに応じて選択した後、オリジナル、スムーズ、反射などのテクスチャを自分で編集することもできます。最後に、fbx、gltf、obj などの複数の形式で出力して、他の 3D 編集ソフトウェア (Unity や Blender など) とのシームレスな接続を実現し、モデルを動かし、ゲームやアニメーションなどに完璧にフィットさせることができます。シーンの真の意味でのダウンストリームの実現 シーンのエンパワーメントを提供します。


Genie1.0 は技術的な敷居が低いため、ユーザーはビデオ クリップを撮影するだけで 3D シーンを再構築することもできます。要件に従って、上向き、下向き、上向きの 3 つの角度からオブジェクトの 360° ショットを撮影します。アップロード後、Genie 1.0 がビデオの 3D レンダリングを完了するまで数分間待ちます。

テクノロジーの観点から言えば、Luma AI は NeRF (Neural Radiation Field) を極限まで高めたものと言えます。従来の NeRF では、プロ仕様の機材を使用して大量の写真を撮影する必要があり、座標位置を厳密に守る必要がありました。現在では、基盤となるコードのオープンソース化により、より簡略化されたモデルが開発され、必要な写真や撮影角度の要件が大幅に緩和され、Genie1.0 はより高いレベルを達成し、それを実現できるガイドとなっています。いつでもどこでもNeRFを使用できます。

3D技術と製品の蓄積により、同社は3D生成から映像生成へスムーズに移行できたが、逆に映像生成によって3Dの高品質な条件が整えられたこともある。 Luma AI の概念では、ビデオ生成製品を作成する目的は、3D と時間の次元を追加して 4D をより適切に作成することであり、ビデオはここで中間の役割を果たします。

Genie1.0 と Dream Machine の 2 つの製品を組み合わせることができます。前者はマルチアングル ビデオを通じて 3D モデルを構築でき、後者は 3D モデルの蓄積を使用してビデオをより適切に生成できます。また、3D には写真やビデオと比べてデータ制限があるため、より優れた 3D を作成したい場合は、それを駆動するためにより大きなモデル データが必要になります。最終的な 4D 目標を達成するために、生成されたビデオからマルチビュー データが収集され、4D エフェクトの生成に使用されます。完全なチェーンが開きます。

結局出口はどこにあるのでしょうか?

今年以降、AIビデオ生成トラックは徐々に混雑しており、特に大手インターネット企業は、自社開発モデルであろうと投資であろうと、この分野で一定の準備を整えています。参加者の数が増え続けるにつれて、主に生成されたビデオの制御性と一貫性に反映されるいくつかの問題が徐々に明らかになります。

この 2 つの問題は主に、前述の動物の多頭シーンなど、ビデオのアングルが切り替わるときと、人物の表情やディテールがすぐに変化して捉えにくいため、ビデオのアングルを切り替えるときに発生します。顔の角度によっては、次の瞬間に顔が変形したり、同じ顔ではなくなる可能性があり、これがビデオの長さが制限される理由の 1 つです。ビデオの生成に時間がかかるほど、一貫性を確保することが難しくなります。


(生成されたビデオには複数の頭を持つ動物が表示されます)

この問題点は多くの開発者を悩ませていますが、まだ完全な解決策はありませんが、彼らの開発活動からは、すでにこの中心的な方向に向かって取り組んでいることがわかります。たとえば、Tencent AI Lab が開発した VideoCrafter2 は、画像内の物の動きの一貫性を確保するために低品質のビデオを使用しています。SenseTime が発表したキャラクター生成モデル Vimi は、次の 2 つの側面に焦点を当てて、キャラクターの微細な表情を正確に模倣できます。キャラクター性と操作性。

視聴者グループの観点から見ると、AI ビデオ生成製品は現在、主に C エンド ユーザーをターゲットとしています。ただし、ユーザーは、遊びやすさや創造性を重視して新しいものをテストしています。しかし、製品の数が増えるにつれて、このブームは薄れていきます。 B サイドのサポートにも依存します。現在、このタイプの製品は API の需要も増加し続けており、生成されたビデオの再処理や直接使用など、より多くの可能性を下流企業に与え、作成にかかる時間とコストを大幅に削減します。

さらに、Kuaishou は最近ボナと協力して中国初の AIGC オリジナル短編ドラマを立ち上げ、これも伝統的な映画およびテレビ業界の創造的思考を覆しました。 2 つの新たな注目トラックの組み合わせは、AI ビデオ生成のアプリケーション シナリオに新たなブレークスルーをもたらし、両方とも開発の初期段階にあり、テクノロジーも製品も成熟していませんが、Facing はさらに多くの可能性を切り開きます。この 2 つの傾向と 2 つの利益に乗って、「共同ブランド化」は業界の発展プロセスを急速に推進するに違いありません。

AIによって生み出される製品の革新は、人々の生活に無限の創造性と驚きをもたらし、生産の難易度やコストも軽減します。現在の製品から判断すると、Wensheng Video と Tusheng Video はどちらも非常に興味深く斬新なゲームプレイを生み出しており、個人の創造性がより良い AI 出力を生み出す重要な要素となっています。いくつかの技術的な問題によって時折バグが発生し、製品の形式はモデルの実際の機能に大きく依存しますが、反復的な更新、健全な市場競争、トラックの組み合わせを通じて、モデルは最終的にはトレーニングされ、より完璧なものになると私は信じています。同時に、国産大型モデル製品が世界市場で独自のニッチを切り拓く今後の展開にも期待しています。