半年が経ちましたが、AIビデオはどこへ行ったのでしょうか？

2024-07-23

固定焦点 (dingjiaoone) オリジナル

著者 | 王陸

編集者 | 魏佳

今年の初めにSoraが登場して以来、AIを使ってハリウッドを打倒しようという動きが国内外で活発になっており、AIビデオ界は次々と製品をリリースし、追いつきたいと躍起になっている。ソラ。

外資系の AI ビデオ新興企業 2 社が先導しており、サンフランシスコの人工知能テクノロジー企業である Luma は、Dream Machine ビデオ生成モデルを立ち上げ、映画レベルのプロモーションビデオを公開しました。 AIビデオの分野で有名な新興企業Runwayも、光や影などの細部を表現できるとして、第3世代アルファモデルのテストを一部のユーザーに公開すると発表した。

中国でも負けじと、Kuaishou は Keling Web クライアントを立ち上げました。これにより、ユーザーは最大 10 秒の長さのビデオコンテンツを生成でき、最初と最後のフレーム制御およびカメラレンズ制御機能も備えています。オリジナルのAIファンタジーショートドラマ「山と海の奇妙な鏡：波を切る」もKuaishouで放送されており、すべての画像はAIによって生成されています。 AI SF 短編ドラマ「Sanxingdui: Future Apocalypse」も最近放送され、Byte の AI ビデオ製品 Jimeng 用に制作されました。

AI動画の更新速度の速さから、多くのネット民からは「ハリウッドでまたゼネストが起こるかもしれない」という声も上がっている。

不完全な統計によると、今日、AIビデオトラックには、Google、Microsoft、Meta、Alibaba、Byte、Meituなどの国内外のテクノロジーおよびインターネットの巨人だけでなく、RunwayやAishi Technologyなどの新興企業も含まれています。「Fix Focus」からは、国内のみで約20社が自社開発のAI映像製品・モデルを発売。

Tobao Research Instituteのデータによると、2021年の中国のAIビデオ生成産業の市場規模は800万元で、この市場規模は2026年には92億7,900万元に達すると予想されています。業界の多くの人々は、生成されたビデオトラックが 2024 年のミッドジャーニーの瞬間の到来を告げると信じています。

世界中のSoraはどのような発展段階に達しているのでしょうか？一番強いのは誰ですか？ AIはハリウッドを倒すことができるのか？

空の包囲：商品は多いが使えるものは少ない

AIビデオトラックでは多くの製品/モデルが発売されていますが、実際に一般向けに使用できるものは非常に限られています。 、海外の優れた代表者は Sora です。Sora は 6 か月経ってもまだ内部テスト中であり、セキュリティチームと一部のビジュアルアーティスト、デザイナー、映画プロデューサーのみが利用できます。国内の状況も同様で、Alibaba Damo Academy の AI ビデオ製品「Xunguang」と Baidu の AI ビデオモデル UniVG はどちらも内部テスト段階にあり、現在人気の Kuaishou Keling については、ユーザーが使用したい場合は列に並ぶ必要があります。 . ほとんどの商品を購入しました。

利用可能な残りの AI ビデオ製品の中には、使用量のしきい値が設定されているものもあり、ユーザーは料金を支払うか、特定のテクノロジーを知る必要があります。たとえば、Luchen Technology の Open-Sora に関するコードの知識が少しなければ、ユーザーは使い始めることができません。

「Fix Focus」は国内外でリリースされたAIビデオ製品を整理したところ、各社の操作方法や機能が類似していることがわかりました。ユーザーはまずテキストを使用して指示を生成し、同時にフレームサイズを選択します。画像定義、生成スタイル、生成秒数などの機能を選択し、最後に「ワンクリックで生成」をクリックします。

これらの機能の背後にある技術的な難易度はさまざまです。最も難しいのは、生成されたビデオの解像度と秒数、これはプロモーション中の AI ビデオトラックにおける企業間の競争の焦点でもあります。これは、教材の品質とトレーニングプロセスで使用されるコンピューティング能力の量に密接に関係しています。

AI研究者のサイラス氏は「Fixed Focus」に対し、現在国内外のほとんどのAIビデオは480p/720pの生成をサポートしており、一部は1080pの高解像度ビデオをサポートしていると語った。

高品質のマテリアルとコンピューティング能力が高いほど、学習済みモデルは高品質のビデオを生成できるが、高品質のマテリアルとコンピューティング能力が高品質のマテリアルを生成できるわけではないと紹介しました。ただし、低解像度のマテリアルでトレーニングされたモデルが高解像度のビデオを生成することを強制されると、複数の手や脚が発生するなど、崩壊したり繰り返し発生したりします。この種の問題は拡大、修復、再描画することで解決できますが、効果と詳細は平均的です。

多くの企業は、長い秒数を生み出すことをセールスポイントとみなしています。

国内の AI 動画のほとんどは 2 ～ 3 秒をサポートしており、5 ～ 10 秒に達することができれば比較的強力な製品と考えられます。Jimeng など、最長 12 秒まで続く非常に長い製品もありますが、どれもありません。そのうち最も長い 60 秒のビデオが生成されるとのことですが、まだ公開されていないため、具体的なパフォーマンスは検証できません。

軽いリールの長さだけでは十分ではありません。生成されるビデオコンテンツも適切なものでなければなりません。 Pomegranate AI の主任研究員である Zhang Heng 氏は、「Dingjiao」に次のように述べています。技術的には、AI は常に出力を要求される可能性がありますが、たとえ 1 時間のビデオを生成しても問題はありません。ほとんどの場合、私たちが求めているのは監視映像ではなく、ループする風景アニメーションではなく、美しい写真とストーリーを備えた短編映画です。

「Fixed Focus」は、中国で人気のある 5 つの無料 Wensheng ビデオ AI 製品、つまり Byte の Jimeng、Morph AI の Morph Studio、Aishi Technology の PixVerse、MewXAI の Yiying AI、Right Brain Technology の Vega AI をテストし、同じテキストを与えました。指示: 「赤いドレスを着た小さな女の子が、公園で小さな白いウサギにニンジンを与えました。」

いくつかの製品の生成速度は同様で、わずか 2 ～ 3 分ですが、明瞭さと継続時間は大きく異なり、精度はさらに「混沌としたダンス」です。結果は次のとおりです。

イーインAI

ベガAI

夢

モーフ

ピックスバース

それぞれの長所と短所は明らかです。時間が短いにもかかわらず、ゲームの品質は高くありませんでした。主人公の少女、ベガ AI も同様の問題を抱えていました。 PixVerse の画質は比較的悪いです。

比較すると、Morph によって生成されたコンテンツは正確ですが、その時間はわずか 2 秒です。 Yiying の画質も良好ですが、テキストがよく理解できず、ウサギの重要な要素が直接失われ、生成されたビデオは十分に現実的ではなく、よりコミック風になっています。

つまり、要件を満たすビデオを提供できる製品はありません。

AI ビデオの課題: 正確さ、一貫性、豊かさ

「固定フォーカス」の体験は、さまざまな企業が公開しているプロモーションビデオとは大きく異なります。AIビデオが本当に商品化されるには、まだ長い道のりがあります。

Zhang Heng 氏は「Fixed Focus」に対し、技術的な観点から、主に 3 次元からさまざまな AI ビデオモデルのレベルを考慮していると語った。正確さ、一貫性、豊かさ。

これら 3 つの次元をどのように理解するか、Zhang Heng 氏は例を挙げました。

たとえば、「遊び場でバスケットボールの試合を観戦している 2 人の女の子」のビデオを生成します。

精度は以下に反映されます。まず、コンテンツ構造の正確な理解 (たとえば、ビデオに 2 人の女の子がいる場合)。次に、プロセス制御の精度 (たとえば、シュートが行われた後、バスケットボールの速度が徐々に低下する)。ネットから; 最後に静的データモデリングは正確です。たとえば、レンズ内に障害物がある場合、バスケットボールはサッカーに変わりません。

一貫性とは、空間と時間における AI のモデリング能力を指します。これには、主題への注意や長期的な注意も含まれます。

主な焦点は、バスケットボールの試合を観戦している間、二人の少女は常に画面内に留まらなければならず、気軽に走り回ることができないため、運動中にビデオ内のさまざまな要素が長時間注目されることを意味すると理解できます。紛失しないこと。また、変形等の異常がないこと。

豊富であるということは、AI にも独自のロジックがあり、テキストプロンプトがなくても合理的な詳細を生成できることを意味します。

基本的に、市場にあるAIビデオツールのどれも上記の次元を完全に達成することはできず、各社が常にソリューションを提案しています。

たとえば、ビデオで非常に重要であるキャラクターの一貫性の観点から、Meng と Keling は以下を使用することを考えました。 Tusheng Video が Vincent Video を置き換えます。つまり、ユーザーが最初にテキストを使用して画像を生成し、次にその画像を使用してビデオを生成するか、または直接 1 ～ 2 枚の画像を与え、AI がそれらを接続して動画を作成します。

「しかし、これは新しい技術的進歩ではなく、Tusheng ビデオは Vincent ビデオよりも難易度が低いです」と Zhang Heng 氏は「Dingzhong」に、Vincent ビデオの原理は、まず AI がユーザーによって入力されたテキストを分析し、それをコンポーネントに分解することであると語った。説明をミラーリングし、説明をテキストに変換してから画像に変換すると、ビデオの中間キーフレームが得られ、これらの画像を接続することで、連続的なアクションのあるビデオを取得できます。 Tusheng Video は、模倣できる特定の画像を AI に与えることに相当し、生成されたビデオは画像内の顔の特徴を継続して主人公の一貫性を実現します。

同氏はまた、テキストでは画像の詳細を表現する能力が限られているため、実際のシナリオでは、Tusheng ビデオの効果がよりユーザーの期待に沿ったものになると述べましたが、まだ商用化されていません。直感的に言えば、Tusheng ビデオの上限は 5 秒です。10 秒を超えると、コンテンツが繰り返されるか、構造が歪んで品質が低下する可能性があります。

現在、制作プロセス全体に AI を使用していると主張する多くの短編映画やテレビ映画では、主に Tusheng ビデオまたはビデオツービデオが使用されています。

Jimeng の最後のフレーム機能も Tusheng ビデオを使用し、「固定フォーカス」を特別に試してみました。結果は次のとおりです。

結合の過程で、文字が変形して表示されます。

サイラス氏はまた、画像から動画への変換をサポートする多くの AI ビデオツールは、単一フレームの画像を通じてその後のアクションを予測するものである必要があるとも述べました。

理解されているのは、Vincent Video の主人公の一貫性を実現するという点では、各企業は純粋にデータ生成だけに頼っているわけではありません。Zhang Heng氏は、ほとんどのモデルは、元の基盤となるDIT大規模モデルに基づいており、ControlVideo（ハルビン工業大学とHuawei Cloudが提案した制御可能なテキストビデオ生成方法）などのさまざまなテクノロジーを重ね合わせており、それによって主人公に対するAIの理解が深まると述べた。顔の特徴を記憶しているため、動作中に顔が大きく変化することはありません。

しかし、技術的な重ね合わせを行っても、まだ実験段階にあり、文字の一貫性の問題は完全に解決されていません。

AI動画、なぜ進化が遅いのか？

AI界では現在、米国と中国が最も人気がある。

「2023 年に世界で最も影響力のある人工知能学者」（「AI 2000 学者」リストと呼ばれる）の関連レポートから、2020 年から 2023 年にかけて、世界的な「AI 2000 学者」リストに含まれている 1,071 機関のうち、過去 4 年間の「AI 2000 奨学生」の選出者数は、米国が 443 人、中国が 137 人で続いています。2023 年の「AI 2000 奨学生」の国別分布から判断すると、米国が 1,079 人で最も多く選出されています。が世界全体の54.0％を占め、次いで中国の280人が選ばれた。

過去 2 年間で、AI がヴィンセントの写真とヴィンセントの音楽で大きな進歩を遂げたほか、最も突破が難しい AI ビデオでもいくつかの進歩が見られました。

最近開催された世界人工知能会議で、イーティアン・キャピタルのパートナーであるレ・ユアン氏は、ビデオ生成技術は過去2、3年で予想をはるかに超えて進歩したと公に述べた。シンガポールの南洋理工大学助教授、Liu Ziwei 氏は、ビデオ生成技術は現在 GPT-3 の時代にあり、成熟までにはまだ半年ほどかかると考えています。

しかし、Leyuan氏は次のようにも強調した。大規模な商業化を支えるには技術レベルがまだ不十分である、言語モデルに基づいてアプリケーションを開発する際に使用される方法論と遭遇する課題は、ビデオ関連のアプリケーション分野にも適用できます。

今年初めの Sora の登場は世界に衝撃を与えました。トランスアーキテクチャに基づいた新しい普及モデル DiT は、普及と生成における技術的進歩をもたらし、画像生成の品質とリアリズムを向上させ、AI ビデオを大きな進歩に導きました。サイラス氏によると、現在、国内外のヴィンセントビデオのほとんどは同様のテクノロジーを使用しているという。

画像出典／Sora公式サイト

現時点では基盤となる技術はほぼ同じですが、それをベースに各社とも技術的なブレークスルーを模索していますが、製品の機能を充実させるための学習データの量が増えています。

Byte の Jimeng と Morph AI の Morph Studio を使用する場合、ユーザーはビデオの移動方法を選択できます。その原理は、データセットが異なるということです。

「これまで、さまざまな企業が研修中に使用した写真は比較的シンプルなものでした。写真には、どのような要素が存在するかがほとんど記載されていましたが、その要素を撮影するためにどのレンズが使用されたかについては説明されていませんでした。これにより、多くの企業がこのギャップを発見するようになりました。彼らは 3D を使用しました。レンダリングビデオデータセットはレンズの機能を補完します。」 Zhang Heng 氏は、現在のデータは映画、テレビ業界、ゲーム会社からのレンダリングから来ていると述べました。

「固定焦点」もこの機能を試しましたが、レンズの変化はあまり分かりませんでした。

Sora の開発が GPT や Midjourney よりも遅い理由は、Sora には別のタイムラインがあり、ビデオモデルのトレーニングがテキストや画像よりも難しいためです。「現在使用できるビデオトレーニングデータはすべて使い果たされており、トレーニングに使用できる一連のデータを作成するいくつかの新しい方法も考えています」とZhang Heng氏は述べた。

そして、各 AI ビデオモデルには、それぞれが得意とする独自のスタイルがあります。たとえば、Kuaishou Keling の食事やブロードキャストのビデオは、その背後に大量のデータサポートがあるため、より優れています。

Pomegranate AI の創設者である Shen Renkui 氏は、AI ビデオ技術にはテキストからビデオ (テキストからビデオ)、画像からビデオ (画像からビデオ)、ビデオからビデオ (ビデオからビデオ)、およびアバターからビデオ (デジタルヒューマン) が含まれると考えています。画像と音声を備えたデジタルピープルはマーケティング分野で使用され、商業利用のレベルに達していますが、Vincent Video は精度と制御性の問題をまだ解決する必要があります。

現時点では、DouyinとBonaが共同制作したAI SF短編ドラマ「Sanxingdui：Future Apocalypse」か、DouyinとBonaがオリジナルに作成したAIファンタジー短編ドラマ「山と海の奇妙な鏡：Cuting Waves」のいずれであっても、 Kuaishou、ますます多くの大手モデル会社が映画やテレビの制作チームを積極的に探しています。協力するには、自社の技術製品を宣伝する必要があり、作品は業界の外にありません。

ショートビデオの分野では、AI の進歩はまだ長く、ハリウッドを滅ぼすだろうと言うのは時期尚早です。

※タイトル画像はPexelsより引用しています。

ニュース