大手企業がビデオ生成分野で「軍拡競争」を開始 AIは本当にハリウッドを倒すことができるのか?

2024-07-15

マシンハートレポート

マシーンハート編集部

AIビデオサークルはあなたを死ぬほど殺します。

前足では、Kuaishou が注目を集める方法で Ke Ling をリリースしました。後足では、Luma も負けずに最新のビデオモデル Dream Machine を発売しました。次に、Runway が介入して、大きなキラーである Gen-3 を発売しました。。

微妙なFOMOの雰囲気に突き動かされ、「死ぬほど疲れて、転がって死ぬ」という目的を貫き、このトラックに飛び込むプレイヤーが増えていく――。

アリババ DAMO アカデミーは「Xunguang ビデオ作成プラットフォーム」に賭け、ByteDance AI は「生成映画ドラマ」を模索し、Meitu MOKI は AI 短編映画の作成に注力し、Haiper AI は創造的な表現に注力しています...

7月5日の上海は、AIビデオ界の不安と同じように非常に暑かった。

この日は会議室が実施。

このフォーラムには、AI ビデオ分野の多くのスター企業と専門家が集まり、ビデオ生成テクノロジーの最新の進歩と産業用途におけるその革新的な実践について議論します。

徹底した共有: 内部関係者による心のこもった言葉

ChatGPT の出現以来、Sora が爆発させたビデオ生成テクノロジーは、間違いなくテクノロジーの世界で「最もホットなチキン」です。

この分野はまだ初期段階にありますが、ビデオ生成技術は、その驚異的な開発スピードと潜在的な応用可能性により、デジタルコンテンツ作成の限界を常に拡大しています。

アリババ・ダモ・アカデミーのビデオ生成責任者であるチェン・ウェイフア氏、上海交通大学電子学部教授のニー・ビンビン氏、美図コーポレーション上級副社長のチェン・ジャンイー氏、ハイパーAIの創設者であるミャオ・イーシュー氏がフォーラムに出席し、基調講演を行いました。

Alibaba Damo Academy のビデオ生成責任者である Chen Weihua 氏は、今年初めの Sora のリリースは、高解像度、高忠実度、高品質の点で AI ビデオ生成の大きな可能性を実証しただけでなく、インスピレーションを与えてくれたと述べました。このテクノロジーに対する人々の無限の想像力。

ソラは非常にクールですが、生成プロセスの制御が依然として難しく、主人公の一貫性を確保するのが難しく、最良の結果を達成するには多くの手動によるポストエディットが必要です。

「ビデオコンテンツの制御は創作において最大の需要であり、今日私たちのアルゴリズムが直面している最大の課題でもあります。」とChen Weihua氏は述べています。

Alibaba DAMO Academy - Xunguang Video Creation Platform がリリースした最新の AIGC 製品は、シンプルなショット構成と豊富なビデオ編集機能を通じて、ビデオ制作の効率を向上させ、ビデオ編集後の問題を解決することを目的としています。正確に制御し、複数のビデオにわたるキャラクターやシーンの一貫性を維持します。

Xunguang は、AI ビデオの広範な適用のためのワンストップツールプラットフォームを提供します。AI はクリエイターの作業を置き換えるのではなく、ビデオ作成のワークフローを最適化し、創造性を原動力とする新しいエンジンとなります。

上海交通大学電子学部教授のニー・ビンビン氏は、ベクトル化のためのメディアコンテンツ生成技術を共有した。

演説が始まるとすぐに、彼はそれに冷水をかけた。

「現在の世代のアルゴリズムは、構造的かつ詳細な問題に直面しています。たとえば、生成されたコンテンツには多かれ少なかれ要素が含まれている場合や、手作業でピアスが行われている場合などがあります。物理的なルールに準拠する必要がある洗練されたビデオについては、現在、生成テクノロジーが使用されています。「依然として課題に直面している」と Ni Bingbing 氏は、その理由は、すべての生成インテリジェンスは本質的にサンプリングプロセスであり、ビデオは高次元空間であるためであると述べました。トレーニングデータを増やし、サンプリング精度を下げることでコンテンツの品質を向上させることはできますが、その理由は次のとおりです。超高次元空間への応用は、現在の技術枠組みではまだ完全に達成することが困難です。

さらに、計算能力の制限も重要な要素です。現在、大規模な言語モデルや画像とビデオの生成モデルを含む計算能力指標は、数十テラバイト、数百テラバイト、さらには数千テラバイトのレベルに達しています。将来、生成インテリジェンスの開発トレンドは確実にエンド側に沈み、エンド側が無制限に大規模な計算能力サンプリングを使用して問題を解決することは不可能です。

この点に関して、Ni Bingbing 氏は、ベクトル表現フレームワークを使用してビデオコンテンツをネットワークパラメーターにインスタンス化し、それによって生成されたコンテンツの正確な制御を実現し、物理世界のルールへの準拠を向上させることを提案しました。

彼は、生成型人工知能の現段階の成功は、コンピューティング能力とデータの過度の消費を犠牲にして行われており、将来的には、メディアコンテンツの新しい表現と生成型コンピューティングの新しいパラダイムに焦点を当て、新しいメディアの性質を積極的に創造する必要があると考えています。より高い品質と効率性を実現します。

Meitu Group の上級副社長である Chen Jianyi 氏は、製品マネージャーの観点から AI ビデオ生成のアプリケーションシナリオと課題を分析しました。

ユーザー調査中に、彼は 2 つの興味深い現象を発見しました。

まず、内部関係者はAIが生成した動画なので驚くでしょうが、一般ユーザーにとってはAIが生成したかどうかは気にせず、コンテンツが魅力的かどうかを重視します。

「これは、AIビデオ生成テクノロジーがどのような視覚体験を実現しても、私たちはコンテンツそのものに立ち返り、ビデオが伝えたい価値観やストーリーに焦点を当てなければならないことを意味します。」とChen Jianyi氏は述べました。

第二に、ほとんどの一般ユーザーは「Vincent Pictures」や「Vicent Videos」などの専門用語に馴染みがなく、その具体的な用途も知りません。「Wen Sheng Tu」を例に挙げると、この用語は当時の PhotoShop の「液化」機能に似ていてわかりにくいですが、シーンに限定して「顔の小顔化」機能として説明すると、次のようになります。ユーザーはその価値をより直感的に理解できるようになります。「ヴィンセントビデオ」も同様です。

同時に同氏は、AIビデオ生成技術はコンテンツ表現をより具体的にし、視覚的な創造性と体験を豊かにするが、ビジュアル設定の制御性、動的な制御性、オーディオの制御性などの重要な課題をまだ解決する必要があると述べた。

Meitu Discovery の AI ショートフィルム作成プラットフォーム MOKI は、これらの大きな困難を克服しています。

報道によると、MOKIはAIビデオ生成技術を核とした包括的な短編映画ワークフローを構築したという。初期段階ではクリエイターが脚本を書き、ビジュアルスタイルをデザインし、キャラクターを設定し、AI技術を活用して映像素材を生成します。最後に、AI のポストプロダクション機能を通じて、すべての素材が接続されて、一貫した短編映画が形成されます。

有名人のスタートアップ Haiper AI の創設者である Miao Yishu 氏は、ビデオ生成テクノロジーの重要性と価値について深く議論しました。

Miao Yishu 氏は次のように述べています。「『言語は知性である』とか、『大きな言語モデルは汎用人工知能 (AGI) である』といった意見をよく耳にします。しかし、言語学習だけで本当に私たちを AGI に直接導くことができるのでしょうか。人間が知識を獲得するための重要な方法ですが、人間は視覚、聴覚、読解、運動感覚などの複数の学習方法を通じて学習するだけではありません。AI も複数のモダリティを統合して学習し、真に普遍的な言語を構築する必要があります。。知的。"

GPT-3.5 の発表後、大規模な言語モデルは基本的に自己回帰生成モデル (毎回次の単語を予測する) を通じて言語システムの学習と意味論を解決するため、多くの人が「自然言語処理 (NLP) はもう存在しない」という見解を提唱しました。推論問題が解決されると、特定の推論問題を微調整するための識別モデルさえ必要なくなります。

同様に、ビデオ生成モデルも自己回帰 (毎回次のビデオフレームを予測) を通じて生成モデルを構築するため、モデルは深度予測、セマンティックアノテーション、セマンティックセグメンテーションなどのコンピュータービジョンの分野の重要なタスクを暗黙的に学習します。したがって、2024 年には、ビデオ生成モデルがビデオコンテンツの生成方法を学習する過程で知覚能力と物理法則を徐々に習得しているため、「コンピュータービジョン (CV) はもう存在しない」というような発言を聞くことになるでしょう。

「道で蝶を追いかけるのに子犬のようにニュートンの第一法則を理解する必要があるのでしょうか? 歩いたり自転車に乗ったりするのに 5 歳児のようにすべての物理法則を理解する必要がありますか? 答えはノーです。これは、世界との継続的な対話と観察、さまざまなモデリングによる学習を通じて行われます。実際、ビデオ生成モデルは、多様なビデオコンテンツを生成することを学習することで世界モデルを構築しており、レンダリングするためのプロンプトワードを通じて世界モデルと簡単に対話できます。私たちが望むビデオコンテンツ、そしてこれらすべては、いわゆる物理法則をシミュレートするためのシミュレーターを明示的に構築する必要はありません。」

Miao Yishu 氏は、「ビデオ生成はビデオ生成を超えたものである」と強調しました。彼の見解では、ビデオ生成モデルはビデオコンテンツを生成できるだけでなく、マルチモーダル学習を通じて基本的な知覚能力を学習するための重要なステップでもあり、人工知能が AGI に移行する唯一の方法でもあります。

ラウンドテーブルディベート: ビデオ生成をどのように行うか?

4 人の専門家や学者によるテーマの共有に加えて、このフォーラムでは学界、企業、新興企業、有名な投資機関からのゲストも招待され、ビデオ生成のための最先端のテクノロジーと革新的なアプリケーションの実践について徹底的なラウンドテーブルディスカッションが行われました。シーン着陸産業。

最初のラウンドテーブルディスカッションでは、Jingying Technologyの創設者兼CEOのZhu Jiang氏、シンガポールの南洋理工大学助教授のLiu Ziwei氏、Shengqu Game Technology CenterのAIディレクターであるLi Feng氏、Yitian CapitalのパートナーであるLe Yuan氏、その他のゲストが登壇しました。「大規模なモデルによって推進される、ビデオ生成テクノロジーの改善の道はどこに向かうのか?」このトピックについて詳しく議論され、業界でのビデオ生成テクノロジーの実装の見通しについて議論されました。

Jingying Technology の創設者兼 CEO である Zhu Jiang 氏は、ビデオ生成テクノロジーをカンブリア紀の生命爆発に例え、現在はテクノロジーとアプリケーションの急速な発展段階にあると考えています。同氏は、アプリケーション層の企業が競合他社から抜きん出るためには、ユーザーのニーズに注意を払いながら、テクノロジーに対する理解とリーダーシップを維持する必要があると強調した。同氏は、最終的にはモデル企業とアプリケーション企業の両方が生き残るだろうが、モデル企業はより汎用的になる可能性があり、一方、アプリケーション企業はユーザーとビジネスの理解にもっと注意を払う必要があると述べた。

シンガポールの南洋理工大学助教授、Liu Ziwei 氏は、ビデオ生成技術は現在 GPT-3 の時代にあり、成熟までにはまだ半年ほどかかると考えています。彼は、Diffusion、Transformer、言語モデルの 3 つの技術パスの長所と短所を分析し、将来的にはこれらが統合されて開発される可能性があると考えました。同氏はまた、ビデオ生成技術の「ニュートンの第一法則」、つまりコンピューティング能力とデータに投資することで予測可能な改善を得る方法を探求する必要性を強調した。

Shengqu Game Technology Center の AI 責任者である Li Feng 氏は、ゲーム業界の観点から、ビデオ生成テクノロジーがゲーム開発の効率と創造性を向上させることができると信じています。モデル企業と協力して、レベルデザインやレイアウトプレビューにおける微分可能なレンダリングのアイデアの参照、R&D連携時のコミュニケーション方法の視覚的な調整、他の要素との視覚的な調整など、ビデオ生成技術をゲーム開発プロセスに適用したいと考えています。動的アセットイメージを生成します。

Yitian Capital のパートナーである Le Yuan 氏は、ビデオ生成テクノロジーの商用導入が直面する課題を資本の観点から分析しました。過去 2 ～ 3 年でビデオ生成技術は予想をはるかに超えて進歩したと同氏は考えており、これは驚くべきことですが、客観的に見て、今日の技術レベルは言語モデルに基づいたアプリケーションの開発を大規模にサポートするにはまだ十分ではありません。直面する方法論と課題は、ビデオ関連のアプリケーション分野にも適用できます。

フォーラムの2回目のラウンドテーブルダイアログは、「脱構築型生成AIの波の下でのビデオ生成アプリケーションのイノベーションと機会」に焦点を当て、Wuyuan Capital、FancyTech、Morph AI、スタンフォード大学からのゲストが、投資、アプリケーション、テクノロジー、アートなどの分野から講演しました。ビデオ生成技術の開発方向と応用シナリオをさまざまな角度から探ります。

FancyTech の創設者兼 CEO である Kong Jie は、ビデオ生成テクノロジーが供給側の改革をもたらし、より多くの人がコンテンツ作成に参加できるようになると信じています。同氏は、FancyTech の To B ビデオ生成プラットフォームを紹介しました。これは、実際のアイテムを仮想シーンに復元することで、販売業者がコンテンツ作成コストを削減するのに役立ちます。

Wuyuan Capital の副社長 Shi Yunfeng 氏は、現在のビデオ世代はまだ開発の初期段階にあり、GPT2 が最初にリリースされたときの探査状態に似ていると述べました。テクノロジーの基盤がまだしっかりしていない場合、PMF を見つけることは大きな課題です。同氏は、テクノロジーが進歩し続けているにもかかわらず、クリエイターの熱意が高く、一定の普及範囲を持っているにもかかわらず、コンテンツが広く消費されることはないと考えている。製品をカスタマイズし、既存の情報フローと互換性のない新しいコンテンツ形式を作成するには、有能なプロダクトマネージャーが必要です。

Morph AI の創設者兼 CEO の Xu Huaizhe は、ビデオ生成テクノロジーとアプリケーションは同様に重要であり、技術的な背景を持つチームとして、モデル層とアプリケーション層の開発を調整することがより重要であると考えています。彼は、Morph の主要な AI ビデオ大規模モデルに基づくオールインワン AI ビデオ制作ツールである Morph Studio を紹介しました。これは現在世界中でテストされており、肯定的なフィードバックを受けています。 Morph は今後も、ユーザーのフィードバックを通じて製品の機能とユーザーエクスペリエンスを最適化し、AI ビデオテクノロジーをより迅速に製品に実装し、クリエイターをより良く支援できるようにしていきます。

スタンフォード大学の博士研究員であるラオ・アニ氏は、アートとテクノロジーを組み合わせるという観点から、ビデオ生成テクノロジーがよりインタラクティブな制作方法を刺激できると信じています。同氏は、機械も人間も 100% 正しいということはあり得ないため、機械と人間が協力して創作を完了できるように、創造的なプロセスにインタラクティブな改善メカニズムを導入する必要があると強調しました。

全体として、円卓会議のゲストはビデオ生成テクノロジーの応用の可能性について期待に満ちていますが、現在のテクノロジーはまだ初期段階にあり、より大きな価値を達成するには新しいビジネスモデルと応用シナリオを探求する必要があることも認識しています。。

このフォーラムの開催の成功は、AIビデオ分野の実務者にコミュニケーションと学習のためのプラットフォームを提供するだけでなく、関連業界チェーンのすべてのリンクにさらなる協力の機会を提供します。将来に目を向けると、AI ビデオテクノロジーはより広範な開発スペースとより豊富なアプリケーションシナリオをもたらし、人間にとってより良い視覚体験を生み出すでしょう。

ニュース

大手企業がビデオ生成分野で「軍拡競争」を開始 AIは本当にハリウッドを倒すことができるのか?

導入

私の連絡先情報