ニュース

ビデオ生成戦争 2.0!一番下のモデルを狂ったように転がすダチャン

2024-07-24

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


スマートなもの (公開アカウント:翻訳
著者バニラ
編集李水清

2024 年に大型モデルで最も人気のあるトラックについて語るには、ビデオ生成がリストに含まれる必要があります。

Sora が 2 月に AI ビデオ生成の新時代を開いた後、今年 6 月の集中モデルのリリースにより、ビデオ生成戦争は新たな最高潮に達しました。

「次世代の AI 映画とテレビがここにある」、「とてもボリュームがあり、あなたが歌ってから私たちが登場するような感じです」、「ようやく PPT 時代から脱却する希望が見えてきました」、「AI が使用されるようです」 「...AI ビデオのクリエイターや実践者の間で最も一般的に見られる感情は「興奮」です。

ソラのリリース以来、スーパー8国内外のAI企業が次々と新製品や新モデルを発表し、そのつど新たな製品を生み出している。10秒以上ビデオは公開されており、中には長い間実装されていると言われているものもあります。2分超長時間ビデオ生成、AI ビデオ生成トラックは、熱い 2.0 戦争を引き起こしました。

こちらです、バイトAI ビデオ生成製品 Jimeng を最初にリリースし、ビデオ生成時間を一般的な 3 ~ 4 秒から 12 秒に延長します。早い労働者柯嶺の大型モデルが突然公開され、その衝撃的な効果にインターネット上で熱い議論が巻き起こり、100万人近くが列をなした。


▲クアイショウケリンの行列に並ぶ申込者の数

あちらのスタートアップルマAI「3D ビデオ投影を放棄」し、知名度の高いベテラン プレイヤーがゲームに参加できるようにドリーム マシンをリリースします。滑走路それに負けずに、同社は新世代の Gen-3 モデルを発表し、物理シミュレーション機能を新たな高みに押し上げました。


▲Gen-3ビデオ生成効果

金融の戦場でも同様に熾烈な戦いが続いている。国内、愛石テクノロジー、盛州テクノロジー3月以降、海外で10億ドル規模の資金調達が相次いでいる。ナキウサギ6月には8,000万米ドルの融資を受け、評価額は5億米ドルに倍増した。滑走路最大4億5,000万ドルの資金調達を準備していることが明らかになった。

Sora は AI ビデオ生成界に衝撃を与えた大ヒット作のようなものです。 5 か月にわたる熱心な追求を経て、国内外の AI ビデオ生成製品の進歩はどうなっているでしょうか?彼らはソラと競争できるでしょうか?どのような課題に直面するのでしょうか? Zhidongxi は、利用可能な製品の水平的な経験と実務者やクリエイターとのディスカッションを通じて、これらの問題についての詳細な分析を提供します。

実際に計測してみると、動画の生成速度が速くなり、「ロールオーバー」現象が大幅に軽減され、単純な「PPT風」パンニングが角度や動きの変化を伴う動きに進化していることがはっきりと感じられる。全体的な経験を踏まえると、無料製品の中で最も良い結果が得られたのは、継続時間、安定性、物理シミュレーションの点でリーダーである Jimeng と Keling です。

資金調達に関しては、Sora のリリース前と比較して、AI ビデオ生成に関連する資金調達の密度と金額が大幅に増加し、5 か月で 44 億件以上を集めました。また、「上流と下流」の他の製品も牽引しました。 AI編集、AIライティングなどの映像制作プロセスの一部を資本が好む。さらに、多くの新規プレイヤーがゲームに参入しており、製品やテクノロジーをリリースする前に数億の資金を調達したプレイヤーもいます。

1. テクニカルバトル: ロール持続時間、ロール高解像度、ロール物理シミュレーション

2月16日、OpenAIはAIビデオ生成の軌道を一夜にして覆したSoraをリリースした。しかし、5か月経った今でもSoraはまだ先物商品であり、一般に入手できるようになるのはまだ先のことのようだ。

この間、国内外の大手メーカーやスタートアップ企業が新製品やモデルのアップグレードを急いでおり、そのほとんどがすべてのユーザーに公開されており、これによりAIビデオのパターンも変わりました。また世代。結局のところ、Sora がどれほど優れていても、それを使用できなければ何の価値もありません。

Zhidongxi の不完全な統計によると、Sora のリリース以来、少なくとも8軒同社は新製品または新モデルをリリースしました。そのうち、Shengshu Technology の Vidu を除くすべての製品一般公開


▲AI動画生成製品リリース・モデルアップ(スマート東西集計)

2月21日安定性AI AIビデオ生成製品Stable VideoのWeb版が正式にリリースされ、すべてのユーザーが利用できるようになりました。その基礎となるモデルである Stable Video Diffusion は、昨年 11 月にオープンソースとしてリリースされましたが、モデルとしては依然として一定の導入と使用のしきい値があり、パッケージ化されて Web バージョンとしてリリースされた後、より多くのユーザーが簡単かつ便利に開始できるようになりました。

4月27日盛州テクノロジーVidu は清華大学と共同で、長時間、一貫性が高く、非常にダイナミックな大規模なビデオ モデルをリリースしました。これは、最大 16 秒の長さ、解像度 1080P のビデオを生成でき、現実の物理世界を模倣できると言われています。 。

公開されたデモを見る限り、Vidu は確かに鮮明さ、可動範囲、物理シミュレーションなどの点で良好な結果を達成しています。しかし、残念ながら Vidu は Sora と同様にまだリリースされていません。 Zhidongxi 氏は Shengshu Technology に問い合わせたところ、この製品が近い将来に社内テストを開始することを知りました。


▲Shengshu Technology Vidu ビデオデモ

5月9日バイトJiuyingが所有するAI作成プラットフォームDreaminaは、「Jimeng」に名前を変更し、AI描画とAIビデオ生成機能を開始し、最大12秒の長さのビデオの生成をサポートしました。

6月6日早い労働者 AIビデオ大型モデルKelingがKuaiyingアプリ上でリリースされ、ユーザーはアンケートに記入するだけで利用を申請できます。 Keling Large Model は、多くの AI を悩ませる「麺類を食べる」問題など、物理世界の特性の高強度シミュレーションに焦点を当てており、それが提供するビデオ ケースに反映されています。

現在、Keling は 5 秒と 10 秒の固定長のビデオの生成をサポートしています。公式サイトによると、このモデルはフレームレート30fps、解像度1080Pで最大2分の動画を生成できるとのことで、今後は動画継続機能なども提供予定とのこと。

6月13日、これまで主にAI生成の3Dに注力していたスタートアップがルマAIテキストや画像から5秒動画の生成に対応した動画生成ツール「Dream Machine」の提供開始を発表。生成した動画を5秒ずつ延長できる動画延長機能も提供する。

6月17日滑走路新世代モデルの Gen-3 アルファ版がリリースされ、7 月 2 日にすべての有料ユーザーが利用できるようになります。最低月額 15 ドルのサブスクリプション料金がかかります。 Gen-3 は現在、テキストに基づいた 5 秒および 10 秒のビデオの生成をサポートしていますが、その他の制御可能なツールはまだ利用できません。


▲Gen-3 Alphaはビデオエフェクトを生成します

7月6日インテリジェントな未来(HiDream) は、WAIC 上で Intelligent Image Model 2.0 をリリースしました。これにより、5 秒、10 秒、15 秒の 3 つのビデオ生成時間が提供され、テキスト埋め込み生成、スクリプト マルチショット ビデオ生成、IP 一貫性などの機能が追加されました。

7 月 17 日、以前は AI 3D 再構築に注力していた英国の AI スタートアップ企業がハイパーAIは、AI動画生成製品「Haiper」をv1.5にバージョンアップし、再生時間が8秒に延長され、動画延長や画質向上などの機能が提供されたと発表した。

次の表は、これらのモデルの生成時間、解像度、フレーム レート、その他のパラメーターと、基本的な生成に加えて追加の機能を示しています。


▲AI動画生成製品パラメータのアップグレード(Smart East-West Tabulation)

パラメータの観点から見ると、これらの AI ビデオ生成製品は、まず基本的な生成時間が以前の 2 ~ 4 秒から 5 秒に延長され、10 を超える再生時間をサポートしています。本製品は拡張機能を提供します。現在無料で利用できる製品の中で、生成された最長のビデオは Jimeng による 12 秒です。

視覚効果の面では、解像度とフレームレートが大幅に向上し、720P 以上をサポートする製品が増え、フレームレートも 24/30fps に近づきました。以前の製品で生成されたビデオ解像度のほとんどは 1024* でした。 576、フレームレートは 1024*576 程度で、レートはほとんど 8 ~ 12fps でした。

2. 製品戦争:ハンズオンテスト6つの無料「スポット」、「ディクアイ」が先導

Sora が最初にリリースされたとき、Zhixixi は中国で利用可能な 8 つの AI ビデオ生成ツールを詳しく経験していましたが、その時点ではまだその差は比較的明らかであり、多くの「ロールオーバー」がありました。 (全ネットワーク初の「中国語版Sora」をレビュー!Byteを筆頭に15社が参加)

では、数か月間アップグレードを繰り返した後、新しい回答を提出したプレイヤーのパフォーマンスはどうなったでしょうか? Zhidongxi は、新しくリリースされた、またはアップグレードされた AI ビデオ生成製品を体験しましたが、公平性を保つために、無料の機能のみを試し、初めて生成されたビデオを選択しました。

なお、ビデオ生成自体は「カードを引く」と同様に運の要素があり、即語の作成にも密接に関係しているため、少数のケースではモデルの能力を完全に表現できないこともあります。

私は最初のレベルを選択しました静物画のシーン、プロンプトの単語は次のとおりです。夕日の暖かい光を浴びたチューリップのクローズアップ

Stable Video は、このプロンプトで高い安定性を示し、同時に、動きに関しては、レンズの動きが主な焦点である画像の鮮明さと色彩の豊かさを示します。


▲Stable Videoで動画を生成

Dream Machine の画像の鮮明さは明らかにワンランク下がっていますが、プロンプト ワードのパフォーマンスは依然として比較的正確で、動きも主にレンズの移動に基づいています。


▲Dream Machineが動画を生成

Haiper によって生成されたビデオは優れた視覚効果を備えていますが、動作範囲がわずかに小さくなります。


▲Haiperが動画を生成

Zhixiang の大型モデルのパフォーマンスも良好で、写真には被写界深度効果が強くありますが、花びらをよく見ると、細部に欠陥があり、不安定であることがわかります。


▲Zhixiang大型モデル生成ビデオ

Ji Meng は固定レンズの画像を生成し、動きは主にチューリップの揺れによって決まり、全体的な効果は比較的安定していました。


Keling が作成したビデオは、「クローズアップ」という言葉を極限まで表現しており、同時に高解像度で花びらの質感を表現しています。とはいえ、「チューリップのアップ」をどう捉えるかは、決まった答えがある問題ではないので、誰が正しくて誰が間違っているとは言えません。

//oss.zhidx.com/uploads/2024/07/6696499b734af_6696499b690e6_6696499b690bc_Tulip-Keling.mp4

▲Kelingがビデオを生成

全体的に、静物シーンにおけるさまざまなプレーヤーのパフォーマンスは非常に安定しており、生成されたビデオの使いやすさは非常に高いです。

私は2番目のレベルを選択しました動物のシーン、そして様式化とダイナミックなアクションの要素が追加されました。プロンプトの言葉は次のとおりです。ディスコを踊る漫画のカンガルー 。これは実際に Sora が提供したケースの 1 つです。まず、Sora の校正を見てみましょう。

//oss.zhidx.com/uploads/2024/07/6696464125de3_6696464116ab1_6696464116a7c_Dancing-kangaroo.mp4

▲ソラがビデオケースを生成

このレベルでは、Stable Video が「世間に登場」します。画像の最初のフレームは完璧です。これは、ビデオを生成するときに Stable Video によって選択されたパスに関連している可能性があります。最初に、ユーザーが選択できる 4 つの画像が生成され、次にそれに基づいてビデオが生成されます。ユーザーが選択した画像 - するとカンガルーの全身がねじれ、変形し始めました。

さらに興味深いのは、写真の背景にあるキャラクターや擬人化された動物にはそれほど問題がないことです。Stable Video を困惑させたのは「ディスコ ダンス」アクションではないでしょうか。


▲Stable Video はビデオ効果を生成します

Dream Machine によって生成されたビデオの全体的な安定性は良好ですが、カンガルーの足や手などの細部では安定性に欠けています。可動範囲に関しては、カンガルー自体の動きに加えて、クローズアップからパノラマへのレンズ移行も行われます。

Dream Machine のビデオ拡張機能を再度試してみましたが、拡張機能によって生成されたコンテンツはビデオの 5 秒後に表示されます。シングルショットにとどまらず、全身から上半身のアップショットに切り替わっているのがわかります。しかし、延長されたビデオでは、背景のキャラクターはより安定していますが、カンガルーはさらに不安定です。

//oss.zhidx.com/uploads/2024/07/6695ec3b230c2_6695ec3b1f3da_6695ec3b1f39d_A-cartoon-kangaroo-disco-dances.-a318b1.mp4

▲Dream Machineがビデオエフェクトを生成

ハイパーによって生成されたカンガルーはある程度デフォルメされており、「ディスコ」というキーワードを反映していません。


▲Haiperが動画を生成

Zhixiang の大きなモデルはこのレベルで大きくひっくり返り、安定したビデオと同様に、画像の本体が大きく歪み、「ディスコ」効果が反映されていませんでした。


▲インテリジェントな象モデルがビデオ効果を生成

Jimeng によって生成されたビデオの全体的な視覚効果は比較的良好で、高い明瞭さと豊かな色彩を備えています。安定性に関しては、最初の数秒は比較的普通でしたが、最後の3秒くらいで明らかな歪みが発生し、その歪みの度合いはDream Machineと同等でした。

意味理解の観点から見ると、この絵は特定の「ダンス」の動きを示していますが、「ディスコ」とはほとんど関係がありません。さらに、画像の背景の文字は「幽霊の描画記号」のように見えます。

//oss.zhidx.com/uploads/2024/07/6695ec2b3d230_6695ec2b38b00_6695ec2b38adc_IMENG.mp4

▲夢が生み出すビデオエフェクト

Keling によって生成されたビデオは全体的に比較的安定しており、主な問題は手と眼球に集中しています。しかし、意味理解の観点からは、「ディスコ」というキーワードは反映されていません。

//oss.zhidx.com/uploads/2024/07/669649d2e096d_669649d2dbda7_669649d2dbd80_kangaroo-keling.mp4

▲ビデオエフェクトの生成に使用可能

全体として、このレベルでは Dream Machine、Ji Meng、Ke Ling の方が優れたパフォーマンスを示しましたが、いずれも Sora のレベルに達することはできませんでした。さらに、このプロンプトワードは、色の傾向、スタイルの選択、レンズの切り替えなどを含む、各モデルの美的な違いも示しています。

3 番目のレベルは次のように設定されています。キャラクターのクローズアップ、使用されるプロンプト単語は次のとおりです。宇宙ステーションの外に浮かぶ宇宙飛行士のクローズアップ。背景に地球と月があり、ヘルメットのバイザーに星が映っている。

Stable Videoはこのレベルでは好調で、「宇宙飛行士」「地球」「月」「星の反射」などのキーワードを正確に描写しており、安定性も非常に高かった。動きに関しては、単純なレンズの移動ではなく、背景に対する写真の被写体の動きです。


▲Stable Videoで動画を生成

ドリームマシンはひっくり返り、「宇宙飛行士」ということをすっかり忘れて宇宙の光景を描いた。


▲Dream Machineが動画を生成

このレベルではハイパーが好成績を収めましたが、「月」は抜けていましたが、他のキーワードは反映されており、ヘルメットへの映り込みも非常に自然でした。


▲Haiperが動画を生成

Zhixiang の大型モデルは当初、プロンプト ワードの生成を拒否し、機密コンテンツが存在することを示していました。何度もカットを重ねた後、最終的に「宇宙ステーションの外に浮かぶ男性のクローズアップ」を含むビデオを生成しました。

絵全体の効果は比較的現実的ですが、最後のプロンプトワードには内容を反映するキーワード「宇宙ステーション」のみが含まれていますが、それでも地球や宇宙服などの要素が描かれています。しかし、主人公は宇宙ヘルメットをかぶっておらず、呼吸はおろか、話すことさえも知りません(ドージ)。


▲インテリジェントな象モデルがビデオ効果を生成

Ji Meng は人物の顔や衣装の描写が比較的上手で、安定性が非常に高いですが、画面の背景には第 2 の「地球」があるように見えます。 「クローズアップ」というより「クローズアップ」です。

//oss.zhidx.com/uploads/2024/07/66964f26a7c3e_66964f26a3673_66964f26a3651_Astronaut-Jimeng.mp4

▲即夢生成動画

Keling 氏が生成したビデオには最初はキャラクターがなく、その後宇宙飛行士がゆっくりとショットに入りましたが、背景は静止しており、ユーモアのタッチがあるように見えました。しかし、画像自体の精度と安定性は依然として非常に高く、あらゆるキーワードを反映しており、一部のプレイヤーが見逃していた「宇宙ステーション」も描写されています。

//oss.zhidx.com/uploads/2024/07/66965077c3056_66965077be925_66965077be8fa_Astronaut-Keling.mp4

▲Kelingがビデオを生成

キャラクター レベルの全体的なパフォーマンスは静物シーンほど安定していませんが、前のレベルよりもはるかに優れています。これは、豊富なトレーニング データと狭い可動範囲に関連している可能性があります。このレベルでより優れたパフォーマンスを発揮するのは、Stable Video、Haiper、Ji Meng、Ke Ling です。

Zhidongxi が今回体験した 6 つの AI 動画生成製品の中で、全体として、夢、精神生成効果の利点は比較的明白で、持続時間と安定性の両方の点で優れた性能を実現しています。また、Morph StudioやNeverEndsなどの国産製品も非常に効果的ですが、Soraの発売以来、新製品やモデルアップが行われていないため、今回の体験の範囲外となります。

3. 資本をめぐる戦い:5月次利益4410億人もの新しいプレーヤーが出現

Sora がリリースされると、オリジナルの GPT-4 と同じように生成 AI のブームが再び起こり、Vincent Video のコンセプト ストックの 1 日あたりの一括制限が引き起こされました。

プライマリーマーケットにもカーニバルの新たな波が到来しています。Zhidongxi の不完全な統計によると、Sora がリリースされてから 5 か月間で、少なくとも5AIビデオ生成トラックのスタートアップが受賞1億元以上総額約12億元の資金調達を行い、ランウェイは新たな資金調達で4億5,000万米ドル(約32億6,800万元)の交渉を行っていることが明らかになった。


▲AI動画生成関連の大型投融資(スマート東西集計)

国内、アイシテクノロジー同社は3月と4月にそれぞれ20億ドルの資金を調達し、アントなどの著名な投資家から支持されていたが、これまでは昨年8月に数千万元相当のエンジェルラウンドを受けただけだった。

今年1月にアイシテクノロジーはAI動画生成製品「PixVerse」の海外版を発売し、当時は「Pika」や「Runway」と競合する強力なダークホースとなった。 Sora がリリースされた後、創設者の Wang Changhu 氏はかつて、Sora は 3 ~ 6 か月以内に追いつくだろうと述べていました。

5 か月が経過しましたが、Aishi Technology は基礎モデルの反復アップデートをまだリリースしていませんが、キャラクターの一貫性やモーション ブラシなどの新機能を次々とリリースしています。 Zhidongxi 社の製品の進歩について尋ねたところ、その新世代モデルと新機能がわかりました。ヴィンセントのビデオ長編映画」は今週リリースされ、生成することができます持続時間 8秒ビデオと缶一度に 3 ~ 5 個の連続オーディオ ビデオを生成


▲PixVerse、モーションブラシ機能を開始(出典:Aishi Technology)

盛州テクノロジーまた、わずか 3 か月の間に 2 ラウンド連続で数億元相当の資金調達を受けており、Baidu Venture Capital は古い株主として投資を続けています。これまでに、Shengshu Technology は 2 ラウンドの資金調達を受けており、累計総額は 1 億元を超えています。

サンドAIこれは最近注目を集めたばかりのスタートアップであり、まだ製品をリリースしていません。 7月10日、Sand AIは5月にCapital Today主導のシリーズA資金調達で数千万ドルを受け取ったことが明らかになった。

Sand AIは2023年10月に設立され、Soraと同様の動画生成技術を主に開発している。注目に値するのは、その創設者である曹岳はいLight Years Beyond の共同創設者の 1 人、北京知源AI研究所のビジュアルモデル研究センターの所長およびマイクロソフトリサーチアジアの主任研究員を務めました。

公開情報によると、Cao Yue は清華大学を卒業し、学士号と博士号を取得し、コンピューター ビジョンのトップカンファレンスである ICCV で最優秀論文に贈られる Marr Award を受賞しており、Google Scholar で 40,000 回以上引用されています。


▲曹岳(曹岳の個人ホームページより画像出典)

ハイパーAI同社はビデオ生成業界では新しいスタートアップでもあります。同社は 2022 年に設立され、英国ロンドンに拠点を置いています。以前は AI ベースの 3D 再構築に注力していました。

3月の海外メディアの報道によると、ハイパーAIはシードラウンドで1,380万米ドル(約1億人民元)の資金調達を受けており、以前は2022年4月に540万米ドルを調達していた。

Haiper AI の創設チームは 2 人の中国人で構成されており、Yishu Miao 氏はかつて TikTok のグローバル信頼性と安全性チームに所属しており、Ziyu Wang 氏は DeepMind で研究員として働いていました。昨年末、Haiper AI チームはビデオ生成に注力することを決定し、12 月に同名の最初のビデオ生成製品のベータ版をリリースしました。


▲Haiper、同名製品のベータ版をリリース

ナキウサギ 6月には、新たに約8,000万米ドル(約5億8,100万元)の資金調達を受け、評価額は2倍の5億米ドル近くになったと発表した。昨年11月、ピカは総額5,500万米ドル、評価額2億〜3億米ドルの資金調達を完了したと発表した。

7月2日 AI動画生成トラックの「オールドプレイヤー」滑走路評価額40億米ドルで、新たに4億5,000万米ドル(約32億6,800万元)の資金調達について交渉していることが明らかになった。

Runwayの最後の資金調達は昨年6月に完了しており、投資家にはGoogleやNVIDIAなどが含まれ、1億4,100万米ドルの資金調達で15億米ドルに達し、調達総額は2億3,700万米ドルとなった。今回の資金調達が実現すれば、資金調達額、評価額ともに2倍以上となる。

一般的に、Sora のリリース後、過去数か月間、新しい AI ビデオ生成ファイナンスがプライマリー市場に登場し続けており、その頻度が増加しているだけでなく、単一のファイナンスの金額も大幅に増加しています。前回の融資総額を上回りました。たとえ一部のスタートアップが製品リリースやモデルアップグレードを行わなかったとしても、投資家の熱意は止まりません。

4. 150日間のAIビデオ戦争、「PPT」から本物の「ビデオ」へ

Sora の 150 日間の「不可視化」の間に、多くの大手メーカーやスタートアップによる「包囲」の下、主流の AI ビデオ生成製品と Sora の間の差は大幅に縮まりました。そして、重要な点が 1 つあります。使用する準備ができて、そして多くの機能さえもまだ無料です。

現在、ヘッド AI ビデオ生成製品は良好な持続時間と安定性を達成しており、次の反復の焦点は物理シミュレーションです。公式に展示されたデモから判断すると、Gen-3、Keling、Jimeng、Vidu は現実世界を高度にシミュレートしており、上映されたケースは Sora がリリースしたものとほぼ同じです。

クリエイターの視点から見ると、現在の製品エクスペリエンスはどのようなものでしょうか?

最近、監督兼 AI 映画・テレビクリエイターのチェン・クン(Xianren Yikun)は、AI 短編ドラマ「山と海」の予告編のリメイクを制作し、オリジナル バージョンと比較しました。

短編劇の初演で彼は、Zhixixi や他のメディアに対し、半年後の AI の進歩は依然として非常に明らかであり、特に物理シミュレーション側面に関しては、彼の意見では、それは達成された」世代間の「反復。具体的には、現段階では、Keling などのビデオ生成モデルはネイティブの高解像度を達成しており、スライスされた画像コンテンツによって駆動されることはなくなりました。本体の動きは合理的で、動きの範囲は大きいだけでなく滑らかで、しかし同時に、AI ビデオ生成テクノロジーは、キャラクターの一貫性、シーンの一貫性、キャラクターのパフォーマンス、アクションのインタラクション、動きの範囲など、いくつかの大きな問題点に直面しています。


▲『山と海』予告編のリメイク版とオリジナル版の比較

アプリケーションの観点から見ると、AI は映画やテレビの制作などの現場で、依然として従来の映画やテレビに追いつく過程にあります。

AI は、制作プロセス全体において、脚本、アフレコ、編集、ポストプロダクションなどの主要なツールではなく、まだ補助的な手段であり、生産性のレベルに到達できる製品は現時点ではありません。

しかし、人的効率比を含むコストの点では、AI ベースのプロセスは大幅に圧縮され、従来の生産プロセスのレベルに達しています。1/4以下


▲上映会でインタビューを受けたチェン・クン

WAIC2024では、Aishi Technology 共同創設者、Xie Xuzhang 氏Tan 氏は、現在私たちが「ビデオ生成」と呼んでいるものは、実際にはビデオ素材の生成にすぎず、ビデオ素材の生成は完全なビデオ制作プロセスのほんの一部にすぎず、音声、編集、トランジション、スクリプトなどは含まれていないと述べました。技術的な観点でもビジネスの観点でも、道のりは非常に長いです。

これは、ビデオ生成の既存の問題点を克服するために基礎となるモデルを反復し続けることに加えて、AI ビデオ開発のもう 1 つの重要な方向性でもあります。

市場にはさまざまなビデオ制作プロセスを実験している企業も多く、プライマリーマーケットからも好まれています。先週だけでも、AI を活用したビデオ編集ツールが登場しましたキャプション、AI 仮想環境はライティングおよび合成ツールを提供しますビーブルそれぞれ6,000万米ドルと475万米ドルの融資を受けました。

結論:人工知能ビデオ生成、待機中GPT-4 モーメント

Sora のリリースは国内外のチームや起業家の熱意に火をつけましたが、全体としてはまだ初期段階にあり、技術的なルートはまだ合意に達しておらず、生み出される効果はまだ商用基準には程遠いです。具体的な段階については、業界の多くの人が「GPT-3時代」「画像生成の2022年前夜」など、言語モデルや画像モデルの初期段階に例えている。

しかし確かなことは、AI ビデオ生成テクノロジーは指数関数的な速度で発展しており、新しい製品やテクノロジーが常に登場しているということです。技術的な問題点や課題はいくつかありますが、技術の反復と市場の促進により、この分野はさらなるブレークスルーと応用が達成されることが期待されています。

AIビデオ生成戦争はテクノロジーの競争であるだけでなく、資本の競争でもあります。この金儲けの嵐の中で誰が最後に笑うのか、見守る必要がある。