sora が爆発後に失火、国内ビデオモデルが引き継ぎ、threshold

sora は爆発後に失火し、国内のビデオモデルが引き継ぎ、閾値を下げた

2024-09-11

openai の vincent ビデオモデル sora の発売によって引き起こされた業界の爆発がまだ正式に公開されていないことが昨日のことのように思えます。対照的に、国内の大規模ビデオモデルは2024年に集中的にリリースされる予定です。テクノロジーは常に更新されていますが、完成品のほとんどは依然として後段階で手動の編集と合成を必要とし、アプリケーション側でのテクノロジーの実装速度に影響を与えます。。

これを踏まえ、shengshu technologyは9月11日、あらゆる被写体を一貫して生成し、映像生成をより安定かつ制御しやすくする世界初の「subject consistency」機能の機能アップデートを公開した。いわゆる「被写体参照」により、ユーザーは任意の被写体の写真をアップロードでき、ai が被写体の画像をロックし、記述子を通じて任意にシーンを切り替え、同じ被写体のビデオを出力できます。

shengshu technology の ceo、tang jiayu 氏によると、短編ビデオ、アニメーション、コマーシャル、その他の映画やテレビ作品はすべて、物語の芸術において「一貫した主題、一貫したシーン、一貫したスタイル」を備えた物語システムを必要とします。物語の整合性を達成するには、これらの核となる要素を包括的に制御する必要があります。

ワンクリックで 32 秒のビデオを生成

shengshu technology が最後に公式声明を発表したのは、清華大学人工知能研究所の副所長で shengshu technology の共同創設者兼主席研究員である zhu jun 教授が、長期にわたる一貫性の高い成果を発表したのは今年 4 月でした。 vidu と呼ばれる非常にダイナミックなビデオモデルを使用すると、ワンクリックで最大 16 秒のビデオを生成できます。この技術アップデートにより、最大 32 秒の長さの vidu ビデオを生成できるようになります。

2024 年には、大型モデル全体が前年の狂乱を経て徐々に沈静化し、ビデオ大型モデルがマルチモーダル大型モデルまたは agi に移行する唯一の方法とみなされます。 kuaishouやbyteのdouyinに代表されるショートビデオ企業、alibabaやtencentに代表される大手インターネット企業、shengshu technology、zhipu ai、aishi technologyなどに代表されるスタートアップ企業が相次いで主要なビデオコンテンツのモデル製品をリリースしている。

デボン証券の統計によると、sora のリリース以来、国内外の十数社がビデオ生成モデルをリリースまたはアップデートしました。客観的に見ると、動画の長さや解像度などの基本的な機能は徐々に縮まりつつあり、将来的にはユーザーの獲得と定着率の向上に競争が移っていく可能性がある。主観的な観点から見ると、デボン証券は、大規模モデルによって生成されたビデオの品質は大幅に向上していると考えていますが、物理世界のシミュレーターにはまだ程遠いです。 vincent のビデオ分野のビデオ画像は概して鮮明ですが、可動範囲と物理的な復元には大きな違いがあります。これも今回の機能アップグレードの検討事項の一つです。

tang jiayu 氏は、現在の vidu 生成時間 32 秒は、ワンクリックでエンドツーエンドで生成されており、フレームの結合や挿入によって生成されたものではないと述べました。違いは、モデルが情報表現を含む長期情報を圧縮する強力な能力を備えていることです。情報表現は、実際には物理世界の理解と意味論的入力間の関係により本質的に関連しています。したがって、継続時間を改善するには、モデルの抽象的な理解、圧縮、および生成機能を含む世界の理解機能を向上させる必要があります。

短編アニメーション「summer gift」を制作した aigc アーティストの shi yuxiang 氏は、業界は現在 ai ビデオに対して比較的寛容であり、改善できる詳細には、複雑なレンズの処理、複数のキャラクターのレンズの処理などがあると考えています。シーン付きシーンミザンシーンなどの取り扱いがあります。基本的な画像生成ビデオ機能と比較して、「被写体参照」機能は静止画像の制約を取り除き、作成の一貫性を向上させ、画像生成の作業負荷を約 70% 節約します。

light chi matrix の創設者で若手監督の li ning は、vidu を使用して映画の男性主人公のビデオクリップを事前に作成しました。このビデオクリップでは、すべてのキャラクターシーンが男性主人公の最終メイクアップ写真 3 枚のみから生成されていました。 -アップ、ミディアムショット、ロングショット。 li ning氏は、これまでのaiムービー作成プロセスは主に従来のテキストベースの描画プロセスと描画ベースのビデオプロセスを使用していたため、キャラクターの全体的な形状の一貫性を保つことが困難だったと述べました。初期段階で写真をデバッグするには多大なエネルギーが必要ですが、同時に、レンズの光と影の制御不能、画像のぼやけ、さらには長さの変形など、一連の問題が発生しやすくなります。ビデオの増加に伴い、これらの問題はさらに拡大します。 vidu の「subject reference」機能により、キャラクターの全体的な一貫性が大幅に向上し、初期段階で大量の画像を生成する必要がなくなり、キャラクターの動きや画像の遷移もより自然になり、長い物語の作成に役立ちます。

基本的に、「主題参照」機能のアップグレードは、大規模なビデオモデル生成の品質を向上させ、特定の業界とテクノロジーを組み合わせる効率を向上させ、特定のアプリケーションでのaiの実装を加速することを目的としています。現在、shengshu technology はパートナープログラムを立ち上げ、広告、映画、テレビ、アニメーション、ゲーム、その他の業界団体に参加を呼びかけています。

shengshu technology のビデオモデルの現在のビジネスモデルは、saas サブスクリプションモデルと api インターフェイスに分かれています。これは、大規模モデルの分野で一般的に採用されている商用テスト方法でもあります。 bエンドとcエンドの具体的な分配比率について、tang jiayu氏は、収入の観点から見ると、bエンド市場からの収入の方が大きいと述べた。 cエンド製品の発売から1か月が経過し、成長曲線は非常に高いものとなっています。総合的な判断の結果、b サイドは比較的明確かつ直接的であり、比較的安定した需要が含まれているため、b サイドは同社の長期的な焦点となるでしょう。ただし、c エンド製品はまだ継続的な探索の過程にあります。

zhipu ceo の zhang peng 氏は、以前 zhipu qingying (ying) をリリースした際、業界での商業化の模索について語り、toc であれ tob であれ、純粋に大規模化に向けて進むのは現段階ではまだ比較的早いと述べました。商品化。いわゆる課金戦略は初期の試みであり、市場やユーザーからのフィードバックも観察し、タイムリーに調整していきます。

ビデオモックアップの次は何でしょうか?

特定の機能レベルでのアップグレードとアップデートに加えて、現在、業界ではマルチモダリティが一般的な傾向である一方、大規模なビデオモデルは段階的な状態であるという一般的なコンセンサスが得られています。

この点に関して、zhang peng 氏は、ビデオ生成は単独で存在するのではなく、テクノロジーと製品の開発ルート全体に組み込まれていると述べ、これはマルチモーダルまたは agi マルチモーダルパスのリンクであると考えています。製品の観点から見ると、ビデオ生成も独立した製品となり、商品化を実現し、価値を生み出すことになります。 tang jiayu氏はまた、shengshuの最下層は一般的な大型モデルであり、ビデオ生成は中間段階にすぎないと記者団に語った。

マルチモダリティに移行する過程で、複数のビデオモデルが集中的にリリースされると、同質性の問題が発生するでしょうか?この点に関して、唐家宇氏は記者団に対し、技術コースでは学生数は収束しつつあるが、同質だからといってすべての進歩や能力が同じであることを意味するわけではないと語った。たとえば、現在の言語モデルにはすべて transformer アーキテクチャが含まれていますが、実際には openai が依然として明らかに進んでいます。なぜなら、アーキテクチャに基づいて、効果的にスケールアップする方法、ビデオを効果的に圧縮する方法など、中間にまだ多くのリンクがあり、多くのスキルと実践経験があるからです。アルゴリズムスキルとアルゴリズムの難しさ (アルゴリズムエンジニアリングの難しさを含む) はすべて、現在の大規模なビデオモデルの違いにつながる要因です。

商業化に関しては、sora や runway のような企業でも、ハリウッドとの提携や広告協力に積極的に取り組んでおり、これらの分野はテクノロジーが自然に導入しやすい分野であるため、この業界はビジネスの選択という点では比較的似ていると tang jiayu 氏は考えています。 ai 生成ビデオ分野全体はまだ発展の初期段階にあり、市場の拡大に向けて世界の主要プレーヤーが協力して前進しています。

ビデオモデルの分野における集中的なリリース状況に関して、zhang peng 氏は、制御性は業界が達成するために多大な努力を必要とするものであると考えています。一方で、技術レベルでは、ビデオ自体の制御性が非常に大きな要件となります。次に、セキュリティの観点から、ビデオ信号にはより多くのコンテンツと詳細が含まれるため、生成されたコンテンツが要件を満たしていることを確認する必要があります。最後に、生成されたコンテンツが商業的に利用可能であるためには、制御可能性も必要な条件となります。クリエイターの意図を正確に表現し、誰もがお金を払ってもらうためには必要です。

基本的な条件が満たされた後、sora の発売以来、大型ビデオモデルに対する業界の現在の期待は、長時間のビデオ撮影方法を ai に置き換えることにより重点が置かれています。 zhang peng 氏は、技術開発の観点から、これは重要な方向性であり、映画およびテレビ業界の変化にとって前向きな意味を持つと信じています。しかし、現時点では、大きなビデオモデルは視聴者向けの制作プロセスで直接使用するには十分ではありませんが、小規模な作品であっても補助的な作業に使用でき、高度な要件を真に変えるにはまだ道がありません。映画制作など。

sora については、デビュー時に最高潮に達し、まだ一般公開されていませんが、業界では依然としてキャッチアップの対象とみなされていますが、技術的な詳細が不透明なため、企業は多くの点を独自に検討する必要があります。。ソラの「失踪」について、タン・ジアユ氏は記者団に対し、その理由はいくつかあると語った。ビデオはopenaiの現在の主力製品ではないが、生成プロセス中に他の問題が発生し、一定の量のデータが必要になった。解決にかかる時間とコストが会社の優先事項と一致しない。

張鵬氏と芝浦氏は常に世界トップレベルとのギャップに客観的に直面してきたが、同時にこの道は自ら歩むべきだと信じている。ビデオのコンピューティング電力コストを削減し、誰もが使用できるように応答速度を向上させます。張鵬氏は「われわれは技術の高みを追求すると同時に、技術の普及も追求している」と語った。

(この記事は中国ビジネスニュースからのものです)

レポート/フィードバック

ニュース

sora は爆発後に失火し、国内のビデオ モデルが引き継ぎ、閾値を下げた

導入

私の連絡先情報

sora は爆発後に失火し、国内のビデオモデルが引き継ぎ、閾値を下げた