minimax がビデオ生成の混戦に加わりました。大規模なモデルを使用したビデオ作成は世界の終わりですか?

2024-09-01

ビデオ生成モデルの混戦に、別の国内ユニコーンが加わりました。

8月31日、常に控えめな「aiの六小龍」の1つであるminimaxが初めて正式に公の場に姿を現し、上海で「minimax link partner day」イベントを開催した。会議では、minimax の創設者 yan junjie 氏がビデオ生成モデルと音楽モデルの発売を発表しました。さらに、速度と効果の点でgpt-4oと競合できる大型モデルabab7の新バージョンが数週間以内にリリースされるだろうと予測した。

このビデオ生成モデルの外部名は video-1 であり、minimax では特定のパラメーターについてはあまり紹介していません。 yan junjie 氏は、市販のビデオモデルと比較して、video-1 は高圧縮率、良好なテキスト応答、多様なスタイルの特徴を備えており、ネイティブの高解像度および高フレームレートのビデオを生成できると述べました。現在、video-1 は文生ビデオのみを提供します。将来的には、この製品は文生ビデオ、編集機能、制御機能なども追加する予定です。

現在、すべてのユーザーがコンチai公式サイトにログインし、動画-1の動画生成機能を体験することができます。 2番目のビデオを生成できます。出力効果から判断すると、絵はプロンプトの言葉で述べられている点を基本的にカバーしています。高解像度と色調は美的に許容可能です。改善できる点は、キャラクターの顔の詳細です。

カンファレンスのディスカッションセッションで、yan junjie 氏は、大型モデルは非常に注目されている分野であるが、合意されていない分野も多くあると述べました。国内でやるのか海外でやるのか、スケーリング法は継続できるのか...」など。

多くの合意に達していないにもかかわらず、今年はビデオ生成が主要モデルメーカーの合意となる可能性があります。

今年2月にopenaiが大型ビデオモデル「sora」をリリースして以来、4月にはshengshu technologyが大型ビデオモデル「vidu」をリリースし、6月にはkuaishouが大型aiビデオ生成モデル「keling a」をリリースした。その 1 週間後、vincent ビデオモデル dream machine がリリースされました。runway は、7 月初旬に、vincent ビデオモデル gen-3 alpha がすべてのユーザーに公開されたことを発表しました。 7 月末に aishi technology が pixverse v2 をリリースし、その後 zhipu が qingying ビデオを正式にリリースし、8 月初旬には bytedream ai がアプリストアでリリースされました。

1 年前、市場に公開されている vincent ビデオモデルはほとんどありませんでしたが、わずか数か月の間に、数十のビデオ生成モデルが登場するのを目撃しました。業界関係者は、この 1 年は前例のない時期だったと嘆いています。 ai ビデオの生成の歴史的瞬間。

インタビューの中で、チャイナ・ビジネス・ニュースの記者は、minimax レイアウトのビデオ生成の必要性について質問し、その本質的な理由は、人間社会の情報がマルチモーダルコンテンツにより反映されているためであると述べました。毎日はテキストではなく、すべてダイナミックなコンテンツです。xiaohongshu を開いたときはすべて写真とテキスト、douyin を開いたときはすべてビデオ、そして pinduoduo を開いたときでさえ、ほとんどの場合は写真でした。」テキストによるインタラクションは非常に一般的ですが、より小さな部分は音声とビデオのインタラクションに関するものです。

したがって、大規模モデルメーカーとして非常に高いユーザーカバレッジとより深い使用深度を実現するには、純粋なテキストベースのコンテンツを出力するだけでなく、マルチモーダルコンテンツを出力できるようにすることが唯一の方法であるとyan junjie氏は説明しました。核心的な判断。

「最初にテキストを作成し、次にサウンド、画像を作成しただけです。テクノロジーが強化された今では、ビデオも作成できます。このルートは一貫しており、マルチモードステートを実行できる必要があります。」ジュンジさんは言いました。

しかし、openaiが年初にリリースしたsoraを見る限り、ビデオ生成の軌跡はまだ正式には外部に公開されておらず、業界の課題も垣間見える。

一方で、現在のビデオ生成結果はユーザーの期待には程遠く、モデルは物理的なルールを理解しておらず、生成プロセスの制御が困難です。ビデオ、画像、および 3 次元の生成アルゴリズムでは、たとえば、1 つが増えたり、1 つが欠けたり、特に洗練されたビデオでは手が型に浸透したりするなど、多くの構造的かつ詳細な問題が発生します。物理的なルールのビデオは、現在生成することが困難です。

ヤン・ジュンジエ氏はインタビューの中で、「この問題は非常に難しい」とも述べ、そうでなければ、これを行うと主張する非常に多くの企業がすでにそれを行っていただろう。ビデオのコンテキストテキストは当然非常に長いため、ビデオの作業の複雑さはテキストの複雑さよりも困難です。たとえば、ビデオには数千万の入力と出力があり、これは当然ながら困難なプロセスです。第 2 に、ビデオの量は非常に大きいため、5 秒のビデオの長さは数メガバイトになる場合がありますが、約 100 ワードの 5 秒のビデオでは 1k のデータに満たない可能性があり、これは数千倍のストレージギャップとなります。

「ここでの課題は、テキストに基づいて構築された基盤となるインフラストラクチャがデータの処理にどのように使用されるか、データをクリーンアップする方法、およびデータにラベルを付ける方法がビデオには適していないということです。」と yan junjie 氏は考えています。 2つ目は忍耐力です。オープンソースに基づいて作成すると、オープンソースのコンテンツはそれほど多くありません。コンテンツが作成されても、やり直す必要があることがわかり、さらに忍耐が必要になります。

業界関係者は以前、現在のビデオ生成は画像生成に似ていると記者団に語った。2022 年 8 月に stable diffusion がオープンソースになった後、2022 年目前に aigc 画像生成が急増し始めたが、現時点では特に強力な「オープンソース」は存在しない。「ビデオ生成の分野で。sora」がリリースされましたが、誰もがまだその道を模索する必要があります。

qiming venture partners は 7 月に「2024 年の生成 ai に関する 10 の展望」を発表しました。その 1 つは、ビデオ生成が 3d 機能と組み合わせることで映画、テレビ、映画などに影響を与えるだろうと考えています。アニメーション、短編映画の制作モデルは変化をもたらします。将来的には、画像やビデオの潜在空間表現の圧縮率が 5 倍以上向上し、生成速度が 5 倍以上速くなるでしょう。

(この記事は中国ビジネスニュースからのものです)

レポート/フィードバック

ニュース

minimax がビデオ生成の混戦に加わりました。大規模なモデルを使用したビデオ作成は世界の終わりですか?

導入

私の連絡先情報