ニュース

ソラまた超えられた!メタ ai ビデオ モデルが爆発的に普及し、p ピクチャよりもビデオ編集が容易になりました

2024-10-05

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

ザッカーバーグ氏は最近、世界中で「脚光を盗む」ことに忙しい。

つい最近、彼は「第二の起業」を開始し、10年かけて磨き続けた最強のarグラス「メタオリオン」を披露したばかりだが、これは未来を賭けた試作機に過ぎないが、一躍脚光を浴びた。アップルのビジョンプロ。

昨夜、meta がビデオ生成モデル トラックで再び注目を集めました。

メタ氏によると、新しくリリースされたメタムービージェネはこれまでで最も先進的な「メディアファンデーションモデル」。

ただし、メタ担当者はまだ明確なオープンスケジュールを発表していません。

関係者らはエンターテインメント業界の専門家やクリエイターと積極的にコミュニケーションを取り、協力していると主張しており、来年中にはそれをメタ社の製品やサービスに統合する予定だという。

meta movie gen の機能を簡単に要約します。

パーソナライズされたビデオ生成、正確なビデオ編集、オーディオ生成などの機能を備えています。

1080p、16秒、16フレーム/秒の高解像度長時間ビデオの生成をサポート

最大 45 秒間の高品質かつ忠実度の高いオーディオを生成可能

シンプルなテキストを入力して、洗練された正確なビデオ編集機能を実現します

デモは素晴らしかったが、製品が正式に一般公開されるのは来年になる見込みだ

「mime」に別れを告げ、大規模で包括的な機能に焦点を当てる

movie gen には、ビデオ生成、パーソナライズされたビデオ生成、正確なビデオ編集、オーディオ生成という 4 つの主要な機能があります。

vincent ビデオ機能は従来からビデオ生成モデルの標準機能でしたが、meta movie gen はユーザーのニーズに応じてアスペクト比の異なる高解像度ビデオを生成できる機能は業界初です。

テキスト入力の概要: ピンクのサングラスをかけたナマケモノがプール内のドーナツ フロートの上に横たわっています。ナマケモノはトロピカルドリンクを持っています。世界は熱帯です。太陽光が影を落とします。

テキスト入力の概要: カメラは男性の後ろにあります。男は上半身裸で、腰に緑色の布を巻いている。彼は裸足です。両手に燃えるような物体を持ち、大きく円を描く動きをします。背景には穏やかな海が広がっています。ファイヤーダンスがあり、雰囲気は魅惑的です。

さらに、meta movie gen は高度なビデオ編集機能を提供し、ユーザーは簡単なテキスト入力で複雑なビデオ編集タスクを実行できます。

ビデオのビジュアル スタイルから、ビデオ クリップ間のトランジション エフェクト、より詳細な編集操作まで、このモデルは十分な自由度も備えています。

パーソナライズされたビデオの生成に関しては、メタムービージェネも大きな一歩を踏み出しました。

ユーザーは独自の画像をアップロードし、meta movie gen を使用して、キャラクターや動きを維持しながらパーソナライズされたビデオを生成できます。

テキスト入力の概要: デニム パンツを履いたカウガールが西部の古い町で白馬に乗っています。革ベルトが彼女の腰を締めている。馬は威厳があり、毛皮が太陽の光を受けて輝いています。ロッキー山脈が背景にあります。

孔明ランタンから透明な色の泡まで、ビデオ内の同じオブジェクトをたった 1 つの文で簡単に置き換えることができます。

テキスト入力: ランタンを空中に舞い上がる泡に変えます。

今年は多くのビデオモデルが発表されましたが、そのほとんどは「マイム」しか生成できません。メタムービージェネが「同じ間違いを繰り返した」のであれば、それらを放棄するのは残念です。

テキスト入力: 不思議な感覚を呼び起こす美しいオーケストラ作品。

ユーザーはビデオ ファイルまたはテキスト コンテンツを提供し、meta movie gen がこれらの入力に基づいて対応するオーディオを生成できるようにします。 (追記:スケボー着地の吹き替えに注目)

また、単一のサウンドエフェクトを作成するだけでなく、ビデオ全体のバックグラウンドミュージックや完全なサウンドトラックさえも作成できるため、ビデオ全体の品質と視聴者の視聴体験が大幅に向上します。

デモを見た後、レックス・フリッドマン氏は簡潔に賞賛の意を表した。

多くのネチズンが再び openai の将来性を「推し」ました。待ち望んでいたネチズンたちは、試験体験資格の開放を心待ちにし始めている。

meta ai のチーフサイエンティスト、yann lecun 氏も、meta movie gen プラットフォームをオンラインで宣伝しました。

メタが描くパイは楽しみだ

meta movie gen の立ち上げに際し、meta ai 研究チームは 92 ページの技術論文も同時に発表しました。

レポートによると、meta の ai 研究チームは、これらの広範な機能を実現するために主に 2 つの基本モデル、movie gen video モデルと movie gen audio モデルを使用しているとのことです。

このうち、movie gen video は 30b パラメータを備えた基本モデルで、テキストからビデオへの生成に使用され、最大 16 秒の長さの高品質 hd ビデオを生成できます。

モデルの事前トレーニング フェーズでは、オブジェクトの動き、インタラクション、ジオメトリ、カメラの動き、物理法則などの視覚世界のさまざまな概念を理解するために、大量の画像データとビデオ データを使用します。

ビデオ生成の品質を向上させるために、モデルは、厳選された高品質のビデオとテキスト キャプションの少数のセットを使用して、教師あり微調整 (sft) も行われています。

このレポートは、トレーニング後のプロセスが movie gen video モデルのトレーニングにおける重要な段階であり、これによりビデオ生成の品質、特に画像とビデオのパーソナライゼーションと編集機能をさらに向上させることができることを示しています。

研究チームが movie gen video モデルを主流のビデオ生成モデルと比較したことも言及する価値があります。

sora は現在オープンしていないため、研究者は比較のために公開されているビデオとヒントのみを使用できます。 runway gen3、lumalabs、keling 1.5 などの他のモデルの場合、研究者は api インターフェイスを介して自分でビデオを生成することを選択します。

また、sora が投稿したビデオは解像度と長さが異なるため、研究者らは movie gen video からビデオをトリミングして、比較したときにビデオの解像度と長さが同じになるようにしました。

結果は次のようになります。movie gen video の全体的な評価効果は、runway gen3 や lumalabs よりも大幅に優れており、openai sora よりわずかに優れており、keling 1.5 と同等です。

将来的には、meta は、ビデオ生成モデルの研究を加速するために、movie gen video bench、movie gen edit bench、movie gen audio bench を含む複数のベンチマークを一般公開する予定です。

movie gen audio モデルは、ビデオおよびテキストオーディオ生成用の 13b パラメーター モデルで、サウンド エフェクトや音楽を含む高品質かつ忠実度の高いオーディオを最大 45 秒生成し、ビデオと同期させることができます。

このモデルは、フロー マッチングと拡散変換器 (dit) モデル アーキテクチャに基づく生成モデルを採用し、制御を提供する追加の条件付きモジュールを追加します。

meta の研究チームでも、モデルが最初の 45 秒の制限を超えて一貫したオーディオを生成できるようにするオーディオ拡張テクノロジーを導入しました。つまり、モデルはビデオの長さに関係なく、一致するオーディオを生成できます。

昨日、openai sora の責任者である tim brooks が辞任を正式に発表し、google deepmind に加わったことで、sora プロジェクトの不確実な将来に再び霧が生じました。

ブルームバーグによると、メタの副社長コナー・ヘイズ氏は、メタ・ムービー・ジェンには現在具体的な製品計画はないと語った。ヘイズ氏は、展開が遅れた重大な理由を明らかにした。

meta movie gen は現在、テキスト プロンプトを使用してビデオを生成しますが、多くの場合、数十分の待ち時間が必要となり、ユーザー エクスペリエンスに大きな影響を与えます。

メタは、ビデオ生成の効率をさらに向上させ、消費者のニーズによりよく応えるために、できるだけ早くモバイル端末上でビデオサービスを開始したいと考えています。

実際に製品の形状を見てみると、meta movie gen の機能設計は、大規模で包括的なものであることに重点を置いています。他のビデオモデルのような「足が不自由」ということはありません。

最も顕著な欠点は、ソラと同じ「未来」の風味があることです。

理想はとても充実していますが、現実はとても痩せています。

現在、sora が国内の大型モデルに追い抜かれているように、meta movie gen が発売されると、ビデオ生成分野の競争環境は再び変わるかもしれません。

しかし、少なくとも現時点では、メタが描いたパイは人々が飲み込むのに十分だ。