「king of beanbao」: bytedance が 2 つの大規模ビデオ生成モデルを 1 日でリリース

「豆包の王」: bytedance が 1 日に 2 つの大規模なビデオ生成モデルをリリース

2024-09-24

bytedanceはaiビデオ生成への参入を正式に発表した。 bytedanceの子会社であるvolcano engineは9月24日、深センでaiイノベーションツアーを開催し、dou bao video generation-pixeldanceとdou bao video generation-seaweedの2つの大型モデルをリリースし、エンタープライズ市場向けの招待テストを開始した。

イベントで披露されたビデオ生成は驚くべきものでした。意味理解機能、複数の被写体の動きの複雑なインタラクティブ画像、またはマルチレンズ切り替えにおけるコンテンツの一貫性など、doubao ビデオ生成大型モデルは業界の高度なレベルに達しています。 volcano engine の tan dai 社長は、「ビデオ生成には克服しなければならない多くの困難があります。doubao の 2 つのモデルは進化を続け、主要な問題を解決するさらなる可能性を模索し、クリエイティブ空間の拡大を加速していきます」と述べました。 ai動画の応用も。」

写真: volcano engine 社長 tan dai がビーンバッグビデオ生成モデルをリリース

マルチエージェントの相互作用と一貫性の問題を解決する革新的なテクノロジー

以前のビデオ生成モデルのほとんどは単純な命令しか完了できませんでしたが、doubao ビデオ生成モデルは自然で一貫したマルチショットアクションと複雑な複数の被写体のインタラクションを実現できます。一部のクリエイターが事前に doubao ビデオ生成モデルを体験したところ、生成されたビデオは複雑な指示に従い、さまざまなキャラクターが複数のアクション指示のインタラクションを完了できるだけでなく、キャラクターの外観、衣服の詳細、さらにはヘッドギアも含めることができることがわかりました。さまざまな動きでも変化せず、実際の射撃効果に近くなりました。

volcano engine によると、doubao ビデオ生成モデルは dit アーキテクチャに基づいており、効率的な dit フュージョンコンピューティングユニットを通じてビデオを大規模なダイナミクスと可動レンズの間で自由に切り替えることができ、ズームやサラウンドなどのマルチレンズ言語機能を備えています。、パン、ズーム、ターゲット追跡。新たに設計された拡散モデルトレーニング方法は、マルチショット切り替えの一貫性の問題を克服し、ショット切り替え時に被写体、スタイル、雰囲気の一貫性を同時に維持できます。これもdoubaoビデオのユニークな技術革新です。世代モデル。

cutting や dream ai などのビジネスシナリオを磨き、継続的に反復した後、doubao ビデオ生成モデルはプロレベルの光と影のレイアウトと色の調整を備えており、視覚的な外観は非常に美しくリアルです。深く最適化されたtransformer構造により、doubaoビデオ生成の汎用化能力が大幅に向上し、3dアニメーション、2dアニメーション、中国画、白黒、厚塗りなどのスタイルをサポートし、映画、テレビ、コンピュータ、携帯電話などのデバイスに適しています。 proportion は、電子商取引マーケティング、アニメーション教育、都市文化観光、マイクロスクリプトなどの企業シナリオに適しているだけでなく、プロのクリエイターやアーティストにクリエイティブな支援を提供することもできます。

現在、新しいビーンバッグビデオ生成モデルはjimeng aiの内部ベータ版で小規模にテストされており、将来的には段階的にすべてのユーザーに公開される予定です。 jianying と jimeng ai のマーケットリーダーである chen xinran 氏は、ai がクリエイターと深く交流し、一緒に創造し、多くの驚きとインスピレーションをもたらすことができると信じており、jimeng ai はユーザーにとって最も近く、最も賢明なクリエイティブパートナーになることを望んでいます。

doubao big model が業界の超高同時トラフィック標準を導入

今回のイベントで、doubao big modelは新しいビデオ生成モデルを追加しただけでなく、言語、音声、画像、ビデオなどのすべてのモードを完全にカバーし、完全に満たすdoubao音楽モデルと同時通訳モデルもリリースしました。さまざまな業界や分野のニーズに対応します。

製品機能がますます向上する一方で、大型ビーンバッグモデルの使用も急速に増加しています。 volcano engine によると、9 月の時点で、doubao 言語モデルのトークンの 1 日平均使用量は 1 兆 3,000 億を超え、5 月の最初のリリースから 10 倍に増加し、マルチモーダルデータ処理量も 5,000 万枚の画像と画像に達しました。 1 日あたり 5,000 万件の画像、85 万時間の音声。

以前、doubao の大型モデルは業界の 99% よりも低い価格設定を発表し、国内の大型モデルの値下げ傾向をリードしました。 tan dai は、大規模モデルの価格はもはやイノベーションの障壁ではないと考えており、企業による大規模アプリケーションにより、より多くの同時トラフィックをサポートする大規模モデルが業界の発展の重要な要素になりつつあります。

tan dai 氏によると、業界の大規模モデルの多くは現在、最大 300,000、さらには 100,000 tpm (1 分あたりのトークン) までしかサポートしておらず、エンタープライズの実稼働環境のトラフィックを伝送するのは困難です。たとえば、科学研究機関の文書翻訳シナリオでは、ピーク tpm は 360k、特定の自動車スマートコックピットのピーク tpm は 420k、ai 教育会社のピーク tpm は 630k に達します。このため、beanbao 大型モデルはデフォルトで 800k の初期 tpm をサポートしており、これは業界平均よりもはるかに高く、お客様はニーズに応じて柔軟に容量を拡張することもできます。

「私たちの努力により、大規模モデルのアプリケーションコストは大幅に解決されました。大規模モデルは、より優れたモデル機能とサービスを備えた、ボリューム価格からボリュームパフォーマンスに移行する必要があります。」と tan dai 氏は述べています。

イーダン・シャオフェン

レポート/フィードバック

ニュース

「豆包の王」: bytedance が 1 日に 2 つの大規模なビデオ生成モデルをリリース

導入

私の連絡先情報