2024-09-27
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
この記事の出典: times weekly 著者: he shanshan
ビデオ生成の分野では、大型モデルが重要なプレーヤーを迎えています。
9月24日、bytedanceの子会社であるvolcano engineは深センでaiイノベーションツアーを開催し、ビーンバッグビデオ生成の2つの大規模モデル-pixeldanceとビーンバッグビデオ生成-seaweedをリリースし、エンタープライズ市場向けの招待テストも開始した。
ビデオ生成の大規模モデルの場合、生成されるビデオの継続時間は非常に重要です。現在、pixeldanc のビデオ生成時間は 5 秒または 10 秒、seaweed は 5 秒です。 volcano engine の社長である tan dai 氏は time weekly などのメディアに次のように語った。「ビデオ生成には克服すべき多くの困難がある。volcano engine の利点には、指示に従う能力、カメラの動き(複数のレンズの下での被写体の一貫性)が含まれる」など、その背後には技術的な進歩とフルスタック機能があり、さらに、douyin と jianying のビデオへの理解も利点です。」
tan dai 氏は、大規模なビデオ生成モデルでは継続時間を議論するだけでなく、アプリケーション シナリオも考慮する必要があると考えており、huoshan 氏はさまざまな業界向けのソリューションに関心を持っています。 」
新しいビーンバッグビデオ生成モデルはjimeng aiによって小規模にテストされており、将来的にはすべてのユーザーに段階的に公開される予定であることは注目に値します。
今年2月、douyin groupの前ceoである張南氏は突然、映画編集に転向し、映画編集におけるaiの応用を推進すると発表した。 openaiが編集を担当すると発表してからわずか1週間後の2月16日、openaiは1分間の動画を生成できるsoraをローンチし、vincentの動画機能は再び世界中で人気となった。同時に、編集業務の責任者である zhang nan は、wechat moments で ji meng の立ち上げを発表しました。これは、zhang nan の異動後最初の重要な製品アップデートでもありました。
aiイノベーションツアーでは、jianyingとjimengのaiマーケティング責任者であるchen xinran氏が、2つのアプリの「ai化」の最新状況を紹介した。彼女は、これまで同様の品質のコンテンツを制作するには、ストーリーラインの作成、特殊効果の磨き上げ、パッケージングと編集などを含む 5 ~ 10 人のチームが必要だったと述べました。共同作業のプロセスは複雑で、制作サイクルは 1 ~ 2 か月かかりました。 、多額の資金とリソースの投資が必要でした。しかしaiの活用により、ほとんどのクリエイターが一人で制作を完了できるようになり、制作期間も1~2週間に短縮されました。
tan dai 氏は講演の中で次のようにも述べました。「ビデオ生成には、克服する必要のある多くの困難があります。2 つの doubao モデルは進化を続け、主要な問題を解決するさらなる可能性を模索し、創造的な空間とアプリケーションの拡大を加速します。」 aiビデオの。」
いずれにせよ、大規模なdoubaoビデオ生成モデルの誕生とjimengとjianyingでのその使用は、bytedanceがaiを使用してビデオの「古いビジネス」を改善することに一歩近づいたことを意味します。
出典: タイムズ・ウィークリー記者が現地で撮影した写真
レンズを自由に切り替えられる
volcano engine サイトのレポートによると、大型ビーンバッグ モデルの使用が急速に増加しています。
9月の時点で、doubao言語モデルトークンの1日平均使用量は1兆3000億を超え、5月の開始から10倍に増加し、マルチモーダルデータ処理量も1日あたり写真5,000万件、音声85万時間に達した。
膨大な数のユーザーにより、ビーンバッグ モデルは再び新たな変化をもたらしました。新しいビデオ生成モデルが追加されただけでなく、言語、音声、画像、ビデオなどのすべてのモードを完全にカバーするビーンバッグ音楽モデルと同時通訳モデルもリリースされました。
以前は、ほとんどのビデオ生成モデルは単純な命令しか完了できませんでした。doubao ビデオ生成モデルは、自然で一貫したマルチショット アクションと複数の被写体との複雑なインタラクションを実現できます。複雑な命令に従うだけでなく、さまざまなキャラクターがインタラクションを完了することもできます。複数のアクション指示の外観、衣服の詳細、さらにはヘッドギアまで、さまざまなカメラの動きでも一貫性が保たれ、実際のショットの効果に近くなります。
doubao ビデオ生成モデルは dit アーキテクチャに基づいており、効率的な dit フュージョン コンピューティング ユニットを通じて、ビデオを大規模なダイナミクスと移動レンズの間で自由に切り替えることができ、ズーム、サラウンド、パン、ズームなどのマルチレンズ言語機能を備えています。そしてターゲットフォロー。 「これは、doubao によって生成されたビデオが、複数のシーンの切り替えにおける一貫性の問題を克服し、ショットを切り替えるときに、同時に主題、スタイル、雰囲気の一貫性を維持できることを意味します。これは、doubao の独自の技術革新でもあります。 doubao ビデオ生成モデル」と tan dai 氏は言いました。
モデルの将来の方向性について、tan dai 氏は、volcano engine は既存のモデルに基づいたより良い実装と加速されたイノベーションにさらに注意を払っていると述べ、「テクノロジーはユーザーのニーズを満たす必要があり、新旧のテクノロジーは常に調整され、適応されなければなりません。成熟した標準です。」大規模モデルの場合は、インキュベーション後のユーザーです。実験室からのフィードバックではなく、経験済みである程度のボリュームのある実際の優れたフィードバックです。たとえば、jimeng と doubao では多数の内部テストが行われており、ユーザーのフィードバックが重要です。重要な評価基準です。」
以前、doubao big model は業界の 99% よりも低いトークン価格を設定し、値下げの波を開始した最初の火山エンジンでした。現時点では、doubao video の大型モデルの使用料金はまだ発表されていません。 tan daidai 氏は times weekly などのメディアに対し、ビデオモデルと言語モデルの適用シナリオは異なり、「新しいエクスペリエンス、古いエクスペリエンス、移行コスト」を考慮する必要があると語った。最終的には、生産性 roi が以前と比べてどれだけ改善されるかによって決まります。
出典:ジメン公式サイト
ai ネイティブ製品を探索する
これまで、jimeng の一般ユーザーは 3 秒の ai ショートビデオを生成できましたが、vip ユーザーは時間を 3 秒延長できました。
カッティングは今年3月から、スマート字幕やビデオ翻訳などのai機能を集中的にアップデートしてきた。また、douyin との提携により、カッティング ai 機能を使用したショートビデオのトラフィックと現金報酬をサポートします。たとえば、優れた作品には、ビデオごとに dou + 500 元のトラフィックサポートを受け取ることができます。現在、jianyingのvip会員価格は1年間で218元、平均月額料金は18.17元であるのに対し、dreamのvip会員月額料金は69元である。
aiイノベーションツアーでchen xinran氏は「お手玉大型モデルに関連した技術が切り抜き、夢ai、目覚めの写真に応用されている」と述べ、ai技術応用による新機能を紹介した。
たとえば、デジタル クローン アプリケーションでは、音声クローン技術に基づいてデジタル人間の音声クローン機能をオンラインでカスタマイズできます。デジタル プロデューサーは、3 分間の高解像度正面ビデオを録画またはアップロードするだけで済みます。また、トーン クローン作成には 5 秒間の音声入力のみが必要で、自然で滑らかで矛盾のない音声を生成でき、さまざまな言語に翻訳することもできます。 「私たちはプライバシーとセキュリティの問題を非常に懸念しています。製品設計と技術レベルでユーザーに個人的な確認を求めています。また、サービスのセキュリティと信頼性を向上させるために、新しい業界規制にも注意を払います」とchen xinran氏は述べました。
このほか、ec加盟店向けの「コンテンツマーケティング」作成ツールもある。以前であれば、販売者は人気のビデオ ルーチンを分析するために douyin や tiktok を閲覧し、そのルーチンを分解してコピーするのに数時間を費やしていたかもしれませんが、今では商品名と名前を入力するのに数分しかかかりません。素材を追加したり、商品ページのリンクを貼り付けることで、ワンクリックで複数のスタイルの配信動画を生成できます。
chen xinran 氏は、既存の製品に ai を適用することに加えて、jianying は gena (generative artificial intelligence) i 時代の ai ネイティブ製品の可能性も模索していると具体的に述べました。シーンの磨き上げとエフェクトの磨き上げの内部テストのために 2 つの大規模なビデオ生成モデルを接続しました。私たちは、制作が制作コスト、スタイル、文化的背景によって制限されるべきではなく、楽しく、楽しく、自由であるべきだと信じています。」
tan dai 氏はまた、大規模モデルのアプリケーションコストは十分に解決されており、「大規模モデルは、より優れたモデルの機能とサービスを備えた、ボリューム価格からボリュームパフォーマンスに移行する必要がある」と述べました。