ニュース

2024サービス見本市|shengshu technologyが大規模ビデオモデル生成の不一致問題を解決

2024-09-15

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

「実際、ai に命令を入力してビデオを生成するとき、核となる魅力は、ai が完全な物語を完成させるのに役立つことを期待することです。この目標を達成するには、核となる要素を統一し、制御可能にしておく必要があります。」と同氏は述べています。最近開催された2024年中国国際サービス貿易交易会(以下、「サービス交易会」)で、盛樹科技の会長兼最高経営責任者(ceo)の唐嘉宇氏は、ビデオ大型モデルvidu canの主題参照機能という解決策を提示した。あらゆる被写体の安定した生成を実現します。これを実現するために業界では「aiがまず写真を生成し、その後写真が動画を生成する」といった手法が試みられてきたが、被写体参照機能は作業負荷を軽減するだけでなく、分割ショットによる動画コンテンツの制約も打ち破る。テクノロジーの進歩により、大規模なビデオ モデルの商品化において想像力の余地が大きくなりました。

大規模な言語モデルが普及すると、shenshu technology はマルチモーダル トラックをターゲットにし、2024 年 1 月に wensheng video 機能を開始しました。 shengshu technology の計画によれば、ビデオ機能の開発にはより長い期間とより高い一貫性が必要ですが、sora のデビューにより、スタートアップの計画は予定よりも前倒しされました。

vidu は 4 月末にリリースされ、ワンクリックで 16 秒の高解像度ビデオの生成をサポートし、6 月にはワンクリックで 32 秒のビデオの生成をサポートし、効果音の生成と 4d ビデオの再構築をサポートしました。単一の生成されたビデオ。 7 月末、vidu は世界的に正式にリリースされ、tuxing ビデオ、役割の一貫性機能、最大 8 秒のビデオ生成機能が公開されました。

今回、唐家宇氏は2024年サービス貿易会議でのviduの最新機能「主題参照」の紹介に焦点を当てた。いわゆる主題参照により、ユーザーは任意の主題の写真をアップロードでき、vidu は主題の画像をロックし、記述子を通じてシーンを任意に切り替え、同じ主題のビデオを出力できます。「任意」がキーワードです。つまり、人物であっても、動物、商品、アニメキャラクター、架空の被写体であっても、映像生成において一貫性と制御性を確保することができます。

北京ビジネスデイリーの記者は、この機能が開始される前に、大規模なビデオモデルには、「tusheng video」や「character consistency」などの機能もこの目標を達成できるソリューションがあったことを知りました。

aiから画像を生成し、その後画像から動画を生成する方法を例に挙げると、midjourneyなどのai描画ツールを使用して分割ショット画像を生成し、まず画像レベルで被写体の一貫性を保ち、それを変換することができます。画像をビデオクリップに変換し、編集および合成します。

しかし問題は、ai 描画の一貫性が完全ではなく、修正や部分的な再描画を繰り返すことで解決する必要があることが多いということです。さらに重要なことは、実際のビデオ制作プロセスには多くのシーンとレンズが含まれるため、この方法で複数のコンポーネントからなるレンズ シーンを処理する場合、描画の作業量は膨大であり、プロセス全体の半分以上を占める可能性があり、最終的なビデオ コンテンツが完成することになります。また、スプリットショットに依存しすぎることによる創造性と柔軟性の欠如も考えられます。

viduの「被写体参照」機能は、「被写体画像のアップロード+シーン記述子の入力」により映像素材を直接生成します。この方法により作業負荷が大幅に軽減され、分割ショット画像によるビデオ コンテンツの制限がなくなるため、クリエイターはテキストの説明に基づいてリッチで柔軟なビデオ コンテンツを作成できます。

中国中央ラジオテレビ局のディレクターでaigcアーティストでもあるshi yuxiang氏は、短編アニメーション映画「summer gift」の制作プロセスを共有する際、基本的な写真撮影ビデオ機能と比較して、「被写体参照」機能が不要になったと述べた。静止画の制約を取り除き、より美しい写真を生成し、創造性の一貫性を大幅に向上させます。同時に、描画作業量の約 70% を節約するのにも役立ちました。

北京商報記者ウェイウェイ

レポート/フィードバック