ニュース

「Jimeng AI」が店頭に並んでいますが、Byte は Kuaishou に追いつくことができますか?

2024-08-13

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

ジャーナリスト: 楊信義 編集者: 魏冠紅

「プレッシャーはDouyinにかかっています。」 Kuaishouが自社開発した大規模なビデオ生成モデルKelingに代表される、驚異的な生成AI(人工知能)製品が今年6月に登場したとき、外部の世界は皆Byteのさらなるパフォーマンスを期待していました。

最近、ByteDance編集チームが開発したワンストップAI作成プラットフォーム「Jimeng AI」のモバイル版がApple App Storeで正式にリリースされた。

「デイリー経済ニュース」記者は、このアプリケーションが現在、テキストベースの画像やテキスト/画像ベースのビデオなどの機能を備えていることを知りました。さらに、Jimeng は会員制を導入し、複数の購読方法を開始しました。

『デイリー・エコノミック・ニュース』の記者らは、Ji Meng、Ke Ling、Sora の実際のアプリケーションを比較して、3 つの大規模なビデオ生成モデルの方が、プロンプトの単語をキャプチャして理解する点でより正確で完全であることを発見しましたが、Ji Meng の機能の特徴は次のとおりです。造形、コンテンツの豊富さ、ビデオの流暢さが比較的不足しています。生成されるコンテンツの長さに関しては、Jimeng は最大 12 秒のビデオ生成をサポートします。

「滑らかなビデオを生成するのにかかる秒数は、ビデオが大規模なモデルを生成できるかどうかを判断する重要な要素です。」ある大規模モデルのエンジニアは、『デイリー・エコノミック・ニュース』の記者とのインタビューでこう述べました。 「スムーズ」は、たとえば、生成されたコンテンツに事実に誤りがあるかどうか、記憶力がどの程度優れているか、空間感覚が正しいかなど、さまざまな側面から評価する必要があります。


「Jimeng AI」モバイル版が店頭に登場 画像出典:アプリのスクリーンショット。


「Jimeng AI」が店頭に並んでいますが、効果はLingに追いつくことができますか?

今年初め、Sora の登場により「ビデオの ChatGPT 時代」が到来しました。その後、Kuaishou が立ち上げた「ダークホース」Keling により、国内の大規模 AI ビデオ モデルのパフォーマンスに対する人々の期待が高まりました。 Douyin の親会社である ByteDance は、ショートビデオ大手でもあり、この流れに追いつく可能性が最も高い企業の 1 つとみなされています。


Keling AI Web ページの画像ソース: 公式 Web サイトのスクリーンショット

3月末にByteの最先端チームが開発したAI作成プラットフォーム「Jimeng AI」が内部テスト用に公開され、当初はWeb版のアプリケーションが3つしかなかった。主な機能:画像生成、スマートキャンバス、ビデオ生成 現在、8月6日よりモバイル版アプリケーションが正式リリースされ、テキストなどの機能が追加されました。ベースの写真とテキスト/写真ベースのビデオ。


Jimeng AI Web ページの画像出典: 公式 Web サイトのスクリーンショット

Jimeng の実際の効果については、今年 7 月初旬に、国内初の AIGC 生成連続物語 SF 短編シリーズ「Sanxingdui: Future Apocalypse」が Douyin で開始されました。合計 13 のエピソードからなるこの短編シリーズでは、Jimeng がチーフ AI テクノロジー サポーターとして、AIGC スクリプトの作成、コンセプトとストーリーボードのデザイン、画像からビデオへの変換、ビデオ編集、メディア コンテンツの強化を含む 10 の AI テクノロジーを使用しました。

メディアの報道によると、Bona Picturesと協力して「Sanxingdui: Future Apocalypse」を発売する過程で、Jimeng AIは24fps、30fps、60fpsのフレームフィリングのサポートやスーパースコアを2倍にする機能など、「ビデオ生成」機能を改良したという。 、レンズの水平移動、上下移動、レンズ移動の方向と振幅制御のサポートなどを追加しました。


画像ソース: Jianying WeChat 公開アカウントのスクリーンショット

Jimengアプリのリリース後、「デイリー経済ニュース」の記者は、OpenAIが公式にリリースしたSoraビデオプロンプトワードのいくつかを選択し、Jimeng、Keling、Soraの比較テストを実施しました。

記者のテスト結果から判断すると、3 つの大規模なビデオ生成モデルは、プロンプトワードのキャプチャと理解において比較的正確かつ完全であり、生成されたビデオコンテンツの画面パフォーマンスも一貫性があり、スムーズです。

ただし、キャラクター描写の正確さの点では、Sora は Ji Meng や Ke Ling よりも優れていますが、たとえば「The Lady on the Test」では、Ji Meng がわずかに劣っています。東京の街並み』をテーマにした映像では、夢によって生成されたキャラクターの頭と首が首を回す際にわずかに歪み、バッグを持つ手の動きも変形していることがわかります。


画像ソース: 記者が作成したビデオのスクリーンショット

演出内容の要素の豊富さという点でも、3人の中ではソラのほうが優れています。たとえば、「宇宙飛行士」をテーマに生成されたビデオコンテンツでは、Sora は宇宙船や船外シーンなどの即発的な単語に関連する連想を多く与えましたが、Ji Meng と Ke Ling は宇宙服を着た男性キャラクターのみを提示しました。


画像ソース: 記者が作成したビデオのスクリーンショット

Analysysの分析リサーチパートナーであるChen Chen氏は、「デイリー・エコノミック・ニュース」記者とのインタビューで、生成効果という点ではDreamのAI画像の全体的な品質が優れている一方、長さ、要素の豊富さ、アクションの点ではAIビデオの方が優れていると述べた。一貫性など。詳細はまだ不足しています。

「(要素コンテンツが十分に充実していない)それはモデルの調整に関することですが、『宇宙飛行士』から『宇宙船』への関連付け機能が欠けている場合、それはベースモデルの機能に問題があります。」ある大型モデルエンジニアは「デイリーエコノミクスニュース」の記者に対し、滑らかなビデオを生成するのにかかる秒数が、ビデオが大規模なモデルを生成する能力を判断する上で重要な要素であると指摘した。生成されたコンテンツに事実誤認があるかどうか、記憶力がどの程度優れているか、空間の感覚が均一ではないかなど、多面的に判断します。」

「日刊経済ニュース」記者らの実験によると、同じプロンプトワードを入力した場合、動画の生成時間が長くなり、その分動画のメイン画像や動きの精度や滑らかさが損なわれる可能性が高いことがわかった。

現在、Jimeng は、さまざまなポイント消費に対応する 3 秒、6 秒、9 秒、12 秒のビデオ コンテンツの生成をサポートしています。 Sora はリリース当初から 1 分間のビデオを合成できました。Keling は 6 月 21 日に、さまざまなテキスト コンテンツに基づいて静止画像を鮮やかな 5 秒のビデオに変換することをサポートする Tusheng ビデオ機能を開始しました。 write この機能を使用すると、約 5 秒のビデオを作成でき、最長で約 3 分のビデオを生成できます。


AI ビデオは大型モデルにとっての宝の山となるでしょうか?

Sora の登場は、間違いなく大型モデルに新たな活躍の場を切り開きました。今年 7 月には、Alibaba Damo Academy がワンストップ AI ビデオ作成プラットフォーム「Xunguang」をリリースし、SenseTime が C 向け初の制御可能な AI ビデオ作成プラットフォームをリリースしました。エンドユーザーであるキャラクタービデオ生成用の大規模モデルである Vimi と Zhipu は、AI 生成ビデオモデル Qingying (Ying) が Zhipu Qingyan で正式にリリースされることも発表しました。

AI の主要企業が一斉にビデオ生成の大規模モデルに対して激しい攻撃を開始すると、避けられない疑問が目の前に迫ってきます。「AI ビデオで大規模モデル企業は儲かるのか?」というものです。

業界のスター企業である OpenAI を例に挙げると、今年 7 月に Sora などの優れた機能を備えた多数の大規模モデルを発表した後、一部のメディアがこの件と未公開の内部財務データ分析に詳しい関係者を引用して次のように述べました。 OpenAI は、今年最大 50 億ドルの損失に直面する可能性があり、同社の通年の収益は 35 億ドルから 45 億ドルになると推定されており、これは営業コストをはるかに下回っています。

一方で、国内の大型ビデオモデルも商品化には少々「不安」を感じているようだ。 Keling は 7 月 30 日、国内市場で開始した会員システムと同様のグローバル会員システムを開始しました。たとえば、月額カードは 10 米ドル、37 米ドル、92 米ドルの 3 つのレベルに分かれています。約 66、300、および 800 の 5 秒ビデオを生成します。

「日刊経済ニュース」の記者は、Jimengが会員制度を立ち上げ、基本会員の単月79元、継続月額69元、年間購読659元のさまざまな購読方法があることに気づいた。具体的には、ベーシック会員は毎月505ポイントを使用して、約2,020枚の写真または168本のAIビデオを生成できます。さらに、月額 2,020 ポイントのスタンダード会員サービスと、月額 6,555 ポイントのアドバンス会員サービスが近日開始予定です。

「大規模な AI モデルのモデルトレーニングと推論コストが高いことに加え、C エンドユーザーからの AI ツールに対する需要が比較的分散しており、支払い意欲が低いため、C エンド市場での大規模なビデオモデルの商品化は、チェン・チェン氏は、Cエンド市場にとって、大規模なビデオモデルの商品化にはまだ長い道のりがあると考えています。

チェン・チェン氏は「デイリー・エコノミック・ニュース」の記者に対し、Bサイド市場から始めて、「Bサイドにとって、AI技術革命は元のワークフローを再構築し、冗長なリンクを圧縮し、クリエイティブツールに対する新たな需要を引き起こしている」と語った。このプロセスでは、AI ビデオの大規模モデルを既存の映画やテレビの制作、広告の創造性、メディア コンテンツの計画と段階的に統合して、複雑なプロセスの自動化やインテリジェントなコンテンツ制作を支援し、モデルの機能を効果的に埋め込むことができるかどうかを判断します。実際のワークフローは実質をもたらします。性的効率の向上とコスト削減は、商品化能力を構築する上で重要な要素です。」

「キミの商品化は徐々に検討され始めるだろうが、それは現在の焦点では​​ない。現在の焦点は、より強力な機能を備えた次世代モデルを構築することだ」 『日刊経済新聞』の石増記者は、現段階では商業化に注力する時期ではないと述べた。

おそらく、同じことが「駆け出しの」Dream にも当てはまり、まだ達成すべき、超えるべきマイルストーンが次々にあります。 「Jimeng の現在の製品機能とビジネス モデルは、UGC (ユーザー生成コンテンツ) の提供に重点を置いており、Douyin との生態学的統合も将来の開発の焦点になるでしょう。」と Chen Chen 氏は述べています。「おそらく、再生時間、フレーム レート、画像の点で。」詳細およびその他のテクノロジー パラメータに関する直接ベンチマークは、Jimeng が現段階で最も注意を払う必要があるものではなく、鍵となるのはアプリケーションの実装と環境統合能力です。」