張一銘は遅れて到着しましたが、さらに遅れて到着しました

チャン・イーミンは遅れて到着しましたが、さらに遅れて到着しました

2024-09-25

9月に入り、大型ビデオモデルが大手メーカーにとって新たなai競争のポイントとなった。しかし、今回も張一明は遅刻した。

alibaba tongyi qianwen wensheng video がリリースされてから 5 日が経過し、kuaishou が 6 月に keling をリリースしてから 3 か月が経ち、byte はついに独自の doubao ビデオ生成モデルをリリースしました。

注目に値するのは、常に投資収益率（roi）を重視し、現実主義的な張一銘氏が最初からdoubaoビデオモデルの「商業化」のトーンを設定したことです。

イベントの席上、ボルケーノ・エンジン社社長のタン・ダイ氏はこう語った。doubao動画生成モデルの立ち上げ時から商用化が検討されてきました。応用分野には、電子商取引マーケティング、アニメーション教育、都市文化観光、音楽 mv、マイクロムービー、短編劇などのマイクロスクリプトが含まれます。

凡例: 「ラグドール猫を抱えたサンタ帽をかぶった少女」と入力するとレンダリングソースが生成されます: アルファベットリスト

同時に、タン・ダイ氏は、doubaoビデオモデルがリリースされる前に、すでにdouyinの多くの短編ドラマプロジェクトに「出演」していたことも強調した。先月、kunlun wanweiはai短編ドラマ生成プラットフォームskyreelsをリリースし、7月にはmeitu xiuxiuはai短編ドラマ生成ツールmokiをリリースした。

「現在、海外で短編劇を販売し、ai大型モデルのユーザーとなっている企業が何百社もある。」大手aiツールサービスプロバイダーも、byteのような大手モデルメーカーにとって、aiは高額な映画やテレビの制作コストを削減するために利用されていると述べた。 ai の恩恵により、ショートプレイや mv は、より多くのユーザー参加型のオンライン記事やショートビデオと同様のコンテンツ製品になるでしょう。「遅れて登場した byte は、商業ゲームをプレイしているようなものだ」と彼は考えています。

実際、ソラが爆発したとき、大型ビデオモデルを投入できるかどうかが、2024年に大型モデルメーカーの技術が進んでいるかを測る「新たな基準」となった。

sora の追求において、byte 社は「急いでいない」ため、doubao model pro がアップグレードされたときにビデオモデル用の「スペースを確保」するために 9 月末まで延期しました。

alphabet が jimeng ai をオープンしたとき、beanbao ビデオモデルを適用すると、c エンドユーザーが jimeng ai でのビデオ生成を体験できることがわかりました。

最大生成時間 12 秒は「まあまあ」で、qi keling の生成効果は「驚くべきものではないが、数か月遅れており、最初の大型ビデオモデルによって技術的なギャップから脱落したわけではない」と述べています。 doubao ビデオモデルの ai 実践者である zhang yang 氏は、内部テストの最初のバッチで、国内のビデオモデルは集中的に更新されているものの、byte の遅ればせながらの登場に対する自信は、これまでの ai ビデオ生成の効果がユーザーを「驚かせていない」という事実によるものかもしれません。

国内モデルがsoraを追いかける一方で、openaiはすでにgpt-o1の立ち上げを通じて大規模ベースモデルの強化学習の新たな道を示しており、大規模モデルの評価額が1兆を超えようとしているかもしれない。メーカー、新しいマッチポイントもあります。

jianying が以前にリリースした jimeng ai は、3 秒間のビデオ再生時間のみをサポートしていましたが、ラージビーンバッグモデルをロードした後、jimeng ai は 3 ～ 12 秒のビデオを生成できます。

対照的に、keling バージョン 1.0 はメンバーシップなしでは 5 秒間のビデオ生成しか体験できませんが、byte の jimeng ai は毎日ログインすることで 66 ポイントを発行することでユーザーの無料トライアルをサポートします。

しかし、業界の98％を下回る価格で「大型モデルのゼロ元購入」を煽り始め、激しい議論を巻き起こした豆包モデルとは異なり、豆包モデルはバイトの伝統に沿ったものではないようだ。「大きなことを静かにやる」やや乱暴。

「ラグドール猫を抱く少女」というキーワードを入力すると、doubaoビデオモデルのリリース前の内部ベータ版で初めて、aiがラグドール猫を人形として理解したようで、生成されたビデオが表示されました。腕に抱かれた偽猫の姿ですが、ビデオの中の顔も少し硬いです。

9 月 25 日に再び生成された後、ラグドール猫は再び庭猫に変わりました。それが 3 回目に生成されたときのみ、大型 ai モデルは指示を正確に完了しました。 zhang yang 氏は alphabet に対し、社内テストの ai 実践者の最初のグループの 1 人として、大規模な doubao ビデオモデルの使用の効果は驚くべきものではないと語った。

ただし、doubao video の大きなモデルでは、3d アニメーション、2d アニメーション、中国画、白黒、厚塗りなどのさまざまなスタイルを切り替えることができ、カメラをランダムに移動したり、ズームインなどのカメラ移動モードをカスタマイズしたりすることもできます。 16:9、9:16、1:1 の 3 つの画面比率しか利用できないのと比較して、doubao は 3:4、2:3、4:3、3: などのさまざまな画面比率に明らかに適しています。 2以上の比率の選択。

zhang yang 氏の見解では、doubao はユーザーインタラクションエクスペリエンスの点でより多くの選択肢を提供します。ただし、豆包ビデオ大型モデルはプロンプト内でマルチレンズ切り替えを実現できるものの、「全体的な画像のつながりがまだ少し滑らかではなく、キャラクターの表情がやや歪んでいます」。

しかし、当然のことながら、張一銘は今回、doubao video モデルの dna に「プラグマティズム」を刻み込みました。

doubao video の大型モデルがリリースされると、同時にエンタープライズ市場向けのテストに招待されました。volcano engine の社長である tan daigeng 氏は次のように述べています。doubao動画生成モデルの立ち上げ時から商用化が検討されてきました。応用分野には、電子商取引マーケティング、アニメーション教育、都市文化観光、音楽 mv、マイクロムービー、短編劇などのマイクロスクリプトが含まれます。

bytedance であれ kuaishou であれ、「ハンマーで釘を探す」他の ai スタートアップとは異なり、「独自のコンテンツとプラットフォームを持ち、釘も手元にあるため、大規模なビデオモデルを作成すると、当然より多くの応用シナリオが存在します。」張楊氏はこう言った。

7月24日、keling aiのwechat公式投稿で、許可を申請したユーザーの数が100万人を超えたことを明らかにし、同日、ゴールド、プラチナ、ダイヤモンドの3つの会員カテゴリーを含む有料会員制度を開始した。年会費は500元以上から5,000元以上まであります。後発のbyteにとって、技術的にはkelingと同等かもしれないが、商業化の道のりでは、すでにcサイドへの支払いを開始しているkelingが再び一歩先を行っているようだ。

5月、「googleがi/oをリリースする前日にopenaiがgpt-4oをリリースした」という問題に直面して、googleの親会社であるalphabetとgoogleのceoサンダー・ピチャイは率直にこう述べた。「我々がaiの転換点にあるとき、私が見ているのはは機会なので、このタイムラインを延長すると、特定の日に起こる特定の出来事は問題になりません。」

openaiに負け続けているgoogleのように、遅れて来たバイ君が釘を手に持ち、後ろから追いつこうとしているようだ。

questmobile のデータによると、7 月の時点で、ai app の月間アクティブユーザー数は 6,630 万人を超えています。その中で、doubao、wen xiaoyan、kimi、hono、tongyi がトップ 5 にランクインしており、月間アクティブユーザー数はそれぞれ 3,042 万人、1,008 万人、625 万人、466 万人、424 万人です。

doubao app は、alibaba の tongyi qianwen よりも大幅に遅れてリリースされ、baidu の wen xinyiyan や kim よりもさらに遅れてリリースされましたが、doubao の月間アクティブユーザー数は、他の 4 つの app のアクティブユーザーの総数をすでに上回っています。

そこで、ai動画生成の分野では、国内の技術革新が停滞している現状に直面して、バイトも遅れて参入する自信を持っているようだ。

業界に先駆けて登場したkelingにせよ、待望のbyte beanbagビデオモデルにせよ、7月と9月にビデオモデルを発売したメーカーの中でsoraに追いつけそうなメーカーはないようだ。

kuaishou の「山と海の奇妙な鏡: cut the waves」から byte の「sanxingdui: future apocalypse」に至るまで、ai を使用した短編劇の作成は、大手メーカーの ai ビデオ生成エフェクトの「錬金術の石」となっています。

明らかに、実際のキャラクターが登場して対話する必要がある従来の短編ドラマと比較して、神話やサイエンスフィクションなどの種類の短編ドラマは、現段階では大規模な ai モデルにより適しています。

「現在の ai 生成レベルは不安定で、大規模なシーンで爆弾の爆発や花火などの本物のエフェクトと偽物のエフェクトを区別するのは困難ですが、デバッグ担当者による調整にはさらに 1 ～ 2 時間必要です。」と zhang yang 氏は述べています。アルファベットリストに語ったところによると、現在のai大型モデルが生成した動画は、より詳細なキャラクターの表情や動作を実現するものの、依然として不自然な表現や狭い動作範囲、機械的な表現などの問題を抱えている。

ai短編ドラマプラットフォームreel.aiのzhu jiang氏もインタビューで「非アニメーション短編ドラマは今年下半期には消費可能なレベルに達すると予想される」と率直に語った。

ロビン・リーはかつてこう言いました。「12 か月進んでいるか、18 か月遅れているかは関係ありません。どの企業も完全な競争市場にいます。何をするにしても、多くの競合他社が存在します。」

1億人のユーザーベースを持つdouyin appを使えば、byteの使いやすさを説明するのは難しくありません。まだ大規模なビデオモデルをリリースしていないテンセントですら、最大のソーシャルappであるwechatを持っており、「釘を握っている」張一銘と馬化騰にとっては選択肢が増えたようだ。

「現在、どの会社のビデオモデルを使用しているとしても、重要なのはカードを引くことです。」

映画とテレビの専門家であるシャンシャン氏は、「生成の 10 回に 1 回程度は実際に商用基準を満たすことができますが、10 回のデバッグプロセスは手作業ほど効率的ではない可能性があります。」と市場の大型ビデオモデルをいくつか試した結果です。現行の大型モデルは発電効果という点でユーザーの期待に応えていない、と率直に語った。

「入力により、ラグドール猫のビデオが生成されます。結果は、おもちゃの猫か庭の猫のいずれかになります。ユーザーが 2 ～ 3 回の試行後に安定した予想外の結果を得ることができない場合、ユーザーを完全に維持することは困難になります。」shan shan 氏の目には、sora がリリースから半年以上経ってもまだ公開テストが行われていない理由もこれで説明できるかもしれません。

今年の初めに、openaiのceoであるaltman氏がtsmcと協力してウェーハ工場の建設に7兆ドルを投資し、nvidiaの自社開発チップをスキップするつもりであるとの報道があったが、9月にはopenaiがtsmcが自社開発に取り組んでいることが明らかになった。「唯一のビデオモデル」カスタマイズされた a16 オングストロームレベルのプロセスチップを開発する目的は、ビデオ生成機能を向上させることです。

この a16 チップの密度は 1.10 倍に増加し、同じ動作電圧で速度は 8% ～ 10% 向上し、消費電力は 15% ～ 20% 削減されます。openai が sora のパブリックベータ版を延期した重要な理由は、明らかに「ai ビデオ生成の高速化を促進するための低価格とエネルギー消費」の利用です。

ai ビデオ生成の効果を高めるためには、コンピューティング電力コストの増加、価格とエネルギー消費の削減も、国内の大規模ビデオモデルが最終的に「枯渇」するかどうかの重要な要素となります。

最近、byte が ai チップに関して tsmc と協力する計画であることが明らかになったが、byte は後にこの報告は虚偽であり、チップ分野での探求はレコメンデーションと広告のビジネス最適化により重点を置いていると述べた。しかし、byteの求人サイトで「チップ」などのキーワードを入力すると、aiチップアーキテクチャやチップsilテストエンジニアなど、関連する求人がすでに200件以上掲載されている。

しかし、張一銘や国内の大型模型頭部メーカーにとってさえ、彼らが直面する課題はさらに困難になる可能性がある。

9月19日、2024 yunqi conferenceでdark side of the moonの創設者yang zhilin氏は、gpt-o1の発売の主な意義はaiの上限を高めることであると述べた。「生産性を 10%、つまり gdp の 10 倍向上させるということにおいて、最も重要な問題は、それを強化学習によってさらに拡大できるかどうかです。」

gpt-o1 時代には、doubao、tongyi qianwen、wenxin、kimi のインスタントチャットは、10 秒または 20 秒考えて答えを生成することから、さまざまなツールを呼び出して分単位、さらにはレベルでタスクを実行できるようになりました。日レベルでは、国内ユーザーがすでに慣れ親しんでいるaiインスタントチャット製品形態が、「aiはより人間、またはアシスタントに近いものになる」との次の新たなスケジュールを迎えることになるだろう。 openai に追いつくための side of the moon。

新たな競争の瞬間が再び到来すると、国内の大型モデルメーカーの大型ベースモデルは当時「新たな飛沫」を目にしていなかったが、張一銘らにとっては再び選択を迫られることになる。

vincent video のような機能シナリオに大量の「人材、資金、コンピューティング能力」を継続して投資して反復するべきでしょうか、それとも openai から学び、強化された反復ルートを導入すべきでしょうか?お金に困っていないバイトの場合、もちろん「両方持つ」ことも可能だ。

そして、「強化学習」によってもたらされる想像力の空間が十分に大きく、十分に魅力的になったとき、新たなスタート号砲が発砲されるが、早起きできなかったバイトは今度は先へ進むことができるだろうか。

(記事中の張楊、シャンシャンは仮名)

ニュース

チャン・イーミンは遅れて到着しましたが、さらに遅れて到着しました

導入

私の連絡先情報