ニュース

Kuaishouの「Keling」は予想外の人気となり、Byteは追いつきたいと熱望し、AI Wenshengビデオトラックの競争は激化した

2024-07-31

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina



2024 年 2 月、Sora の出現により、多くの大手模型会社は楽しい春節を迎えることができなくなりました。

大手AI企業の従業員は「春節祝賀行事がまだ再放送されているため、緊急にグループディスカッションを開催している」と「シティサークル」に熱心に語った。 Sora の滑らかな体験を見て、コースを販売するブロガーさえもオンライン チュートリアルを立ち上げて大金を稼ごうと躍起になっています。

Sora の国内版を最も早く「コピー」できるのは誰でしょうか? アリババ、百度、そして「ビッグ 5」に注目する人が増えています。しかし、勝者は、比較的「仏陀のような」技術的パフォーマンスを備えた速いプレーヤーになるとは誰も考えていませんでした。

6月7日、Kuaishouは突然、最大2分のビデオ生成をサポートできるWenshengビデオモデル「Kling」を発売しました。さらに、まだ「将来」の段階にあるSoraと比較して、Kelingは発表後すぐにテストのために公開され、生成された結果も注目に値します。

「ケリングは最近業界で最も議論されているテーマだ」とベンチャーキャピタル業界の関係者はシティサークルに語った。公式データによると、開始から 1 か月以内に 50 万人以上が Keling に応募し、30 万人以上のユーザーに公開され、700 万本以上のショートビデオが生成されました。

Ke Ling の予想外の人気に、Byte は必然的に少し当惑しました。今年5月、ByteはWensheng Videoモデル「Jimeng」のテストも開始したが、現在人気のWensheng Videoトラックではその効果はまだ明らかではない。

「無視」されていた相手に突然投げ飛ばされたバイトは、追いつく必要があった。 TMTPost によると、ByteDance は最近、AI 大型モデルをグループの「P0 最高レベル」の方向性として設定しました。 Douyin や Jianying などの多くのチームも、AI ビデオ モデル アプリケーションの開発に熱心に取り組んでおり、近い将来に発表される予定です。

1. 素早く、荒々しく、激しく行うことができます。

多くの開発者が「City」に対し、Kelingの発売と傑出したパフォーマンスは業界の驚きであると語った。

最近、「City Boundary」はキーワードとして「黒猫」の一節を使用し、Zhipu AIが立ち上げたばかりのKeling、Jimeng、および「Qingying」と同じプロンプトを入力しました:「雨の日の都市の通りは空いています」 1 人、かわいい黒猫が通り過ぎます。緑色の目、首に黄色い首輪、そして体には長い黒い毛があり、ビデオはカメラの視点から撮影されています。地面が黒猫の姿を映す。」

生成された 3 つのビデオのうち、Keling バージョンは高速実行の効果を達成できませんでしたが、ビデオは概ね客観的なルールに準拠していました。

対照的に、「慈夢」バージョンでは地面に水がなく、黒猫は前に進みませんでした。 「清英」バージョンには水が溜まっていますが、黒猫の歩き方がおかしく、尻尾もフレームを失います。

▲(ビデオはKe Ling、Ji Meng、Qing Yingの順に作成されています)

「Silicon Star」によると、Keling 氏は Kuaishou のチームを立ち上げるのに 3 か月かかりました。そのチームは 20 人強しかいない非常に小規模なもので、そのリーダーのほとんどが Kuaishou のビジュアル生成およびインタラクション センターの所長である Wan Pengfei 氏です。方向性には、画像/ビデオ信号処理、コンピューテーショナル・フォトグラフィーとコンピューター・ビジョン、損失関数の削減、ビジョン生成などが含まれます。

Keling の前身は、Kuaishou が 2023 年 10 月に再開した目立たないプロジェクト「Poji」に由来します。これは、AI を使用して静止画像から 2 秒の Gif 絵文字を生成するツール ソフトウェアです。今年 3 月初旬、Kuaishou は小規模な社内会議を開催し、Wan Pengfei のアイデアは Kuaishou の上級副社長である Gai Kun (Yu Yue) によって承認され、Puchi は事前調査の対象となることがすぐに決定されました。

「シリコン・スター・ピープル」によれば、「ケリングを行う場合、実行レベルでは速く、荒々しく、激しいという意見が一致している」という。

Keling プロジェクトの開始から 1 か月も経たないうちに、Kuaishou の創設者 Cheng Yixiao 氏から支援を受けました。Cheng Yixiao 氏は、これを会社の戦略的プロジェクトとみなしました。 Gai Kun 氏もよく言います。「会社のカードはすべてあなたが使用できるものであり、会社はそれを全面的にサポートします。」

デジタルヒューマン路線の起業家である柯蘭氏は「シティ」について次のように分析した。「柯嶺の成功は、快首が蓄積した映像データ素材によるところが大きい。国内を見てみると、この面で競えるのは独威州サウンドだけだ」 。」

でも、景色は綺麗だけど、バイトはちょっと寂しい気がします。

「Jimeng」は5月9日に正式発表されたが、6月17日にはAIGC短編シリーズ「Sanxingdui: Future Apocalypse」にもチーフAIテクニカルサポーターとして登場した。しかし、C面でのパフォーマンスの点から見ても、あるいは7月13日に発売されたKuaishouのAIGC短編ドラマ「山と海」と比較しても、Ji Mengの声はそれほど大きくありません。

7月17日、ByteがSoraのようなVincentビデオ技術の進歩を発表するというニュースが市場に流れました。外部の世界もこれを、Byte が Keling に追いつき、真っ向から競争することを意味すると解釈しています。

しかし、バイト氏は後に『シティ・サークル』に対し、このニュースは正確ではないと述べた。 7 月 17 日、「City Circle」は、このイベントがテクノロジー共有セッションに似ていることに気づきました。会議は主にDoubao大型モデル基礎視覚研究チームリーダーのFeng Jiashi氏が主催し、Byteの研究者や機関学者などがセッション全体を英語で共有した。

Byteの「大きな動き」はまだしばらく待たなければならないようだ。

2. バイトはまだ回復していません

では、なぜ Byte は最近盛り上がっている Vincent Video トラックのお祭りに参加できなかったのでしょうか? Byte は最近何に忙しいのですか?

ある程度、「柯霊」に賭けたクアイショウと比べて「1回の努力で10個のスキルを倒すことができる」からかもしれません。 Byte の大規模モデルのレイアウトはさらに複雑で、今年上半期において Byte のより重要な敵は Tencent と Alibaba です。

大型モデルを前にして、バイトのペースはもはや「急進的」ではない。結局のところ、2か月以上前に業界で大型モデルの価格競争を率先して始めたのはByteだった。

5月15日、ByteDanceの「FORCE Motive Power Conference」で、Byteは自社開発のビーンバッグモデルに基づくAPIサービスを開始した。同時に、Volcano Engine の社長である Tan Dai 氏は一歩踏み出し、「Doubao」の最新価格である 0.0008 元/千トークンを明らかにし、これが業界の 99.3% よりも低い「最低価格」であると発表しました。

その時はバイトの「攻撃」が主導権を握っていた。多くの情報源からの「市場関係者」によると、主要企業はバイトの攻撃に対して準備ができていなかったが、すべての関係者は無力感を感じていたが、消極的に従うことしかできなかった。

その後数日のうちに、Alibaba Cloud、Baidu Wenxin Model、Tencent Cloud が相次いで、大規模モデル推論入力トークンと API の価格を大幅に値下げすると発表しました。この影響で、Cサイドからの大型頭部モデルの依頼はほぼ無料となり、業界は次のエコロジーレベルに向けて動き始めています。

法律AIアプリケーション会社の創業者によると、APIサービスのオープン後はほとんどタイムラグがなく、ボルケーノエンジンの営業担当者が積極的に顧客とコンタクトを取り、製品のプロモーションを行うようになったという。これはまた、バイトが大型モデルを最高レベルの戦略としてマークしたという市場で広まっている憶測を裏付けるものである。



▲(2024年の「FOECEカンファレンス」でのTan Dai氏。出典/Volcano Engine)

最近、Byte の「主力製品」であるビーンバッグが大幅に成長しました。

Questmobile のデータによると、2024 年 6 月の時点で、国内の AIGC アプリの中で、Doubao、Tiangong、Kimi Smart Assistant、Cat Box が目覚ましい成長を遂げており、Doubao はトラフィックで 1 位にランクされています。



▲(写真出典/QuestMobile)

Kuaishouと比較して、Byteが今より懸念しているのは、基本的な大型モデルからAIアプリケーション層に至る完全なエコロジー競争かもしれません。さらに、Volcano Engine が正式にクラウドになるのが 2021 年であることを考慮すると、巨大クラウド ベンダーの中で「最も若い」ことになります。 Huoshan Cloud は 3 年以上にわたり、クラウド市場の挑戦者とみなされてきました。 Byte が基本的な大規模モデル、アプリケーション層、クラウド市場とどのように連携するかは、包括的な提案です。

最近、「Photon Planet」は、Byteの「Kouzi」プラットフォームの多くのユーザーが、作成したエージェントやボットをWeChatの公式アカウントやミニプログラムに接続する方法を探しており、議論が非常に活発であると報じた。

Byteは昨年12月、AIアプリ開発プラットフォーム「coze」を海外でローンチした。今年2月には「Button」の国内版をオンラインでローンチした。多くのDouyin商人も、そこからすぐに金の壷を作りたいと考えています。

テンセントが遅ればせながら今年5月にAIエージェント作成・配信プラットフォーム「Tencent Yuanqi」をリリースしたことを考慮すると。この時点でバトンへの訪問回数は233万回に達していた。現時点では、Tencent Yuanqi はミニ プログラム、公式アカウント、カスタマー サービスのサブスクリプション アカウントからなる WeChat シリーズのエコシステムをまだオープンしていません。

結局のところ、AI 開発はまだ初期段階にあります。 Tencent と同様、Byte もユーザーの教育に依然として多くの時間を費やす必要がある。 AI時代の配信権をめぐって競争し、有利なスタートを切ることは、バイトがテンセントをターゲットにするためにしなければならないより大きな教訓となるかもしれない。

3. 後で攻撃しましょう、まだ時間はあります

業界レベルで見ると、今日のインターネットでは、たとえ短期的には、Vincent Video が「一歩遅れている」としても、長期的には、コンテンツのトラフィック、電子商取引のトラフィック、および財務上の弾薬が不足することはありません。まだ追いつく可能性を秘めています。

積極的な市場戦略を使用して遅れを取り戻し、奇跡を精力的に達成することもバイトの専門分野です。

最近、アリババをターゲットとして、バイトは大規模モデルの統合にも取り組んでいます。 6月26日に可決されたばかりのDingTalkエコシステムカンファレンスで、葉軍社長は、アリババ独自のTongyiに加えて、他の6社の大型サードパーティモデルもDingTalkに含まれると発表した。これらには、MiniMax、Dark Side of the Moon、Zhipu AI、Orion Star、Zero One Thing、Baichuan Intelligence が含まれており、中国のほとんどすべての有名な大規模モデルのスタートアップをカバーしています。「中国で最もオープンな AI エコシステムを構築する」ことは自明のことです。 」。

DingTalk のゲームプレイと同様に、Byte の Kouzi プラットフォームは、独自の「Doubao」のサポートに加えて、Tongyi Qianwen、Dark Side of the Moon、MiniMax などの主要な外部モデルにもアクセスできます。 Kouzi は 6 月 14 日、ユーザーが 2 つの匿名モデルを選択し、生成されたコンテンツのパフォーマンスに基づいてスコアを付けることができる「Model Square」機能も開始しました。



また、Byteは最近摘発され「AI+ハードウェア」の探求が加速しており、買収による人材獲得も辞さない。

「テックプラネット」によると、バイト傘下のPICOは昨年後半からヘッドフォンやスピーカーなど複数のウェアラブルデバイスを開発しており、これらのデバイスにもAIが搭載される予定だという。 Byte Doubao チームは、大規模モデルのソフトウェアとハ​​ードウェアの組み合わせも研究しており、大規模モデルのソフトウェアとハ​​ードウェアの組み合わせは、学習機械、ロボット犬、ロボットなどのハードウェア デバイスに徐々に適用されています。

36Krの別の報道によると、Byte AIハードウェアの「Dライン」の責任者はLi Haoqian氏だという。後者は、今年3月にByteが買収したOWS(Open Wearable Stereo)ヘッドフォンブランド、Oladanceの創設者である。別のAIハードウェアラインである「O Line」の責任者も、Byteが買収した会社の創設者であり、ByteDance Technologyの副社長であるHong Dingkun氏の直属である。

Vincent Video の方向では、このトラックの最近の人気に直面して、Byte を含む追っ手にはまだ時間があります。

最近、ある開発者は「City World」に次のように語った。「現在、私は画像を合成し、ワークフローの作業負荷を軽減するために Keling を使用しています。私はまだそれを完全に使用して作成していないので、まだあまり依存していません。」

別の開発者でショートビデオ AIGC ブロガーの目から見ると、Keling にはまだ最適化の余地がたくさんあります。「Keling Wensheng Video に依存しても、仮想ヒューマン IP の一貫性は保証できません。私は通常、Kelingtu を使ってビデオを制作しています。機能は同等です。」 Ke Ling に写真を与えることで、さまざまな視点からダイナミックなビデオを生成し、それらをつなぎ合わせてカメラを動かす効果をシミュレートできるようになりました。」

国産AIシミュレーションデート製品の研究開発チームのメンバーは、「現在の大規模なモデルアプリケーション市場では、誰もが石を感じて川を渡っている。それをどのように商品化するかは、あまりにも遠くてあまりにも遠い問題だ」と語った。漠然としていますが、確かなことは、より多くの人がそれを使用し、プレイするほど、製品の最適化と反復が確実に行われるということです。」

(ケランは仮名です)

著者 | 董文秀

編集 | リー・ユアン

オペレーション | リウ・シャン