ニュース

shengshu technology ceo tang jiayuとの対話: aiビデオは「普及」段階に達しており、再生時間の改善は製品化の焦点では​​ない

2024-09-13

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

shengshu technologyは9月11日、メディアオープンデーイベントを開催し、映像モデルから被写体を生成する際の「一貫性」問題を解決する「subject consistency」機能を公開した。

イベントで、shengshu technologyの共同創設者兼最高経営責任者(ceo)であるtang jiayu氏は、「日刊経済ニュース」のビジネスモデルに関する記者の質問に答えて、現在2種類のsaas(software as a service)サブスクリプションと、業界の maas (model as a service)。vidu が 7 月 30 日にオンラインになって以来、世界中で数万件の api アクセス アプリケーションを受け取りました。

基盤となるアーキテクチャについて、tang jiayu氏は、自身の製品「vidu」で使用されている「u-vitアーキテクチャ」は、soraが使用している「ditアーキテクチャ」とほぼ同じであると述べました。違いは、u-vitがより実装指向になっているということです。デザイン。技術的なロードマップでは、現在、誰もが基礎となるアーキテクチャを収束させている状態ですが、均質性は、誰もが同じ進歩と能力を持っていることを意味するわけではありません。tang jiayu 氏は次のように例を挙げました。 ) 誰もが transformer アーキテクチャを使用していますが、今後は現実的には openai が依然として明らかに先を行っています。」

現時点では、aiビデオの主なユーザーは依然として映画関係者などの専門ユーザーだが、tang jiayu氏はaiビデオが「普及」の段階に達していると信じている。

さらに、現在の収益から判断すると、shengshu technology は b サイド市場からより多くの収益を獲得していますが、vidu 製品が発売されてから 1 か月間、c サイドの成長曲線は非常に「急峻」です。

「最終的な目標は、普遍的な大型モデルを作ることです。」

tang jiayu は清華大学の自然言語処理研究室の修士号を取得しており、以前は ruilai intelligence の副社長および tencent youtu laboratory のシニア プロダクト マネージャーを務めていました。 tang jiayu氏が現在勤務しているshengshu technologyは2023年3月に設立され、今年3月初旬に新たな資金調達ラウンドの完了を発表した。今年4月末、同社と清華大学が共同開発したオリジナルの大型ビデオモデル「vidu」が世界に公開され、7月末に正式に公開され、本格的に利用できるようになった。

vidu は発売当時、「中国版ソラ」と呼ばれていました。この名前は、外の世界が中国の大規模なビデオ モデルに期待を寄せている一方で、技術アーキテクチャの観点から見ると、両者は同様のアプローチと同様の目標を持っているためです。

レポートによると、vidu の最下層は自社開発の u-vit アーキテクチャに基づいており、sora は dit アーキテクチャに基づいています。 u-vit と dit アーキテクチャの違いについて、tang jiayu 氏は次のように述べています。「一言で言えば、両者はほぼ同じです。どちらも diffusion と transformer を融合したものであり、基礎となる技術的な詳細の一部も同じです。」違いは、u-vit アーキテクチャが「より実装指向の最適化設計を行っている」ということです。要約すると、同じモデルをトレーニングするときに、u-vit は同時に必要な計算能力が少なくなります。

全体的な技術路線の観点から見ると、国内の主要なビデオモデルのいくつかは現在「sora のような路線」をたどっていますが、将来的にはより均一になるでしょうか。

この点に関して、tang jiayu 氏は、現在、誰もが基礎となるアーキテクチャを収束させた状態にあると述べ、「しかし、均質であるということは、誰もが同じ進歩や能力を持っていることを意味するわけではない」と述べた。言語モデルを例に挙げると、誰もが transformer アーキテクチャを使用することになるが、実用的な観点からは openai がまだ明らかに先を行っていると分析しました。これは、このアーキテクチャに基づく技術的スキルと実践的なリンクがまだ多くあるためです。これは、異なる言語モデル間の能力の違いにつながります。

現在、業界では、マルチモーダル生成とマルチモーダル理解を組み合わせるなど、新しいアーキテクチャのルートも模索していますが、特に優れたソリューションはまだありません。

「私たちの最終的な目標は、普遍的な大型モデルを構築することです。ビデオ生成は、大型モデルのマルチモーダル生成の中間段階にあります。」tang jiayu は、普遍的な大型モデルを開発するという野心を認めました。

同氏はまた、「これは、(大規模なビデオモデルを指す)この1つのことだけを行っているという意味ではない。ビデオに加えて、他のモダリティを生成する能力もある」とも述べた。

「現在、bサイド市場のほうが収益が高いです」

テクノロジーの基礎となるロジックの収束により、多かれ少なかれ、同様の市場開発アイデアが生まれました。

「誰もがビジネスの選択をするのは比較的似ています。sora や runway のような企業でさえ、ハリウッドや広告との協力を積極的に受け入れています。ai 生成ビデオの分野は一般的にまだ開発の初期段階にあり、国際的なリーダーは全員そうだと考えています。」共に歩む、あるいは「共に市場を拡大する」。

shengshu technology を例に挙げると、tang jiayu 氏はビジネス モデルを 2 つの方向に分けています。1 つは、vidu には毎月無料の割り当てがあるが、より多くのニーズがある場合、またはより高度な機能を使用したい場合は、料金を支払う必要があるということです。サブスクリプション料金がかかり、vidu はユーザーのクリエイティブなニーズを満たすために製品機能を強化し続けます。2 つ目はモデル機能出力モード (maas) です。現在、多くの顧客がワークフロー内のリンクとして、または興味深いゲームプレイを引き出すためにビデオ生成機能を必要としています。 、これらの顧客はモデルを直接呼び出すことを望んでいます。

収益の観点から見ると、現段階では b エンド市場がより多くの収益を獲得しています。しかし、vidu の発売から 1 か月後、c サイドの成長曲線も非常に「急」になっています。 「現在の判断に基づくと、bサイド(需要)は比較的明確で直接的かつ安定しているため、bサイドは当社にとって長期的かつ重要な方向性です。当社はcサイドについても常に模索しています」とタン氏は述べた。ジアユは言った。

現在、国内のビデオ生成モデルとツールは「波」を形成し、好調に推移しているが、唐家宇氏は「中国が完全に主導権を握ったとは言えない。国内外の有力企業は第一陣に属している」と考えている。

「aiビデオがノードに到達しました」

ビデオの大きなモデルの視聴者層の中では、映画、テレビ、アニメーションの関係者が多数派であり、彼らは主に「プロの視聴者」とみなされています。では、「一般人」にとって、aiビデオはいつになったらコントロールできるツールになるのでしょうか。

tang jiayu 氏は、フィルムカメラの時代から携帯電話の写真の普及に至るまで、クリエイターの敷居を下げ続けてきた写真を例に挙げました。 tang jiayu氏は、shengshu technologyが9月11日にリリースした「subject reference」機能は、クリエイターの敷居を下げたり、クリエイティブプロセスをスピードアップしたりするための取り組みであると述べた。

「テクノロジーは依然として重要な要素です。現在のビデオ生成は最初は物理法則に準拠しているだけであり、より強力なモデル機能やより多くのモダリティの共同生成など、突破する必要がある高い天井がまだあります。」 「「サブジェクト参照」機能は一貫性生成の点で確かに大幅に改善されましたが、さらなる改善が必要な領域がまだ多くあります。 「たとえば、大きなモデルを製品から手工芸品に変更したい場合、この手工芸品には複雑なパターンや空洞の部分があり、そのような複雑な構造に直面して、現在の生成成功率はまだ高くありません。シーン生成には、次のような要素が含まれます。」スポーツ シューズなどの多くのコンポーネントで、モデル機能の継続的な改善が必要な、より複雑でダイナミックなシーンでより優れたパフォーマンスを発揮できることを願っています。」

このプロセスでは、技術の独創性と画期的性が優れた商品化と並行して行われる必要があります。営利企業は結局、科学研究機関ではないからです。

ビデオの生成時間を例にとると、生成時間を延長するには、世界を抽象的に理解するモデルの能力と、情報の圧縮と増幅の双方向機能を向上させる必要があります。現在、vidu は最大 32 秒のビデオを生成でき、shengshu technology はそれをさらに拡大する予定ですが、この長さは shengshu technology が現在製品化に注力している部分ではありません。

「実際の制作では、大まかに言えば、クリップの 90% 以上が数秒の長さです。したがって、実際的な観点から、リリースの優先事項として長さはまだ考慮されていませんが、観点からは」と tang jiayu 氏は強調しました。モデルの機能の角度については、同社は実際に改善を続けています。

レポーター |リー・シャオティン・ケ・ヤン

編集|ドゥアン・リアンウェンドゥオ 杜恒峰

校正 |王岳龍

|日刊経済ニュース nbdニュース 元記事|

許可なく転載、抜粋、コピー、ミラーリングすることを禁じます。

毎日の経済ニュース

レポート/フィードバック