ニュース

AIGCの事業化を「縦型モデル」でリードするFancyTechの技術的軌跡とは?

2024-08-16

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina



マシーンハートオリジナル

マシーンハート編集部

今回、私たちは新たな技術革新を目の当たりにしていますが、AIGC は個人に自分自身を表現するためのツールを提供し、創作をより簡単にし、より人気のあるものにしていますが、その背後にある原動力は「大きな」モデルではありません。

過去 2 年間で、AIGC テクノロジーは誰もが想像していたよりも速く発展し、テキストから画像、ビデオに至るまであらゆる分野に浸透しました。 AIGCの事業化の道筋については議論が絶えず、その中には合意もあれば路線の分岐もある。

一方で、一般モデルの強力な機能は驚くべきものであり、さまざまな業界での応用の可能性を示しています。特に、DiT や VAR などのアーキテクチャの導入により、Scaling Law はテキスト生成からビジュアル生成へと飛躍することができました。このルールの指針の下、多くの大規模モデル メーカーはトレーニング データの増加、計算能力への投資、パラメータの蓄積の方向に前進し続けています。

一方で、ユニバーサル モデルは「すべてを殺す」ことを意味するものではなく、多くの細分化されたトラック タスクに直面して、「よく訓練された」垂直モデルがより良い結果を達成できることもわかりました。

大型モデル技術が実装の加速期に入るにつれて、後者の商業化の道への注目が急速に高まっています。

この進化の中で、中国の新興企業である FancyTech が際立っていました。商用ビジュアルコンテンツ生成用の標準化製品で急速に市場を拡大し、業界実装レベルで「垂直モデル」の優位性を他社に先駆けて実証した。

国内の大型モデル起業家界を見渡すと、FancyTech の商業化実績は誰の目にも明らかです。しかし、あまり知られていないのは、わずか数年前に誕生したこの会社がトラックの最前線に立っている垂直モデルと技術的優位性です。

Machine Heart は独占インタビューで、FancyTech が行っている技術探求について語りました。

FancyTech がビデオ垂直モデル DeepVideo をリリース

業界の壁をどう突破するか?

一般的に、一般的なモデルのゼロショット汎化能力が一定のレベルに達した後、微調整することで下流のタスクに使用できます。これは、今日多くの大型モデル製品が発売される方法でもあります。しかし、実際の効果としては、各業界のコンテンツ生成タスクには独自の複雑な標準セットがあるため、「微調整」だけでは産業アプリケーションのニーズを満たすことはできません。

一般的なモデルでは定型業務の 70% を完了できるかもしれませんが、顧客が本当に必要としているのは、ニーズを 100% 満たすことができる「バーティカル モデル」です。コマーシャルのビジュアルデザインを例に挙げると、これまで関連する作業は専門家によって長期的な蓄積を経て完成されており、ブランドの特定のニーズに合わせてデザインおよび調整する必要があり、多くの手作業の経験が必要でした。 「製品の修復」は、美観や指示遵守などの指標と比較して、ブランドがより重視する点であり、ブランドがお金を払うかどうかの決め手でもある。

コマーシャル画像/ビデオ用の垂直モデルを自社開発する過程で、FancyTech は中心的な課題を分解しました。それは、製品を十分に復元して背景、特に生成されたビデオに統合して、変形のない制御可能な製品の動きを実現する方法です。 。







動画链接:https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650930567&idx=1&sn=b5fc3170aa4c3be6701f2a21fb898120&chksm=84e439f9b393b0ef4b8ce1756e 95c59a9dce6205478feea33a68b6a594d400cd0ac1b62e037f&token=2065772502&lang=zh_CN#rd

今日の大規模モデル テクノロジの開発により、アプリケーション層にとって、オープン ソースまたはクローズド ソースのどちらのルートを選択するかは、もはや中心的な問題ではありません。 FancyTech の垂直モデルは、オープンソースの基盤となるアルゴリズム フレームワークに基づいており、独自のデータ アノテーションを重ねて再トレーニングされ、良好な生成結果を達成するために必要な継続的なトレーニング反復には数百の GPU のみが必要です。対照的に、「製品データ」と「トレーニング方法」の 2 つの要素は、最終的な導入効果にとってより重要です。

大量の 3D トレーニング データを蓄積することを前提として、FancyTech はモデルの 2D コンテンツ生成をガイドする空間インテリジェンスのアイデアを導入しました。具体的には、画像コンテンツの生成では、チームは製品の復元を確実にするための「マルチモーダル機能デバイス」を提案し、ビデオ コンテンツの生成では製品と背景の自然な統合を確保するために特別なデータ収集を使用して、ビデオの生成を再構築しました。基礎となるリンク、方向性設計フレームワーク、データ エンジニアリングにより、製品中心のビデオ生成を実現します。

真の次元削減ストライキ: 「空間インテリジェンス」は 2D コンテンツ生成をどのように導くのでしょうか?

多くのビジュアル生成製品の効果が満足のいくものでない主な理由は、現在の画像およびビデオ生成モデルが 2D トレーニング データに基づいて学習することが多く、実際の物理世界を理解していないことです。

この点はこの分野でコンセンサスに達しており、一部の研究者は、自己回帰学習パラダイムの下では、モデルによる世界の理解は常に浅いものであるとさえ信じています。

ただし、商用ビジュアル生成の細分化タスクでは、モデルの 3D 物理世界の理解を強化し、2D コンテンツをより適切に生成することが完全に不可能というわけではありません。

FancyTech は、「空間インテリジェンス」分野の研究アイデアを視覚生成モデルの構築に移行しました。一般的な生成モデルとは異なり、空間インテリジェンスの考え方は、多数のセンサーによって取得された元の信号から学習し、センサーによって取得された元の信号を正確に校正して、モデルに空間を認識して理解する能力を与えることです。現実世界。

そのため、FancyTech では従来のスタジオ撮影の代わりに LIDAR スキャンを使用し、製品統合前後の違いを反映した高品質な 3D データのペアを多数蓄積しています。3D 点群データと 2D データをモデルのトレーニング データとして組み合わせます。モデルの現実世界への理解を強化します。

あらゆるビジュアル コンテンツの生成において、光と影の効果を形作るのは非常に難しい作業であることを私たちは知っています。照明、発光体、バックライト、光点などの要素により、画像の空間的な階層化を強化できますが、これは生成モデルでは理解するのが難しい「知識ポイント」です。

可能な限り多くの自然光と影のデータを収集するために、FancyTech は各環境で明るさと色温度を調整できる数十のライトを構築しました。つまり、大量のデータの各ペアに、複数のライトと異なる明るさと色温度を重ね合わせることができます。が変わります。



この高強度のデータ収集は、実際の撮影シーンの照明をシミュレートし、電子商取引シーンの特性にさらに適合します。



高品質の 3D データの蓄積を組み合わせることで、FancyTech はアルゴリズム フレームワークに一連の革新をもたらし、空間アルゴリズムと画像およびビデオ アルゴリズムを有機的に組み合わせて、モデルがコア オブジェクトと環境の間の相互作用をよりよく理解できるようにしました。

トレーニング プロセス中に、モデルは物理世界をある程度まで理解できるようになり、3 次元空間、深さ、光の反射と屈折、さまざまな媒体で作用する光の結果についてより深く理解できるようになります。これを踏まえ、生成された製品の「強力な縮小」と「超融合」を実現しました。

「強力なリダクション」と「ハイパーフュージョン」の背後にあるアルゴリズムの革新とは何ですか?

一般的な製品シーンの画像生成タスクでは、現在の主流の方法は、主にテクスチャを使用して製品部品を確実に復元し、その後、インペインティング技術に基づいて画像シーンの編集を実装します。ユーザーは、変更する必要がある領域を選択し、プロンプトを入力するか、製品シーンの生成をガイドする参照画像を提供します。この方法の融合効果は優れていますが、欠点は、シーン生成結果の制御性が高くない、たとえば、明確ではない、または単一の出力の高い可用性を保証できないことです。

ファンシーテックでは、現状の手法では解決できない課題に対して、製品の特徴を多次元で抽出し、それらの特徴を利用して統合的なシーングラフを生成する独自の「マルチモーダル特徴デバイス」を提案しました。



特徴を抽出する作業は、「グローバル特徴」と「ローカル特徴」に分けられます。グローバル特徴には、VAE エンコーダーを使用して抽出される製品の輪郭、色、その他の要素が含まれます。ローカル特徴には、あらゆる場所で抽出される製品の詳細が含まれます。グラフニューラルネットワークを使用します。グラフ ニューラル ネットワークの大きな利点の 1 つは、製品内の各キー ピクセルの情報とキー ピクセル間の関係を抽出し、製品内の詳細の復元を向上できることです。

フレキシブルマテリアル製品のコンテンツ生成では、この方法によって得られる効果が大幅に向上します。



動画链接:https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650930567&idx=1&sn=b5fc3170aa4c3be6701f2a21fb898120&chksm=84e439f9b393b0ef4b8ce1756e 95c59a9dce6205478feea33a68b6a594d400cd0ac1b62e037f&token=2065772502&lang=zh_CN#rd

動画の生成は画像と比べて、製品そのものの動きの制御や、それがもたらす光と影の変化も伴います。一般的なビデオ生成モデルの場合、ビデオの特定の部分を独立して保護できないことが問題となります。この問題を解決するために、FancyTech はタスクを「製品の動きの生成」と「ビデオ シーンの統合」の 2 つの部門に分割しました。

  • 最初のステップで、FancyTech は、画面内の製品の動きを制御するためのいくつかのターゲットを絞った動作計画ソリューションを設計しました。これは、ビデオの各フレームで製品を事前に「固定」することと同じです。
  • 2 番目のステップでは、制御モジュールを通じて制御可能なビデオ生成が実現されます。制御モジュールは柔軟な設計を採用しており、U-netやDiTなどのさまざまなアーキテクチャと互換性があるため、拡張や最適化が容易です。

データ レベルでは、FancyTech 独自の製品データ リソースを使用して制御トレーニングと製品保護を提供することに加えて、シーンの一般化機能を確保するために複数のオープンソース データ セットも追加されます。訓練計画は比較学習とコース学習を組み合わせ、最終的に物品の保護効果を達成します。

AIGC時代の配当を受け取ろう

バーチカルモデルからより一般の人へ

「ユニバーサル」であれ「バーティカル」であれ、どちらのルートも終着点は商品化です。

FancyTech の垂直モデルの導入で最も直接的に受益するのはブランドです。これまで、広告ビデオの制作サイクルは、企画、撮影、編集から数週間かかることがありました。しかし、AIGCの時代では、このような広告動画の作成にかかる時間はわずか10分で、コストも当初の5分の1で済みます。

ファンシーテックは、膨大な独自のデータと業界のノウハウを活かし、垂直モデルの利点により国内外で広く認知されており、韓国のパートナーである Lazada と提携しています。東南アジアでは有名な電子商取引プラットフォームであり、米国では Kate Sommerville や Solawave などの地元ブランドに支持されており、欧州では LVMH イノベーション賞を受賞しており、欧州の顧客と緊密に協力しています。

コアの垂直モデルに加えて、FancyTech は AI ショート ビデオのフルリンク自動公開機能とデータ フィードバック機能も提供し、製品の売上の継続的な成長を推進します。

さらに重要なことは、垂直モデルは、一般の人々が AIGC テクノロジーを使用して生産性を向上させる道筋を視覚化します。たとえば、路上にある従来の写真スタジオは、FancyTech の製品を利用することで、プロ仕様の機材や専門家を追加することなく、単純なポートレート撮影からプロレベルの商用ビジュアル素材制作へのビジネス変革を完了できます。



動画链接:https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650930567&idx=1&sn=b5fc3170aa4c3be6701f2a21fb898120&chksm=84e439f9b393b0ef4b8ce1756e 95c59a9dce6205478feea33a68b6a594d400cd0ac1b62e037f&token=2065772502&lang=zh_CN#rd

今では、携帯電話を手に取るだけで、ほとんどの人がビデオを撮ったり、音楽を録音したり、自分の作品を世界と共有したりすることができます。 AIGCが再び個人の創造性を解き放つ未来を想像してみてください——

これにより、一般の人々が専門的な限界を超え、アイデアをより簡単に現実化できるようになり、各業界の生産性が飛躍的に向上し、より多くの新興産業が生み出されるようになります。この瞬間から、AIGC テクノロジーによってもたらされる時代の恩恵は真に普通なものとなるでしょう。人。