ニュース

AI はより速く画像を生成し、あなたの考えをよりよく理解します。高美の Vincent 画像モデルが培った技術的な秘密とは何ですか?

2024-08-12

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina



大規模なモデルがリリースされ、アクセラレータ ボタンが押されたことで、ヴィンセント図は間違いなく最も注目されているアプリケーションの方向性の 1 つです。

Stable Diffusionの誕生以来、国内外でヴィンセントフィギュアの大型模型が後を絶たず、一時は「神同士の争い」のような雰囲気があった。わずか数カ月の間に、「最強のAIアーティスト」の称号は何度も入れ替わった。テクノロジーが繰り返されるたびに、AI 画像生成の品質と速度の上限が押し上げられ続けています。

これで、いくつかの単語を入力するだけで、希望する画像を取得できるようになりました。プロレベルの商業ポスターであれ、非常にリアルな写真であれ、AI マッピングの忠実度は私たちを驚かせます。 AI は 2023 年の Sony World Photography Award も受賞しました。大賞が発表される前に、この「写真」はロンドンのサマセットハウスに展示されていた――作者が公表しなければ、この写真が実際にAIによって作成されたものだと誰も気づかないかもしれない。



Eldagse と彼の AI 生成作品「Electrician」

AIが描いた絵をいかに美しくするかは、AI技術者のたゆまぬ努力と切り離すことはできません。「AIGC エクスペリエンス スクール」の第 6 回では、Doubao Vincent Chart の技術専門家である Li Liang 氏と NVIDIA ソリューション アーキテクトの Zhao Yijia 氏を招き、より美しく、より速く、ユーザーの心のつながりをより深く理解します。

ライブ放送の冒頭で、Li Liang氏はまず、最近の「トップクラス」国内大型モデルであるByteDance Doubao大型モデルのVincent図モデルの技術アップグレードを詳細に分析した。

Li Liang 氏は、Doubao チームが解決したい問題には主に 3 つの側面が含まれていると述べました。1 つ目は、ユーザーのアイデア デザインに合わせてより強力な画像とテキストのマッチングを実現する方法、2 つ目は、より究極のユーザー エクスペリエンスを提供するために、より美しい画像を生成する方法です。 3 つ目は、超大規模なサービス コールに対応するためにグラフをより迅速に作成する方法です。

画像とテキストのマッチングに関して、Doubao チームはデータから開始し、膨大な画像とテキスト データを精製およびフィルタリングして、最終的に数千億枚の高品質画像をデータベースに保存しました。さらに、チームは要約タスク用にマルチモーダル大規模言語モデルを特別にトレーニングしました。このモデルは、写真内のイメージの物理的な関係をより包括的かつ客観的に説明します。



高品質で詳細な画像およびテキスト データを取得した後、モデルの強みをさらに活用したい場合は、テキスト理解モジュールの能力を向上させる必要があります。チームはネイティブのバイリンガル大規模言語モデルをテキスト エンコーダーとして使用しており、これによりモデルの中国語理解能力が大幅に向上します。そのため、「唐王朝」や「元宵節」などの国家的要素に直面して、Doubao および Vincent の図モデルが使用されます。より深い理解を示すこともできます。



Diffsuion モデル アーキテクチャについては、Doubao チームは UNet を使用して効果的なスケーリングを行い、画像とテキストのペアと高忠実度の生成機能の理解をさらに向上させました。 。



ユーザーが直感的に感じる最も明白な美的スタイルについて、Doubao チームは専門的な美的ガイダンスを導入し、ユーザーと一般の人々の美的好みに常に注意を払っています。同時に、チームはデータとモデルのアーキテクチャにも熱心に取り組みました。多くの場合、ユーザーが取得した画像とデモ表示の比較は「買い手のショー」と「売り手のショー」のようなものですが、実際、与えられたプロンプトはモデルや Doubao Vincent の図にとって十分に詳細で明確ではありません。このモデルでは「リフレイザー」を導入し、ユーザーの本来の意図に従いながら、プロンプトの単語により詳細な説明を追加することで、すべてのユーザーがより完璧な生成効果を体験できるようになります。



モデルがより速く画像を生成し、画像あたりの消費量を少なくするために、Doubao チームはモデルの蒸留方法にも新しい問題解決のアイデアを提供しました。代表的な成果は、新しい拡散モデルの蒸留である Hyber-SD です。ノイズ除去ステップの数を圧縮しながら、ほぼロスレスのパフォーマンスを維持するフレームワーク。



次に、NVIDIA ソリューション アーキテクトの Zhao Yijia 氏は、基盤となるテクノロジーから始めて、Vincent Graph の 2 つの最も主流な Unet ベースの SD および DIT モデル アーキテクチャとそれらの対応する特性について説明し、NVIDIA の Tensorrt、Tensorrt-LLM、Triton、Nemo などの How ツールを紹介しました。 Megatron はモデルの展開をサポートし、大規模なモデルがより効率的に推論できるようにします。

Zhao Yijia 氏はまず、Stable Diffusion の背後にあるモデルの原理を詳細に説明し、Clip、VAE、Unet などの主要コンポーネントの動作原理について詳しく説明しました。 Sora が人気になるにつれて、その背後にある DiT (Diffusion Transformer) アーキテクチャも人気になりました。 Zhao Yijia 氏はさらに、モデル構造、特性、コンピューティング消費電力という 3 つの側面から SD と DiT の利点を包括的に比較しました。



安定拡散を使用して画像を生成すると、プロンプトの単語の内容が生成された結果に表示されているように感じることがよくありますが、その画像は希望どおりではありません。これは、テキスト レンダリングに基づく安定拡散は詳細を制御することが苦手であるためです。構図、動き、顔の特徴、空間関係など。したがって、安定拡散の動作原理に基づいて、研究者は安定拡散の欠点を補うために多くの制御モジュールを設計しました。 Zhao Yijia 氏は、代表的な IP アダプターと ControlNet を追加しました。



計算量の多いビンセント グラフ モデルの推論を高速化するには、NVIDIA のテクニカル サポートが重要な役割を果たします。 Zhao Yijia 氏は、Nvidia TensorRT および TensorRT-LLM ツールを紹介しました。これらのツールは、高性能畳み込み、効率的なスケジューリング、および分散展開テクノロジを通じて画像およびテキスト生成モデルの推論プロセスを最適化します。同時に、NVIDIA の Ada、Hopper、および次期 BlackWell ハードウェア アーキテクチャはすでに FP8 トレーニングと推論をサポートしており、モデル トレーニングによりスムーズなエクスペリエンスをもたらします。



6 回の素晴らしいライブ配信を経て、Volcano Engine、NVIDIA、CMO CLUB が共同で立ち上げた「AIGC Experience Party」は無事終了しました。この6つのプログラムを通じて、AIGCが「面白い」から「役に立つ」へと変化していく様子について、皆さんもより深く理解できたと思います。また、「AIGCエクスペリエンススクール」がプログラムの議論にとどまらず、実際のマーケティング分野におけるインテリジェントなアップグレードのプロセスを加速することを期待しています。

「AIGC体験スクール」全6回の講評アドレス:https://vtizr.xetlk.com/s/7CjTy