ニュース

Meta の新しい研究開発手法: 言語と拡散 AI モデルを統合して計算量を削減し、計算効率を向上させ、画像生成を最適化する

2024-08-24

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

IT House は 8 月 24 日、Meta AI Company が最近、言語モデルと画像生成モデルを組み合わせて統合 AI システムに統合できる Transfusion と呼ばれる新しい手法を開始したと報じました。

IT Home は、Transfusion はテキストなどの離散データを処理する言語モデルの利点と、画像などの連続データを生成する拡散モデルの能力を組み合わせているとチームの話として伝えた。

メタ氏は、現在の画像生成システムは通常、事前にトレーニングされたテキスト エンコーダーを使用して入力キュー ワードを処理し、その後、別の拡散モデルと組み合わせて画像を生成すると説明します。

多くのマルチモーダル言語モデルは同様に機能し、事前トレーニングされたテキスト モデルを他のモダリティに特化したエンコーダーと連結します。

ただし、Transfusion は、すべてのモードに適した単一の統合された Transformer アーキテクチャを使用し、テキストおよび画像データに対してエンドツーエンドのトレーニングを実行します。テキストと画像は異なる損失関数を使用します。テキストは次のトークンの予測を使用し、画像は拡散を使用します。

テキストと画像を同時に処理するには、画像を一連の画像フラグメントに変換します。このようにして、モデルはテキスト タグと画像フラグメントをシーケンス内で同時に処理でき、特別なアテンション マスクを使用してモデルが画像内の関係をキャプチャできるようになります。

Chameleon などの Meta の既存の手法 (画像を個別のマーカーに変換し、テキストと同じ方法で処理する) とは異なり、Transfusion は画像の連続表現を保持し、量子化による情報の損失を回避します。

実験では、Fusion が同様の方法よりも効率的にスケーリングできることも示しています。画像生成に関しては、特殊なモデルと同様の結果が得られますが、計算量は大幅に削減され、驚くべきことに、画像データを統合することでテキスト処理能力も向上します。

研究者らは、2兆のテキストタグと画像タグを使用して70億のパラメータモデルをトレーニングしました。このモデルは、テキストの処理と同時に画像生成において DALL-E 2 などの成熟したシステムと同様の結果を達成します。