ニュース

ビジュアルエンコーダを放棄したこの「ネイティブバージョン」マルチモーダル大規模モデルは、主流の手法にも匹敵します

2024-07-16

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina



AIxivコラムは、マシンハートが学術的・技術的な内容を掲載するコラムです。過去数年間で、Heart of the Machine AIxiv コラムには 2,000 件を超えるレポートが寄せられ、世界中の主要な大学や企業のトップ研究室がカバーされ、学術交流と普及を効果的に促進しています。共有したい優れた作品がある場合は、お気軽に寄稿するか、報告のために当社までご連絡ください。送信メール: [email protected]; [email protected]

Diao Haiwen は大連理工大学の博士課程の学生で、指導教官は Lu Huchuan 教授です。現在、王新龍博士の指導の下、北京知源人工知能研究所でインターンとして働いています。彼の研究対象は、視覚と言語、大型モデルの効率的な転送、マルチモーダル大型モデルなどです。共著者の崔玉峰氏は北航大学を卒業し、北京知源人工知能研究所ビジョンセンターのアルゴリズム研究者である。彼の研究対象はマルチモーダル モデル、生成モデル、コンピュータ ビジョンであり、主な作品には Emu シリーズが含まれます。

最近、マルチモーダル大型モデルの研究が本格化しており、業界はこれにますます投資を行っています。 GPT-4o (OpenAI)、Gemini (Google)、Phi-3V (Microsoft)、Claude-3V (Anthropic)、Grok-1.5V (xAI) など、海外ではホットなモデルが発売されています。同時に国内のGLM-4V(Wisdom Spectrum AI)、Step-1.5V(Step Star)、Emu2(北京知源)、Intern-VL(上海AI研究所)、Qwen-VL(Alibaba)などのモデルがございます。満開です。

現在のビジュアル言語モデル (VLM) は、通常、ビジュアル エンコーダ (Vision Encoder、VE) に依存してビジュアル特徴を抽出し、ユーザーの指示を大規模言語モデル (LLM) と組み合わせて処理し、応答します。 主な課題は、ビジュアルエンコーダと大規模言語モデルトレーニングの分離。この分離により、ビジュアル エンコーダは、大規模な言語モデルとインターフェイスするときに、画像解像度やアスペクト比の制限、強力なビジュアル セマンティック事前分布などの視覚誘導バイアスの問題が発生します。ビジュアル エンコーダの容量が拡大し続けるにつれて、ビジュアル信号を処理する際のマルチモーダル大規模モデルの展開効率も大幅に制限されます。さらに、ビジュアル エンコーダと大規模な言語モデルの最適な容量構成を見つける方法は、ますます複雑かつ困難になっています。

このような背景から、さらに最先端のアイデアがすぐにいくつか生まれました。

  • ビジュアル エンコーダーを削除することはできますか?つまり、ビジュアル エンコーダーを使用せずに大規模なネイティブ マルチモーダル モデルを直接構築できますか?
  • 視覚的なエンコーダーを使用せずに、大規模な言語モデルをネイティブのマルチモーダルな大規模モデルに効率的かつスムーズに進化させるにはどうすればよいでしょうか?
  • エンコーダのないネイティブ マルチモーダル フレームワークと主流のエンコーダ ベースのマルチモーダル パラダイムの間のパフォーマンスのギャップを埋めるにはどうすればよいでしょうか?

Adept AIは2023年末にFuyuシリーズのモデルをリリースし、いくつかの関連する試みを行ったが、トレーニング戦略、データリソース、機器情報は一切開示していなかった。同時に、Fuyu モデルと公開ビジュアル テキスト評価指標における主流のアルゴリズムとの間には、大きなパフォーマンスのギャップがあります。同時期に私たちが行ったいくつかのパイロット実験では、たとえ事前トレーニングデータの規模が大規模に増加したとしても、エンコーダーのないネイティブマルチモーダル大規模モデルは依然として収束速度の遅さやパフォーマンスの低下などの厄介な問題に直面していることが示されました。

これらの課題に対応するため、Zhiyuan Research Institute のビジョン チームは、大連理工大学や北京大学などの国内の大学と協力して、新世代のコーダーフリーのビジュアル言語モデル EVE を立ち上げました。 EVE は、洗練されたトレーニング戦略と追加の視覚的監視を通じて、視覚言語表現、調整、推論を統合された純粋なデコーダー アーキテクチャに統合します。 EVE は、公開されているデータを使用して、複数の視覚言語ベンチマークで優れたパフォーマンスを発揮し、同様の能力を持つ主流のエンコーダベースのマルチモーダル手法と競合し、仲間の Fuyu-8B を大幅に上回っています。 EVE は、純粋なデコーダー用のネイティブ マルチモーダル アーキテクチャの開発に透過的で効率的なパスを提供するために提案されています。





  • 論文アドレス: https://arxiv.org/abs/2406.11832
  • プロジェクトコード: https://github.com/baaivision/EVE
  • モデルアドレス: https://huggingface.co/BAAI/EVE-7B-HD-v1.0

1. 技術的なハイライト

  • ネイティブ ビジュアル言語モデル: 主流のマルチモーダル モデルの固定パラダイムを打ち破り、ビジュアル エンコーダーを削除し、あらゆる画像アスペクト比を処理できます。複数のビジュアル言語ベンチマークにおいて、同じタイプの Fuyu-8B モデルよりも大幅に優れており、主流のビジュアル エンコーダベースのビジュアル言語アーキテクチャに近いものとなっています。
  • データとトレーニングのコストが低い: EVE モデルの事前トレーニングでは、OpenImages、SAM、LAION からの公開データのみがスクリーニングされ、665,000 の LLaVA 命令データと追加の 120 万のビジュアル ダイアログ データがそれぞれ通常バージョンと高レベル バージョンの構築に利用されました。 EVE-7Bのバージョン。トレーニングが完了するまでに、2 つの 8-A100 (40G) ノードで約 9 日、4 つの 8-A100 ノードで 5 日かかります。
  • 透過的かつ効率的な探索: EVE は、ネイティブ視覚言語モデルへの効率的で透過的かつ実用的なパスを探索することを試み、将来のマルチモーダルな開発に向けた新世代の純粋なデコーダ視覚言語モデル アーキテクチャの開発に新しいアイデアと貴重な経験を提供します。モデルの構築により、新たな探求の方向が開かれます。

2. モデル構造



まず、Vicuna-7B 言語モデルを通じて初期化されるため、豊富な言語知識と強力な命令追従機能が備わっています。これに基づいて、ディープビジュアルエンコーダが削除され、軽量ビジュアルエンコード層が構築され、画像入力が効率的かつ可逆的にエンコードされ、ユーザー言語コマンドとともに統合デコーダに入力されます。さらに、ビジュアル アライメント レイヤーは、一般的なビジュアル エンコーダとの特徴アライメントを実行して、きめの細かい視覚情報のエンコードと表現を強化します。



2.1 パッチ埋め込みレイヤー

  • まず単一の畳み込み層を使用して画像の 2D 特徴マップを取得し、次に平均プーリング層を通じてダウンサンプリングを実行します。
  • クロス アテンション モジュール (CA1) を使用して、限られた受容野で相互作用し、各パッチの局所的な特徴を強化します。
  • <CLS> トークンを使用し、それをクロスアテンション モジュール (CA2) と組み合わせて、後続の各パッチ機能のグローバル情報を提供します。
  • ネットワークが画像の 2 次元空間構造を理解できるように、学習可能な <SPL> トークンが各パッチ フィーチャ ラインの末尾に挿入されます。

2.2 パッチアライメントレイヤー

  • 有効なパッチの 2D 形状を記録します。<CLS>/ を破棄します。
  • トークンを取得し、適応プーリング層を使用して元の 2 次元形状に復元します。
  • 階層型クロスアテンション モジュール (CA3) を通じて、多層ネットワークのビジュアル機能が統合され、ビジュアル エンコーダ出力とのきめ細かい調整が実現されます。

3. トレーニング戦略



  • 大規模な言語モデルによってガイドされる事前トレーニング段階: 視覚と言語の間の最初のつながりを確立し、その後の安定した効率的な大規模な事前トレーニングの基礎を築きます。
  • 生成的事前トレーニング段階: 視覚言語コンテンツを理解するモデルの能力をさらに向上させ、純粋言語モデルからマルチモーダル モデルへのスムーズな移行を実現します。
  • 監視付き微調整ステージ: さまざまな視覚言語ベンチマークの要件を満たすために、言語指示に従い対話パターンを学習するモデルの能力をさらに標準化します。



  • 事前トレーニング段階では、SA-1B、OpenImages、LAION からの 3,300 万件の公開データがスクリーニングされ、解像度が 448×448 より高い画像サンプルのみが保持されました。特に、LAION 画像の高い冗長性の問題に対処するために、EVA-CLIP によって抽出された画像特徴に K-means クラスタリングを適用することによって 50,000 個のクラスターが生成され、各クラスターの中心に最も近い 300 個の画像が選択されました。 1,500万枚のLAION画像サンプルを厳選。続いて、Emu2(17B)とLLaVA-1.5(13B)を用いて高画質な画像記述を再生成する。
  • 監視付き微調整ステージでは、LLaVA-mix-665K 微調整データ セットを使用して、EVE-7B の標準バージョンと、AI2D、Synthdog、DVQA、ChartQA、DocVQA、Vision-Flan などの混合データ セットをトレーニングします。と Bunny-695K は、EVE-7B の高解像度バージョンをトレーニングするために統合されています。

4. 定量分析



EVE モデルは、複数のビジュアル言語ベンチマークにおいて同様の Fuyu-8B モデルを大幅に上回り、さまざまな主流のエンコーダーベースのビジュアル言語モデルと同等のパフォーマンスを発揮します。ただし、トレーニングに大量の視覚言語データを使用するため、特定の指示に正確に応答するのに課題があり、一部のベンチマーク テストでのパフォーマンスを改善する必要があります。興味深いのは、効率的なトレーニング戦略を通じて、エンコーダレス EVE がエンコーダベースのビジュアル言語モデルと同等のパフォーマンスを達成でき、入力サイズの柔軟性、導入効率、および主流モデルのキャパシティ マッチングの問題を根本的に解決できることです。



言語構造の単純化や豊富な知識の損失などの問題が発生しやすいエンコーダーを備えたモデルと比較して、EVE はデータ サイズの増加に応じて徐々に安定したパフォーマンスの向上を示し、エンコーダー ベースのモデルのパフォーマンス レベルに徐々に近づいています。これは、統合ネットワーク内で視覚的モダリティと言語モダリティをエンコードして調整することがより困難であり、エンコーダなしのモデルがエンコーダありのモデルに比べて過剰適合する傾向が低いためである可能性があります。

5. 同僚はどう思いますか?

NVIDIA の上級研究員である Ali Hatamizadeh 氏は、EVE は新鮮であり、複雑な評価基準の構築や進歩的な視覚言語モデルの改善とは異なる、新しい物語を提案しようとしていると述べました。



Google Deepmind の主任研究員である Armand Joulin 氏は、純粋なデコーダー視覚言語モデルを構築するのは興味深いと述べました。



Apple の機械学習エンジニアである Prince Canuma 氏は、EVE アーキテクチャは非常に興味深いものであり、MLX VLM プロジェクト セットへの優れた追加であると述べました。



6.今後の展望

エンコーダーのないネイティブ視覚言語モデルとして、EVE は現在、有望な結果を達成しています。この道筋に沿って、将来的に検討する価値のある興味深い方向性がいくつかあります。

  • さらなるパフォーマンスの向上: 実験では、視覚言語データのみを使用した事前トレーニングにより、モデルの言語能力が大幅に低下しましたが (SQA スコアが 65.3% から 63.0% に低下)、モデルのマルチモーダル パフォーマンスが徐々に向上したことがわかりました。これは、大規模な言語モデルが更新されると、言語知識が内部的に壊滅的に忘れられることを示しています。純粋な言語の事前トレーニング データを適切に統合するか、専門家の混合 (MoE) 戦略を使用して、視覚モダリティと言語モダリティの間の干渉を減らすことが推奨されます。
  • エンコーダレス アーキテクチャのビジョン: 適切な戦略と高品質のデータを使用したトレーニングにより、エンコーダレスのビジュアル言語モデルはエンコーダ付きモデルに匹敵することができます。では、同じモデル能力と大規模なトレーニング データの下では、この 2 つのパフォーマンスはどの程度でしょうか?エンコーダレス アーキテクチャは、ほぼロスレスで画像を入力し、ビジュアル エンコーダのアプリオリ バイアスを回避するため、モデルの容量とトレーニング データ量を拡張することで、エンコーダレス アーキテクチャがエンコーダベースのアーキテクチャに達するか、それを超える可能性があると我々は推測しています。
  • ネイティブ マルチモーダル モデルの構築: EVE は、ネイティブ マルチモーダル モデルを効率的かつ安定的に構築する方法を完全に示します。これにより、より多くのモダリティ (オーディオ、ビデオ、熱画像、深度など) を統合するための透過的で実行可能な方法が開かれます。将来的には。中心となるアイデアは、大規模な統合トレーニングを導入する前に、凍結された大規模言語モデルを通じてこれらのモダリティを事前に調整し、対応する単一モーダル エンコーダーと言語概念の調整を監視に利用することです。