ビジュアルエンコーダを放棄したこの「ネイティブバージョン」マルチモーダル大規模モデルは、主流のメソッドにも匹敵します

ビジュアルエンコーダを放棄したこの「ネイティブバージョン」マルチモーダル大規模モデルは、主流の手法にも匹敵します

2024-07-16

AIxivコラムは、マシンハートが学術的・技術的な内容を掲載するコラムです。過去数年間で、Heart of the Machine AIxiv コラムには 2,000 件を超えるレポートが寄せられ、世界中の主要な大学や企業のトップ研究室がカバーされ、学術交流と普及を効果的に促進しています。共有したい優れた作品がある場合は、お気軽に寄稿するか、報告のために当社までご連絡ください。送信メール: [email protected]; [email protected]

Diao Haiwen は大連理工大学の博士課程の学生で、指導教官は Lu Huchuan 教授です。現在、王新龍博士の指導の下、北京知源人工知能研究所でインターンとして働いています。彼の研究対象は、視覚と言語、大型モデルの効率的な転送、マルチモーダル大型モデルなどです。共著者の崔玉峰氏は北航大学を卒業し、北京知源人工知能研究所ビジョンセンターのアルゴリズム研究者である。彼の研究対象はマルチモーダルモデル、生成モデル、コンピュータビジョンであり、主な作品には Emu シリーズが含まれます。

最近、マルチモーダル大型モデルの研究が本格化しており、業界はこれにますます投資を行っています。 GPT-4o (OpenAI)、Gemini (Google)、Phi-3V (Microsoft)、Claude-3V (Anthropic)、Grok-1.5V (xAI) など、海外ではホットなモデルが発売されています。同時に国内のGLM-4V（Wisdom Spectrum AI）、Step-1.5V（Step Star）、Emu2（北京知源）、Intern-VL（上海AI研究所）、Qwen-VL（Alibaba）などのモデルがございます。満開です。

現在のビジュアル言語モデル (VLM) は、通常、ビジュアルエンコーダ (Vision Encoder、VE) に依存してビジュアル特徴を抽出し、ユーザーの指示を大規模言語モデル (LLM) と組み合わせて処理し、応答します。主な課題は、ビジュアルエンコーダと大規模言語モデルトレーニングの分離。この分離により、ビジュアルエンコーダは、大規模な言語モデルとインターフェイスするときに、画像解像度やアスペクト比の制限、強力なビジュアルセマンティック事前分布などの視覚誘導バイアスの問題が発生します。ビジュアルエンコーダの容量が拡大し続けるにつれて、ビジュアル信号を処理する際のマルチモーダル大規模モデルの展開効率も大幅に制限されます。さらに、ビジュアルエンコーダと大規模な言語モデルの最適な容量構成を見つける方法は、ますます複雑かつ困難になっています。

このような背景から、さらに最先端のアイデアがすぐにいくつか生まれました。

ビジュアルエンコーダーを削除することはできますか?つまり、ビジュアルエンコーダーを使用せずに大規模なネイティブマルチモーダルモデルを直接構築できますか?
視覚的なエンコーダーを使用せずに、大規模な言語モデルをネイティブのマルチモーダルな大規模モデルに効率的かつスムーズに進化させるにはどうすればよいでしょうか?
エンコーダのないネイティブマルチモーダルフレームワークと主流のエンコーダベースのマルチモーダルパラダイムの間のパフォーマンスのギャップを埋めるにはどうすればよいでしょうか?

Adept AIは2023年末にFuyuシリーズのモデルをリリースし、いくつかの関連する試みを行ったが、トレーニング戦略、データリソース、機器情報は一切開示していなかった。同時に、Fuyu モデルと公開ビジュアルテキスト評価指標における主流のアルゴリズムとの間には、大きなパフォーマンスのギャップがあります。同時期に私たちが行ったいくつかのパイロット実験では、たとえ事前トレーニングデータの規模が大規模に増加したとしても、エンコーダーのないネイティブマルチモーダル大規模モデルは依然として収束速度の遅さやパフォーマンスの低下などの厄介な問題に直面していることが示されました。

これらの課題に対応するため、Zhiyuan Research Institute のビジョンチームは、大連理工大学や北京大学などの国内の大学と協力して、新世代のコーダーフリーのビジュアル言語モデル EVE を立ち上げました。 EVE は、洗練されたトレーニング戦略と追加の視覚的監視を通じて、視覚言語表現、調整、推論を統合された純粋なデコーダーアーキテクチャに統合します。 EVE は、公開されているデータを使用して、複数の視覚言語ベンチマークで優れたパフォーマンスを発揮し、同様の能力を持つ主流のエンコーダベースのマルチモーダル手法と競合し、仲間の Fuyu-8B を大幅に上回っています。 EVE は、純粋なデコーダー用のネイティブマルチモーダルアーキテクチャの開発に透過的で効率的なパスを提供するために提案されています。

論文アドレス: https://arxiv.org/abs/2406.11832
プロジェクトコード: https://github.com/baaivision/EVE
モデルアドレス: https://huggingface.co/BAAI/EVE-7B-HD-v1.0

1. 技術的なハイライト

ネイティブビジュアル言語モデル: 主流のマルチモーダルモデルの固定パラダイムを打ち破り、ビジュアルエンコーダーを削除し、あらゆる画像アスペクト比を処理できます。複数のビジュアル言語ベンチマークにおいて、同じタイプの Fuyu-8B モデルよりも大幅に優れており、主流のビジュアルエンコーダベースのビジュアル言語アーキテクチャに近いものとなっています。
データとトレーニングのコストが低い: EVE モデルの事前トレーニングでは、OpenImages、SAM、LAION からの公開データのみがスクリーニングされ、665,000 の LLaVA 命令データと追加の 120 万のビジュアルダイアログデータがそれぞれ通常バージョンと高レベルバージョンの構築に利用されました。 EVE-7Bのバージョン。トレーニングが完了するまでに、2 つの 8-A100 (40G) ノードで約 9 日、4 つの 8-A100 ノードで 5 日かかります。
透過的かつ効率的な探索: EVE は、ネイティブ視覚言語モデルへの効率的で透過的かつ実用的なパスを探索することを試み、将来のマルチモーダルな開発に向けた新世代の純粋なデコーダ視覚言語モデルアーキテクチャの開発に新しいアイデアと貴重な経験を提供します。モデルの構築により、新たな探求の方向が開かれます。

2. モデル構造

まず、Vicuna-7B 言語モデルを通じて初期化されるため、豊富な言語知識と強力な命令追従機能が備わっています。これに基づいて、ディープビジュアルエンコーダが削除され、軽量ビジュアルエンコード層が構築され、画像入力が効率的かつ可逆的にエンコードされ、ユーザー言語コマンドとともに統合デコーダに入力されます。さらに、ビジュアルアライメントレイヤーは、一般的なビジュアルエンコーダとの特徴アライメントを実行して、きめの細かい視覚情報のエンコードと表現を強化します。

2.1 パッチ埋め込みレイヤー

まず単一の畳み込み層を使用して画像の 2D 特徴マップを取得し、次に平均プーリング層を通じてダウンサンプリングを実行します。
クロスアテンションモジュール (CA1) を使用して、限られた受容野で相互作用し、各パッチの局所的な特徴を強化します。
<CLS> トークンを使用し、それをクロスアテンションモジュール (CA2) と組み合わせて、後続の各パッチ機能のグローバル情報を提供します。
ネットワークが画像の 2 次元空間構造を理解できるように、学習可能な <SPL> トークンが各パッチフィーチャラインの末尾に挿入されます。

2.2 パッチアライメントレイヤー

有効なパッチの 2D 形状を記録します。<CLS>/ を破棄します。
トークンを取得し、適応プーリング層を使用して元の 2 次元形状に復元します。
階層型クロスアテンションモジュール (CA3) を通じて、多層ネットワークのビジュアル機能が統合され、ビジュアルエンコーダ出力とのきめ細かい調整が実現されます。

3. トレーニング戦略

大規模な言語モデルによってガイドされる事前トレーニング段階: 視覚と言語の間の最初のつながりを確立し、その後の安定した効率的な大規模な事前トレーニングの基礎を築きます。
生成的事前トレーニング段階: 視覚言語コンテンツを理解するモデルの能力をさらに向上させ、純粋言語モデルからマルチモーダルモデルへのスムーズな移行を実現します。
監視付き微調整ステージ: さまざまな視覚言語ベンチマークの要件を満たすために、言語指示に従い対話パターンを学習するモデルの能力をさらに標準化します。

事前トレーニング段階では、SA-1B、OpenImages、LAION からの 3,300 万件の公開データがスクリーニングされ、解像度が 448×448 より高い画像サンプルのみが保持されました。特に、LAION 画像の高い冗長性の問題に対処するために、EVA-CLIP によって抽出された画像特徴に K-means クラスタリングを適用することによって 50,000 個のクラスターが生成され、各クラスターの中心に最も近い 300 個の画像が選択されました。 1,500万枚のLAION画像サンプルを厳選。続いて、Emu2(17B)とLLaVA-1.5(13B)を用いて高画質な画像記述を再生成する。
監視付き微調整ステージでは、LLaVA-mix-665K 微調整データセットを使用して、EVE-7B の標準バージョンと、AI2D、Synthdog、DVQA、ChartQA、DocVQA、Vision-Flan などの混合データセットをトレーニングします。と Bunny-695K は、EVE-7B の高解像度バージョンをトレーニングするために統合されています。

4. 定量分析

EVE モデルは、複数のビジュアル言語ベンチマークにおいて同様の Fuyu-8B モデルを大幅に上回り、さまざまな主流のエンコーダーベースのビジュアル言語モデルと同等のパフォーマンスを発揮します。ただし、トレーニングに大量の視覚言語データを使用するため、特定の指示に正確に応答するのに課題があり、一部のベンチマークテストでのパフォーマンスを改善する必要があります。興味深いのは、効率的なトレーニング戦略を通じて、エンコーダレス EVE がエンコーダベースのビジュアル言語モデルと同等のパフォーマンスを達成でき、入力サイズの柔軟性、導入効率、および主流モデルのキャパシティマッチングの問題を根本的に解決できることです。

言語構造の単純化や豊富な知識の損失などの問題が発生しやすいエンコーダーを備えたモデルと比較して、EVE はデータサイズの増加に応じて徐々に安定したパフォーマンスの向上を示し、エンコーダーベースのモデルのパフォーマンスレベルに徐々に近づいています。これは、統合ネットワーク内で視覚的モダリティと言語モダリティをエンコードして調整することがより困難であり、エンコーダなしのモデルがエンコーダありのモデルに比べて過剰適合する傾向が低いためである可能性があります。

5. 同僚はどう思いますか?

NVIDIA の上級研究員である Ali Hatamizadeh 氏は、EVE は新鮮であり、複雑な評価基準の構築や進歩的な視覚言語モデルの改善とは異なる、新しい物語を提案しようとしていると述べました。

Google Deepmind の主任研究員である Armand Joulin 氏は、純粋なデコーダー視覚言語モデルを構築するのは興味深いと述べました。

Apple の機械学習エンジニアである Prince Canuma 氏は、EVE アーキテクチャは非常に興味深いものであり、MLX VLM プロジェクトセットへの優れた追加であると述べました。

6.今後の展望

エンコーダーのないネイティブ視覚言語モデルとして、EVE は現在、有望な結果を達成しています。この道筋に沿って、将来的に検討する価値のある興味深い方向性がいくつかあります。

さらなるパフォーマンスの向上: 実験では、視覚言語データのみを使用した事前トレーニングにより、モデルの言語能力が大幅に低下しましたが (SQA スコアが 65.3% から 63.0% に低下)、モデルのマルチモーダルパフォーマンスが徐々に向上したことがわかりました。これは、大規模な言語モデルが更新されると、言語知識が内部的に壊滅的に忘れられることを示しています。純粋な言語の事前トレーニングデータを適切に統合するか、専門家の混合 (MoE) 戦略を使用して、視覚モダリティと言語モダリティの間の干渉を減らすことが推奨されます。
エンコーダレスアーキテクチャのビジョン: 適切な戦略と高品質のデータを使用したトレーニングにより、エンコーダレスのビジュアル言語モデルはエンコーダ付きモデルに匹敵することができます。では、同じモデル能力と大規模なトレーニングデータの下では、この 2 つのパフォーマンスはどの程度でしょうか?エンコーダレスアーキテクチャは、ほぼロスレスで画像を入力し、ビジュアルエンコーダのアプリオリバイアスを回避するため、モデルの容量とトレーニングデータ量を拡張することで、エンコーダレスアーキテクチャがエンコーダベースのアーキテクチャに達するか、それを超える可能性があると我々は推測しています。
ネイティブマルチモーダルモデルの構築: EVE は、ネイティブマルチモーダルモデルを効率的かつ安定的に構築する方法を完全に示します。これにより、より多くのモダリティ (オーディオ、ビデオ、熱画像、深度など) を統合するための透過的で実行可能な方法が開かれます。将来的には。中心となるアイデアは、大規模な統合トレーニングを導入する前に、凍結された大規模言語モデルを通じてこれらのモダリティを事前に調整し、対応する単一モーダルエンコーダーと言語概念の調整を監視に利用することです。

ニュース

ビジュアルエンコーダを放棄したこの「ネイティブバージョン」マルチモーダル大規模モデルは、主流の手法にも匹敵します

導入

私の連絡先情報