私の連絡先情報
郵便メール:
2024-07-16
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
AIxivコラムは、マシンハートが学術的・技術的な内容を掲載するコラムです。過去数年間で、Heart of the Machine AIxiv コラムには 2,000 件を超えるレポートが寄せられ、世界中の主要な大学や企業のトップ研究室がカバーされ、学術交流と普及を効果的に促進しています。共有したい優れた作品がある場合は、お気軽に寄稿するか、報告のために当社までご連絡ください。送信メール: [email protected]; [email protected]
Diao Haiwen は大連理工大学の博士課程の学生で、指導教官は Lu Huchuan 教授です。現在、王新龍博士の指導の下、北京知源人工知能研究所でインターンとして働いています。彼の研究対象は、視覚と言語、大型モデルの効率的な転送、マルチモーダル大型モデルなどです。共著者の崔玉峰氏は北航大学を卒業し、北京知源人工知能研究所ビジョンセンターのアルゴリズム研究者である。彼の研究対象はマルチモーダル モデル、生成モデル、コンピュータ ビジョンであり、主な作品には Emu シリーズが含まれます。
最近、マルチモーダル大型モデルの研究が本格化しており、業界はこれにますます投資を行っています。 GPT-4o (OpenAI)、Gemini (Google)、Phi-3V (Microsoft)、Claude-3V (Anthropic)、Grok-1.5V (xAI) など、海外ではホットなモデルが発売されています。同時に国内のGLM-4V(Wisdom Spectrum AI)、Step-1.5V(Step Star)、Emu2(北京知源)、Intern-VL(上海AI研究所)、Qwen-VL(Alibaba)などのモデルがございます。満開です。
現在のビジュアル言語モデル (VLM) は、通常、ビジュアル エンコーダ (Vision Encoder、VE) に依存してビジュアル特徴を抽出し、ユーザーの指示を大規模言語モデル (LLM) と組み合わせて処理し、応答します。 主な課題は、ビジュアルエンコーダと大規模言語モデルトレーニングの分離。この分離により、ビジュアル エンコーダは、大規模な言語モデルとインターフェイスするときに、画像解像度やアスペクト比の制限、強力なビジュアル セマンティック事前分布などの視覚誘導バイアスの問題が発生します。ビジュアル エンコーダの容量が拡大し続けるにつれて、ビジュアル信号を処理する際のマルチモーダル大規模モデルの展開効率も大幅に制限されます。さらに、ビジュアル エンコーダと大規模な言語モデルの最適な容量構成を見つける方法は、ますます複雑かつ困難になっています。
このような背景から、さらに最先端のアイデアがすぐにいくつか生まれました。
Adept AIは2023年末にFuyuシリーズのモデルをリリースし、いくつかの関連する試みを行ったが、トレーニング戦略、データリソース、機器情報は一切開示していなかった。同時に、Fuyu モデルと公開ビジュアル テキスト評価指標における主流のアルゴリズムとの間には、大きなパフォーマンスのギャップがあります。同時期に私たちが行ったいくつかのパイロット実験では、たとえ事前トレーニングデータの規模が大規模に増加したとしても、エンコーダーのないネイティブマルチモーダル大規模モデルは依然として収束速度の遅さやパフォーマンスの低下などの厄介な問題に直面していることが示されました。
これらの課題に対応するため、Zhiyuan Research Institute のビジョン チームは、大連理工大学や北京大学などの国内の大学と協力して、新世代のコーダーフリーのビジュアル言語モデル EVE を立ち上げました。 EVE は、洗練されたトレーニング戦略と追加の視覚的監視を通じて、視覚言語表現、調整、推論を統合された純粋なデコーダー アーキテクチャに統合します。 EVE は、公開されているデータを使用して、複数の視覚言語ベンチマークで優れたパフォーマンスを発揮し、同様の能力を持つ主流のエンコーダベースのマルチモーダル手法と競合し、仲間の Fuyu-8B を大幅に上回っています。 EVE は、純粋なデコーダー用のネイティブ マルチモーダル アーキテクチャの開発に透過的で効率的なパスを提供するために提案されています。
1. 技術的なハイライト
2. モデル構造
まず、Vicuna-7B 言語モデルを通じて初期化されるため、豊富な言語知識と強力な命令追従機能が備わっています。これに基づいて、ディープビジュアルエンコーダが削除され、軽量ビジュアルエンコード層が構築され、画像入力が効率的かつ可逆的にエンコードされ、ユーザー言語コマンドとともに統合デコーダに入力されます。さらに、ビジュアル アライメント レイヤーは、一般的なビジュアル エンコーダとの特徴アライメントを実行して、きめの細かい視覚情報のエンコードと表現を強化します。
2.1 パッチ埋め込みレイヤー
2.2 パッチアライメントレイヤー
3. トレーニング戦略
4. 定量分析
EVE モデルは、複数のビジュアル言語ベンチマークにおいて同様の Fuyu-8B モデルを大幅に上回り、さまざまな主流のエンコーダーベースのビジュアル言語モデルと同等のパフォーマンスを発揮します。ただし、トレーニングに大量の視覚言語データを使用するため、特定の指示に正確に応答するのに課題があり、一部のベンチマーク テストでのパフォーマンスを改善する必要があります。興味深いのは、効率的なトレーニング戦略を通じて、エンコーダレス EVE がエンコーダベースのビジュアル言語モデルと同等のパフォーマンスを達成でき、入力サイズの柔軟性、導入効率、および主流モデルのキャパシティ マッチングの問題を根本的に解決できることです。
言語構造の単純化や豊富な知識の損失などの問題が発生しやすいエンコーダーを備えたモデルと比較して、EVE はデータ サイズの増加に応じて徐々に安定したパフォーマンスの向上を示し、エンコーダー ベースのモデルのパフォーマンス レベルに徐々に近づいています。これは、統合ネットワーク内で視覚的モダリティと言語モダリティをエンコードして調整することがより困難であり、エンコーダなしのモデルがエンコーダありのモデルに比べて過剰適合する傾向が低いためである可能性があります。
5. 同僚はどう思いますか?
NVIDIA の上級研究員である Ali Hatamizadeh 氏は、EVE は新鮮であり、複雑な評価基準の構築や進歩的な視覚言語モデルの改善とは異なる、新しい物語を提案しようとしていると述べました。
Google Deepmind の主任研究員である Armand Joulin 氏は、純粋なデコーダー視覚言語モデルを構築するのは興味深いと述べました。
Apple の機械学習エンジニアである Prince Canuma 氏は、EVE アーキテクチャは非常に興味深いものであり、MLX VLM プロジェクト セットへの優れた追加であると述べました。
6.今後の展望
エンコーダーのないネイティブ視覚言語モデルとして、EVE は現在、有望な結果を達成しています。この道筋に沿って、将来的に検討する価値のある興味深い方向性がいくつかあります。