ニュース

2Bマルチモーダル新型SOTA! Huakeと華南理工大学は「解像度を上げるためのスライス」に特化したMini-Monkeyをリリース

2024-08-12

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


新しい知恵のレポート

編集者: LRST とても眠いです

【新しい知恵の紹介】Mini-Monkey は、マルチスケール適応セグメンテーション戦略 (MSAC) とスケール圧縮メカニズム (SCM) を使用して、従来の画像セグメンテーション戦略によって引き起こされるエイリアシング効果を効果的に軽減する、軽量のマルチモーダル大規模言語モデルです。 -解像度の画像処理と文書理解タスク。複数のベンチマークで優れた結果を達成し、マルチモーダルな理解とドキュメント インテリジェンスの分野での可能性を実証しています。

最近、この分野では、マルチモーダル大規模モデルの高解像度画像処理能力の向上がますます注目を集めています。

ほとんどの手法は、画像のセグメント化と再融合という戦略を通じて、画像の詳細を理解するためのマルチモーダル大規模モデルの能力を向上させることに重点を置いています。

ただし、画像のセグメント化操作により、ターゲットと接続された領域の断片化が避けられず、小さいターゲットや不規則な形状のターゲットに対する MLMM の認識能力に影響します。文書理解タスクではテキスト側が中断されることが多いため、この現象は非常に顕著です。

この課題に対応して、華中科技大学と華南理工大学は最近共同でマルチモーダル大型モデル Mini-Monkey をリリースしました。これは、マルチモーダル大型モデルを軽量化するためにプラガブル マルチスケール適応戦略 (MSAC) を使用しています。 。

Mini-Monkey はマルチスケール表現を適応的に生成し、モデルがさまざまなスケールからセグメント化されていないオブジェクトを選択できるようにし、そのパフォーマンスは 2B マルチモーダル大規模モデルの新しい SOTA に達します。


論文アドレス: https://arxiv.org/pdf/2408.02034

プロジェクトアドレス: https://github.com/Yuliang-Liu/Monkey

MSAC によって引き起こされる計算オーバーヘッドを軽減するために、イメージ トークンを効果的に圧縮するスケール圧縮メカニズム (SCM) を提案します。

Mini-Monkey は、ドキュメント インテリジェンスの複数のタスクで優れたパフォーマンスを達成しただけでなく、一般的なマルチモーダル モデル理解タスクでも一貫したパフォーマンスの向上を達成し、2B SOTA パフォーマンスを達成しました。

OCRBench では、Mini-Monkey は 802 ポイントを獲得しました。これは、GLM-4v-9B などのより大きなパラメータを持つモデルよりも優れています。


図 3 メソッドのブロック図: H-Attn は高い注意の重みを表し、L-Attn は低い注意の重みを表し、共有 LLM 層は SCM で LLM を使用するブロック層を表します。

研究の背景

マルチモーダル大規模言語モデル (MLMM) は、近年多くの注目を集めています。研究者は、ビジュアル エンコーダを LLM と統合する効果的な方法を積極的に模索しています。

Flamingo、BLIP-2、MiniGPT4、Qwen-VL、LLaVA などのいくつかの手法はこれらの成果を達成していますが、これまでのマルチモーダル大規模言語モデルでは、処理解像度が限られているため、詳細なシーンの理解を十分に達成できませんでした。


図 1 普遍的なオブジェクトに対するセグメンテーションによって引き起こされるエイリアシング効果:(a)入力画像、(b)セグメンテーション拡張戦略、(c)マルチスケール適応セグメンテーション戦略。

研究者たちは、画像の入力解像度を拡張することでこの問題を解決し始めました。スライシング戦略は、最も一般的に使用される方法の 1 つです。たとえば、Monkey、LLaVA 1.6、InternVL 1.5、LLama3-V などです。

マルチモーダル大規模言語モデルは大幅に進歩しているにもかかわらず、セグメンテーション戦略により、詳細なシーンの理解には課題が残っています。

画像のセグメンテーション操作では、必然的にオブジェクトと接続された領域がセグメント化されるため、特に文書理解のコンテキストにおいて、小さなオブジェクトや不規則な形状のオブジェクトを識別する MLLM の能力が弱まります。

この戦略では、次の 2 種類の意味上の矛盾が生じます。

1. オブジェクトや文字が分割されている場合、認識できない場合があります。たとえば、図 1(b) に示すように、セグメント化された鼻はサルによく似ています。

2. 単語または文が分割されると、分割された単語に意味上の損傷が生じます。たとえば、「教室」という単語が「クラス」と「部屋」に分割される可能性があり、分割された単語に意味上の損傷が生じる可能性があります。

簡単にするために、著者らはこの問題をノコギリ波効果と呼んでいます。非常に簡単なアイデアは、図 1(c) に示すように、重複するセグメンテーション戦略を使用してこの問題を解決することです。

しかし、著者らは、重複するセグメンテーション戦略によって特定の錯覚が生じ、その結果、パフォーマンスが向上するのではなく、パフォーマンスが低下することがわかりました。

手法のアイデア

著者は、セグメンテーション戦略によって引き起こされる鋸歯状効果を軽減するために設計された軽量マルチモーダル大規模言語モデルである Mini-Monkey を提案します。メソッドのブロック図を図 2 に示します。


図 2 テキスト画像のトリミングによって生じるギザギザの効果。

入力画像を直接セグメント化する既存の方法とは異なり、Mini-Monkey はマルチスケール適応セグメンテーション戦略 (MSAC) と呼ばれるプラグアンドプレイ アプローチを採用しています。

図 1(d) に示すように、MSAC はさまざまなスケールで特徴を効果的に補完できます。

マルチスケール適応セグメンテーション戦略 (MSAC)

MSAC はまず、これらのメッシュに対して階層化操作を実行し、アスペクト比に基づいてメッシュを 3 つのグループに分割します。作成者は各レイヤーのアスペクト比を選択します。レイヤーが異なれば、モデルに異なる情報が提供されます。

詳細レイヤーは、詳細情報を提供する役割を果たします。画像の最大解像度と最小解像度の両方を制限して、画像をできるだけ大きくし、画像内のオブジェクトをより鮮明にします。画像のトリミングに使用されるセグメンテーション戦略が原因で、このレイヤーによって生成された画像には意味上の矛盾がある可能性があります。

したがって、作成者はアダプティブ レイヤーを詳細レイヤーと組み合わせて利用し、モデルがさまざまなスケールからセグメント化されていないオブジェクトを選択できるようにしています。アダプティブ レイヤーは、ディテール レイヤーに従ってアスペクト比を適応的に生成し、ディテール レイヤーのセグメンテーション ラインがアダプティブ レイヤーのセグメンテーション ラインと重ならないようにするため、同じオブジェクトが異なるレイヤーで 2 回セグメント化されるのを防ぎます。このプロセスにより、詳細レイヤーとアダプテーションレイヤーが異なるセマンティック情報と視覚的特徴をモデルに提供することが保証されます。

スケール圧縮機構

MSAC では、追加の計算オーバーヘッドが発生する可能性があります。したがって、著者は、計算オーバーヘッドの制約がある状況向けにスケール圧縮メカニズム (SCM) を提案します。 SCM は、計算オーバーヘッドを削減するためのトレーニングやパラメーターを必要としないメカニズムです。

作成者は、アダプティブ レイヤーのビジュアル トークン、グローバル レイヤーのビジュアル トークン、および詳細レイヤーのビジュアル マーカーに焦点を当てるテキスト トークンを選択し、アテンション マップを生成して、上位 K 個のビジュアル フィーチャを抽出します。アテンションマップの。

十分に訓練された LLM は、入力問題に基づいて必要な視覚特徴を効率的に選択できます。したがって、SCM は LLM の第 1 層と第 2 層を利用して、追加のパラメーターを生成せずにビジュアル トークンを選択します。

ミニモンキー最強の2Bマルチモーダル大型モデル

著者らは、一般的なマルチモーダル理解と文書理解に関して自分たちの方法をテストしました。実験結果は、Mini-Monkey が 2B パラメータで一般的なマルチモーダル理解と文書理解と同時に最高のパフォーマンスを達成したことを示しています。


表 1 一般的な多峰性の理解に関する結果


表 2 文書理解に関する結果

著者は提案する MSAC を既存の手法と比較します。1 行目は動的セグメンテーション法、2 行目は固定解像度セグメンテーション法、3 行目はオーバーラップ セグメンテーション、4 行目はマルチスケール戦略 S2 です。


表 3 は、さまざまなセグメンテーション戦略との比較です。

MSAC はさまざまなマルチモーダル アーキテクチャに適用でき、安定化と改善が可能です。

同時に、著者は比較のために MSAC を他の手法にも適用しました。その結果、一般的なマルチモーダル理解タスクと文書理解タスクにおいて一貫した改善が見られることがわかります。


表 4 は、MSAC をさまざまなフレームワークに適用します

セグメンテーションによる「後遺症」を効果的に軽減し、解像度を高めます。

同時に、図 4 に示すように、著者は定性的な分析も提供しています。著者は「教室」や「学校」といった細分化された場所について問いを立てます。

Mini-Monkey は、MSAC によるセグメンテーションの解像度の向上によって引き起こされる「後遺症」を効果的に軽減できることがわかります。


図 4 定性的結果: (a) 入力画像と Ground Truth、(b) 重複セグメンテーション戦略を使用した結果、OSC は重複セグメンテーション戦略を表す、(c) internv2-2b および internv2-26b の結果。

視覚的な比較

Mini-Monkey は曖昧な古代書籍のテキスト内容を正確に抽出できますが、MiniCPM-V 2.6 と InternVL2-2B はどちらも多くのテキストを見逃しました。


(a) 入力画像


(b)Mimi-Monkey: すべてのテキストを正確に認識します


(c)MiniCPM-V 2.6: 多くのテキストが欠落します。


(d)InternVL2-2B: 比較的曖昧なテキストの全文が欠落しています


(e)GPT-4o: 回答を拒否する

要約する

セグメンテーションを使用して解像度を拡張する方法では、多くの場合、オブジェクトと接続された領域がセグメント化されるため、小さなオブジェクトや不規則な形状のオブジェクトやテキストの認識が制限されます。この問題は、軽量の MLLM で特に顕著です。

この研究では、著者は、既存のセグメンテーション戦略の限界を解決して、MLLM の高解像度画像処理能力を向上させることを目的として、SOTA パフォーマンスを実現する 2B マルチモーダル大規模モデルである Mini-Monkey を提案します。

Mini-Monkey は、マルチスケール適応セグメンテーション戦略 (MSAC) を採用してマルチスケール表現を生成し、モデルがさまざまなスケールでセグメント化されていないオブジェクトを選択できるようにすることで、この問題を軽減します。

同時に、著者は、他のアーキテクチャのマルチモーダル大規模モデルに対するマルチスケール適応セグメンテーション戦略の有効性も検証し、セグメンテーション プランの解像度の向上によって引き起こされる「後遺症」を軽減するためのシンプルで効果的なソリューションを提供しました。 。

参考文献:

[1] Chen Z、Wang W、Tian H、et al。GPT-4Vまであとどのくらい?オープンソーススイートで商用マルチモーダルモデルとのギャップを埋める[J]。arXivプレプリントarXiv:2404.16821、2024。

[2] Li J、Li D、Savarese S、et al。Blip-2:凍結画像エンコーダーと大規模言語モデルを使用した言語画像事前トレーニングのブートストラップ[C]//機械学習に関する国際会議。PMLR、2023:19730-19742。

[3] Liu Y、Yang B、Liu Q、et al。Textmonkey:文書を理解するためのOCRフリーの大規模マルチモーダルモデル[J]。arXivプレプリントarXiv:2403.04473、2024。

[4] Bai J、Bai S、Yang S、et al。Qwen-vl:多彩な機能を備えた最先端の大規模視覚言語モデル[J]。arXivプレプリントarXiv:2308.12966、2023。

[5] Dubey A、Jauhri A、Pandey A、et al. The Llama 3 Herd of Models[J].arXivプレプリントarXiv:2407.21783, 2024.