ニュース

GPT-4V および Gemini 検出タスクのパフォーマンスを向上させるには、このプロンプト パラダイムが必要です

2024-07-22

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

AIxivコラムは、マシンハートが学術的・技術的な内容を掲載するコラムです。過去数年間で、Heart of the Machine AIxiv コラムには 2,000 件を超えるレポートが寄せられ、世界中の主要な大学や企業のトップ研究室がカバーされ、学術交流と普及を効果的に促進しています。共有したい優れた作品がある場合は、お気軽に寄稿するか、報告のために当社までご連絡ください。送信メール: [email protected] [email protected]

この記事の著者は、浙江大学、上海人工知能研究所、香港中文大学、シドニー大学、オックスフォード大学の出身者です。著者リスト: Wu Yixuan、Wang Yizhou、Tang Shixiang、Wu Wenhao、He Tong、Wanli Ouyang、Philip Torr、Jian Wu。その中で、共同筆頭著者のウー・イーシュアン氏は浙江大学の博士課程の学生であり、ワン・イージョウ氏は上海人工知能研究所の科学研究助手である。責任著者の Tang Shixiang は、香港中文大学の博士研究員です。

マルチモーダル大規模言語モデル (MLLM) はさまざまなタスクで優れた機能を示していますが、それにもかかわらず、検出タスクにおけるこれらのモデルの可能性は依然として過小評価されています。複雑な物体検出タスクで正確な座標が必要な場合、MLLM の幻覚により、ターゲット オブジェクトを見逃したり、不正確な境界ボックスを与えたりすることがよくあります。 MLLM の検出を可能にするために、既存の作業では、多数の高品質の命令データ セットを収集するだけでなく、オープン ソース モデルを微調整することも必要です。時間と労力がかかる一方で、クローズドソース モデルのより強力な視覚的理解機能を活用することもできません。この目的のために、浙江大学、上海人工知能研究所、オックスフォード大学が提案した。デットツールチェーン 、マルチモーダルな大規模言語モデルの検出能力を解き放つ、新しいプロンプト パラダイム。大規模なマルチモーダル モデルは、トレーニングなしで正確に検出する方法を学習できます。関連する研究は、ECCV 2024 を含む

検出タスクにおける MLLM の問題を解決するために、DetToolChain は次の 3 つのポイントから開始します。(1) 検出のための視覚的なプロンプトを設計します。これは、MLLM が位置情報を理解できるように、従来のテキスト プロンプトよりも直接的かつ効果的です。(2) ブレークダウン正確な検出タスクを小さくて単純なタスクに分割し、(3) 思考の連鎖を使用して検出結果を徐々に最適化し、大規模なマルチモーダル モデルの錯覚を可能な限り回避します。

上記の洞察に対応して、DetToolChain には 2 つの重要な設計が含まれています。 (1) 包括的な視覚処理プロンプトのセット。これらは画像内に直接描画され、視覚情報とテキスト情報の間のギャップを大幅に削減できます。 (2) 包括的な一連の検出推論により、検出ターゲットの空間的理解を強化し、サンプル適応型検出ツールチェーンを通じて最終的な正確なターゲット位置を徐々に決定します。

DetToolChain と GPT-4V や Gemini などの MLLM を組み合わせることで、オープンボキャブラリーの検出、記述対象の検出、指示表現の理解、指向性の対象の検出など、さまざまな検出タスクを命令チューニングなしでサポートできます。



論文のタイトル: DetToolChain: MLLM の検出能力を解き放つ新しいプロンプト パラダイム

論文リンク: https://arxiv.org/abs/2403.12488

DetToolChainとは何ですか?



図1 DetToolChainの全体フレームワーク

図 1 に示すように、特定のクエリ イメージに対して、MLLM は次の手順を実行するように指示されます。

I. フォーマット: タスクの元の入力フォーマットを、MLLM の入力として適切な命令テンプレートに変換します。

II. 考える: 特定の複雑な検出タスクをより単純なサブタスクに分割し、検出プロンプト ツールキットから効果的なプロンプトを選択します。

III. 実行: 特定のプロンプト (プロンプト) を順番に繰り返し実行します。

IV. 応答: MLLM 独自の推論機能を使用して、検出プロセス全体を監視し、最終応答 (最終応答) を返します。

検出プロンプト ツールキット: ビジュアル処理プロンプト



図 2: 視覚処理プロンプトの概略図。さまざまな観点から MLLM の検出能力を向上させるために、(1) 地域増幅器、(2) 空間測定標準、(3) シーン画像パーサーを設計しました。

図 2 に示すように、(1) リージョナル アンプは、元の画像をさまざまなサブ領域にトリミングして、ターゲット オブジェクトが位置するサブ領域に焦点を当てるなど、関心領域 (ROI) 上の MLLM の可視性を高めることを目的としています。 ; さらに、増幅機能により、画像内の特定のサブ領域を詳細に観察することができます。

(2) 空間計測標準は、図 2 (2) に示すように、元の画像上に線形スケールを備えた定規とコンパスを重ね合わせることで、ターゲット検出のためのより明確な基準を提供します。補助定規とコンパスを使用すると、MLLM は、画像に重ねられた並進および回転参照を使用して、正確な座標と角度を出力できます。基本的に、この補助線は検出タスクを簡素化し、MLLM がオブジェクトを直接予測する代わりにオブジェクトの座標を読み取ることができるようにします。

(3) シーン画像パーサーは、予測されたオブジェクトの位置または関係をマークし、空間情報とコンテキスト情報を使用して画像の空間関係を理解し​​ます。 シーン イメージ パーサーは 2 つのカテゴリに分類できます。まず、単一のターゲット オブジェクトの場合では、予測されたオブジェクトに重心、凸包、境界ボックスをラベル名とボックス インデックスでラベル付けします。これらのマーカーはオブジェクトの位置情報をさまざまな形式で表し、MLLM がさまざまな形状や背景の多様なオブジェクト、特に不規則な形状のオブジェクトや非常に遮蔽されたオブジェクトを検出できるようにします。たとえば、凸包マーカーはオブジェクトの境界点をマークし、それらを凸包に接続して、非常に不規則な形状のオブジェクトの検出パフォーマンスを向上させます。次に、複数のターゲットの場合では、シーン グラフ マーカーを介してさまざまなオブジェクトの中心を接続し、画像内のオブジェクト間の関係を強調表示します。シーン グラフに基づいて、MLLM はコンテキスト推論機能を活用して、予測された境界ボックスを最適化し、幻覚を回避できます。たとえば、図 2 (3) に示すように、ジェリーはチーズを食べたいと考えているため、境界ボックスは非常に近くにある必要があります。

検出推論プロンプト ツールキット: 検出推論プロンプト



予測ボックスの信頼性を向上させるために、検出推論プロンプト (表 1 を参照) を実行して、予測結果を確認し、存在する可能性のある潜在的な問題を診断しました。まず、困難な問題を強調し、クエリ画像に対する効果的な検出の提案と同様の例を提供する Problem Insight Guider を提案します。たとえば、図 3 の場合、問題インサイト ガイダーはクエリを小さなオブジェクトの検出の問題として定義し、サーフボード領域をズームインすることで問題を解決することを提案します。次に、MLLM の固有の空間およびコンテキスト機能を活用するために、検出結果が常識と一致することを保証するために、空間関係エクスプローラーとコンテキスト オブジェクト プレディクターを設計しました。図 3 に示すように、サーフボードは海と共生する可能性があり (文脈知識)、サーファーの足元の近くにサーフボードがあるはずです (空間知識)。さらに、自己検証プロモーターを適用して、複数ラウンドでの回答の一貫性を高めます。 MLLM の推論能力をさらに向上させるために、ディベートやセルフデバッグなど、広く使用されているプロンプト手法を採用しています。詳しい説明は原文をご覧ください。



図 3 検出推論のヒントは、MLLM が小さな物体検出の問題を解決するのに役立ちます。たとえば、常識を使って人の足元にあるサーフボードの場所を特定し、モデルが海の中のサーフボードを検出するように促します。



図4 回転ターゲット検出に適用されたDetToolChainの例(HRSC2016データセット)

実験: トレーニングなしで微調整方法を超えることができます



表 2 に示すように、オープンボキャブラリー検出 (OVD) に関するメソッドを評価し、17 の新しいクラス、48 の基本クラス、および COCO OVD ベンチマークのすべてのクラスの AP50 結果をテストしました。結果は、DetToolChain を使用すると、GPT-4V と Gemini の両方のパフォーマンスが大幅に向上することを示しています。



参照式の理解における私たちの方法の有効性を実証するために、RefCOCO、RefCOCO+、および RefCOCOg データセットで私たちの方法を他のゼロショット法と比較します (表 5)。 RefCOCO では、DetToolChain は、val、test-A、test-B で GPT-4V ベースラインのパフォーマンスをそれぞれ 44.53%、46.11%、24.85% 向上させ、ゼロショット条件下での DetToolChain の優れた参照式の理解とパフォーマンスを実証しました。