浙江大学 Li Xi のチーム: 表現の理解を参照する新しい方法、ScanFormer は粗いニュースから細かいニュースまで冗長性を排除します

浙江大学 Li Xi チーム: 表現の理解を参照するための新しい方法、ScanFormer は粗いものから細かいものまで冗長性を排除します

2024-08-20

AIxivコラムは、マシンハートが学術的・技術的な内容を掲載するコラムです。過去数年間で、Heart of the Machine AIxiv コラムには 2,000 件を超えるレポートが寄せられ、世界中の主要な大学や企業のトップ研究室がカバーされ、学術交流と普及を効果的に促進しています。共有したい優れた作品がある場合は、お気軽に寄稿するか、報告のために当社までご連絡ください。送信メール: [email protected] [email protected]

この論文の著者は全員、浙江大学のLi Xi教授のチームの出身です。論文の筆頭著者は博士課程の学生Su Weiであり、責任著者はLi Xi教授（IETフェロー、国家優秀若手研究者）です。近年、Li Xi教授のチームは、180件を超えるCV/AIGC関連の研究成果を権威ある国際ジャーナル(TPAMI、IJCVなど)や主要な国際学術会議(ICCV、CVPR、ECCVなど)で発表しています。国内外の有名な大学や科学研究機関と幅広く協力しています。

基本的な視覚言語タスクとして、参照表現理解 (REC) は、自然言語記述に基づいて画像内の参照先の位置を特定します。 REC モデルは通常、ビジュアルエンコーダー、テキストエンコーダー、クロスモーダルインタラクションの 3 つの部分で構成され、それぞれビジュアル特徴、テキスト特徴、クロスモーダル特徴のインタラクションと強化を抽出するために使用されます。

現在の研究のほとんどは、タスクの精度を向上させるための効率的なクロスモーダルインタラクションモジュールの設計に焦点を当てており、ビジュアルエンコーダの探索は不足しています。一般的なアプローチは、ResNet、DarkNet、Swin Transformer、ViT などの分類および検出タスクに関して事前トレーニングされた特徴抽出器を使用することです。これらのモデルは、画像のすべての空間位置を走査して、スライディングウィンドウまたは分割パッチ方式で特徴を抽出します。その計算の複雑さは、画像の解像度に応じて急速に増加します。これは、Transformer ベースのモデルでより明らかです。

画像の空間的冗長性の特性により、情報量の少ない背景領域や画像内の参照表現とは無関係な領域が多数存在します。これらの領域の特徴を同じ方法で抽出すると、計算量は増加しますが、実際にはそのような処理は行われません。効果的な特徴抽出には寄与しません。より効率的な方法は、画像領域のテキストの関連性とコンテンツの豊富さを事前に予測し、テキスト関連の前景領域から特徴を完全に抽出し、背景領域から特徴を大まかに抽出することです。領域予測の場合、より直観的な方法は、画像ピラミッドを使用して、ピラミッドの上部の粗粒画像内の背景領域を事前に識別し、その後、高解像度の粒度の細かい前景領域を徐々に追加することです。

上記の分析に基づいて、私たちは次のように提案しました。ScanFormer、粗い反復から細かい反復までを認識するフレームワーク、低解像度の粗いスケールの画像から始めて、画像ピラミッド内の層ごとにスキャンし、式を参照する無関係な/背景領域を徐々にフィルタリングして計算の無駄を削減し、モデルが前景/タスク関連領域により集中できるようにします。。

論文のタイトル: ScanFormer: 反復スキャンによる式理解の参照
論文リンク: https://arxiv.org/pdf/2406.18048

手法の紹介

1. 粗いものから細かいものへの反復認識フレームワーク

構造を簡素化するために、テキストとビジュアルのモダリティを統合する ViLT [1] モデルを採用し、異なるタスクの深さの次元に沿って Encoder1 と Encoder2 の 2 つの部分に分割します。

まず、テキストの特徴を抽出して KV キャッシュに保存します。次に、画像ピラミッドを構築し、各反復で現在のスケールで選択されたパッチが入力され、次のステップを予測するために Encoder1 が使用されます。 1 つのスケールでのきめの細かいパッチの選択。特に、モデルが粗い画像全体の情報を取得できるように、最上位の画像のすべてのパッチが選択されます。 Encoder2 はさらに特徴を抽出し、現在のスケールの [cls] トークンに基づいてこのスケールの境界ボックスを予測します。

同時に、Encoder1 と Encoder2 の中間機能は、その後の標準使用を容易にするために KV キャッシュに保存されます。スケールが大きくなるにつれて、きめ細かい特徴が導入され、位置予測がより正確になり、多くの計算を節約するために無関係なパッチのほとんどが破棄されます。

さらに、各スケール内のパッチには双方向の注目があり、前のスケールのすべてのパッチとテキストの特徴に注目します。スケール全体にわたるこの因果関係に注意を払うことで、計算要件をさらに削減できます。

2. ダイナミックなパッチ選択

各パッチの選択は、前のスケールによって生成された選択係数によって決定されます。適用場所には 2 つのオプションがあります。ただし、エンコーダーの各レイヤーのすべてのヘッドで使用されます。 H ヘッドでは、更新に有効な勾配情報を取得することが非常に困難であるため、学習された選択係数は、エンコーダーの入力、つまりパッチの埋め込みとして直接使用されるだけです。この位置で使用すると、学習が容易になります。最終的に、この記事でもこのソリューションが採用されました。

さらに、入力パッチの埋め込みが 0 に設定されている場合でも、MHSA と FFN の存在により、後続の層のパッチの特徴は依然として非 0 になり、他のパッチの特徴に影響を与えることに注意する必要があります。幸いなことに、トークンシーケンスに同一のトークンが多数ある場合、MHSA の計算を簡素化し、実際の推論の高速化を実現できます。さらに、モデルの柔軟性を高めるために、この記事ではパッチの埋め込みを直接 0 に設定せず、学習可能な定数トークンに置き換えます。

したがって、パッチ選択問題はパッチ置換問題に変換されます。パッチ選択プロセスは、定数トークンの置換とトークンのマージの 2 つのステップに分解できます。選択されていないパッチは、同じ定数トークンに置き換えられます。これらの選択されていないトークンは同じであるため、スケーリングされたドット積アテンションの計算方法に従って、これらのトークンを 1 つのトークンに結合し、合計数を乗算することができます。これは、次元に加算することと同等であるため、ドット積アテンション方法は次のようになります。変更はなく、一般的な加速方法は引き続き使用できます。

実験結果

このメソッドは、RefCOCO、RefCOCO+、RefCOCOg、ReferItGame の 4 つのデータセットで最先端と同様のパフォーマンスを実現します。大規模なデータセットで事前トレーニングし、特定のデータセットで微調整することにより、モデルのパフォーマンスがさらに大幅に向上し、MDETR [2] や OFA [3] などの事前トレーニングされたモデルと同様の結果を達成できます。

推論速度の点では、提案手法は高いタスク精度を確保しながらリアルタイム推論速度を実現します。

さらに、実験部分では、モデルのパッチ選択と各スケール (スケール 1 とスケール 2) での位置決め精度の分布に関する統計も作成しました。

左の図に示すように、スケールが大きくなるにつれて、きめの細かい画像特徴が追加され、モデルの精度が徐々に向上します。したがって、位置決め精度が要件を満たした時点で終了する早期終了メカニズムを追加して、高解像度画像に対するさらなる計算を回避し、サンプルに基づいて適切な解像度を適応的に選択する効果を得ることができます。この記事では、IoU、GIoU、不確実性などの予測ブランチを追加したり、早期離脱インジケーターを返すなど、いくつかの予備的な試みも行いましたが、その効果は適切で正確な早期離脱インジケーターを設計する必要があることがわかりました。探索を続けた。

右の図は、さまざまなスケールでのパッチの選択状況を示しています。どのスケールでも、選択されたパッチの割合は比較的小さく、ほとんどのパッチを削除できるため、コンピューティングリソースが効果的に節約されます。各サンプル（画像 + 参考式）ごとに、実際に選択されるパッチの数は比較的少なく、全体の約 65% です。

最後に、実験部分では、スケールが大きくなるにつれて (赤→緑→青)、モデルの位置決め精度が徐々に向上します。さらに、選択したパッチから再構成された画像によると、モデルは背景領域の粗いスケールの情報のみに注意を払い、関連する前景領域については、きめの細かい詳細な情報に注意を払うことができることがわかります。情報。

ニュース

浙江大学 Li Xi チーム: 表現の理解を参照するための新しい方法、ScanFormer は粗いものから細かいものまで冗長性を排除します

導入

私の連絡先情報