私の連絡先情報
郵便管理者@information.bz
2024-08-13
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
プロンプトワードのみを使用することで、マルチモーダル大規模モデルはシーン内の登場人物間の関係をよりよく理解できます。
北京大学は最近、Conditional Multi-Modal Prompt (CMMP) 手法を提案しました。即語工学技術マルチモーダルな大規模モデルに、地域レベルのキャラクターの相互作用関係を理解できるように学習させます。
このプロセスで最も難しいのは、モデルに認識を教えることです。目に見えないキャラクターのインタラクション タイプ。
ご存知のとおり、既存の研究のほとんどは閉じた環境に焦点を当てており、現実に近い開いた環境になると、モデルは混乱してしまいます。
たとえば、以下の図では、以前の検出器は、可視カテゴリと不可視カテゴリのバランスを取るのが困難でした。調和平均が低くなります、目に見えないカテゴリではパフォーマンスが低下します。
対照的に、CMMP メソッドはこのバランスの問題を効果的に解決し、パフォーマンスを大幅に向上させ、目に見えないカテゴリに対して新しい最先端のパフォーマンスを確立します。
CMMP 手法が目に見えないカテゴリをどのように解決するかについては、一言:
視覚空間キューは特徴抽出プロセスで使用され、目に見えない人物とオブジェクトのインタラクション概念を特定し、条件付きキュー学習を通じて目に見えないカテゴリへの一般化を向上させます。
要約すると、CMMP メソッドは、マルチモーダルな大規模モデルを微調整してモデルを作成するための新しいパラダイムを提供します。一般化された地域レベルのキャラクター相互作用関係検出機能。
上記の研究は北京大学王宣コンピュータ技術研究所によるもので、関連論文はトップカンファレンスECCV 2024に採択されました。
ゼロサンプルの人間関係検出のための新しいフレームワーク
研究チームは、CMMP を使用したゼロサンプル HOI (Human-Object Interaction) 検出のための新しいフレームワークを提案しました。
具体的には、CMMP はゼロサンプルの人間の対話を検出します。2 つのサブタスクに分割:
次に、サブタスクごとに別途提案視覚的手がかりとテキスト的手がかりを分離して、それらの間の依存関係を排除し、エラーの伝播を軽減します。
条件付き視覚キュー (Pv) は、インスタンスレベルの視覚事前分布 (Cins) と相互作用のグローバル空間パターン (Cgsp) によって制約された、空間認識と対話性知覚の知識を画像エンコーダーに注入するために使用されます。条件付き言語キュー (PL) は、正則化損失を介して人間が設計したキュー (CL) によって制約されます。
インタラクティビティ認識のための視覚的特徴抽出
チームが採用したマルチモーダルモデルの画像エンコーダは、当初、大規模な画像とテキストのペアに対する対照学習事前トレーニング(CLIP)によってトレーニングされており、その能力は画像レベルの一次セマンティクスの理解に限定されている可能性があります。
画像エンコーダが画像内のすべての人間の対話性を区別できるようにするために、チームは、さまざまな粒度の事前知識を条件付き視覚キューに統合し、人間の対話関係検出タスク用にカスタマイズされた視覚キューを理解することを提案しました。地域の二次セマンティクス。
具体的には、研究者インスタンスレベルの情報を事前知識として使用する条件付きの視覚的な手がかりを組み込みます。
入力画像が与えられると、事前トレーニングされたオブジェクト検出器が最初に使用され、境界ボックス、信頼度スコア、検出されたインスタンスのセマンティック エンコーディングなど、すべてのインスタンス レベルの事前知識が取得されます。
さらに、各インスタンスが相互作用する可能性のあるオブジェクトを認識できるようにするために、チームはトレーニング セット内の相互作用のグローバル空間パターンをインスタンス レベルの視覚的な事前情報と組み合わせました。
具体的には、注釈付きの相互作用する人物のペアごとに、研究者はまず、一変量および二値の空間特徴を計算します。
その後、K 平均法クラスタリング アルゴリズムを使用してクラスターの中心を決定し、それらを相互作用する文字ペアの代表的な空間パターンとして使用します。
グローバル空間インタラクション パターンは、目に見える人間と目に見えない人間のインタラクション概念の間のインタラクションを理解するための架け橋として、カテゴリに依存しない表現空間構成を提供します。
最後に、研究者らは、軽量アダプターを介して、組み合わせた知識を画像エンコーダーに統合しました。
一般化可能な相互作用の分類
ヒューマンインタラクション検出のためのタスク固有の表現を学習しながら、CLIP の一般化可能な一般知識を保持するために、チームは次のことを採用しました。一貫性制約のある言語認識型の即時学習。
この制約により、目に見えるカテゴリと見えないカテゴリの学習されたプロトタイプが合理的な分離境界を維持し、相互に過度に逸脱しないことが保証されます。
具体的には、各行動カテゴリーについて、研究者は、初めての使用手動で設計されたプロンプトはそれをフォーマットします。学習可能なコンテキスト単語を活用して、目に見えるカテゴリーと目に見えないカテゴリーの意味間の架け橋として機能します。
カテゴリの最終的な表現は、学習可能なコンテキスト単語と上記の文の単語ベクトルを連結し、テキスト エンコーダーに渡すことによって取得されます。
マルチモーダルモデルテキストエンコーダ自体によって学習された特徴空間をさらに活用し、目に見えないカテゴリへの汎化能力を向上させるために、研究者らは次のことを提案しました。ヒューマンデザインを活用するためのヒント学習可能な言語手がかりの特徴空間をガイドします。
この制約により、見えるカテゴリと見えないカテゴリのプロトタイプが適切な分離境界を維持し、互いに大きく逸脱しないことが保証されます。
チーム申請正則化と学習損失特徴表現と人工的に設計された言語キューの特徴表現との間の差異を減らすため。
CMMPのトレーニング
インタラクティブ性を意識した特徴マップと、事前トレーニングされた物体検出器によって抽出された人物と物体の境界ボックスに基づいて、チームはまず ROI プーリングを適用して、さまざまな領域の特徴を抽出しました。
次に、異なる領域から抽出された特徴が融合され、相互作用分類器を通じて最終的な相互作用クラスの予測が行われます。
モデル全体は対話型分類トレーニングで焦点損失を使用し、言語正則化損失も適用します。
実験結果
結果の検証段階で、チームは次のことを使用しました。HICO-DET、人間のインタラクション検出に一般的に使用されるデータセット、600 文字のインタラクション カテゴリは、80 のオブジェクト カテゴリと 117 の動詞カテゴリで構成されます。
モデルのゼロサンプルのパフォーマンスを検証するために、研究者らは HICO-DET で評価しました。5 つのゼロサンプル設定。
既存の手法との公平な比較を達成するために、私たちは次のことを研究します。ViT-B/16 がデフォルトで使用されますバックボーンネットワークとして。
以下の表に示すように、実験結果は、CMMP がすべてのゼロサンプル設定で良好に機能することを示しています。全員が未確認のクラスで最高のパフォーマンスを達成しました、これは条件付きマルチモーダルキューの導入の有効性を証明しています。
種類ごとの表にあるように、最後の行は次のことを示していますViT-L/14 バックボーンを利用して CLIP4HOI の FLOP に一致するように CMMP を拡張することにより、新しい方法はすべてのパーティションで最高のパフォーマンスを実現します。
これは、チームのモデルが視覚的特徴の空間関係抽出と対話型分類のためのプロトタイプ学習において優れた機能を備えていることを示しています。
さらに、以前の方法では、目に見えるカテゴリと見えないカテゴリの間で重大なパフォーマンスの違いが示されており、一般化能力が欠如していることが示されています。
この研究のモデルはこの問題を大幅に軽減できます。一般化するこれまで見たことのないインタラクション カテゴリに到達する可能性が高いことは、制約付きのマルチモーダル キューの有効性を裏付けています。
詳細については元の論文を参照してください。