ニュース

AIの新たなブレークスルー! AI を使用して AI を理解する、MIT がマルチモーダル自動解釈可能なエージェント MAIA を開始

2024-08-02

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina



馬雪偉著

「スーパーボディ」で脳を刺激するための薬物の使用から、サイバーパンク文化での電子干渉を使用した脳空間への侵入まで、人間は人間の脳操作の可能性について多くの空想を抱いてきました。想像してみましょう。人間が実際に人間の脳内のすべてのニューロンを直接操作できるとしたらどうなるでしょうか?

その時までに、人間は特定の物体を認識する際のこれらのニューロンの役割を直接理解できるようになり、できれば非常に「SF」的なことができるようになるでしょう。

実生活では、このような実験を人間の脳で実行することはほとんど不可能ですが、人工ニューラルネットワークでは実行可能です。ただし、モデルには多くの場合、数百万のニューロンが含まれており、大きすぎて複雑であり、理解するには多大な労力が必要となるため、大規模なモデルを理解することは非常に困難な作業になります。

この目的を達成するために、MIT コンピューター科学人工知能研究所 (MIT CSAIL) の研究チームは、ニューラル モデルを使用してモデル理解タスクを自動的に実行するシステム、つまり「MAIA」を立ち上げました。マルチモーダルな自動解釈可能なエージェント”。

MAIA は、事前トレーニングされた視覚言語モデルを使用して、ニューラル モデルを理解するタスクを自動化します。モジュラー設計により、MAIA は次のことを可能にします。あらゆるシステムを評価し、新しい実験ツールを簡単に追加できる柔軟性 。さらに、複雑な実験を自動化し、反復実験手法を使用して仮説をテストし、実験結果に基づいて仮説を更新することができます。

カリフォルニア大学バークレー校のジェイコブ・スタインハート助教授は、これらの手法を拡張することが、人工知能システムを理解し、安全に監視するための最も重要な方法の 1 つである可能性があると考えています。しかし、研究チームは次のように考えています。 強化された MAIA は、人工知能システムの人間による監視に代わるものではありません 。 MAIA では、確証バイアスや画像の生成/編集の失敗などのエラーを検出するために、依然として人間の監督が必要です。

本当の効果は何でしょうか?

既存の自動解釈手法はデータを一度ラベル付けまたは視覚化するだけですが、MAIA は仮説を生成し、それをテストするための実験を設計し、反復分析を通じて理解を向上させることができます。このマルチモーダルなアプローチは、事前トレーニングされた視覚言語モデル (VLM) と解釈ツールのライブラリを組み合わせることで、モデル固有の対象実験を作成して実行することでユーザーのクエリに応答し、包括的な答えを提供できるようになるまでアプローチを継続的に改善します。

MAIA フレームワークの中核は、事前トレーニングされたマルチモーダル モデル (GPT-4V など) によって駆動されるエージェントであり、他のシステムの動作を説明するための実験を自動的に実行できます。これは、解釈可能なサブルーチンを Python プログラムに結合することで実現されます。



図 | MAIA アーキテクチャ

研究チームはニューロン記述パラダイムに基づいて MAIA を評価し、MAIA が実際のモデルと合成ニューロン データセットの両方で優れた記述効果を達成し、ベースライン手法よりも優れ、人間の専門家に匹敵する予測能力を備えていることを示しました。



図 | 評価 MAIA の説明

さらに、MAIA は誤った特徴を削除しバイアスを明らかにするという優れた応用可能性を示しており、これにより人間のユーザーがモデルの動作をより深く理解し、モデルのパフォーマンスと公平性を向上させることができます。

MAIA を使用して偽の特徴を除去する

偽の特徴は、現実世界のシナリオにおけるモデルの堅牢性に影響を与える可能性があります。 MAIA はモデル内の偽の特徴を特定して削除できるため、モデルの堅牢性が向上します。研究チームは、ResNet-18 を使用して、異なる背景を持つ 4 つの犬種を含む Spwrious データセットでトレーニングしました。

データセットでは、各犬種は特定の背景 (雪、ジャングル、砂漠、ビーチなど) と誤って関連付けられていますが、テスト セットでは、犬種と背景の組み合わせが混沌としています。研究チームは MAIA を使用して、ユーザー プロンプトでクエリを変更するだけで、偽の特徴に関係なく個々の犬の品種を確実に予測できる最終層ニューロンのサブセットを見つけました。

結果は、MAIA がモデル内の偽の特徴を効果的に除去できるため、モデルの堅牢性が向上することを示しています。

MAIA を使用して偏見を明らかにする

モデルにはバイアスがあり、特定の状況ではパフォーマンスが低下することがあります。また、MAIA はモデル内のバイアスを自動的に明らかにできます。研究チームは、ResNet-152 を使用して ImageNet でトレーニングし、MAIA を使用してモデル出力のバイアスをチェックしました。

実験中、MAIA は特定のカテゴリに関連する画像を生成するよう促され、これらの画像に対するモデルの反応を観察しました。その後、MAIA は、一部のモデルが特定のサブカテゴリまたは特定のカテゴリに関連する画像を優先していることを発見しました。

これは、MAIA がモデル内のバイアスを特定し、それによってモデルを改善できることを示しています。



図 | MAIA モデルのバイアス検出

欠点と展望

MAIA は自動解釈可能性において大きな可能性を示していますが、依然としていくつかの制限があります。

まず、MAIA の説明能力は、安定拡散や GPT-4 などの使用ツールによって制限されます。これらのツールの制限 (画像生成の品質、コスト、アクセス制限など) は MAIA のパフォーマンスに直接影響します。将来的には、システムの信頼性とアクセシビリティを向上させるために、より強力な社内ツールを開発したり、オープンソースの代替手段を探したりすることを検討することもできます。

第二に、MAIA の説明は正式な検証ではなく、実験結果と自然言語記述に基づいています。これは、偏った解釈や誤解を招く解釈につながる可能性があります。将来的には、説明の正確性と信頼性を向上させるために、形式的な検証手法(因果推論、理論分析など)を MAIA に統合することが検討されます。

さらに、MAIA は確証バイアス、過剰解釈、少数のサンプルによる結論などの一般的なエラーを完全に回避することはできません。将来的には、MAIA が自身の誤りを特定して修正し、解釈の堅牢性を向上させるために、自己反映メカニズムの導入が検討される可能性があります。

この論文の共著者であるロット・シャハム氏は今後を見据えて、「私たちの研究室にとって自然な次のステップは、人工システムを超えて、これらの同様の実験を人間の知覚に適用することだと思います。従来、これには手動で刺激を設計してテストする必要がありました」と述べた。 , これは労働集約的なプロセスですが、当社のエージェントを使用すると、このプロセスをスケールアップして、多数の刺激を同時に設計およびテストできます。」