ニュース

清華大学が率先してマルチモーダル評価のリリース MultiTrust: GPT-4 はどの程度信頼できますか?

2024-07-24

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina



AIxivコラムは、マシンハートが学術的・技術的な内容を掲載するコラムです。過去数年間で、Heart of the Machine AIxiv コラムには 2,000 件を超えるレポートが寄せられ、世界中の主要な大学や企業のトップ研究室がカバーされ、学術交流と普及を効果的に促進しています。共有したい優れた作品がある場合は、お気軽に寄稿するか、報告のために当社までご連絡ください。送信メール: [email protected] [email protected]

この研究は、清華大学のZhu Jun教授が率いる基礎理論革新チームによって開始されました。長年にわたり、チームは人工知能の開発における現在のボトルネック問題に焦点を当て、独自の人工知能理論と主要な技術を探求し、敵対的セキュリティ理論とインテリジェントアルゴリズムの手法の研究において国際をリードするレベルにあります。また、データ利用効率など、ディープラーニングの敵対的堅牢性と有効性に関する詳細な研究も実施しました。関連研究は呉文君人工知能自然科学賞の一等賞を受賞し、100以上のCCFクラスA論文を発表し、オープンソースのARES反撃攻撃および防御アルゴリズムプラットフォームを開発しました(https://github.com/thu-ml/ares)。 、いくつかの特許製品を実現 学習と研究を実用的なアプリケーションに変換します。

GPT-4oに代表されるマルチモーダル大規模言語モデル(MLLM)は、言語や画像など複数のモダリティにおいて優れた性能を発揮するため、大きな注目を集めています。これらは、ユーザーの日常業務における右腕アシスタントとなるだけでなく、自動運転や医療診断などの主要な応用分野にも徐々に浸透し、技術革命を引き起こしています。

しかし、マルチモーダルな大規模モデルは安全で信頼できるのでしょうか?



図 1 敵対的攻撃 GPT-4o の例

図 1 に示すように、GPT-4o は敵対的攻撃を通じて画像ピクセルを変更することで、シンガポールのマーライオン像をパリのエッフェル塔やロンドンのビッグ ベンと誤認しました。このようなエラー ターゲットの内容は、モデル アプリケーションの安全な境界を超えても、自由にカスタマイズできます。



図 2 Claude3 ジェイルブレイクの例

ジェイルブレイク攻撃シナリオでは、クロードはテキスト形式の悪意のあるリクエストを拒否することに成功しましたが、ユーザーが追加の単色の無関係な画像を入力すると、モデルはユーザーのリクエストに従って誤ったニュースを出力しました。これは、大規模なマルチモーダル モデルには、大規模な言語モデルよりも多くのリスクと課題があることを意味します。

これら 2 つの例に加えて、マルチモーダル大規模モデルには、幻想、偏見、プライバシー漏洩などのさまざまなセキュリティ上の脅威や社会的リスクもあり、実際のアプリケーションにおける信頼性と信頼性に重​​大な影響を与える可能性があります。これらの脆弱性の問題は偶然に発生したのでしょうか、それとも広範囲に広がっているのでしょうか?さまざまなマルチモーダル大規模モデルの信頼性の違いは何ですか?また、その違いはどこから来たのでしょうか?

最近、清華大学、北杭大学、上海交通大学、瑞来インテリジェンスの研究者らが共同で100ページにわたる論文を執筆し、MultiTrustと呼ばれる包括的なベンチマークを発表した。このベンチマークは、複数のモデルから主流のマルチモーダル大規模モデルの信頼性を初めて総合的に評価するものである。次元と視点を明らかにし、複数の潜在的なセキュリティリスクを実証し、マルチモーダルな大規模モデルの次の開発を促します。



論文のタイトル: マルチモーダル大規模言語モデルの信頼性のベンチマーク: 包括的な研究

論文リンク: https://arxiv.org/pdf/2406.07057

プロジェクトのホームページ: https://multi-trust.github.io/

コードリポジトリ: https://github.com/thu-ml/MMTrustEval

MultiTrust ベンチマーク フレームワーク

MultiTrust は、既存の大規模モデル評価作業から、信頼性評価の 5 つの要素 (真実性、安全性、堅牢性、公平性、プライバシー保護) を抽出し、二次分類を実施し、ターゲットを絞った方法でタスク、指標、データセットを構築します。総合的な評価です。



図 4MultiTrust フレームワーク図

MultiTrust は、10 の信頼できる評価サブディメンションに焦点を当て、純粋なテキスト タスクからマルチモーダル タスクにわたる、識別および生成タスクをカバーする 32 の多様なタスク シナリオを構築しました。タスクに対応するデータセットは、公開テキストまたは画像データセットに基づいて変換および適応されるだけでなく、手動収集またはアルゴリズム合成を通じてより複雑で困難なデータも構築されます。



図 5 MultiTrust タスクのリスト

大規模言語モデル (LLM) の信頼できる評価とは異なり、MLLM のマルチモーダル機能は、より多様で複雑なリスク シナリオと可能性をもたらします。体系的な評価をより適切に実施するために、MultiTrust ベンチマークは従来の行動評価の側面から開始するだけでなく、マルチモーダル リスクとクロスモーダル影響という 2 つの評価視点を革新的に導入し、新しいモダリティによってもたらされる新たな問題を包括的にカバーします。 。 新しい挑戦。



図 6 マルチモーダルリスクとクロスモーダル影響のリスク図

具体的には、マルチモーダルリスクとは、モデルが視覚的に誤解を招く情報を処理する際に起こり得る不正解や、安全性の問題を伴うマルチモーダル推論における誤った判断など、マルチモーダルシナリオによってもたらされる新たなリスクを指します。モデルは写真内のアルコールを正しく識別できますが、さらに推論すると、一部のモデルはそれをセファロスポリン薬と共有する潜在的なリスクを認識していません。



図 7 モデルはセキュリティ問題に関連する推論で誤った判断を下します

クロスモーダル影響とは、新しいモダリティの追加が元のモダリティの信頼性に及ぼす影響を指します。たとえば、無関係な画像の入力により、プレーン テキスト シーンにおける大規模言語モデルのバックボーン ネットワークの信頼できる動作が変化し、より多くの影響が生じる可能性があります。予測不可能なセキュリティリスク。大規模言語モデルの信頼性評価に一般的に使用される脱獄攻撃やコンテキストに応じたプライバシー漏洩タスクでは、テキストと無関係な画像がモデルに提供されると、元のセキュリティ動作が破壊される可能性があります (図 2)。

結果の分析と重要な結論



図8 リアルタイム更新信頼性リスト(一部)

研究者は定期的に更新されるマルチモーダル大規模モデルの信頼性リストを維持しており、GPT-4o や Claude3.5 などの最新モデルを追加しています。全体的に、クローズドソースの商用モデルは、主流のオープンソース モデルよりも安全です。このうち、信頼性では OpenAI の GPT-4 と Anthropic の Claude が最高位にランクされ、セキュリティ調整を追加した Microsoft Phi-3 がオープンソース モデルの中で最高位にランクされましたが、クローズド ソース モデルとは依然として一定のギャップがあります。

GPT-4、Claude、Gemini などの商用モデルには、セキュリティと信頼性を高めるための多くの強化テクノロジが実装されていますが、セキュリティと信頼性に関するリスクがまだいくつかあります。たとえば、敵対的な攻撃やマルチモーダルなジェイルブレイク攻撃などに対する脆弱性が依然として存在しており、ユーザー エクスペリエンスや信頼性が大きく損なわれます。



図 9 Gemini はマルチモーダル ジェイルブレイク攻撃下で危険なコンテンツを出力します

主流の一般リストにある多くのオープンソース モデルのスコアは GPT-4 と同等かそれ以上ですが、信頼レベルのテストでは、これらのモデルには依然としてさまざまな側面で弱点や脆弱性が示されています。たとえば、トレーニング段階で一般的な機能 (OCR など) に重点を置くと、ジェイルブレイクされたテキストや機密情報を画像入力に埋め込むことが、より脅威的なリスク源になります。

クロスモーダル効果の実験結果に基づいて、著者らは、マルチモーダルトレーニングと推論が大規模な言語モデルの安全な位置合わせメカニズムを弱めることを発見しました。多くのマルチモーダル大規模モデルは、バックボーン ネットワークとして調整された大規模言語モデルを使用し、マルチモーダル トレーニング プロセス中に微調整します。結果は、これらのモデルには依然として大きなセキュリティ脆弱性と信頼できるリスクが存在することを示しています。同時に、複数の純粋なテキストの信頼性評価タスクでは、推論中に画像を導入することも、モデルの信頼できる動作に影響を与え、干渉します。



図 10 画像を導入した後、モデルはテキスト内のプライベートな内容を漏らす傾向が強くなります

実験結果は、マルチモーダル大規模モデルの信頼性とその一般的な機能の間には一定の相関関係があることを示していますが、信頼性の評価次元が異なるとモデルのパフォーマンスには依然として差があります。 GPT-4V や幻覚用の RLHF などの助けを借りて生成された微調整データセットなど、現在一般的なマルチモーダル大規模モデル関連アルゴリズムは、モデルの信頼性を完全に高めるには十分ではありません。既存の結論は、マルチモーダル大規模モデルには大規模言語モデルとは異なる固有の課題があり、さらなる改善には革新的で効率的なアルゴリズムが必要であることも示しています。

詳細な結果と分析については、論文を参照してください。

今後の方向性

この調査結果は、大規模な複合モデルの信頼性を向上させるには、研究者による特別な注意が必要であることを示しています。大規模な言語モデルの調整ソリューション、多様なトレーニング データとシナリオ、検索拡張生成 (RAG) や憲法 AI (Constitutional AI) などのパラダイムを活用することで、ある程度の改善に役立ちます。しかし、マルチモーダル大規模モデルの信頼性の向上は、これを超えて、モダリティ間の調整とビジュアル エンコーダーの堅牢性も重要な影響を与える要素です。さらに、動的環境における継続的な評価と最適化を通じて、実際のアプリケーションにおけるモデルのパフォーマンスを向上させることも、将来の重要な方向性です。

MultiTrust ベンチマークのリリースに合わせて、研究チームはマルチモーダル大規模モデルの信頼性評価ツールキット MMTrustEval もリリースしました。そのモデルの統合と評価モジュール性の特性は、マルチモーダル大規模モデルの信頼性研究に重要なツールを提供します。この研究とツールキットに基づいて、チームは大規模モデルの信頼できる研究を促進するために、マルチモーダル大規模モデルのセキュリティ関連データとアルゴリズムのコンテストを組織しました [1,2]。将来的には、技術の継続的な進歩に伴い、マルチモーダル大型モデルはより多くの分野でその可能性を発揮するでしょうが、その信頼性の問題には依然として継続的な注意と詳細な研究が必要です。

[1] CCDM2024 マルチモーダル大規模言語モデル レッド チーム セキュリティ チャレンジ http://116.112.3.114:8081/sfds-v1-html/main

[2] 第3回鷲州アルゴリズムコンペティション - マルチモーダル大規模モデルアルゴリズムセキュリティ強化技術 https://iacc.pazhoulab-huangpu.com/contestdetail?id=668de7357ff47da8cc88c7b8&award=1,000,000