L'Université Tsinghua prend l'initiative de publier une évaluation multimodale MultiTrust : Quelle est la fiabilité de GPT-4 ?

2024-07-24

La rubrique AIxiv est une rubrique dans laquelle Machine Heart publie du contenu académique et technique. Au cours des dernières années, la rubrique Heart of the Machine AIxiv a reçu plus de 2 000 rapports, couvrant les meilleurs laboratoires des principales universités et entreprises du monde entier, favorisant efficacement les échanges et la diffusion académiques. Si vous souhaitez partager un excellent travail, n'hésitez pas à contribuer ou à nous contacter pour un rapport. Courriel de soumission : [email protected] ; [email protected] ;

Ce travail a été initié par l'équipe d'innovation de la théorie fondamentale dirigée par le professeur Zhu Jun de l'Université Tsinghua. Pendant longtemps, l'équipe s'est concentrée sur les problèmes actuels de goulot d'étranglement dans le développement de l'intelligence artificielle, a exploré les théories originales de l'intelligence artificielle et les technologies clés, et se situe au premier niveau international dans la recherche sur les théories de sécurité contradictoires et les méthodes d'algorithmes intelligents. Il a également mené des recherches approfondies sur la robustesse et l’efficacité contradictoires de l’apprentissage profond, sur des problèmes courants de base tels que l’efficacité de l’utilisation des données. Les travaux pertinents ont remporté le premier prix du Wu Wenjun Artificial Intelligence Natural Science Award, publié plus de 100 articles CCF de classe A et développé la plate-forme open source d'algorithmes d'attaque et de défense de contre-attaque ARES (https://github.com/thu-ml/ares) , et réalisé des produits brevetés. Transformez l'apprentissage et la recherche en applications pratiques.

Les modèles multimodaux de langage étendu (MLLM) représentés par GPT-4o ont attiré beaucoup d'attention en raison de leurs excellentes performances dans plusieurs modalités telles que le langage et les images. Ils sont non seulement devenus le bras droit des utilisateurs dans leur travail quotidien, mais ont également progressivement pénétré des domaines d'application majeurs tels que la conduite autonome et le diagnostic médical, déclenchant une révolution technologique.

Cependant, les grands modèles multimodaux sont-ils sûrs et fiables ?

Figure 1 Exemple d'attaque contradictoire GPT-4o

Comme le montre la figure 1, en modifiant les pixels de l'image au moyen d'attaques contradictoires, GPT-4o a identifié à tort la statue du Merlion à Singapour comme étant la Tour Eiffel à Paris ou Big Ben à Londres. Le contenu de ces cibles d'erreur peut être personnalisé à volonté, même au-delà des limites de sécurité de l'application du modèle.

Figure 2 Exemple de jailbreak Claude3

Dans le scénario d'attaque par jailbreak, bien que Claude ait réussi à rejeter la demande malveillante sous forme de texte, lorsque l'utilisateur saisit une image supplémentaire sans rapport en couleur unie, le modèle génère de fausses nouvelles conformément à la demande de l'utilisateur. Cela signifie que les grands modèles multimodaux comportent plus de risques et de défis que les grands modèles linguistiques.

En plus de ces deux exemples, les grands modèles multimodaux présentent également diverses menaces de sécurité ou risques sociaux tels que des illusions, des préjugés et des fuites de confidentialité, qui affecteront sérieusement leur fiabilité et leur crédibilité dans les applications pratiques. Ces problèmes de vulnérabilité surviennent-ils par hasard ou sont-ils répandus ? Quelles sont les différences de crédibilité des différents grands modèles multimodaux, et d’où viennent-elles ?

Récemment, des chercheurs de l'Université Tsinghua, de l'Université Beihang, de l'Université Jiao Tong de Shanghai et de Ruilai Intelligence ont écrit conjointement un article d'une centaine de pages et publié un benchmark complet appelé MultiTrust, qui, pour la première fois, évalue de manière exhaustive la fiabilité des grands modèles multimodaux traditionnels à partir de plusieurs dimensions et perspectives, démontrant de multiples risques de sécurité potentiels et inspirant le prochain développement de grands modèles multimodaux.

Titre de l'article : Analyse comparative de la fiabilité des modèles multimodaux de langage étendu : une étude approfondie

Lien papier : https://arxiv.org/pdf/2406.07057

Page d'accueil du projet : https://multi-trust.github.io/

Dépôt de code : https://github.com/thu-ml/MMTrustEval

Cadre de référence MultiTrust

À partir du travail d'évaluation de grands modèles existant, MultiTrust a extrait cinq dimensions d'évaluation de la crédibilité (vérité, sécurité, robustesse, équité et protection de la vie privée), effectue une classification secondaire et construit des tâches, des indicateurs et des ensembles de données de manière ciblée pour fournir. une évaluation globale.

Figure 4Diagramme du cadre MultiTrust

En se concentrant sur 10 sous-dimensions d'évaluation fiables, MultiTrust a construit 32 scénarios de tâches divers, couvrant les tâches de discrimination et de génération, couvrant les tâches de texte pur et les tâches multimodales. Les ensembles de données correspondant aux tâches sont non seulement transformés et adaptés sur la base d'ensembles de données publiques de textes ou d'images, mais également des données plus complexes et plus difficiles sont construites par collecte manuelle ou synthèse algorithmique.

Figure 5 Liste des tâches MultiTrust

Différentes de l’évaluation crédible des grands modèles de langage (LLM), les fonctionnalités multimodales du MLLM apportent des scénarios et des possibilités de risque plus diversifiés et plus complexes. Afin de mieux mener une évaluation systématique, le benchmark MultiTrust part non seulement de la dimension d'évaluation comportementale traditionnelle, mais introduit également de manière innovante les deux perspectives d'évaluation du risque multimodal et de l'impact intermodal, couvrant de manière globale les nouveaux problèmes apportés par les nouvelles modalités. . nouveau défi.

Figure 6 Diagramme de risque des risques multimodaux et des impacts transmodaux

Plus précisément, les risques multimodaux font référence aux nouveaux risques induits par les scénarios multimodaux, tels que d'éventuelles réponses incorrectes lorsque les modèles traitent des informations visuelles trompeuses et des erreurs de jugement dans le raisonnement multimodal impliquant des problèmes de sécurité. Bien que le modèle puisse identifier correctement l'alcool sur la photo, certains modèles ne sont pas conscients du risque potentiel de le partager avec des médicaments à base de céphalosporines.

Figure 7 Le modèle fait des erreurs de jugement dans le raisonnement impliquant des questions de sécurité

L'impact multimodal fait référence à l'impact de l'ajout de nouvelles modalités sur la crédibilité de la modalité d'origine. Par exemple, l'entrée d'images non pertinentes peut modifier le comportement crédible du grand réseau fédérateur du modèle de langage dans les scènes de texte brut, conduisant à davantage. imprévisibilité. Dans les attaques de jailbreak et les tâches de fuite de confidentialité contextuelle couramment utilisées pour l'évaluation de la crédibilité des grands modèles de langage, si le modèle reçoit une image qui n'a rien à voir avec le texte, le comportement de sécurité d'origine peut être détruit (Figure 2).

Analyse des résultats et principales conclusions

Figure 8 Liste de crédibilité mise à jour en temps réel (partie)

Les chercheurs maintiennent une liste de crédibilité des grands modèles multimodaux régulièrement mise à jour et ont ajouté les derniers modèles tels que GPT-4o et Claude3.5. Dans l'ensemble, les modèles commerciaux fermés sont plus sécurisés que les modèles open source traditionnels. Parmi eux, GPT-4 d'OpenAI et Claude d'Anthropic se classent au premier rang en termes de crédibilité, tandis que Microsoft Phi-3, qui a ajouté un alignement de sécurité, se classe au premier rang parmi les modèles open source, mais il existe encore un certain écart avec le modèle fermé.

Les modèles commerciaux tels que GPT-4, Claude et Gemini ont mis en œuvre de nombreuses technologies de renforcement de la sécurité et de la fiabilité, mais il existe encore certains risques en matière de sécurité et de fiabilité. Par exemple, ils présentent toujours une vulnérabilité aux attaques contradictoires, aux attaques de jailbreak multimodales, etc., ce qui interfère grandement avec l'expérience et la confiance des utilisateurs.

Figure 9 : Gemini génère du contenu à risque lors d'attaques de jailbreak multimodales

Bien que les scores de nombreux modèles open source sur les listes générales traditionnelles soient équivalents, voire meilleurs, à GPT-4, dans les tests de niveau de confiance, ces modèles montrent toujours des faiblesses et des vulnérabilités sous différents aspects. Par exemple, l'accent mis sur les capacités générales (telles que l'OCR) pendant la phase de formation fait de l'intégration de texte jailbreaké et d'informations sensibles dans la saisie d'images une source de risque plus menaçante.

Sur la base de résultats expérimentaux sur les effets multimodaux, les auteurs ont découvert que la formation et l'inférence multimodales affaiblissent le mécanisme d'alignement sûr des grands modèles de langage. De nombreux grands modèles multimodaux utiliseront de grands modèles de langage alignés comme réseau fédérateur et seront peaufinés au cours du processus de formation multimodale. Les résultats montrent que ces modèles présentent encore d’importantes vulnérabilités de sécurité et des risques crédibles. Dans le même temps, dans plusieurs tâches d’évaluation de la fiabilité d’un texte pur, l’introduction d’images pendant le raisonnement aura également un impact et une interférence sur le comportement fiable du modèle.

Figure 10 Après avoir introduit des images, le modèle est plus enclin à divulguer du contenu privé dans le texte

Les résultats expérimentaux montrent qu'il existe une certaine corrélation entre la crédibilité des grands modèles multimodaux et leurs capacités générales, mais il existe encore des différences dans les performances des modèles dans différentes dimensions d'évaluation de la crédibilité. Les algorithmes multimodaux actuellement courants liés aux grands modèles, tels que le réglage fin des ensembles de données générés à l'aide de GPT-4V, RLHF pour les hallucinations, etc., ne suffisent pas à améliorer pleinement la crédibilité du modèle. Les conclusions existantes montrent également que les grands modèles multimodaux présentent des défis uniques, différents des grands modèles de langage, et que des algorithmes innovants et efficaces sont nécessaires pour une amélioration ultérieure.

Voir le document pour les résultats et l’analyse détaillés.

orientation future

Les résultats indiquent que l’amélioration de la crédibilité des grands modèles multimodaux nécessite une attention particulière de la part des chercheurs. En s'appuyant sur de grandes solutions d'alignement de modèles de langage, des données et des scénarios de formation diversifiés, ainsi que des paradigmes tels que la génération améliorée de récupération (RAG) et l'IA constitutionnelle (IA constitutionnelle), peuvent contribuer à une amélioration dans une certaine mesure. Mais l’amélioration de la crédibilité des grands modèles multimodaux va au-delà. L’alignement entre les modalités et la robustesse des encodeurs visuels sont également des facteurs d’influence clés. En outre, l’amélioration des performances des modèles dans des applications pratiques grâce à une évaluation et une optimisation continues dans des environnements dynamiques constitue également une orientation importante pour l’avenir.

Parallèlement à la publication du benchmark MultiTrust, l'équipe de recherche a également publié la boîte à outils d'évaluation de la fiabilité des grands modèles multimodaux MMTrustEval. Ses caractéristiques d'intégration de modèle et de modularité d'évaluation constituent un outil important pour la recherche de crédibilité des grands modèles multimodaux. Sur la base de ce travail et de cette boîte à outils, l’équipe a organisé un concours multimodal de données et d’algorithmes liés à la sécurité des grands modèles [1,2] pour promouvoir une recherche fiable sur les grands modèles. À l’avenir, avec les progrès technologiques continus, les grands modèles multimodaux montreront leur potentiel dans davantage de domaines, mais la question de leur crédibilité nécessite encore une attention continue et des recherches approfondies.

[1] Défi de sécurité de l'équipe rouge du modèle multimodal à grand langage CCDM2024 http://116.112.3.114:8081/sfds-v1-html/main

[2] Le 3e concours d'algorithmes de Pazhou - Technologie de renforcement de la sécurité des algorithmes multimodaux à grand modèle https://iacc.pazhoulab-huangpu.com/contestdetail?id=668de7357ff47da8cc88c7b8&award=1,000,000

nouvelles

L'Université Tsinghua prend l'initiative de publier une évaluation multimodale MultiTrust : Quelle est la fiabilité de GPT-4 ?

Introduction

mes coordonnées