La Universidad de Tsinghua toma la iniciativa en el lanzamiento de la evaluación multimodal MultiTrust: ¿Qué tan confiable es GPT-4?

2024-07-24

La columna AIxiv es una columna donde Machine Heart publica contenido académico y técnico. En los últimos años, la columna Heart of the Machine AIxiv ha recibido más de 2000 informes, que cubren los mejores laboratorios de las principales universidades y empresas de todo el mundo, promoviendo eficazmente los intercambios y la difusión académicos. Si tiene un trabajo excelente que desea compartir, no dude en contribuir o contactarnos para informarnos. Correo electrónico de envío: [email protected]; [email protected];

Este trabajo fue iniciado por el equipo de innovación de teoría básica dirigido por el profesor Zhu Jun de la Universidad de Tsinghua. Durante mucho tiempo, el equipo se ha centrado en los problemas actuales de cuellos de botella en el desarrollo de la inteligencia artificial, ha explorado teorías originales de inteligencia artificial y tecnologías clave, y se encuentra en el nivel líder internacional en la investigación sobre teorías de seguridad adversas y métodos de algoritmos inteligentes. También ha realizado una investigación en profundidad sobre la solidez y eficacia del aprendizaje profundo. Problemas comunes básicos, como la eficiencia en la utilización de datos. El trabajo relevante ganó el primer premio del Premio de Ciencias Naturales de Inteligencia Artificial Wu Wenjun, publicó más de 100 artículos CCF Clase A, desarrolló la plataforma de algoritmo de defensa y ataque de contraataque ARES de código abierto (https://github.com/thu-ml/ares) y realizó algunos productos patentados. Transforme el aprendizaje y la investigación en aplicaciones prácticas.

Los modelos multimodales de lenguaje grande (MLLM) representados por GPT-4o han atraído mucha atención debido a su excelente desempeño en múltiples modalidades, como lenguaje e imágenes. No sólo se han convertido en la mano derecha de los usuarios en el trabajo diario, sino que también han penetrado gradualmente en importantes campos de aplicación, como la conducción autónoma y el diagnóstico médico, desencadenando una revolución tecnológica.

Sin embargo, ¿son seguros y fiables los grandes modelos multimodales?

Figura 1 Ejemplo de ataque adversario GPT-4o

Como se muestra en la Figura 1, al modificar los píxeles de la imagen mediante ataques adversarios, GPT-4o identificó erróneamente la estatua de Merlion en Singapur con la Torre Eiffel en París o el Big Ben en Londres. El contenido de dichos objetivos de error se puede personalizar a voluntad, incluso más allá de los límites seguros de la aplicación del modelo.

Figura 2 Ejemplo de jailbreak de Claude3

En el escenario del ataque jailbreak, aunque Claude rechazó con éxito la solicitud maliciosa en forma de texto, cuando el usuario ingresó una imagen adicional de color sólido no relacionada, el modelo generó noticias falsas de acuerdo con la solicitud del usuario. Esto significa que los grandes modelos multimodales tienen más riesgos y desafíos que los grandes modelos lingüísticos.

Además de estos dos ejemplos, los grandes modelos multimodales también tienen varias amenazas a la seguridad o riesgos sociales, como ilusiones, sesgos y fugas de privacidad, que afectarán seriamente su confiabilidad y credibilidad en aplicaciones prácticas. ¿Estos problemas de vulnerabilidad ocurren por casualidad o están muy extendidos? ¿Cuáles son las diferencias en la credibilidad de los diferentes modelos multimodales grandes y de dónde vienen?

Recientemente, investigadores de la Universidad de Tsinghua, la Universidad de Beihang, la Universidad Jiao Tong de Shanghai y Ruilai Intelligence escribieron conjuntamente un artículo de cien páginas y publicaron un punto de referencia integral llamado MultiTrust, que por primera vez evalúa de manera integral la confiabilidad de los grandes modelos multimodales convencionales de múltiples dimensiones y perspectivas, lo que demuestra múltiples riesgos potenciales de seguridad e inspira el próximo desarrollo de grandes modelos multimodales.

Título del artículo: Evaluación comparativa de la confiabilidad de modelos de lenguajes grandes multimodales: un estudio integral

Enlace del artículo: https://arxiv.org/pdf/2406.07057

Página de inicio del proyecto: https://multi-trust.github.io/

Repositorio de código: https://github.com/thu-ml/MMTrustEval

Marco de referencia MultiTrust

Del gran trabajo de evaluación de modelos existente, MultiTrust extrajo cinco dimensiones de evaluación de credibilidad (veracidad, seguridad, solidez, equidad y protección de la privacidad), realiza una clasificación secundaria y construye tareas, indicadores y conjuntos de datos de manera específica para proporcionar. una evaluación integral.

Figura 4Diagrama del marco MultiTrust

Centrándose en 10 subdimensiones de evaluación confiables, MultiTrust ha creado 32 escenarios de tareas diferentes, que cubren tareas de discriminación y generación, abarcando tareas de texto puro y tareas multimodales. Los conjuntos de datos correspondientes a las tareas no solo se transforman y adaptan en función de conjuntos de datos de imágenes o texto públicos, sino que también se construyen algunos datos más complejos y desafiantes mediante la recopilación manual o la síntesis de algoritmos.

Figura 5 Lista de tareas de MultiTrust

A diferencia de la evaluación creíble de los grandes modelos de lenguaje (LLM), las características multimodales de MLLM brindan escenarios y posibilidades de riesgo más diversos y complejos. Para llevar a cabo mejor una evaluación sistemática, el punto de referencia MultiTrust no solo comienza con la dimensión tradicional de evaluación del comportamiento, sino que también introduce de manera innovadora las dos perspectivas de evaluación de riesgo multimodal e impacto intermodal, cubriendo de manera integral los nuevos problemas que plantean las nuevas modalidades. . nuevo desafío.

Figura 6 Diagrama de riesgos de riesgos multimodales e impactos intermodales

Específicamente, los riesgos multimodales se refieren a nuevos riesgos surgidos en escenarios multimodales, como posibles respuestas incorrectas cuando los modelos procesan información visual engañosa y juicios erróneos en el razonamiento multimodal que involucran cuestiones de seguridad. Aunque el modelo puede identificar correctamente el alcohol en la imagen, además de razonar, algunos modelos no son conscientes del riesgo potencial de compartirlo con cefalosporinas.

Figura 7 El modelo comete errores de juicio al razonar sobre cuestiones de seguridad.

El impacto intermodal se refiere al impacto de la adición de nuevas modalidades en la credibilidad de la modalidad original. Por ejemplo, la entrada de imágenes irrelevantes puede cambiar el comportamiento creíble de la red troncal del modelo de lenguaje grande en escenas de texto sin formato, lo que lleva a más. imprevisibilidad. En los ataques de jailbreak y las tareas de fuga de privacidad contextual comúnmente utilizadas para la evaluación de la credibilidad de modelos de lenguaje extenso, si al modelo se le proporciona una imagen que no tiene nada que ver con el texto, el comportamiento de seguridad original puede destruirse (Figura 2).

Análisis de resultados y conclusiones clave.

Figura 8 Lista de credibilidad actualizada en tiempo real (parte)

Los investigadores mantienen una lista de credibilidad de modelos grandes multimodales actualizada periódicamente y han agregado los modelos más recientes, como GPT-4o y Claude3.5. En general, los modelos comerciales de código cerrado son más seguros que los modelos convencionales de código abierto. Entre ellos, GPT-4 de OpenAI y Claude de Anthropic ocuparon el primer lugar en credibilidad, mientras que Microsoft Phi-3, que agregó alineación de seguridad, ocupó el puesto más alto entre los modelos de código abierto, pero todavía existe una cierta brecha con el modelo de código cerrado.

Los modelos comerciales como GPT-4, Claude y Gemini han implementado muchas tecnologías de refuerzo para la seguridad y la confiabilidad, pero todavía existen algunos riesgos de seguridad y confiabilidad. Por ejemplo, todavía muestran vulnerabilidad a ataques adversarios, ataques de jailbreak multimodal, etc., lo que interfiere en gran medida con la experiencia y la confianza del usuario.

Figura 9 Gemini genera contenido riesgoso bajo ataques de jailbreak multimodal

Aunque las puntuaciones de muchos modelos de código abierto en las listas generales convencionales son equivalentes o incluso mejores que las de GPT-4, en las pruebas de nivel de confianza, estos modelos aún muestran debilidades y vulnerabilidades en diferentes aspectos. Por ejemplo, el énfasis en las capacidades generales (como OCR) durante la fase de capacitación hace que incorporar texto liberado e información confidencial en la entrada de imágenes sea una fuente de riesgo más amenazante.

Basándose en resultados experimentales sobre efectos intermodales, los autores descubrieron que el entrenamiento y la inferencia multimodal debilitan el mecanismo de alineación segura de los modelos de lenguaje grandes. Muchos modelos grandes multimodales utilizarán modelos de lenguaje grandes alineados como red troncal y se ajustarán durante el proceso de capacitación multimodal. Los resultados muestran que estos modelos todavía presentan grandes vulnerabilidades de seguridad y riesgos creíbles. Al mismo tiempo, en múltiples tareas de evaluación de confiabilidad de texto puro, la introducción de imágenes durante el razonamiento también tendrá un impacto e interferencia en el comportamiento confiable del modelo.

Figura 10 Después de introducir imágenes, el modelo es más propenso a filtrar contenido privado en el texto.

Los resultados experimentales muestran que existe una cierta correlación entre la credibilidad de los grandes modelos multimodales y sus capacidades generales, pero todavía existen diferencias en el rendimiento del modelo en diferentes dimensiones de evaluación de credibilidad. Los algoritmos actuales multimodales relacionados con modelos grandes, como el ajuste fino de conjuntos de datos generados con la ayuda de GPT-4V, RLHF para alucinaciones, etc., no son suficientes para mejorar completamente la credibilidad del modelo. Las conclusiones existentes también muestran que los grandes modelos multimodales tienen desafíos únicos que son diferentes de los grandes modelos de lenguaje, y se necesitan algoritmos innovadores y eficientes para seguir mejorando.

Consulte el artículo para obtener resultados y análisis detallados.

dirección futura

Los hallazgos indican que mejorar la credibilidad de los grandes modelos multimodales requiere una atención especial por parte de los investigadores. Al aprovechar las grandes soluciones de alineación de modelos de lenguaje, los datos y escenarios de entrenamiento diversificados y los paradigmas como Retrieval Enhanced Generation (RAG) y Constitutional AI (Constitutional AI), se puede ayudar a mejorar hasta cierto punto. Pero la mejora de la credibilidad de los grandes modelos multimodales va más allá de esto. La alineación entre modalidades y la solidez de los codificadores visuales también son factores de influencia clave. Además, mejorar el rendimiento de los modelos en aplicaciones prácticas mediante la evaluación y optimización continuas en entornos dinámicos también es una dirección importante en el futuro.

Junto con el lanzamiento del punto de referencia MultiTrust, el equipo de investigación también lanzó el conjunto de herramientas de evaluación de confiabilidad de modelos grandes multimodales MMTrustEval. Sus características de integración de modelos y modularidad de evaluación proporcionan una herramienta importante para la investigación de credibilidad de modelos grandes multimodales. Con base en este trabajo y conjunto de herramientas, el equipo organizó una competencia multimodal de algoritmos y datos relacionados con la seguridad de modelos grandes [1,2] para promover investigaciones confiables sobre modelos grandes. En el futuro, con el avance continuo de la tecnología, los grandes modelos multimodales mostrarán su potencial en más campos, pero la cuestión de su credibilidad aún requiere atención continua e investigación en profundidad.

[1] Desafío de seguridad del equipo rojo del modelo de lenguaje grande multimodal CCDM2024 http://116.112.3.114:8081/sfds-v1-html/main

[2] Tercer Concurso de Algoritmos de Pazhou: tecnología de refuerzo de seguridad de algoritmos de modelos grandes multimodales https://iacc.pazhoulab-huangpu.com/contestdetail?id=668de7357ff47da8cc88c7b8&award=1,000,000

noticias

La Universidad de Tsinghua toma la iniciativa en el lanzamiento de la evaluación multimodal MultiTrust: ¿Qué tan confiable es GPT-4?

Introducción

Mi informacion de contacto