Mi información de contacto
Correo[email protected]
2024-08-16
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
Contribución del grupo de investigación de Wang Dequan en la Universidad Jiao Tong de Shanghai
Qubits | Cuenta pública QbitAI
El grupo de investigación del profesor Wang Dequan en la Universidad Jiao Tong de Shanghai planteó esa pregunta en la última investigación.
Imagine este escenario: un niño en el jardín de infantes sostiene una imagen de un tigre y le pregunta: "Este gatito es muy lindo. ¿Es una gata?"
Es posible que no responda "sí" o "no" directamente, pero primero señale la "contradicción" en esta pregunta——Esta foto es de un tigre, no de un gato.。
Pero ha habido poca investigación sistemática previa sobre cómo responderán los modelos grandes.
Debe saber que un modelo de IA que no puede detectar "conflictos de instrucciones" generará resultados para "preguntas que no deberían tener respuesta", y no importa hacia qué lado del conflicto estén sesgados los resultados generados, provocará posibles desastres y afectará a la IA. Seguridad y Superalineación (Super Alineación).
En este último estudio, el equipo propusoPuntos de referencia multimodales——conjunto de instrucciones contradictoriasy diseñó un innovadorMarco de creación automática de conjuntos de datos, llamadoCrear automáticamente。
El equipo descubrió que el modelo grande multimodal carecía mucho de capacidad para detectar instrucciones de usuario contradictorias, por lo que propusieronMétodo de estimulación cognitiva(CAP), que inyecta capacidades cognitivas del mundo externo mejorando así la capacidad de detectar contradicciones.
El artículo se publicará en la 18ª Conferencia Europea sobre Visión por Computador (ECCV) en octubre de este año.
En la actualidad, los grandes modelos multimodales han logrado grandes avances en los campos de investigación y aplicación científica. Pueden procesar una variedad de tipos de datos, incluidos texto e imágenes, mostrando capacidades similares a la cognición humana.
El equipo cree que el éxito de estos modelos se debe al extenso trabajo de investigación y desarrollo que les permite seguir de cerca las instrucciones humanas, incluso algo "sumisas".
Además, estos modelos son particularmente buenos en contextos largos. Los modelos grandes multimodales como Claude 3 y Gemini 1.5 Pro han demostrado potentes capacidades. Los modelos de la serie Claude 3 ofrecen una ventana de contexto de 200.000 tokens, el tamaño de ventana de contexto estándar de Gemini 1.5 Pro es de 128.000 e incluso puede alcanzar 1 millón de tokens durante la fase de vista previa privada.
Estos avances permiten que los grandes modelos multimodales funcionen bien en el manejo de tareas complejas y satisfagan las necesidades de los humanos para interacciones a largo plazo.
Sin embargo, con la profundización de la interacción multimodal y el aumento de la longitud del contexto, el problema de las instrucciones de usuario contradictorias se vuelve cada vez más prominente.
Como se muestra a continuación, cuando los usuarios (como niños o principiantes en el lenguaje) utilizan estos modelos, a menudo no son conscientes de los posibles conflictos multimodales.
Al mismo tiempo, a medida que aumenta el número de turnos de diálogo y se expande la ventana contextual, a los usuarios les resulta difícil recordar todos los detalles, lo que genera conflictos entre instrucciones.
Además, a medida que aumenta el número de modalidades, también pueden ocurrir conflictos entre modalidades. Una vez que estos modelos carecen de conciencia de sí mismos y de la capacidad de discernir contradicciones, su desempeño se ve afectado.
Para abordar estos desafíos, el equipo de investigación de este artículo propuso una prueba de referencia multimodal: "conjunto de instrucciones contradictorias”(Instrucciones autocontradictorias, SCI), utilizado para evaluar la capacidad de grandes modelos multimodales para detectar instrucciones contradictorias.
LIC contiene20.000 instrucciones contradictoriasy8 tareas, distribuido uniformemente enidioma - idiomayvisual-verbalen dos paradigmas.
En la parte superior del diagrama, el paradigma lenguaje-lingüístico implica conflictos entre contextos y directivas, como reglas de diseño en conflicto, propiedades de objetos en conflicto, directivas exclusivas y vocabulario prohibido.
En la parte inferior de la figura: el paradigma visual-lingüístico cubre conflictos multimodales, como conflictos de reconocimiento de texto OCR, conflictos de diagramas, conflictos geométricos y conflictos semánticos. Entre las ocho tareas, solo los conflictos semánticos involucran a otros conjuntos de datos (ImageNet).
Para dar un ejemplo específico, al construir conflictos semánticos, los investigadores primero generarán el texto correspondiente basado en imágenes y luego reemplazarán la información semántica clave en el texto con nueva semántica que sea similar pero diferente.
En la imagen de abajo, la imagen contiene un avestruz (Avestruz). El autor agrega la pregunta "¿La imagen representa el tamaño del avestruz?"
Posteriormente, la semántica clave de este texto de pregunta "avestruz" fue reemplazada por "kiwi". De esta forma se construye un par contradictorio de instrucciones multimodales.
A lo largo de todo el proceso de construcción de SCI, el autor diseñó un innovador marco de creación automática de conjuntos de datos——Crear automáticamente。
Crea un bucle multimodal a través de programas y modelos de lenguaje grandes. El marco aprovecha programas y grandes modelos de lenguaje para permitir la creación automatizada de conjuntos de datos.
AutoCreate comienza con varios datos semilla relacionados con tareas y mantiene un grupo de semillas. Dentro de cada ciclo, AutoCreate incluye dos ramas:rama del idioma(izquierda) yrama visual(bien). Cada rama consta de generadores y decoradores.
Finalmente, el limpiador excluirá los datos que no cumplan con los criterios. Después de pasar los controles de calidad realizados por expertos humanos, estos datos se devolverán al conjunto de semillas para su uso en la siguiente ronda.
AutoCreate mejora enormemente la velocidad de construcción y la amplitud del contenido de los conjuntos de datos SCI.
Utilizando el conjunto de datos SCI, los investigadores evaluaron exhaustivamente el rendimiento de modelos grandes en el manejo de instrucciones contradictorias.
Los resultados experimentales muestran que los grandes modelos actuales a menudo muestran ciertas deficiencias cuando se enfrentan a instrucciones contradictorias.
Pueden procesar información y conocimiento, peroFalta de capacidad para evaluar la razonabilidad de las instrucciones., lo que el equipo de investigación llama una capacidad "cognitiva".
Esta deficiencia surge de una falta de autoconciencia y de una incapacidad para reconocer inconsistencias en las instrucciones.
Por lo tanto, los investigadores propusieron un método simple de indicaciones llamado "Consejos para el despertar cognitivo”(Incitación al despertar cognitivo, CAP).
Pase CAP en entradaAñade un recordatorio sencillo, Se pueden inyectar capacidades cognitivas desde el mundo externo, mejorando así la capacidad de detección de contradicciones del modelo grande y, básicamente, no habrá impacto negativo.
Este hallazgo sugiere que los grandes modelos multimodales actuales requieren más autoconciencia y habilidades cognitivas para manejar mejor los conflictos de instrucción complejos.
Para obtener más detalles, los niños interesados pueden ver el artículo original.
El primer autor del artículo es candidato a doctorado en la Universidad Jiao Tong de Shanghai.Gao-jin。
Sus intereses de investigación incluyen visión por computadora, grandes modelos multimodales, ciencias de la vida potenciadas por inteligencia artificial, etc.
El autor correspondiente del artículo es profesor asistente titular y supervisor doctoral en la Universidad Jiao Tong de Shanghai.Wang Dequan, se graduó de la Universidad de Fudan con una licenciatura y un doctorado de la Universidad de California, Berkeley, donde estudió con el profesor Trevor Darrell.
Su trabajo de investigación ha sido publicado en las principales conferencias internacionales como CVPR, ICCV, ECCV, ICLR, ICML, ICRA, IROS, etc. Sus artículos han sido citados más de 10.000 veces en Google Scholar en los últimos cinco años, con una H- índice de 20.
Enlace del artículo: https://arxiv.org/abs/2408.01091
Enlace del proyecto: https://selfcontradiction.github.io/