noticias

¿VLM es colectivamente "ciego"?La prueba de visión falló estrepitosamente, tanto GPT-4o como Claude 3.5 fallaron

2024-07-16

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


Nuevo informe de sabiduría

Editor: Departamento Editorial

[Introducción a la Nueva Sabiduría]Los grandes modelos de lenguaje visual se "invierten" colectivamente en las tareas visuales más básicas. Incluso el reconocimiento de patrones simples puede quedar perplejo. ¿Quizás estos VLM más avanzados aún no han desarrollado capacidades visuales reales?

La última ronda de modelos de lenguaje, como GPT-4o y Gemini 1.5 Pro, se definieron como "multimodales nativos" cuando se lanzaron, capaces de comprender múltiples formas de entrada, como imágenes, audio y texto.

Estos LLM multimodales utilizan expresiones como "capacidad visual" y "comprensión visual" en introducciones relevantes, marketing e incluso artículos académicos.

Esto parece decir que el modelo puede ver y comprender cosas en cierto sentido, y esta capacidad ya coincide con la de los humanos.

Entonces, hagamos una idea: si se prueba la visión del modelo de lenguaje visual, ¿tendrán visión estándar 5.2 o miopía severa, o no podrán ver nada en absoluto?

Un nuevo estudio muestra que los modelos de lenguaje grandes en realidad no tienen las capacidades visuales humanas que se esperan. La verdad es que son simplemente "ciegos".

Investigadores de la Universidad de Auburn y la Universidad de Alberta probaron cuatro de los modelos multimodales de última generación en una serie de tareas de visión muy simples y descubrieron que los resultados no eran satisfactorios.

Estas tareas son extremadamente simples para los humanos, como por ejemplo si dos formas se superponen, cuántos pentágonos hay en una imagen o qué letras de una palabra están rodeadas por un círculo.

Sin embargo, la visión de estos modelos avanzados es, en el mejor de los casos, "miope" y los detalles que se ven son muy borrosos. En el peor de los casos, el modelo actúa como un "ciego inteligente" que hace algunas conjeturas fundamentadas.


Dirección del artículo: https://arxiv.org/pdf/2407.06581

7 tareas principales

Ahora comienza oficialmente la prueba de visión y VLM necesita completar 7 pequeñas tareas.


Anh Nguye, coautor del artículo, enfatizó particularmente: "Nuestras siete tareas son muy simples y la precisión del desempeño humano puede alcanzar el 100%".

Entonces, ¿cómo funcionará el modelo de IA ante estas preguntas que incluso los estudiantes de primer grado pueden responder correctamente?


Tarea 1: ¿Cuántos puntos de intersección tienen las dos polilíneas?

Dado que VLM ha tenido un desempeño sorprendente en pruebas comparativas anteriores en gráficos, como la puntuación de Claude 3.5 Sonnet de 94,7% en AI2D y 90,8% en ChartQA, podemos especular razonablemente que este tipo de problema no debería ser un problema para ellos.

Como se muestra en la siguiente imagen, se dibujan un total de 150 gráficos de líneas en el lienzo blanco, todos compuestos por dos polilíneas, cada una de las cuales está definida por tres puntos.

Las coordenadas x de estos tres puntos son fijas y equidistantes, y las coordenadas y se obtienen mediante muestreo aleatorio, creando así dos polilíneas con números de intersección de 0, 1 o 2.


El experimento utilizó dos frases diferentes para preguntar al modelo grande, como "¿Cuántas veces se cruzan las líneas azul y roja?" y "¿Cuántas veces se cruzan las líneas azul y roja?"

Al calcular la precisión promedio de cada modelo que responde a estas dos preguntas, podemos eliminar algunos efectos rápidos y lograr resultados más precisos.


En comparación, Sonnet-3.5 se desempeña ligeramente mejor en esta tarea, con una precisión promedio del 77,33%, mientras que otros modelos se desempeñan peor.

Aunque el 77,33% parece un buen resultado, dado que sólo hay tres respuestas posibles: 0, 1 y 2, la tasa correcta de adivinanzas aleatorias es del 33%.

Vale la pena señalar que VLM tiende a funcionar peor cuando la distancia entre dos polilíneas se vuelve más estrecha. En resumen, VLM no puede identificar ni calcular de manera confiable las intersecciones de segmentos de línea.


Tarea 2: Problemas de intersección, tangencia y separación de círculos


Este problema pertenece a la categoría de geometría de la escuela secundaria: la intersección, tangencia y separación de círculos (nadie recordará la espalda del profesor dibujando círculos a mano alzada).

Sin embargo, no examinaremos VLM en estos términos, sino que le daremos una prueba simple de formas superpuestas, que es posiblemente una de las tareas de razonamiento visual más simples imaginables.

Desafortunadamente, no importa si los dos círculos se superponen ligeramente, solo se tocan o están a cierta distancia, no importa cuál sea la situación, el modelo nunca es capaz de hacer un juicio correcto.


En comparación, cuando los dos círculos están muy separados, GPT-4o acierta más del 95% de las veces, pero a distancias cero o muy pequeñas, acierta sólo el 18% de las veces, lo que es menos del 50% correcto. tasa al adivinar al azar.


Gemini Pro 1.5 obtuvo el mejor rendimiento, con una tasa de precisión promedio de 92,78, pero la tasa de precisión fue solo del 70% cuando la distancia entre los dos círculos era cercana.


Tarea 3: Identificar las letras encerradas en un círculo

Utilice el círculo rojo ⭕ para encerrar en un círculo las letras de la palabra, una a la vez, y la tarea requiere que VLM identifique las letras encerradas en un círculo.

Obviamente, esta tarea es fácil para los humanos, pero la hipótesis de los autores es que si la visión del VLM es borrosa, es posible que no pueda reconocer la letra exacta que está rodeada por un círculo debido al pequeño espacio entre letras adyacentes.


Se eligieron las palabras Reconocimiento, Subdermatoglífico y la cadena tHyUiKaRbNqWeOpXcZvM porque contienen caracteres con diferentes anchos y altos. (Trivia, subdermatoglífico es la palabra más larga sin letras repetidas)

El experimento encontró que aunque VLM puede reconocer con precisión la forma de un círculo rojo y deletrear palabras perfectamente, "leer las letras rodeadas por un círculo" desconcierta a todos los modelos. Por ejemplo, el reconocimiento VLM tiende a cometer errores cuando las letras quedan parcialmente oscurecidas por óvalos rojos.


Cuando ocurren errores, VLM generalmente predice letras adyacentes a la letra encerrada en un círculo.

En ocasiones el modelo alucinará y, aunque pueda deletrear la palabra con precisión, aparecerán caracteres que no existen en el subdermatoglífico (p. ej. 9, n, ©).


Todos los modelos, excepto GPT-4o, obtuvieron un rendimiento ligeramente mejor en las dos palabras en inglés que en las cadenas aleatorias (de 2 a 6 puntos mejor), lo que sugiere que la familiaridad con las palabras en sí puede ayudar al VLM a hacer conjeturas más fundamentadas.

Gemini-1.5 y Sonnet-3.5 son los dos mejores modelos (92,81% y 89,22%), casi 20 puntos por encima de GPT-4o y Sonnet-3.

Con todo, VLM puede adivinar cuáles son las letras encerradas en un círculo basándose en la ortografía de la palabra, lo que mejora ligeramente la precisión, pero eso no significa que VLM pueda ver las letras en el círculo rojo.

Tarea 4: Problemas de interconexión

A continuación, VLM debe enfrentar un problema de "entrelazado", es decir, calcular cuántos círculos se entrelazan en la imagen.

La música de fondo debería sonar aquí: Ahhhhh~ Five Rings, tienes un ring más que Four Rings~


Los resultados de esta prueba son un poco extraños: cuando hay cinco anillos en la imagen, el modelo es 100% correcto, cuando hay un anillo más, VLM está completamente confundido;


Gemini estaba desorientado y respondió incorrectamente incluso una vez, Sonnet-3.5 acertó un tercio de las veces y GPT-4o acertó casi la mitad de las veces.


El autor propuso que la precisión en la identificación de los "cinco anillos" es muy alta y está estrechamente relacionada con el símbolo común de los "cinco anillos" de los Juegos Olímpicos.

Como se puede ver en la Tabla 5, los cuatro modelos tienden a contar 5 círculos, lo cual es mucho mayor que la frecuencia de contar 5 pentágonos.


Esta prueba muestra que cualquier cosa que hagan estos modelos, no tiene "vista" tal como la entendemos los humanos. El principal problema es que su rendimiento es muy inestable, con enormes diferencias en las tasas de éxito del reconocimiento entre imágenes compuestas de diferentes números y formas.


Tarea 5: Cuadrados anidados

La tarea 2 muestra que VLM tiene dificultades para calcular círculos que se cruzan. Entonces, ¿qué pasará con el rendimiento de VLM si los cuadrados están completamente anidados dentro de otro cuadrado más grande para que sus bordes no se crucen?

Como se muestra en la siguiente figura, en un lienzo de tamaño C×C, el autor representa N∈{2,3,4,5} cuadrados anidados.


Primero renderice el cuadrado más externo usando una longitud de lado aleatoria d∈{2,3,4}px. Los N-1 cuadrados restantes se dibujan utilizando un factor de reducción de 0,75 × d y se colocan en coordenadas aleatorias para garantizar que no toquen los cuadrados exteriores.

Genere 10 imágenes para cada una de las 3 configuraciones de grosor de línea (donde los cuadrados tienen diferentes posiciones aleatorias) y repita el proceso para todos los N valores, lo que da como resultado un total de 120 imágenes.

Se puede encontrar que calcular el número de cuadrados anidados es una tarea difícil de completar con precisión para VLM.


La precisión del modelo varía mucho, con GPT-4o (48,33%) y Gemini-1.5 (55,00%) por detrás de Gemini-1.5 (80,00%) y Claude3.5 (87,50%) en al menos 30 puntos.


Tarea 6: ¿Cuántas columnas y filas tiene la tabla?

Los resultados de las tareas anteriores mostraron que VLM no podía solucionar problemas como la superposición (tarea 4) o el anidamiento (tarea 5). El autor decidió cambiar la dirección de VLM y ver su rendimiento en problemas relacionados con gráficos adyacentes.

El autor puso los cuadrados en una cuadrícula y le pidió a VLM que los contara. Estos VLM han funcionado bien en DocVQA (precisión ≥ 90%), que contiene muchas preguntas con tablas, por lo que esta tarea debería ser sencilla para los VLM.

Para simplificar la tarea, los autores solo pidieron al modelo que contara el número de filas y columnas en una tabla determinada.


Se descubrió que el modelo nunca pudo calcular correctamente el número de filas y columnas de la cuadrícula en blanco.


Sin embargo, el rendimiento de todos los VLM mejora cuando las celdas de la cuadrícula contienen texto, especialmente Sonnet-3.5.


Tarea 7: Identificar la hoja de ruta

Esta tarea pone a prueba la capacidad del VLM para identificar rutas de colores especiales y seguir una línea de color determinada desde un punto de partida determinado hasta un destino, una habilidad importante necesaria para leer y comprender mapas.

Como se muestra en la siguiente figura, cree un mapa del metro en una imagen de tamaño C×C, donde C∈{512, 1024}px.

Escriba 4 nombres de estaciones (A, B, C, D) en 4 coordenadas fijas. Divida el lienzo en una cuadrícula invisible de 18×18 celdas e inicialice 3 puntos de inicio de ruta a C/18px de distancia de cada estación.

Dibuje una ruta a partir de una estación aleatoria y un punto de partida aleatorio utilizando un algoritmo de búsqueda en profundidad, donde cada paso puede mover una celda en cualquier dirección. Este proceso se repite para que cada estación tenga N∈{1,2,3} rutas de salida y se dibujen un total de 180 mapas.


Dadas dos estaciones designadas, la tarea requiere que VLM calcule cuántos caminos de diferentes colores hay entre las dos estaciones.

Los resultados experimentales encontraron que incluso si solo hay una ruta de color entre dos estaciones, ningún modelo puede lograr una precisión del 100%.


La precisión más alta es Sonnet-3.5, que puede alcanzar el 95% cuando solo hay una carretera. Sin embargo, cuando hay dos carreteras, la precisión cae rápidamente a sólo el 50,18%.


A medida que aumenta la complejidad de la ruta, de 1 ruta a 3 rutas, la mayoría de los VLM mostrarán una degradación significativa del rendimiento.

La "ceguera" de VLM

¿Por qué VLM se desempeña de manera extremadamente inestable en la prueba de capacidad visual anterior?

Quizás podamos encontrar pistas en la preferencia del modelo por los "Anillos Olímpicos" en la Tarea 4. La explicación más sensata es:

En los datos de entrenamiento de VLM, la imagen de los "anillos olímpicos" aparece repetidamente y se describe en detalle en muchos materiales de texto.

Sin embargo, en los datos de entrenamiento de VLM no se pueden encontrar 6 o 7 anillos entrelazados, por lo que sus respuestas no son satisfactorias.

Porque es posible que VLM no sepa en absoluto lo que está "viendo", ni entienda realmente qué es un bucle, una superposición o cualquier otro concepto.

Sin embargo, incluso si usamos ciego para describir este desempeño del modelo, todavía estamos antropomorfizando el modelo, al igual que una gran empresa de modelos que promueve su "capacidad visual".

El investigador Nguyen también dijo que "ceguera" tiene muchas definiciones incluso para los humanos, y actualmente no existe una palabra para describir la ceguera/insensibilidad de la inteligencia artificial a las imágenes que mostramos.

El comportamiento de un VLM es una función compleja de mensajes de texto de entrada, imágenes de entrada y miles de millones de pesos, y actualmente no existe ninguna tecnología que pueda visualizar con precisión lo que ve el modelo.

Especula que estos modelos no son completamente "ciegos". Sólo pueden extraer información visual "aproximada" y abstracta de la imagen, pero no pueden hacer juicios visuales, por lo que se comportan como si entendieran la imagen pero en realidad no pudieran verla.

Nguyen utilizó un ejemplo para respaldar bien la hipótesis anterior:


Usuario: ¿De qué color es el área donde se superponen los dos círculos? GPT-4o: El área superpuesta de dos círculos es de color turquesa (cian sombreado). Géminis-1.5: El área superpuesta del círculo verde y el círculo azul será cian. Sonnet-3.5: Lo siento, pero sólo hay dos círculos separados en la imagen, uno verde y otro azul, y no hay ningún área superpuesta.

Obviamente, a excepción de Sonnet-3.5, GPT-4o y Gemini-1.5 sólo "imaginan" la imagen en lugar de "verla" realmente.

Entonces, ¿significa esta investigación que estos modelos de IA “visuales” son inútiles?

Pero en realidad no lo es. Cada uno de estos modelos ha demostrado una alta precisión en una amplia gama de tareas, como reconocer acciones y expresiones humanas, objetos cotidianos y fotografías ambientales.

La importancia de esta investigación es desencantarnos con la estrategia de marketing demasiado "antropomórfica" de VLM.

Si escuchamos la retórica de marketing de los gigantes tecnológicos, realmente podemos pensar que los grandes modelos visuales pueden "ver".

Pero con sólo unas pequeñas pruebas, podemos descubrir fácilmente la diferencia esencial entre VLM y los humanos. Está "antropomorfizado", lo que en realidad resalta su naturaleza inhumana.

Referencias:

https://arxiv.org/abs/2407.06581

https://techcrunch.com/2024/07/11/son-los-modelos-visuales-de-ia-en-realidad-ciegos/?_refluxos=a10

https://vlmsareblind.github.io/