Los modelos grandes son realmente diferentes de los humanos en la resolución de problemas matemáticos: la falta de conocimiento es obvia, GPT-4o funciona mejor

Los modelos grandes son realmente diferentes de los humanos a la hora de resolver problemas matemáticos: la falta de conocimiento es obvia y GPT-4o funciona mejor

2024-07-23

La columna AIxiv es una columna donde Machine Heart publica contenido académico y técnico. En los últimos años, la columna Heart of the Machine AIxiv ha recibido más de 2.000 informes, que cubren los mejores laboratorios de las principales universidades y empresas de todo el mundo, promoviendo eficazmente los intercambios y la difusión académicos. Si tiene un trabajo excelente que desea compartir, no dude en contribuir o contactarnos para informarnos. Correo electrónico de envío: [email protected]; [email protected];

Los autores de este artículo son de la Universidad de Correos y Telecomunicaciones de Beijing, Tencent WeChat, la Universidad de Ciencia y Tecnología de Huazhong y el Instituto de Tecnología de Beijing. Lista de autores: Qiao Runqi, Tan Qiuna, Dong Guanting, Wu Minhui, Sun Chong, Song Xiaoshuai, Gongque Zhuoma, Lei Shanglin, Wei Zhe, Zhang Miaoxuan, Qiao Runfeng, Zhang Yifan, Zong Xiao, Xu Yida, Diao Muxi, Bao Zhimin , Li Chen y Zhang Honggang. Entre ellos, el coprimer autor Qiao Runqi es estudiante de doctorado en la Universidad de Correos y Telecomunicaciones de Beijing, Tan Qiuna es estudiante de maestría en la Universidad de Correos y Telecomunicaciones de Beijing y el autor correspondiente es el profesor asociado Zhang Honggang de la Universidad de Correos de Beijing. y Telecomunicaciones Este artículo fue completado por Qiao Runqi durante su pasantía en WeChat.

Con el rápido desarrollo de la tecnología de inteligencia artificial, los grandes modelos multimodales (LMM) que pueden manejar información multimodal se han convertido gradualmente en un punto de interés para la investigación. Al integrar información de diferentes modalidades, los LMM demuestran ciertas capacidades de razonamiento y comprensión y se desempeñan bien en tareas como la respuesta visual a preguntas, la generación de imágenes y la recuperación intermodal. Esta capacidad multimodal hace que los LMM tengan un gran potencial de aplicación en varios escenarios complejos. Para probar de manera rigurosa y científica si la IA tiene capacidades de razonamiento sólidas, la respuesta a preguntas matemáticas se ha convertido en un punto de referencia importante para medir las capacidades de razonamiento de los modelos.

Si analizamos la historia del desarrollo de la IA, encontramos que la cognición humana y la forma en que pensamos acerca de los problemas han tenido un profundo impacto en el desarrollo de la IA. Avances como las redes neuronales y los mecanismos de atención están estrechamente relacionados con los patrones de pensamiento humano. Imagine que cuando los humanos responden una pregunta matemática, primero necesitan estar familiarizados con los puntos de conocimiento examinados en la pregunta y luego utilizar el conocimiento relevante para realizar un razonamiento paso a paso para llegar a la respuesta. Pero cuando el modelo responde, ¿su proceso de razonamiento es consistente con el de los humanos?

Centrándonos en los problemas matemáticos, descubrimos que el modelo puede responder preguntas complejas, pero no puede responder algunas preguntas simples. Para explorar las razones de este fenómeno, inspirados en los patrones de pensamiento humanos para la resolución de problemas, primero modelamos el proceso de resolución de problemas dominando primero los puntos de conocimiento y luego usándolos para el razonamiento lógico de la siguiente manera:

Entre ellos, (X, Y) y (x_i, y_i) representan el problema matemático y las preguntas y respuestas en cada subproblema respectivamente, y P_reason representa la capacidad de aplicación integral (generalización del conocimiento) de los LMM. Con base en esto, We-Math primero construyó un sistema de conocimiento de árbol de múltiples niveles basado en 67 puntos de conocimiento atómico y luego, basándose en el conocimiento atómico y las respuestas de razonamiento, descompuso problemas complejos con múltiples puntos de conocimiento en múltiples puntos de conocimiento atómico. se utilizan para explorar el mecanismo de respuesta del modelo.

Tema: WE-MATH: ¿Su gran modelo multimodal logra un razonamiento matemático similar al humano?
Documento: https://arxiv.org/pdf/2407.01284
Página de inicio: https://we-math.github.io/
Código: https://github.com/We-Math/We-Math
Conjunto de datos: https://huggingface.co/datasets/We-Math/We-Math

We-Math ocupa actualmente el primer lugar en el periódico HuggingFace Daily Paper del día y tiene más de 10.000 visitas en Twitter.

Punto de referencia We-Math

1. Composición de datos

El conjunto de datos de evaluación de We-Math contiene un total de 6,5 mil problemas matemáticos multimodales de escuela primaria y una estructura de conocimiento de múltiples niveles. Cada problema matemático tiene puntos de conocimiento correspondientes (1-3). Los puntos de conocimiento de todas las preguntas están cubiertos por una arquitectura de conocimiento de 5 capas con 99 nodos (la última capa contiene 67 puntos de conocimiento). Y como se muestra en la figura siguiente, para aliviar los problemas inherentes del modelo al resolver el problema, consultamos el libro de texto y Wikipedia e introducimos heurísticamente la descripción de 67 puntos de conocimiento, proporcionando así los consejos de conocimiento necesarios para el proceso de razonamiento de LMM.

2. Desglosa la pregunta

Para evaluar razonablemente el mecanismo de respuesta del modelo, nos basamos estrictamente en las respuestas estándar de las respuestas humanas y descompusimos la pregunta compleja en n subpreguntas de acuerdo con los puntos de conocimiento contenidos en la pregunta compleja, donde n representa el número de conocimientos. puntos contenidos en la compleja pregunta.

Como se muestra en la siguiente figura, para un problema complejo: María caminó desde el punto más al norte de un macizo de flores circular a lo largo del borde del macizo de flores hasta el punto más al este. La distancia recorrida es 50,24 metros. cama de flores. En el proceso de resolución del problema, primero debe encontrar el ángulo central correspondiente al camino que recorrió María (el "más al norte") según el punto de conocimiento de "sureste, noroeste" y a través de las condiciones del "más al norte". y direcciones "más orientales" (el ángulo entre ésta y la dirección "más oriental" es de 90 grados). Luego, basándose en el punto de conocimiento "circunferencia de un círculo" y la condición de que el ángulo central del círculo sea de 90 grados y la longitud del camino que María ha recorrido, se calcula la circunferencia del macizo de flores circular y el radio de Se obtiene el macizo de flores circular. Finalmente, de acuerdo con el punto de conocimiento del "área de un círculo" y mediante las condiciones del radio obtenido, se calcula el área del macizo de flores circular y se completa la solución del problema.

Al analizar el proceso de resolución de problemas anterior, para explorar el mecanismo de respuesta del modelo y el rendimiento del razonamiento detallado del modelo, la pregunta original se puede dividir en tres subpreguntas de acuerdo con sus puntos de conocimiento correspondientes. Específicamente, la primera pregunta: María comienza desde un círculo Desde el punto más al norte del macizo de flores hasta el punto más oriental a lo largo del borde del macizo de flores, encuentre el grado del ángulo central correspondiente al arco del camino que recorrió. Segunda pregunta: En un macizo de flores circular; , la longitud del arco correspondiente a un ángulo central de 90 grados es 59,24 m, encuentre el radio del macizo de flores circular tercera pregunta: encuentre el área del macizo de flores circular con un radio de 32 m;

3. Métricas

Sobre esta base, como se muestra en la figura siguiente, introducimos un nuevo estándar de medición de cuatro dimensiones, a saber, dominio insuficiente del conocimiento (IK), capacidad de generalización insuficiente (IG), dominio completo (CM) y memorización de memoria (RM).

Conocimiento insuficiente (IK): el modelo no puede responder preguntas complejas y se producen errores en las subpreguntas. Especulamos que la razón por la que el modelo no puede responder preguntas complejas se debe a un conocimiento insuficiente de los puntos de conocimiento.
Capacidad de generalización (IG) insuficiente: el modelo no puede responder preguntas complejas, pero todas las subpreguntas se responden correctamente. Especulamos que la razón por la que el modelo no puede responder preguntas complejas es la falta de capacidad de aplicación integral (capacidad de generalización).
Dominio completo (CM): el modelo puede responder preguntas complejas y puede responder todas las subpreguntas. Este fenómeno es razonable y esperado.
Aprendizaje de memoria (RM): un modelo puede responder preguntas complejas, pero se producen errores en las subpreguntas. Esto es contrario al pensamiento lógico humano. Si un modelo puede resolver problemas complejos de varios pasos, no puede responder las preguntas requeridas en el proceso de solución. Creemos que esta situación no es razonable y consideramos el caso en el que el modelo tiene memoria mecánica.

Entre ellos, está IK entre IK, IG y CM.

Experimentos y conclusiones.

We-Math ha completado actualmente evaluaciones de 17 modelos grandes, incluidos un total de 4 modelos de código cerrado y 13 modelos de código abierto. La Tabla 1 y la Figura 6 muestran los resultados de los LMM bajo diferentes números de puntos de conocimiento y el desempeño del modelo bajo los puntos de conocimiento de segundo nivel. La Tabla 2 y las Figuras 7, 8 y 9 muestran los resultados de los LMM bajo indicadores de cuatro dimensiones; y Resultados de puntuación integrales bajo estándares estrictos y flexibles. La Figura 10 muestra los resultados de mitigación de la estrategia KCA para el modelo en problemas de IK;

El desempeño de los LMM bajo diferentes números de puntos de conocimiento y su desempeño bajo el segundo nivel de puntos de conocimiento.

Existe una correlación negativa obvia entre la situación de respuesta del modelo y el número de puntos de conocimiento contenidos en la pregunta, es decir, cuantos más puntos de conocimiento contenga la pregunta, menos ideal será la situación de respuesta del modelo. También proponemos que la dificultad de una pregunta se pueda modelar por la cantidad de puntos de conocimiento que contiene.
El modelo funciona mejor en puntos de conocimiento relacionados con la computación y tiene un rendimiento deficiente en problemas visuales detallados. También muestra además que los LMM son buenos para aplicar fórmulas, pero aún tienen limitaciones para comprender y sintetizar el conocimiento aplicado.
GPT-4o funciona mejor, se mantiene a la vanguardia en preguntas que contienen diferentes números de puntos de conocimiento y, básicamente, se mantiene a la vanguardia en diferentes puntos de conocimiento.
Los LMM presentan cierto potencial para la compresión de parámetros. Entre otros LMM, LLaVA-NeXT-110B tiene el rendimiento más cercano al GPT-4. Lo sorprendente es que a pesar de la pequeña escala de parámetros, modelos como InternVL-Chat-V1.5, GLM-4V-9B, InternLM-XC2 también muestran un buen rendimiento.

El desempeño de los LMM bajo indicadores de cuatro dimensiones y sus resultados de calificación integral bajo estándares estrictos y flexibles.

La mayoría de los modelos sufren los problemas de "conocimiento insuficiente" y "memorización de memoria", especialmente en los modelos más pequeños. Además, el "conocimiento insuficiente" sigue siendo el principal problema de la mayoría de los modelos.
GPT-4o está significativamente por delante de otros modelos en la dimensión de medición del "aprendizaje de memoria", lo que ilustra aún más que GPT-4o está más cerca de los métodos humanos de resolución de problemas y los resultados que presenta son más confiables, lo que significa que el modelo tiene conocimiento verdaderamente aprendido en lugar de "memorizarlo de memoria".
GPT-4o está significativamente por delante de otros modelos en la dimensión de medición de "dominio insuficiente del conocimiento". Ha pasado gradualmente a la siguiente etapa y necesita mejorar aún más su "capacidad de generalización del conocimiento".

Desempeño de los LMM bajo la estrategia KCA

El rendimiento general del modelo ha mejorado bajo la estrategia KCA. Como se muestra en la figura anterior, los LMM con diferentes tamaños de parámetros muestran mejoras consistentes en el desempeño tanto en indicadores estrictos como flexibles después de la introducción de la estrategia KCA.
La estrategia KCA alivia significativamente el problema de IK, pero la mejora del problema de IG no es obvia. Esto es consistente con la intuición humana, ya que la descripción del conocimiento aborda principalmente lagunas en el conocimiento inferencial. Sin embargo, para resolver el problema del IG, es necesario mejorar integralmente la capacidad de generalización del conocimiento de los LMM, lo que también señala la dirección para futuras investigaciones.

Resumir

En este artículo, proponemos WE-MATH, un punto de referencia integral para la evaluación detallada de los mecanismos de respuesta de los LMM en tareas de razonamiento matemático visual. WE-MATH contiene un total de 6,5 mil problemas matemáticos visuales, que cubren una estructura de conocimiento multinivel de 5 capas y 67 puntos de conocimiento. Fuimos pioneros en el problema al descomponerlo en múltiples subpreguntas basadas en los puntos de conocimiento requeridos e introdujimos un nuevo indicador de cuatro dimensiones para la evaluación del razonamiento detallado. A través de WE-MATH, evaluamos exhaustivamente el desempeño de los LMM existentes en el razonamiento matemático visual y revelamos que existe una correlación negativa obvia entre el desempeño de la respuesta del modelo y la cantidad de puntos de conocimiento contenidos en la pregunta.

Además, descubrimos que la mayoría de los modelos sufren el problema del aprendizaje de memoria (RM), y el conocimiento insuficiente (IK) es el mayor defecto de los LMM. Sin embargo, el principal desafío de GPT-4o ha pasado gradualmente de IK a IG, lo que indica que es el primer modelo en pasar a la siguiente etapa. Finalmente, nuestro análisis de las estrategias de KCA y los casos de error ilumina aún más el desarrollo de los LMM existentes hacia un razonamiento matemático visual similar al humano.

noticias

Los modelos grandes son realmente diferentes de los humanos a la hora de resolver problemas matemáticos: la falta de conocimiento es obvia y GPT-4o funciona mejor

Introducción

Mi informacion de contacto