Mi informacion de contacto
Correo[email protected]
2024-07-23
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
La columna AIxiv es una columna donde Machine Heart publica contenido académico y técnico. En los últimos años, la columna Heart of the Machine AIxiv ha recibido más de 2.000 informes, que cubren los mejores laboratorios de las principales universidades y empresas de todo el mundo, promoviendo eficazmente los intercambios y la difusión académicos. Si tiene un trabajo excelente que desea compartir, no dude en contribuir o contactarnos para informarnos. Correo electrónico de envío: [email protected]; [email protected];
Los autores de este artículo son de la Universidad de Correos y Telecomunicaciones de Beijing, Tencent WeChat, la Universidad de Ciencia y Tecnología de Huazhong y el Instituto de Tecnología de Beijing. Lista de autores: Qiao Runqi, Tan Qiuna, Dong Guanting, Wu Minhui, Sun Chong, Song Xiaoshuai, Gongque Zhuoma, Lei Shanglin, Wei Zhe, Zhang Miaoxuan, Qiao Runfeng, Zhang Yifan, Zong Xiao, Xu Yida, Diao Muxi, Bao Zhimin , Li Chen y Zhang Honggang. Entre ellos, el coprimer autor Qiao Runqi es estudiante de doctorado en la Universidad de Correos y Telecomunicaciones de Beijing, Tan Qiuna es estudiante de maestría en la Universidad de Correos y Telecomunicaciones de Beijing y el autor correspondiente es el profesor asociado Zhang Honggang de la Universidad de Correos de Beijing. y Telecomunicaciones Este artículo fue completado por Qiao Runqi durante su pasantía en WeChat.
Con el rápido desarrollo de la tecnología de inteligencia artificial, los grandes modelos multimodales (LMM) que pueden manejar información multimodal se han convertido gradualmente en un punto de interés para la investigación. Al integrar información de diferentes modalidades, los LMM demuestran ciertas capacidades de razonamiento y comprensión y se desempeñan bien en tareas como la respuesta visual a preguntas, la generación de imágenes y la recuperación intermodal. Esta capacidad multimodal hace que los LMM tengan un gran potencial de aplicación en varios escenarios complejos. Para probar de manera rigurosa y científica si la IA tiene capacidades de razonamiento sólidas, la respuesta a preguntas matemáticas se ha convertido en un punto de referencia importante para medir las capacidades de razonamiento de los modelos.
Si analizamos la historia del desarrollo de la IA, encontramos que la cognición humana y la forma en que pensamos acerca de los problemas han tenido un profundo impacto en el desarrollo de la IA. Avances como las redes neuronales y los mecanismos de atención están estrechamente relacionados con los patrones de pensamiento humano. Imagine que cuando los humanos responden una pregunta matemática, primero necesitan estar familiarizados con los puntos de conocimiento examinados en la pregunta y luego utilizar el conocimiento relevante para realizar un razonamiento paso a paso para llegar a la respuesta. Pero cuando el modelo responde, ¿su proceso de razonamiento es consistente con el de los humanos?
Centrándonos en los problemas matemáticos, descubrimos que el modelo puede responder preguntas complejas, pero no puede responder algunas preguntas simples. Para explorar las razones de este fenómeno, inspirados en los patrones de pensamiento humanos para la resolución de problemas, primero modelamos el proceso de resolución de problemas dominando primero los puntos de conocimiento y luego usándolos para el razonamiento lógico de la siguiente manera:
Entre ellos, (X, Y) y (x_i, y_i) representan el problema matemático y las preguntas y respuestas en cada subproblema respectivamente, y P_reason representa la capacidad de aplicación integral (generalización del conocimiento) de los LMM. Con base en esto, We-Math primero construyó un sistema de conocimiento de árbol de múltiples niveles basado en 67 puntos de conocimiento atómico y luego, basándose en el conocimiento atómico y las respuestas de razonamiento, descompuso problemas complejos con múltiples puntos de conocimiento en múltiples puntos de conocimiento atómico. se utilizan para explorar el mecanismo de respuesta del modelo.
We-Math ocupa actualmente el primer lugar en el periódico HuggingFace Daily Paper del día y tiene más de 10.000 visitas en Twitter.
Punto de referencia We-Math
1. Composición de datos
El conjunto de datos de evaluación de We-Math contiene un total de 6,5 mil problemas matemáticos multimodales de escuela primaria y una estructura de conocimiento de múltiples niveles. Cada problema matemático tiene puntos de conocimiento correspondientes (1-3). Los puntos de conocimiento de todas las preguntas están cubiertos por una arquitectura de conocimiento de 5 capas con 99 nodos (la última capa contiene 67 puntos de conocimiento). Y como se muestra en la figura siguiente, para aliviar los problemas inherentes del modelo al resolver el problema, consultamos el libro de texto y Wikipedia e introducimos heurísticamente la descripción de 67 puntos de conocimiento, proporcionando así los consejos de conocimiento necesarios para el proceso de razonamiento de LMM.
2. Desglosa la pregunta
Para evaluar razonablemente el mecanismo de respuesta del modelo, nos basamos estrictamente en las respuestas estándar de las respuestas humanas y descompusimos la pregunta compleja en n subpreguntas de acuerdo con los puntos de conocimiento contenidos en la pregunta compleja, donde n representa el número de conocimientos. puntos contenidos en la compleja pregunta.
Como se muestra en la siguiente figura, para un problema complejo: María caminó desde el punto más al norte de un macizo de flores circular a lo largo del borde del macizo de flores hasta el punto más al este. La distancia recorrida es 50,24 metros. cama de flores. En el proceso de resolución del problema, primero debe encontrar el ángulo central correspondiente al camino que recorrió María (el "más al norte") según el punto de conocimiento de "sureste, noroeste" y a través de las condiciones del "más al norte". y direcciones "más orientales" (el ángulo entre ésta y la dirección "más oriental" es de 90 grados). Luego, basándose en el punto de conocimiento "circunferencia de un círculo" y la condición de que el ángulo central del círculo sea de 90 grados y la longitud del camino que María ha recorrido, se calcula la circunferencia del macizo de flores circular y el radio de Se obtiene el macizo de flores circular. Finalmente, de acuerdo con el punto de conocimiento del "área de un círculo" y mediante las condiciones del radio obtenido, se calcula el área del macizo de flores circular y se completa la solución del problema.
Al analizar el proceso de resolución de problemas anterior, para explorar el mecanismo de respuesta del modelo y el rendimiento del razonamiento detallado del modelo, la pregunta original se puede dividir en tres subpreguntas de acuerdo con sus puntos de conocimiento correspondientes. Específicamente, la primera pregunta: María comienza desde un círculo Desde el punto más al norte del macizo de flores hasta el punto más oriental a lo largo del borde del macizo de flores, encuentre el grado del ángulo central correspondiente al arco del camino que recorrió. Segunda pregunta: En un macizo de flores circular; , la longitud del arco correspondiente a un ángulo central de 90 grados es 59,24 m, encuentre el radio del macizo de flores circular tercera pregunta: encuentre el área del macizo de flores circular con un radio de 32 m;
3. Métricas
Sobre esta base, como se muestra en la figura siguiente, introducimos un nuevo estándar de medición de cuatro dimensiones, a saber, dominio insuficiente del conocimiento (IK), capacidad de generalización insuficiente (IG), dominio completo (CM) y memorización de memoria (RM).
Entre ellos, está IK entre IK, IG y CM.
Experimentos y conclusiones.
We-Math ha completado actualmente evaluaciones de 17 modelos grandes, incluidos un total de 4 modelos de código cerrado y 13 modelos de código abierto. La Tabla 1 y la Figura 6 muestran los resultados de los LMM bajo diferentes números de puntos de conocimiento y el desempeño del modelo bajo los puntos de conocimiento de segundo nivel. La Tabla 2 y las Figuras 7, 8 y 9 muestran los resultados de los LMM bajo indicadores de cuatro dimensiones; y Resultados de puntuación integrales bajo estándares estrictos y flexibles. La Figura 10 muestra los resultados de mitigación de la estrategia KCA para el modelo en problemas de IK;
El desempeño de los LMM bajo diferentes números de puntos de conocimiento y su desempeño bajo el segundo nivel de puntos de conocimiento.
El desempeño de los LMM bajo indicadores de cuatro dimensiones y sus resultados de calificación integral bajo estándares estrictos y flexibles.
Desempeño de los LMM bajo la estrategia KCA
Resumir
En este artículo, proponemos WE-MATH, un punto de referencia integral para la evaluación detallada de los mecanismos de respuesta de los LMM en tareas de razonamiento matemático visual. WE-MATH contiene un total de 6,5 mil problemas matemáticos visuales, que cubren una estructura de conocimiento multinivel de 5 capas y 67 puntos de conocimiento. Fuimos pioneros en el problema al descomponerlo en múltiples subpreguntas basadas en los puntos de conocimiento requeridos e introdujimos un nuevo indicador de cuatro dimensiones para la evaluación del razonamiento detallado. A través de WE-MATH, evaluamos exhaustivamente el desempeño de los LMM existentes en el razonamiento matemático visual y revelamos que existe una correlación negativa obvia entre el desempeño de la respuesta del modelo y la cantidad de puntos de conocimiento contenidos en la pregunta.
Además, descubrimos que la mayoría de los modelos sufren el problema del aprendizaje de memoria (RM), y el conocimiento insuficiente (IK) es el mayor defecto de los LMM. Sin embargo, el principal desafío de GPT-4o ha pasado gradualmente de IK a IG, lo que indica que es el primer modelo en pasar a la siguiente etapa. Finalmente, nuestro análisis de las estrategias de KCA y los casos de error ilumina aún más el desarrollo de los LMM existentes hacia un razonamiento matemático visual similar al humano.