ACL 2024 | En la evaluación matemática de 25 modelos de código abierto y cerrado, GPT-3.5-Turbo apenas pasó

2024-07-18

La columna AIxiv es una columna donde Machine Heart publica contenido académico y técnico. En los últimos años, la columna Heart of the Machine AIxiv ha recibido más de 2.000 informes, que cubren los mejores laboratorios de las principales universidades y empresas de todo el mundo, promoviendo eficazmente los intercambios y la difusión académicos. Si tiene un trabajo excelente que desea compartir, no dude en contribuir o contactarnos para informar. Correo electrónico de envío: [email protected]; [email protected];

Los autores de este artículo son de la Universidad de Hong Kong y Tencent. Lista de autores: Li Qintong, Leyang Cui, Zhao Xueliang, Kong Lingpeng, Wei Bi. Entre ellos, el primer autor, Li Qintong, es estudiante de doctorado en el Laboratorio de Procesamiento del Lenguaje Natural de la Universidad de Hong Kong. Sus intereses de investigación involucran la generación del lenguaje natural y el razonamiento de textos. Él y el estudiante de doctorado Zhao Xueliang están bajo la tutela del profesor Kong Lingpeng. . Leyang Cui y Wei Bi son investigadores senior de Tencent.

Prefacio

La extraordinaria capacidad de los modelos de lenguajes grandes (LLM) para resolver problemas es cada vez más evidente. Recientemente, un fenómeno digno de atención es que estos modelos han logrado resultados sorprendentes en múltiples pruebas de referencia de razonamiento matemático. Tomando GPT-4 como ejemplo, tuvo un buen desempeño en el difícil conjunto de pruebas de preguntas de aplicación para la escuela primaria GSM8K [1], con una tasa de precisión de más del 90%. Al mismo tiempo, muchos modelos de código abierto también han mostrado un rendimiento impresionante, con tasas de precisión superiores al 80%.

Sin embargo, en uso, a menudo encontramos que cuando los problemas matemáticos se modifican ligeramente, los LLM pueden causar algunos errores de bajo nivel, como se muestra en la siguiente figura:

Figura 1: GPT-3.5-Turbo respondió correctamente a un problema matemático (izquierda), pero cuando se agregó una restricción al problema original (derecha), Turbo no distinguió correctamente entre las direcciones de "ida" y "regreso". Un mal uso del operador. Se produjo un error.

No podemos evitar preguntarnos: ¿captan realmente los modelos lingüísticos a gran escala la esencia del conocimiento matemático? ¿Cómo obtienen puntuaciones tan altas en estas pruebas? ¿Se trata simplemente de imitar patrones de razonamiento superficiales en grandes cantidades de datos de entrenamiento? Aún es una cuestión que vale la pena explorar si los LLM realmente entienden los conceptos matemáticos.

Para explorar este tema, los autores de este artículo diseñaron un punto de referencia de evaluaciónGSM-Plus . Esta prueba está diseñada para realizar 8 transformaciones matemáticas detalladas diferentes en un problema para evaluar sistemáticamente la capacidad de los LLM actuales para abordar problemas de aplicación de matemáticas básicas. En este nuevo punto de referencia, el documento evalúa rigurosamente 25 LLM diferentes, incluidos modelos de código abierto y de código cerrado en la industria.

Los resultados experimentales muestran que GSM-Plus es un punto de referencia desafiante para la mayoría de los LLM. Incluso en GSM8K, GPT-3.5-Turbo ha podido alcanzar una precisión del 73,62%, pero sólo puede alcanzar una precisión del 61,19% en GSM-Plus. Este trabajo ha sido aceptado por ACL2024 con puntuaciones de 4, 4 y 4,5.

Título original: GSM-Plus: un punto de referencia integral para evaluar la solidez de los LLM como solucionadores de problemas matemáticos

Dirección del artículo: https://arxiv.org/pdf/2402.19255

Página de inicio del artículo: https://qtli.github.io/GSM-Plus/

fondo

El razonamiento matemático es una prueba importante del desarrollo de la inteligencia artificial. Requiere comprensión rigurosa de problemas, desarrollo de estrategias y habilidades de ejecución computacional. En los últimos años, se han utilizado numerosos conjuntos de datos disponibles públicamente para evaluar las capacidades de razonamiento matemático de los sistemas de inteligencia artificial. Los primeros conjuntos de datos matemáticos se centraron en problemas matemáticos basados en ecuaciones. Posteriormente, se introdujeron conjuntos de datos más difíciles que cubrían problemas matemáticos de nivel primario, secundario y universitario.

A medida que la dificultad de los datos de evaluación continúa aumentando, el desarrollo de los LLM también se ha vuelto muy rápido. Para mejorar el desempeño de los LLM en el campo de las matemáticas, se puede utilizar el ajuste fino supervisado (SFT) para ayudar rápidamente a los LLM a adaptarse al campo de las matemáticas mediante la capacitación en diversos datos de tareas. En la etapa de razonamiento, las habilidades matemáticas de los LLM también se pueden estimular de manera efectiva a través de indicaciones de entrada inteligentemente diseñadas (por ejemplo, Cadena de pensamiento y Programa de pensamiento).

Para la mayoría de los LLM, todavía hay mucho margen de mejora en lo que respecta a los problemas de matemáticas en la escuela secundaria y superiores. Sin embargo, en el área de matemáticas de la escuela primaria, los LLM se han mostrado muy prometedores.Esto nos hace preguntarnos: ¿pueden los LLM mantener un alto rendimiento en entornos reales?

Conjunto de datos de evaluación adversaria GSM-Plus

Este estudio tiene como objetivo lanzar un punto de referencia integral, GSM-Plus, para examinar sistemáticamente la solidez de los LLM en la resolución de problemas matemáticos básicos. Inspirándose en la taxonomía de las habilidades de resolución de problemas matemáticos en los principios de Polya [2], este artículo identifica cinco principios rectores para construir el conjunto de datos GSM-Plus:

Para facilitar la comprensión, aquí está "El pato de Janet pone 16 huevos todos los días. Ella come tres huevos en el desayuno todas las mañanas y usa cuatro huevos para hornear muffins para sus amigos. Paga $ 2 por huevo de pato todos los días. Vende los huevos sobrantes en el mercado de agricultores. ¿Cuántos dólares gana por día en el mercado de agricultores?

(1) Cambios numéricos: Se refiere a cambiar datos numéricos o su tipo. Este artículo define tres subcategorías:

Reemplazo numérico: Reemplace los valores numéricos con los mismos dígitos y tipos, por ejemplo, reemplace "16" en la pregunta por "20".

Ampliación de dígitos: aumentar el número de dígitos de un valor, por ejemplo reemplazando "16" por "1600".

Conversión de enteros, decimales y fracciones: reemplace números enteros con decimales o fracciones, por ejemplo, convierta "2" en "2,5".

(2) Cambios aritméticos: Se refiere a introducir operaciones adicionales o inversiones a problemas matemáticos, pero se limita a operaciones de suma, resta, multiplicación y división:

Expansión operativa: agregue restricciones basadas en el problema original. Por ejemplo, agregue una nueva condición "Ella también usa dos huevos para hacer mascarillas capilares caseras todos los días".

Inversión de operación: Convertir una condición conocida del problema original en las variables a resolver para el problema de la variante GSM-Plus. Por ejemplo, la afirmación de la pregunta original de la Figura 2 "2 dólares estadounidenses por huevo de pato" se convierte en la oración interrogativa de la nueva pregunta "¿Cuál es el precio de cada huevo de pato?", mientras que la oración interrogativa de la pregunta original "¿Cuántos dólares gana en el mercado de agricultores todos los días?" se convierte en condiciones conocidas para la nueva pregunta "Ella gana $18 por día en el mercado de agricultores"

(3) Comprensión del problema: Se refiere a reformular un problema matemático con diferentes palabras sin cambiar el significado, como "Janet cría un grupo de patos, que ponen 16 huevos de pato todos los días. Consume tres huevos de pato en el desayuno y luego consume cuatro huevos de pato para hornear gofres. ." A su amiga. Janet vende todos los huevos de pato restantes en el mercado de agricultores a $2 cada uno. ¿Cuánto dinero gana cada día vendiendo huevos de pato en el mercado de agricultores?

(4) Inserción de elementos de interferencia: Se refiere a insertar oraciones relacionadas con el tema y que contienen valores numéricos pero que son inútiles para resolver el problema en el problema original, como "Janet también quería alimentar a su loro mascota con dos huevos de pato. Afortunadamente, su vecina le dio sus dos huevos de pato todos los días para alimentar al loro".

(5) Pensamiento crítico: Se centra en si los LLM tienen la capacidad de cuestionar o dudar cuando los problemas matemáticos carecen de las condiciones necesarias, por ejemplo "El pato de Janet pone huevos todos los días. Ella come tres huevos en el desayuno todas las mañanas y usa cuatro huevos para hornear muffins para su amiga de todos los días. . Vende los huevos restantes en el mercado de agricultores a $2 por día. ¿Cuántos dólares gana en el mercado de agricultores todos los días?

Basado en las 1.319 preguntas de la prueba de GSM8K, este documento crea ocho variaciones para cada pregunta, lo que da como resultado un conjunto de datos GSM-Plus que contiene 10.552 variaciones de preguntas (este documento también proporciona un subconjunto de prueba que contiene 2.400 variaciones de preguntas para una revisión rápida). . Al probar los LLM utilizando cada problema y sus ocho variaciones, GSM-Plus puede ayudar a los investigadores a evaluar de manera integral la solidez de los LLM en la resolución de problemas matemáticos.

Figura 2: 8 variantes del problema de generación de perturbaciones utilizando 5 ángulos basados en un problema matemático inicial. Las modificaciones importantes están resaltadas en verde.

Al utilizar GSM-Plus para evaluar 25 LLM de diferentes tamaños, diferentes métodos de capacitación previa y diferentes ajustes de tareas, y combinar 4 técnicas de indicaciones comúnmente utilizadas, este documento encontró que los LLM pueden resolver con precisión el problema GSM8K en su conjunto, pero Al responder a las preguntas de GSM-Plus surgen dificultades obvias con los problemas de variantes. Los principales resultados son los siguientes:

La optimización de tareas específicas, es decir, el ajuste de conjuntos de datos matemáticamente relevantes, a menudo puede mejorar la precisión de las tareas posteriores, mientras que el nivel de robustez depende más de la elección del modelo base y del conjunto de datos de ajuste;

Cuando se requiere "pensamiento crítico", están involucrados "cambios aritméticos" e "inserción de factores de interferencia", el desempeño de los LLM disminuirá rápidamente, excepto por las perturbaciones de los "cambios numéricos" y la "comprensión de problemas", el desempeño de los LLM es relativamente; estable.

Las técnicas de estimulación anteriores (por ejemplo, CoT, PoT, LtM y CoT basada en la complejidad) no mejoraron significativamente la solidez, especialmente para los "cambios aritméticos" y el "pensamiento crítico". Basado en trabajos anteriores, este artículo explora más a fondo un método de indicación combinado que puede mejorar simultáneamente el rendimiento de los LLM en GSM8K y GSM-Plus generando y verificando de forma iterativa cada pensamiento de razonamiento.

Funciones GSM-Plus

seguro de calidad : Utilice dos etapas para generar preguntas de evaluación GSM-Plus. Primero, las capacidades de reescritura de preguntas de GPT-4 se utilizan para generar variantes de preguntas y luego se generan respuestas candidatas para estas variantes. Para garantizar la calidad de los datos, el equipo de anotaciones manuales verifica rigurosamente todas las variantes de preguntas y respuestas generadas por GPT-4. El equipo de anotaciones manuales solucionó el 18,85 % de los problemas de reescritura de GPT-4.

Evaluación detallada: Para cada pregunta de prueba en el conjunto de datos de evaluación principal GSM8K, GSM-Plus proporciona 8 preguntas variantes en la dirección de la perturbación, probando completamente la capacidad del modelo grande para resolver de manera flexible problemas de aplicaciones matemáticas en diferentes contextos.

desafío : En comparación con GSM8K, la variante problemática de GSM-Plus es más desafiante y el rendimiento de todos los LLM que participan en la evaluación se degrada significativamente. En el siguiente análisis, este artículo analizará específicamente la solidez de los LLM en la resolución de problemas bajo diferentes tipos de perturbaciones.

Comparación con otros datos de problemas verbales de matemáticas de la escuela primaria

Tabla 1: Diferentes colores representan diferentes tipos de perturbaciones:

Como se puede ver en la tabla anterior, estudios anteriores han utilizado diferentes perturbaciones para probar la solidez del razonamiento matemático, pero la configuración de evaluación solo cubre algunos tipos de perturbaciones, y la mayoría de ellas introduce perturbaciones a través de la construcción automática de métodos, por lo que la calidad es difícil de determinar. garantizar. Por el contrario, GSM-Plus utiliza ocho habilidades diferentes de razonamiento matemático para resolver un solo problema, con una cobertura más amplia y un control de calidad estricto.

análisis de experimentos

Indicadores de evaluación

Tasa de degradación del rendimiento (PDR): El grado de degradación del rendimiento de los LLM en el problema perturbado en comparación con el problema original.

Porcentaje de pares de problemas resueltos simultáneamente (ASP): La proporción de respuestas correctas tanto de la pregunta original como de su variante de pregunta correspondiente por parte de los LLM.

rendimiento global

Como se muestra en la siguiente tabla, el rendimiento de la mayoría de los LLM en GSM-Plus se reduce significativamente en comparación con GSM8K.

GPT-4 muestra la mayor robustez, con el PDR más pequeño de sólo el 8,23%. CodeLlama tiene el mayor PDR, entre los que los modelos 7B, 13B y 34B tienen un 40,56%, 39,71% y 34,27% respectivamente, superando a su modelo base LLaMA-2-7B (39,49%), así como al modelo matemático SFT afinado. en él, como SEGO-7B (34,91%). Esto muestra que el razonamiento que utiliza únicamente lenguajes procedimentales es vulnerable a las perturbaciones.

Frente a perturbaciones matemáticas, cuanto mayor sea el tamaño del modelo, más estable será el rendimiento. Aunque el ajuste supervisado puede mejorar la precisión en las tareas posteriores, no mejora significativamente la robustez del modelo ante las perturbaciones (es decir, menor PDR). Los datos que supervisan el ajuste son importantes para la solidez. También está ajustado en base a LLaMA-2, y el uso de datos diferentes dará lugar a grandes diferencias en la precisión y solidez del modelo.

Tabla 2: Rendimiento general

Análisis experimental detallado

Desempeño de LLM bajo diferentes perturbaciones.

Este artículo evalúa más a fondo la estabilidad del rendimiento de los LLM en 8 variantes de problemas. En comparación con la línea de base humana para el pensamiento crítico (púrpura), la expansión de operaciones y la inversión de operaciones (azul), la inserción del distractor (rosa) y la perturbación de la conversión de fracciones entero-decimal (naranja), el rendimiento de los LLM disminuye significativamente. Para el "reemplazo numérico" y la "comprensión de problemas", el rendimiento de los LLM es estable o incluso ligeramente mejorado.

Figura 3: Análisis experimental detallado

Transferibilidad de las habilidades de razonamiento matemático.

El análisis anterior se basa principalmente en todo el conjunto de datos. A continuación, este artículo divide los dos conjuntos de datos según si las preguntas de matemáticas se responden correctamente y analiza si cuando los LLM resuelven con éxito el problema GSM8K, significa que la probabilidad de responder correctamente la pregunta de la variante GSM-Plus aumenta (es decir, una valor ASP alto) y viceversa. Si esta afirmación es cierta, se puede considerar que los LLM se desempeñan de manera estable en este subconjunto específico de problemas matemáticos, incluso si este no es el caso en todo el conjunto de datos. En el entorno experimental, cada problema GSM8K y su variante en GSM-Plus se transforman en 8 pares de problemas y los resultados se muestran en la Figura 4.

Figura 4: Transferibilidad de inferencia de LLM entre pares de problemas GSM8K y GSM-Plus. Las barras moradas (ambas correctas) y azules (ambas incorrectas) indican un comportamiento consistente del modelo, mientras que las barras rojas (GSM8K correcto y GSM-Plus incorrecto) y amarillas (GSM8K incorrecto y GSM-Plus correcto) indican un comportamiento inconsistente del modelo. La suma de las alturas de las barras violeta y roja representa la cantidad de LLM que resuelven correctamente el problema GSM8K.

La presencia de barras rojas (LLM que responden correctamente a la pregunta original, pero no resuelven la pregunta variante) indica que la mayoría de los modelos tienen una transferibilidad de rendimiento limitada. Aunque el rendimiento de los LLM difiere en el problema GSM8K (altura de las barras moradas y rojas), la transferibilidad del rendimiento es similar (altura de la barra roja). Esto significa que los puntos de referencia existentes no pueden evaluar con precisión las verdaderas capacidades de un modelo en razonamiento matemático. Una alta precisión no equivale a una gran solidez de la inferencia.

Consejos para ayudar con la solidez del rendimiento de los LLM

Trabajos anteriores han demostrado que unas buenas instrucciones rápidas son importantes para estimular las capacidades matemáticas de los modelos lingüísticos. Este artículo selecciona 4 modelos representativos y prueba su desempeño en la resolución de problemas bajo diferentes instrucciones. Como se muestra en la figura siguiente, cuando se enfrentan a interferencias, los LLM se desempeñan de manera más estable cuando usan ejemplos complejos como demostraciones contextuales (CoT basado en complejidad, por el contrario, solo usan lenguaje de programa para representar razonamiento intermedio (Programa de pensamiento); LLM); son más susceptibles a las interferencias. En general, estos consejos y trucos no son suficientes para que los LLM mantengan el mismo rendimiento que GSM8K en GSM-Plus.

Figura 5: Impacto de las sugerencias en la solidez del desempeño de los LLM

¿Funcionan las indicaciones combinadas?

¿Cómo mejorar la solidez de los LLM basados en los métodos de orientación existentes? Este artículo encuentra que los LLM a menudo ignoran condiciones importantes o cometen errores de cálculo durante el proceso de resolución de problemas. Con este fin, este artículo explora Comp, un método de estimulación combinado. Este método primero solicita a los LLM que extraigan las condiciones necesarias relacionadas con los valores numéricos del problema (Pregunta1). Luego, según el problema y las condiciones clave, los LLM reciben instrucciones de generar iterativamente objetivos de inferencia (Prompt2) y objetivos de cálculo (Prompt3), y les permiten proporcionar retroalimentación sobre los pasos históricos de resolución de problemas generados para determinar si se obtiene la respuesta final ( Aviso4). La implementación específica se muestra en la Figura 6.

Figura 6: Diagrama esquemático del método de solicitud de iteración

Se puede ver que Comp puede mejorar el rendimiento de los LLM bajo varios tipos de variación de problemas mediante la generación iterativa y la autoverificación, pero aún no puede cerrar la brecha de rendimiento de los LLM entre los conjuntos de pruebas estándar y los conjuntos de pruebas adversarios. Esta investigación espera encontrar más métodos en el futuro para mejorar aún más la solidez del modelo y promover un mayor desarrollo de los LLM en el campo del razonamiento matemático.

Tabla 3: Rendimiento de las sugerencias de iteración

Generar ejemplo

La siguiente figura muestra el rendimiento de GPT-3.5-Turbo bajo diferentes tecnologías de indicación en el problema GSM8K y el problema de reescritura GSM-Plus basado en "inversión de operación". Si bien todas las indicaciones motivan a Turbo a responder con precisión las preguntas de GSM8K, solo Comp ayuda a Turbo a generar respuestas correctas a las preguntas de la variante GSM-Plus.

Figura 7: Ejemplos de modelos que responden preguntas de matemáticas en diferentes configuraciones de indicaciones

Conclusión

Este artículo presenta GSM-Plus, un conjunto de evaluación de problemas de aplicación de matemáticas de escuela primaria adversario, cuyo objetivo es analizar sistemáticamente la solidez de los LLM en la resolución de problemas de aplicación de matemáticas. El análisis experimental encontró que cuando se enfrentaban a perturbaciones, el desempeño de la mayoría de los LLM caía significativamente en comparación con su desempeño en los puntos de referencia estándar, quedando muy por debajo de los niveles de desempeño humano. El investigador espera que el trabajo de este artículo pueda promover más investigaciones futuras, que incluyan, entre otras: (1) evaluación sistemática de las habilidades matemáticas de los LLM (2) construcción de modelos que puedan realizar razonamiento matemático de manera flexible;

[1] Cobbe, Karl, et al. "Entrenamiento de verificadores para resolver problemas matemáticos con palabras". Preimpresión de arXiv arXiv:2110.14168 (2021). https://paperswithcode.com/sota/arithmetic-reasoning-on-gsm8k

[2] George Polya. 2004. Cómo resolverlo: Un nuevo aspecto del método matemático, volumen 85. Princeton University Press.

noticias

ACL 2024 | En la evaluación matemática de 25 modelos de código abierto y cerrado, GPT-3.5-Turbo apenas pasó

Introducción

Mi información de contacto