¡Se especializa en resolver problemas para modelos grandes! El nuevo punto de referencia del equipo de Jia Jiaya permite que el modelo solo detecte errores y no resuelva problemas

¡Se especializa en resolver problemas para modelos grandes!El nuevo punto de referencia del equipo de Jiajiaya permite que el modelo solo detecte errores y no resuelva problemas

2024-07-18

Contribuido por el equipo de MR-Ben
Qubits | Cuenta pública QbitAI

Se ha resuelto el problema de lograr puntuaciones altas en pruebas de modelos grandes pero un rendimiento deficiente en escenarios reales.

El equipo de Jiajiaya se asoció con varias universidades reconocidas para proponer un nuevo método de evaluación, que permitió que algunos modelos surgieran inmediatamente como prototipos.

Ahora no tiene que preocuparse de que el modelo grande tenga demasiadas "preguntas" y que el conjunto de prueba no pueda reflejar el nivel real.

Este nuevo conjunto de datos de evaluación se llama MR-Ben y utiliza preguntas existentes en GSM8K, MMLU y otros conjuntos de datos.

Sin embargo, la identidad del gran modelo en la prueba ha cambiado de "estudiante que responde" a "maestro que califica", y la tarea esSeñalar errores en los pasos de la solución existente.。

De esta manera, el modelo ya no puede responder las preguntas recitando o adivinando, y no hay necesidad de preocuparse por la filtración de preguntas de la prueba.

Utilizando MR-Ben, el equipo de Jiajiaya evaluó muchos modelos de código abierto y cerrado como GPT4-Turbo, Cluade3.5-Sonnet, GLM4, Qwen2-70B, etc.

Actualmente, todo el código y los datos involucrados en este conjunto de datos son de código abierto.

Preguntas de prueba familiares, tareas nuevas

En la actualidad, la dirección principal de las pruebas de modelos grandes es utilizar pruebas estandarizadas humanas: preguntas de opción múltiple y preguntas para completar espacios en blanco para realizar una evaluación de modelos grandes.

Las ventajas de este método de prueba son estándares claros, indicadores intuitivos y, por supuesto, los resultados cuantitativos son actuales.

Sin embargo, el autor cree que debido a que los grandes modelos actuales generalmente utilizan un método de cadena de pensamiento paso a paso para generar la respuesta final, este método no es "confiable".

El modelo de preentrenamiento ya ha visto billones de tokens durante el preentrenamiento.Es difícil saber si el modelo que se está evaluando ya ha visto los datos correspondientes., para responder correctamente a las preguntas "memorizando las preguntas".

Y debido a que el método de evaluación se basa principalmente en verificar la respuesta final, el modeloTampoco se sabe si se selecciona la opción correcta basándose en la comprensión y el razonamiento correctos.。

Aunque la comunidad académica continúa actualizando y transformando conjuntos de datos como GSM8K y MMLU, como la introducción de una versión multilingüe del conjunto de datos MGSM en GSM8K y la introducción de preguntas más difíciles basadas en MMLU, todavía no puede deshacerse del estereotipo de seleccionando o completando los espacios en blanco.

Además, estos conjuntos de datos se han enfrentado a gravesproblema de saturación, los valores de los modelos de lenguaje grandes en estos indicadores han alcanzado su punto máximo y gradualmente han perdido su distinción.

Con este fin, el equipo de Jiajiaya se asoció con muchas universidades reconocidas como MIT, Tsinghua y Cambridge, y cooperó con empresas nacionales de anotaciones principales para anotar un conjunto de datos de evaluación MR-Ben para el proceso de razonamiento de problemas complejos.

MR-Ben se basa en las preguntas de GSM8K, MMLU, LogiQA, MHPP y otros conjuntos de datos de prueba requeridos por el preentrenamiento de modelos grandes.La transformación del paradigma de la “calificación”, el nuevo conjunto de datos generado es más difícil y diferenciado, ¡y puede reflejar más fielmente la capacidad de razonamiento del modelo!

No es necesario volver a encontrar preguntas ni deformarlas para probar la solidez del modelo. MR-Ben cambia directamente el modelo de "respuesta" a "marcador" y evalúa el proceso de respuesta existente en el gran conjunto de datos. ¡Sé el modelo modelo para poner a prueba su dominio de los puntos de conocimiento!

Específicamente, el equipo de Jiajiaya organizó los principales conjuntos de datos de evaluación del mercado, como GSM8K, MMLU, LogiQA, MHPP y otros conjuntos de datos, y los dividió en múltiples categorías, como matemáticas, física, química, biología, código, lógica, medicina, etc., y también distinguió diferentes niveles de dificultad.

Para cada categoría y cada pregunta recopilada, el equipo recopiló cuidadosamente el correspondiente proceso de resolución de problemas paso a paso y fue capacitado y anotado por anotadores profesionales de maestría y doctorado.

Durante el proceso de anotación, se señalará en detalle si el proceso de resolución del problema es correcto, la ubicación del error y el motivo del error al comparar los resultados de calificación del modelo grande y los resultados de calificación de expertos humanos. Puedes saber qué tan bien el modelo domina los puntos de conocimiento.

Desde el método de evaluación, el método propuesto por MR-Ben requiere que el modelo realice un análisis detallado de las premisas, suposiciones y lógica de cada paso en el proceso de resolución de problemas, y previsualice el proceso de razonamiento para determinar si el paso actual puede conducir a la respuesta correcta.

Este método de evaluación de "calificación" es mucho más difícil que el método de evaluación de simplemente responder preguntas, pero puede evitar eficazmente el problema de puntuaciones falsamente altas causadas por la memorización de preguntas del modelo. Es difícil para un estudiante que solo puede memorizar preguntas convertirse en un profesor de calificación calificado.

GPT4-Turbo funciona mejor

El equipo de Jiajiaya evaluó varios modelos grandes conocidos y algunos modelos tenían múltiples versiones participando en la prueba.

Se puede ver que entre los modelos de código cerrado, GPT4-Turbo funciona mejor (aunque no se encontraron errores de cálculo durante la "calificación"). En la mayoría de las materias, hay demostraciones (k=1) y ninguna demostración (k =0). están por delante de otros modelos.

El rendimiento del modelo GLM del equipo Zhipu ocupa el segundo lugar en la lista, superando al último 3.5-Sonnet de Claude.

Sin embargo, la distinción entre diferentes modelos es relativamente grande. El GPT4-Turbo más fuerte logró una puntuación de menos de 50 puntos en el conjunto de datos de MR-Ben. Se puede ver que su rendimiento aún no está saturado.

Además, algunos modelos de código abierto con un rendimiento sólido ya han alcanzado a algunos modelos comerciales.

Además, el equipo de MR-Ben también descubrió algunos fenómenos interesantes durante el trabajo, tales como:

En escenarios de bajos recursos, los modelos pequeños también tienen muchos aspectos destacados. En la evaluación de MR-Ben, Phi-3-mini se destacó entre los modelos pequeños, incluso por encima o igual que los modelos grandes con decenas de miles de millones de parámetros, lo que demuestra la Importancia de afinar los datos por sexo.
La escena de MR-Ben contiene análisis lógicos complejos e inferencias paso a paso. Un contexto demasiado largo en el modo de pocos disparos confundirá el modelo y provocará una disminución en el rendimiento.
MR-Ben evaluó muchos experimentos de ablación de generación-reflexión-regeneración para verificar las diferencias entre diferentes estrategias de estimulación. Descubrió que no tenía ningún efecto en modelos de bajo nivel y que el efecto en modelos de alto nivel como GPT4-Turbo no era obvio. . Por el contrario, para los modelos de nivel intermedio, el efecto mejora ligeramente porque siempre se corrigen los incorrectos y los correctos.
Después de dividir aproximadamente los temas evaluados por MR-Ben en tipos basados en conocimiento, lógicos, computacionales y algorítmicos, los diferentes modelos tienen sus propias ventajas y desventajas en diferentes tipos de razonamiento.

El equipo de Jiajiaya ha subido un método de evaluación con un solo clic a github. La cantidad de tokens consumidos en una prueba es de aproximadamente 12 millones. Los desarrolladores pueden evaluar y enviar sus propios modelos, y el equipo de MR-Ben actualizará la tabla de clasificación correspondiente de manera oportuna. manera.

Dirección del papel:
https://arxiv.org/abs/2406.13975
Página de inicio del proyecto:
https://randolph-zeng.github.io/Mr-Ben.github.io/
Repositorio de Github:
https://github.com/dvlab-research/Mr-Ben

noticias