¡Llama 8B busca 100 veces y supera a GPT-4o! La búsqueda inferencial puede mejorar el rendimiento, nueva "Ley de escala"

¡Llama 8B busca 100 veces y supera a GPT-4o! La búsqueda inferencial puede mejorar el rendimiento, nueva "ley de escala"

2024-08-15

Nuevo informe de sabiduría

Editor: Qiao Yang

[Introducción a la Nueva Sabiduría]Artículos recientes han demostrado que los modelos generativos como LLM se pueden escalar con la búsqueda y lograr mejoras de rendimiento muy significativas. Otro experimento de recurrencia también encontró que si el modelo Llama 3.1 con solo parámetros 8B se busca 100 veces, puede alcanzar el mismo nivel que GPT-4o en la tarea de generación de código Python.

Rich Sutton, pionero en aprendizaje por refuerzo y profesor del Departamento de informática de la Universidad de Alberta en Canadá, escribió una publicación de blog llamada "The Bitter Lesson" en 2019, que se convirtió en una de las discusiones clásicas en el campo de la IA.

De hecho, la intuición de Rich Sutton reflejada entre líneas es bastante similar a la Ley de Escala.

Dirección original: https://www.cs.utexas.edu/~eunsol/courses/data/bitter_lesson.pdf

El artículo revisa brevemente el camino del desarrollo de la IA en los campos del ajedrez, Go, reconocimiento de voz y visión, y presenta esta visión:

Una de las lecciones difíciles que debemos aprender es reconocer el poder de un enfoque universal. Este enfoque puede seguir ampliándose a medida que aumenta la cantidad de cálculo debido a un aumento en la potencia informática disponible. Los dos métodos que parecen escalar arbitrariamente de esta manera son la búsqueda y el aprendizaje.

Sin embargo, esta visión no es exactamente la misma que la Ley de Escala y no podemos utilizarla como base para creer que los modelos pequeños están destinados a ser irrelevantes.

Como describe Sutton, hay dos desafíos principales en el camino hacia la ampliación: el aprendizaje y la búsqueda.

La Ley de Escalamiento propuesta por OpenAI enfatiza lo primero. Ceteris paribus, los modelos más grandes funcionan mejor porque se pueden aprender más conocimientos y patrones del conjunto de entrenamiento.

Pero lo que a menudo pasamos por alto es esto último. Los métodos de búsqueda también pueden escalar sin problemas a medida que aumenta la potencia informática durante la fase de inferencia para generar más respuestas candidatas o de mayor calidad.

Un artículo reciente publicado por académicos de Stanford, Oxford, DeepMind y otras instituciones se centró en este punto.

Dirección del artículo: https://arxiv.org/abs/2407.21787

Con el aumento en el número de muestras repetidas en la etapa de inferencia, el rendimiento (es decir, la cobertura del problema) del modelo en los campos de matemáticas, razonamiento y código como GSM8K, MATH, MiniF2F-Math y SWE-bench Lite ha mejorado significativamente.

Incluso, parece haber una relación lineal exponencial entre los dos, y puede modelarse mediante una ley de potencia exponencial, que parece explicar la existencia de la ley de escala en la etapa de razonamiento.

Inspirados por este artículo, los dos ingenieros comenzaron a intentar reproducirlo; el resultado fue que, buscando con 100 modelos pequeños de Llama, pudieron alcanzar o incluso superar a GPT-4o en tareas de programación de Python.

Los dos autores utilizaron una vívida metáfora: antes, se necesitaba un pato del tamaño de un caballo para obtener capacidades de límite, pero ahora podemos optar por utilizar 100 caballos del tamaño de un pato (o, más precisamente, alpacas Llama);

El código fuente utilizado en el experimento se cargó en GitHub y el costo de reproducción es bastante bajo.

https://gist.github.com/charlesfrye/27f25188dbbcfdf20a83c0230020fe05

Para intentar un mayor rendimiento, el autor utilizó la biblioteca vLLM para implementar la inferencia por lotes y amplió las condiciones del hardware a 10 GPU A100-40 GB, con una velocidad de salida que alcanzó los 40 k token/s.

Métricas de evaluación y resultados.

El autor eligió una prueba de referencia que no se cubre en el artículo de Large Language Monkeys mencionado anteriormente: HumanEval.

El beneficio de este conjunto de datos es que el código generado se puede evaluar mediante pruebas en ejecución sin la participación de LLM-as-Judge o evaluación humana, lo que permite una medida más objetiva de corrección.

El desempeño del modelo se mide mediante dos indicadores: pass@k y fail@k. Según los resultados del informe de PapersWithCode, en la inferencia de muestra cero, la puntuación pass@1 de GPT-4o es del 90,2%.

https://paperswithcode.com/sota/code-generación-on-humaneval

Utilizando el método propuesto en el documento anterior, más una cantidad mínima de ajuste rápido (sin ajustar otros hiperparámetros), la puntuación pass@k de Llama 3.1 8B se ha mejorado significativamente.

Cuando el número de muestras repetidas k es 100, el rendimiento es equivalente a GPT-4o (90,5% frente a 90,2%; cuando k alcanza 1000, la puntuación es 95,1%, que es significativamente mejor que GPT-4o);

Si usa el indicador fail@k (equivalente a 1-pass@k) y transforma logarítmicamente los dos ejes de coordenadas en la figura anterior, puede ver la curva que se muestra en la figura siguiente, que parece cumplir perfectamente con la "ley de escala". ".

Vale la pena señalar que este pequeño experimento no es una reproducción estricta del artículo, sino que solo extrae el método central.

Sin embargo, estos resultados enfatizan aún más que los modelos más pequeños pueden predeciblemente superar a los modelos "big Mac" como GPT-4o cuando se utilizan métodos de búsqueda para aumentar la etapa de inferencia.

El futuro de la búsqueda

La razón por la que el método de búsqueda es poderoso es que puede expandirse "transparentemente" a medida que aumenta la cantidad de cálculo, y también puede trasladar el consumo de recursos de la memoria al cálculo para lograr un mayor equilibrio de recursos.

Los importantes logros recientes de la IA en matemáticas, como el nivel de IA y la IA, son inseparables de la búsqueda utilizada en ella.

Sin embargo, la implementación de la búsqueda requiere primero una evaluación de alta calidad de los resultados. El modelo de DeepMind traduce problemas matemáticos expresados en lenguaje natural a expresiones formales, recibiendo así una supervisión detallada de un compilador/verificador como Lean.

, Lo que puede mejorar en gran medida el grado de paralelismo y automatización.

Según la correspondencia Curry-Howard-Lambek, sería relativamente fácil utilizar programas informáticos para automatizar la identificación y evaluación de pruebas matemáticas y resultados de generación de códigos.

Pero enfoques similares pueden fallar en áreas distintas a las matemáticas y la programación. Por ejemplo, para tareas abiertas de PNL como "resumir correos electrónicos", es difícil realizar búsquedas efectivas.

Desde esta perspectiva, la búsqueda es posterior a la evaluación. Aproximadamente podemos esperar que la mejora del rendimiento de los modelos generativos en campos específicos sea directamente proporcional a las capacidades de evaluación y búsqueda.

Para lograr este propósito, los agentes en entornos digitales repetibles parecen ser una dirección prometedora.

Referencias:

https://modal.com/blog/llama-human-eval

noticias

¡Llama 8B busca 100 veces y supera a GPT-4o! La búsqueda inferencial puede mejorar el rendimiento, nueva "ley de escala"

Introducción

Mi información de contacto