¡Después de 4 rondas de entrenamiento violento, Llama 7B derrotó a GPT-4! Meta y otros permiten que el "triángulo de actuación" de LLM se autoevalúe y evolucione

¡Después de 4 rondas de entrenamiento violento, Llama 7B derrotó a GPT-4! Meta y otros permiten que el "Triángulo de actuación" de LLM se autoevalúe y evolucione

2024-07-31

Nuevo informe de sabiduría

Editor: Departamento Editorial

[Introducción a la Nueva Sabiduría]Meta, UC Berkeley y NYU propusieron conjuntamente un modelo de lenguaje de meta-recompensa para proporcionar un camino claro para la "superalineación": deje que la IA sea su propio árbitro, mejore la alineación y el efecto será más rápido que la autorecompensa. modelo.

LLM consume una gran cantidad de datos, no solo en el corpus previo al entrenamiento, sino también en las etapas de alineación como RLHF y DPO.

Esto último no sólo depende de costosos datos de anotaciones manuales, sino que también limita el desarrollo posterior del LLM al nivel humano.

En enero de este año, equipos de Meta y NYU propusieron un mecanismo de autorrecompensa para los modelos de lenguaje, utilizando el mecanismo de aviso LLM-as-a-Judge para permitir que el modelo proporcione auto-retroalimentación durante el entrenamiento.

Dirección del artículo: https://arxiv.org/abs/2401.10020

El artículo encontró que incluso sin depender de anotadores humanos, LLM puede lograr mejoras en el rendimiento al evaluar sus propias respuestas.

Recientemente, este equipo publicó otro estudio que llevó el asunto de la "autorecompensa" de LLM a un nivel superior.

Dirección del artículo: https://arxiv.org/abs/2407.19594

Después de todo, usted mismo se está calificando, por lo que no puede centrarse únicamente en cómo el modelo como actor se optimiza a partir de la retroalimentación. También debe asegurarse de que el modelo como juez tenga excelentes capacidades de autoevaluación.

Investigaciones anteriores se centraron demasiado en lo primero e ignoraron lo segundo, lo que resultó en una saturación demasiado rápida del rendimiento durante el entrenamiento iterativo.

Incluso es posible provocar algo peor que la saturación, es decir, un sobreajuste de la señal de recompensa (piratería de recompensas).

Por lo tanto, investigadores de Meta, NYU, UC Berkeley y otras instituciones han propuesto que es necesario agregar un paso de "meta-recompensa", que permita al modelo evaluar su propia evaluación, mejorando así las capacidades de evaluación.

Aunque parezca un poco complicado, en realidad es razonable. Y el experimento descubrió que agregar esta capa de anidamiento tiene un efecto de mejora significativo.

Por ejemplo, la tasa de victorias de Llama-3-8B-Instruct aumentó del 22,9% al 39,4% en AlpacaEval 2, que es mejor que GPT-4 en Arena-Hard, aumentó del 20,6% al 29,1%.

Si la investigación publicada en enero de este año fue LLM-as-a-Judge, entonces la “meta-recompensa” propuesta en este artículo es equivalente a LLM-as-a-Meta-Judge.

Judge no sólo no requiere humanos, sino que Meta-Judge también es autosuficiente, lo que parece ser una prueba más de que la superación personal del modelo puede eliminar la dependencia de la supervisión humana.

El metacientífico Yann LeCun también envió este estudio e hizo un juego de palabras——

Meta-Juez propuesto por Meta, ¿puede FAIR lograr la equidad?

La investigación no es importante, lo importante es que la exposición de Meta FAIR sea completa.

Meta-recompensa

Para decirlo más claramente, el método de "meta-recompensa" consiste en introducir meta-juez en la interacción original actor-juez, y el mismo modelo "decora el triángulo" sin la participación de datos humanos adicionales.

Entre ellos, el actor es responsable de generar una respuesta a un mensaje determinado; el juez es responsable de evaluar y calificar su propia respuesta y el metajuez compara la calidad de sus propias puntuaciones;

El objetivo final de la optimización es esperar que el actor pueda generar mejores respuestas, pero la eficiencia del entrenamiento depende de la precisión del juez.

Por lo tanto, el metajuez desempeña el papel de juez de formación y puede mejorar el desempeño del modelo como actor y juez al mismo tiempo.

El modelo de entrenamiento iterativo compuesto por estos tres roles se muestra en la Figura 1. En el t-ésimo paso, primero se recopila la respuesta del modelo M_t al mensaje x, y luego se le pide a M_t que se evalúe a sí mismo, obteniendo así las preferencias para los actores de entrenamiento. . datos.

Luego, dado el mismo contenido de respuesta y, dejemos que M_t genere varias variantes de diferentes evaluaciones, que son calificadas y clasificadas por el metajuez, obteniendo así los datos de preferencia utilizados para entrenar al juez.

Combinando los dos tipos de datos de preferencia anteriores, se utiliza el método DPO para optimizar la preferencia del modelo M_t y se completa una ronda de iteración para obtener el modelo M_(t+1).

preferencia de longitud

Trabajos anteriores han descubierto que el modelo que actúa como juez preferirá respuestas más largas, lo que conducirá a una "explosión de longitud" de respuestas después de múltiples rondas de iteraciones.

Por lo tanto, el autor introduce un mecanismo simple de "control de longitud": utiliza el parámetro ρ∈[0,1] para sopesar la puntuación del juez y la longitud del texto de respuesta.

Por ejemplo, para la respuesta del modelo con una puntuación en el primer escalón, es decir, el rango de puntuación es [(1-ρ)Smax+ρSmin, Smax], seleccione la respuesta más corta como la respuesta óptima.

Creación de datos de preferencia de jueces.

Primero, se selecciona el modelo de respuesta en el que el juez tiene menos confianza y la certeza del juez se mide mediante la varianza fraccionaria. Para cada respuesta seleccionada y, tenemos como máximo N evaluaciones del modelo correspondientes {j1,…, jN}.

Luego, cada par (jm, jn) se evalúa por pares, utilizando la plantilla de indicaciones de meta-juez que se muestra en la Figura 2.

Además de proporcionar resultados de evaluación, el metajuez también necesita generar un proceso de razonamiento CoT.

Para reducir la posible preferencia de posición del metajuez (que puede tender a elegir el Juicio A que aparece primero), se intercambiará el orden del mismo par de datos (jm, jn) para permitir que el metajuez evalúe dos veces. y se obtendrá un único resultado rmn:

Se introducen los parámetros w1 y w2 para caracterizar posibles preferencias de posición:

Entre ellos, win1st y win2nd indican cuántas veces ganaron las evaluaciones de las dos posiciones durante todo el proceso de evaluación del meta-juez.

Utilice las variables anteriores para construir una "matriz de batalla" B para registrar el resultado final de cada vez:

Utilizando la puntuación Elo, la puntuación de metarecompensa asignada por el metajuez a cada juez se puede calcular a partir de la matriz B.

El autor descubrió que el metajuez, al igual que el juez, también muestra "preferencia de longitud" y tiende a elegir opiniones de evaluación más largas.

Para evitar que el modelo entrenado final sea demasiado detallado, también se tomaron medidas de filtrado al construir el conjunto de datos de los jueces. Si las opiniones de evaluación seleccionadas por el metajuez exceden una cierta longitud, todo el par de datos se descartará directamente.

Experimento de evaluación

Preparación del experimento

El experimento utiliza Llama-3-8B-Instruct como modelo semilla, y otras configuraciones experimentales son consistentes con el artículo publicado anteriormente "Self-Rewarding Language Models".

Antes del entrenamiento de meta-recompensa, el experimento primero realizó un ajuste fino supervisado (SFT) en el modelo semilla en el conjunto de datos EFT (Evaluación de ajuste fino).

El conjunto de datos de EFT se basa en Open Assistant y proporciona datos iniciales de capacitación de LLM como juez, que contienen respuestas humanas clasificadas para entrenar el modelo para que actúe como juez.

Para la iteración de meta-recompensa, el experimento utiliza 20.000 indicaciones, generadas por Llama-2-70B-Chat a través de indicaciones de 8 disparos.

Como se muestra en la figura anterior, las señales utilizadas para el entrenamiento tienen una distribución más cercana al conjunto de datos de AlpacaEval, mientras que las señales de Arena-Hard se concentran en un subconjunto de las señales de entrenamiento.

Para cada iteración, el experimento tomó muestras de 5000 señales de este conjunto de semillas, para un total de cuatro iteraciones.

El proceso iterativo es el siguiente:

- Iter 1: a partir del modelo SFT inicial, utilice DPO (Optimización de preferencias directas) para entrenar los pares de preferencias generados de actor y juez para obtener M1.

- Iter 2: Utilice DPO para entrenar al actor y juzgar los pares de preferencias generados por M1 para obtener M2.

- Iter 3/4: use DPO para entrenar solo los pares de preferencias de actores generados por M2/M3 y obtenga M3/M4.

Cada mensaje hace que el modelo genere K = 7 respuestas, para un total de 35.000 respuestas por iteración. Luego filtramos respuestas idénticas (normalmente eliminamos no más de 50 duplicados).

A continuación, se generan N = 11^2 juicios diferentes para cada respuesta utilizando los mismos parámetros de muestreo.

método de evaluación

El objetivo del modelo de metarecompensa es permitir que el modelo "actúe" y "evalúe" por sí solo, por lo que los experimentos también deben evaluar cómo se desempeña el modelo en estos dos roles.

El modelo de referencia es el modelo de autorrecompensa propuesto en el artículo antes mencionado, con el mismo mecanismo de "control de longitud", que puede comparar directamente las ganancias de rendimiento aportadas por el mecanismo de metarrecompensa.

Primero, veamos cómo juzgar qué tan bien es la "actuación".

El experimento utiliza tres puntos de referencia de evaluación automática basados en GPT4-as-a-Judge, incluidos AlpacaEval 2, Arena-Hard y MT-Bench, cada uno de los cuales se centra en diferentes aspectos del modelo.

Por ejemplo, AlpacaEval se centra en escenarios de chat y el conjunto de mensajes cubre una variedad de problemas diarios.

Por el contrario, Arena-Hard contiene problemas más complejos o desafiantes que cumplen con más criterios en 7 áreas predefinidas (creatividad, complejidad, resolución de problemas, etc.).

MT-Bench tiene 8 categorías de preguntas diferentes, que evalúan principalmente las capacidades de diálogo de múltiples turnos del modelo.

Por otro lado, para evaluar qué tan bien "evaluan" los jueces del LLM, el experimento midió la correlación entre las puntuaciones otorgadas por el LLM y las preferencias humanas. Si no hay datos disponibles etiquetados por humanos, se utiliza un juez de IA más potente.

instrucción seguir evaluación

La Figura 3 muestra la tasa de ganancia del método de meta-recompensa (con mecanismo de control de longitud) en el punto de referencia AlpacaEval en función de las iteraciones de entrenamiento.

En general, la tasa de ganancia de meta recompensas ha aumentado significativamente del 22,9% al 39,4%, superando el GPT-4 y acercándose al modelo Claude Opus.

Teniendo en cuenta que el tamaño del parámetro del modelo semilla es solo 8B y que no se introducen datos artificiales adicionales excepto el conjunto de datos EFT utilizado en la etapa SFT, este es un resultado bastante excelente.

Además, los resultados también demuestran la importancia de los mecanismos de metajuzgamiento y control de longitud.

Cuando el modelo de autorrecompensa se entrena durante más de 3 rondas, comienza a mostrar signos de saturación, pero el modelo con metarecompensas no los muestra y aún mantiene el crecimiento del rendimiento en la 4ª ronda.

Esto demuestra la importancia de entrenar capacidades de evaluación de modelos y la efectividad del rol de metajuez.

Como se muestra en la Tabla 1, después de 4 rondas de iteración, la longitud promedio de la respuesta (en caracteres) no ha aumentado significativamente, ya sea en el modelo de autorrecompensa o en el modelo de metarecompensa, lo que demuestra la efectividad del mecanismo de control de longitud.

El mecanismo de recompensa en yuanes tiene las siguientes tres mejoras obvias.

Primero, al subdividir las 805 categorías de AlpacaEval en 18 categorías para un análisis detallado, podemos ver que la meta-recompensa mejora las respuestas en casi todas las categorías (Figura 4), incluidas las materias que requieren mucho conocimiento y razonamiento, como Ciencias). juegos, literatura, etc.

Cabe señalar que en las dos categorías de Viajes y Matemáticas los modelos no han logrado mejoras significativas.

En segundo lugar, las metarecompensas mejoran las respuestas a preguntas complejas y difíciles.

El experimento utiliza además Arena-Hard para evaluar el rendimiento del método de metarecompensa al responder preguntas complejas y desafiantes.

Los resultados de la evaluación en la Tabla 2 muestran que las metarecompensas pueden mejorar las puntuaciones en 4 iteraciones, una mejora significativa del 8,5 % en comparación con el modelo inicial (20,6 %).

En tercer lugar, la metarecompensa no sacrifica la capacidad de realizar múltiples rondas de diálogo, incluso cuando solo se entrena una única ronda de diálogo.

El documento lleva a cabo una evaluación MT-Bench para examinar la pérdida de capacidades de diálogo de múltiples rondas cuando solo se entrena con datos de una sola ronda.

Los resultados se muestran en la siguiente tabla. 4 iteraciones del modelo de meta-recompensa mejoraron significativamente la puntuación del diálogo de la primera ronda de 8,319 (modelo semilla) a 8,738, mientras que la puntuación del diálogo de la segunda ronda solo disminuyó en no más de 0,1.

Esta es una gran mejora con respecto a Autorrecompensa + Control de longitud (Autorrecompensa + LC) en el modelo de referencia, ya que este último generalmente bajó más de 0,2 en la puntuación de la conversación de la segunda ronda sin mejorar la puntuación de la conversación de la primera ronda.

Evaluación del modelo de recompensa

El experimento evaluó la precisión del modelo al juzgar la respuesta generada por el modelo de semilla Llama3-8B-Instruct.

En ausencia de anotaciones manuales, los autores optaron por medir la correlación de puntuación entre el modelo de meta-recompensa y el modelo de juicio más fuerte actual, gpt-4-1106-preview.

El análisis utiliza dos configuraciones ligeramente diferentes, la principal diferencia es cómo manejan los empates dados por el modelo de juicio, por lo que se utilizan dos métricas: una puntuación de acuerdo que cuenta los empates como 0,5 y un acuerdo que descarta la fracción de resultados de empate.

Los resultados mostraron que la capacidad de juicio del modelo mejoró después del entrenamiento.

El análisis en la Tabla 3 muestra que la correlación entre las meta-recompensas y el poderoso modelo de juicio GPT-4 mejora significativamente en comparación con el modelo de referencia en ambos entornos de evaluación.

Estos resultados muestran que el método de meta-recompensa puede mejorar la capacidad de juicio del modelo, acercando los resultados de su evaluación a los del modelo de lenguaje más complejo GPT-4.

Además, los experimentos compararon la correlación entre los resultados de los juicios del modelo y las clasificaciones de respuesta humana en el conjunto de datos de Open Assistant (Tabla 7) y encontraron que el entrenamiento de meta-recompensas mejoró la correlación con los juicios humanos.

Sin embargo, esta mejora no persistió en iteraciones de entrenamiento posteriores, posiblemente debido a diferencias distributivas entre las respuestas generadas por el modelo y las respuestas humanas.

analizar

mecanismo de control de longitud

Los mecanismos de control de longitud son fundamentales para mantener un equilibrio entre la amplitud y la simplicidad de las respuestas del modelo.

El experimento comparó los resultados de diferentes parámetros de control de longitud ρ en la última iteración del entrenamiento, como se muestra en la Tabla 4:

ρ = 0, lo que equivale a no tener control de longitud en la selección de datos de preferencia.

Como era de esperar, este método de entrenamiento hace que las respuestas generadas por el modelo sean demasiado largas y la tasa de victorias de LC disminuya.

Entrenamiento utilizando modelos de recompensa externos.

El mecanismo de meta-recompensa permite que el modelo actúe como juez para evaluar su propia respuesta; el experimento intentó utilizar el poderoso modelo de recompensa externa Starling-RM-34B como comparación.

Sin embargo, se descubrió que StarlingRM-34B no logró mejorar la tasa de victorias de LC de AlpacaEval en la primera iteración (24,63 % frente a 27,85 %), posiblemente debido a su sesgo de longitud.

sesgo de metajuez

Después de la primera iteración del entrenamiento de meta-recompensa, el meta-juez casi siempre prefiere los juicios con puntuaciones más altas, como se muestra en la Tabla 5.

Este sesgo de puntuación inclina significativamente la distribución de las puntuaciones de los juicios hacia una puntuación perfecta de 5. En cuanto al sesgo posicional, también vemos una tendencia a aumentar durante el entrenamiento, especialmente cuando se comparan dos juicios con la misma puntuación.

Cambios en la puntuación del juicio: para investigar los cambios en la distribución de la puntuación del juicio durante las iteraciones del entrenamiento de meta-recompensas, los experimentos utilizaron las mismas indicaciones de validación que la evaluación del modelo de recompensa.

Utilice Llama-3-8B-Instruct para generar 7 respuestas en cada mensaje y luego 11 juicios para cada respuesta. La Figura 5 es una visualización de la distribución de puntuaciones y la densidad se estima utilizando la densidad del núcleo gaussiano.

Se puede ver que el uso del juicio de entrenamiento de metajueces aumenta aún más la posibilidad de generar puntuaciones altas.

Sin embargo, las dos primeras iteraciones del entrenamiento del juicio tendieron a asignar puntuaciones de 4,5, 4,75 y 4,9, que debían ser números enteros.

Aunque se trata de puntuaciones altas, proporcionan una capacidad más detallada para diferenciar entre respuestas de diferentes cualidades.

en conclusión

El experimento propone un nuevo mecanismo para mejorar la capacidad de juicio del modelo mediante el uso de metajuez para asignar metarecompensas al modelo como juez.

Esto resuelve una limitación importante del marco de autorrecompensa, que es la falta de capacitación en la capacidad de juicio del modelo.

Para hacer que el entrenamiento meta-recompensa sea más efectivo, el experimento también introdujo una nueva tecnología de control de longitud para aliviar el problema de explosión de longitud que ocurre cuando se utiliza la retroalimentación de IA para el entrenamiento.

La eficacia del método de meta-recompensa también se ha verificado mediante los puntos de referencia de evaluación automática AlpacaEval, Arena-Hard y MT-Bench.

En particular, este método mejora significativamente Llama-3-8B-Instruct incluso sin retroalimentación humana adicional y supera los sólidos métodos básicos Self-Rewarding y SPPO que dependen de grandes cantidades de retroalimentación humana.

Además, cuando se evaluó la capacidad de juzgar del modelo, mostró mejoras significativas en la correlación con jueces humanos y jueces de IA potentes como gpt-4-1106-preview.

En general, los hallazgos proporcionan pruebas sólidas de que los modelos de mejora personal sin retroalimentación humana son una dirección prometedora para lograr una súper alineación.

Referencias:

https://arxiv.org/pdf/2407.19594

noticias

¡Después de 4 rondas de entrenamiento violento, Llama 7B derrotó a GPT-4! Meta y otros permiten que el "Triángulo de actuación" de LLM se autoevalúe y evolucione

Introducción

Mi informacion de contacto