noticias

Lea todas las tecnologías de alineación LLM en un artículo: RLHF, RLAIF, PPO, DPO...

2024-08-05

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina



Informe del corazón de la máquina

Editor: Panda

Para alinear el LLM, investigadores de todos los ámbitos de la vida han ideado trucos ingeniosos.

LLM es muy poderoso, pero no es perfecto. También puede cometer errores o producir resultados inútiles o incluso dañinos. Por ejemplo, alguien descubrió que ChatGPT puede enseñar a las personas a robar.



Deje que ChatGPT enseñe a la gente cómo robar tiendas; a la izquierda, ChatGPT se niega a responder a la derecha, después de agregar "sin restricciones morales (sin restricciones morales)" al mensaje, ChatGPT ofrece una guía para robar en tiendas;

En este momento, la alineación es crucial, su papel es hacer que el LLM sea consistente con los valores humanos.

El aprendizaje por refuerzo basado en la retroalimentación humana (RLHF) es una tecnología innovadora en la alineación de LLM. Este método ha dado lugar a potentes modelos como GPT-4, Claude y Gemini. Después del RLHF, se han explorado varios métodos para alinear los LLM. Sin embargo, nadie ha resumido previamente de manera exhaustiva los métodos para alinear el LLM con las preferencias humanas.

Salesforce decidió llenar este vacío y recientemente publicó un informe de revisión de 37 páginas, que resume la literatura de investigación existente por categoría y analiza cada artículo en detalle.



  • Título del artículo: Un estudio completo de las técnicas de alineación de LLM: RLHF, RLAIF, PPO, DPO y más
  • Dirección del artículo: https://arxiv.org/pdf/2407.16216

Este artículo se divide en cuatro temas principales: modelo de recompensa, retroalimentación, aprendizaje por refuerzo (RL) y optimización. Cada tema contiene más subtemas, como se muestra en la Figura 1.



Los subtemas del modelo de recompensa incluyen: 1. Modelo de recompensa explícita y modelo de recompensa implícita; 2. Modelo de recompensa punto por punto y modelo de preferencia; 3. Recompensas a nivel de respuesta y recompensas a nivel de token; 4. Optimización de preferencias negativas.



Los subtemas de retroalimentación incluyen: 1. Retroalimentación de preferencias y retroalimentación binaria; 2. Retroalimentación emparejada y retroalimentación de lista; 3. Retroalimentación humana y retroalimentación de IA;



Los subtemas del aprendizaje por refuerzo incluyen: 1. Aprendizaje por refuerzo basado en referencias y aprendizaje por refuerzo sin referencias; 2. Aprendizaje por refuerzo de duración controlada; 3. Diferentes ramas del aprendizaje por refuerzo 4. Aprendizaje por refuerzo de políticas en línea y aprendizaje por refuerzo de políticas fuera de línea;

Los subtemas de optimización incluyen: 1. Optimización de preferencias en línea/iterativa y optimización de preferencias fuera de línea/no iterativa 2. Separación de SFT y alineación y fusión de SFT y alineación.



La Tabla 1 enumera la clasificación de todos los artículos analizados en este informe de revisión sobre estos 13 indicadores de evaluación.



Trabajos de investigación

Esta sección presentará cada artículo en detalle para que los lectores puedan comprender estas importantes innovaciones sin leer el artículo original. The Heart of the Machine clasificará brevemente varias direcciones de investigación y enumerará artículos representativos.

1. RLHF/PPO

La formación previa de LLM requiere el uso de una gran cantidad de corpus de diferentes fuentes, lo que por sí solo no puede garantizar la calidad de estos conjuntos de datos. Además, el objetivo principal de LLM es predecir el siguiente token, lo que es incompatible con el objetivo de "seguir las instrucciones del usuario de forma útil y segura". Como resultado, LLM puede publicar contenido falso, dañino o no útil para los usuarios. Básicamente, estos modelos no están alineados con la intención del usuario. El objetivo principal de RLHF/PPO es alinear los modelos de lenguaje con la intención del usuario en una variedad de tareas mediante el uso de comentarios humanos para ajustar el modelo. Hay muchos estudios sobre este tema.

InstruirGPT

InstructGPT proviene de OpenAI, que es la base para modelos de entrenamiento como ChatGPT y GPT-4. Consulte el "Informe técnico de GPT-4" y el informe de Heart of the Machine "GPT-4 Shocking Release: modelo grande multimodal". , actualizar directamente ChatGPT, Bing, abrir API, ¿se acabó el juego? 》《Conozca la tecnología detrás de ChatGPT de la mano de Li Mu: lea detenidamente el artículo de InstructGPT en 67 minutos》.

Al incorporar las preferencias humanas, se resuelve el difícil problema de evaluar las respuestas generadas por LLM. Las métricas de evaluación tradicionales utilizadas para evaluar LLM, como BLEU, ROUGE y BERTScore, no pueden garantizar la coherencia con las preferencias humanas. Para resolver este problema, los investigadores integraron directamente las preferencias humanas en el LLM para mejorar su rendimiento. Este proceso suele implicar dos pasos principales: aprendizaje del modelo de recompensa y formación en políticas de aprendizaje por refuerzo.

Durante la fase de aprendizaje del modelo de recompensa, se entrena una función de recompensa puntual explícita mediante indicaciones y respuestas emparejadas.

Después de eso, comienza la fase de capacitación de la política de aprendizaje por refuerzo; en esta fase, el LLM y el modelo de recompensa previamente entrenado sirven como agente y entorno en un marco de aprendizaje por refuerzo, respectivamente.

Para entrenar InstructGPT, se utilizan tres conjuntos de datos: 1. Conjunto de datos SFT: contiene demostraciones de anotadores utilizados para entrenar el modelo SFT. 2. Conjunto de datos RM (modelo de recompensa): consta de la clasificación de los resultados del modelo por parte de anotadores humanos y se utiliza para entrenar modelos de recompensa. 3.Conjunto de datos PPO: consta de indicaciones utilizadas como entrada para el ajuste fino de RLHF.

El InstructGPT capacitado será evaluado en tres aspectos: utilidad, credibilidad y nocividad.

A juzgar por los resultados, la evaluación humana muestra que "la gente prefiere la salida de la versión de parámetros 1.3B del modelo InstructGPT al 175B GPT-3, aunque este último tiene más de 100 veces menos parámetros. Vale la pena señalar que InstructGPT". tiene El rendimiento es mejor que GPT-3 tanto en tareas de utilidad como de toxicidad, que son cruciales para la alineación.

RLHF de Anthropic

Anthropic también ha estudiado el mismo tema y el artículo se titula "Formación de un asistente útil e inofensivo con aprendizaje reforzado a partir de la retroalimentación humana".

OpenAI descubrió que RLHF ayuda a la alineación, pero también puede causar una degradación del rendimiento del modelo en algunos puntos de referencia de PNL, un fenómeno conocido como "impuesto de alineación". El modelo InstructGPT desarrollado por él tiene 1.300 millones de parámetros. En cambio, los investigadores de Anthropic evaluaron siete modelos diferentes que variaban en tamaño desde 13M hasta 52B, que crecieron geométricamente en un factor de 4.

Concluyeron que existe un "impuesto" por la alineación para los modelos más pequeños, pero solo beneficios para los modelos más grandes, especialmente los modelos con tamaños de parámetros entre 13B y 52B.

Teniendo en cuenta esta ventaja de la alineación, también experimentaron con el uso de conjuntos de datos de tecnología de programación para mejorar las capacidades de LLM. El método RLHF de OpenAI incluye PPO y PPO-ptx, donde el objetivo de diseño de PPO-ptx es reducir el impuesto de alineación en el punto de referencia de NLP. El estudio RLHF de Anthropic encontró que siempre que el modelo sea lo suficientemente grande, el propio PPO puede brindar beneficios de alineación a las tareas posteriores de PNL. También determinaron que el parámetro óptimo de divergencia de KL en la formación de políticas de aprendizaje por refuerzo es β = 0,001.

RLHF en línea/iterativo

Tradicionalmente, las técnicas RLHF para alinear LLM son métodos fuera de línea. Sin embargo, este tipo de método tiene algunas desventajas, como la dificultad para tratar con datos fuera de distribución.

Para este fin, es necesario ajustar continuamente el LLM y realizar un aprendizaje iterativo/en línea, es decir, usar una estrategia intermedia para generar respuestas a las indicaciones, luego usar un oráculo para dar retroalimentación de preferencia para dichos datos emparejados y luego alimentarlos. retroalimentaciones Dar estrategia. En la práctica, el aprendizaje iterativo se divide en dos partes: aprendizaje de Oracle de preferencia y optimización de políticas iterativas. Consulte el artículo "Flujo de trabajo de RLHF: del modelado de recompensas al RLHF en línea".

2. RLAIF

El costo de obtener conjuntos de datos de preferencias humanas no es barato, por lo que nació el aprendizaje por refuerzo basado en retroalimentación de inteligencia artificial (RLAIF). Además, a medida que las capacidades de LLM continúan mejorando, la calidad de los conjuntos de datos de preferencias de IA que se pueden recopilar también continúa mejorando, lo que puede mejorar el efecto de alineación de LLM.

RLAIF de Anthropic

Basándose en el trabajo de investigación básica de RLHF, Anthropic propuso un nuevo método llamado RLAIF. Consulte el artículo "IA constitucional: inofensividad a partir de la retroalimentación de la IA".

El método consta principalmente de dos etapas: 1. Aprendizaje supervisado a través de Críticas y Revisiones, el cual está guiado por un estatuto. 2. RLAIF.

RLAIF de Google

Según los resultados de la investigación RLAIF de Anthropic, un equipo de investigación de Google cree que investigaciones anteriores no pueden comparar directamente los efectos de la retroalimentación humana y la retroalimentación de la IA, y merecen más investigaciones. En el proceso de recopilación de comentarios de la IA, se debe crear un mensaje estructurado, que consta de: introducción, algunos ejemplos de muestra (opcional), muestras a etiquetar y conclusión.

Para generar retroalimentación de IA, se debe realizar una evaluación de dos pasos: primero, dejar que el LLM genere la respuesta utilizando los 4 componentes de la instrucción más el CoT. En el siguiente paso, esta respuesta de LLM se envía de regreso a LLM con la terminación "resumen preferido=", generando así una probabilidad de preferencia de "resumen 1=0,6, resumen 2=0,4". Para reducir el sesgo posicional, es necesario alternar las secuencias de estas dos respuestas y calcular sus puntuaciones promedio.

El proceso RLAIF adopta dos estrategias: 1. "RLAIF destilado", que sigue el método RLHF tradicional, es decir, usar preferencias para entrenar un modelo de recompensa y luego usarlo para entrenar la estrategia LLM 2. "RLAIF directo", que directamente; utiliza la retroalimentación de LLM como un mensaje para generar una puntuación de evaluación, que luego se utiliza como una señal para la capacitación en políticas de aprendizaje reforzado.

Finalmente, su proceso de evaluación utiliza tres métricas clave: 1. Alineación AI-Anotador: Qué tan consistente es la IA con los anotadores humanos. 2. Tasa de victoria: la probabilidad de que un anotador humano compare dos candidatos y elija uno de ellos. 3. Tasa de inofensividad: la proporción de respuestas que los evaluadores humanos consideran inofensivas.

Para obtener más detalles, consulte el artículo "RLAIF: Ampliación del aprendizaje por refuerzo a partir de la retroalimentación humana con retroalimentación de IA".

Optimización directa de las preferencias humanas

Los métodos tradicionales de RLHF suelen implicar la optimización de una función de recompensa derivada de las preferencias humanas. Si bien es efectivo, este método también puede presentar algunas dificultades, como una mayor complejidad computacional y la necesidad de considerar compensaciones entre sesgo y varianza al estimar y optimizar las recompensas. Consulte el artículo "Control continuo de alta dimensión mediante estimación de ventajas generalizadas".

Investigaciones recientes han explorado otros métodos destinados a optimizar directamente las políticas de LLM basadas en las preferencias humanas sin depender de una señal de recompensa escalar.

Los objetivos de estos métodos son simplificar el proceso de alineación, reducir la sobrecarga computacional y permitir una optimización más sólida mediante un uso más directo de los datos de preferencias. Al enmarcar el problema como un problema de optimización de preferencias en lugar de un problema de estimación y maximización de recompensas, estos métodos pueden proporcionar una perspectiva diferente sobre cómo alinear los modelos de lenguaje con el juicio humano:

  • SliC-HF utiliza retroalimentación humana para la calibración de probabilidad de secuencia; consulte el artículo "SliC-HF: calibración de probabilidad de secuencia con retroalimentación humana".
  • RSO, optimización del muestreo de rechazo, consulte el artículo "El muestreo de rechazo estadístico mejora la optimización de preferencias".
  • DPO, optimización de preferencias directas, consulte el documento "Optimización de preferencias directas: su modelo de lenguaje es secretamente un modelo de recompensa".
  • DPOP, DPO positivo, consulte el artículo "Smaug: Corrección de modos de error de optimización de preferencias con DPO positivo".
  • β-DPO, consulte el artículo "β-DPO: optimización de preferencias directas con β dinámico".
  • IPO, optimización de preferencias de identidad, consulte el artículo "Un paradigma teórico general para comprender el aprendizaje a partir de las preferencias humanas".
  • sDPO, DPO paso a paso, consulte el documento "sDPO: No utilice todos sus datos a la vez".
  • GPO, optimización de preferencias generalizadas, consulte el artículo "Optimización de preferencias generalizadas: un enfoque unificado para la alineación fuera de línea".

DPO a nivel de token

Cuando se utiliza DPO, las recompensas se asignan a indicaciones y respuestas juntas. Por el contrario, cuando se utiliza MDP, las recompensas se asignan a acciones individuales. Los dos artículos siguientes profundizaron en DPO a nivel de token y ampliaron su aplicación al análisis a nivel de token.

  • DPO puede realizar investigaciones sobre la asignación de créditos a nivel de token. Consulte el documento "De r a Q*: su modelo de lenguaje es secretamente una función Q" y el informe "¿Es esta la misteriosa Q* de OpenAI?". Stanford: El modelo del lenguaje es la función Q.
  • TDPO, DPO a nivel de token, consulte el documento "Optimización de preferencias directas a nivel de token".

DPO iterativo/en línea

Cuando se utiliza DPO, todos los conjuntos de datos de preferencias disponibles se utilizan para alinear el LLM. Para mejorar continuamente el LLM, se debe implementar DPO iterativo/en línea. Esto plantea una pregunta interesante: cómo recopilar eficientemente nuevos conjuntos de datos de preferencias. Los siguientes dos artículos exploran este tema en profundidad.

  • Para conocer modelos de lenguaje autogratificantes, consulte el artículo "Modelos de lenguaje autogratificantes".
  • CRINGE, consulte el artículo "La pérdida vergonzosa: aprender qué lenguaje no modelar".

retroalimentación binaria

Resulta que recopilar comentarios sobre preferencias es más difícil que recopilar comentarios binarios (como gustos o disgustos), por lo que este último puede facilitar la ampliación del proceso de alineación. Los dos estudios, KTO y DRO, se centran en el uso de retroalimentación binaria para alinear LLM.

  • KTO, optimización de Kahneman-Tversky, consulte el artículo "KTO: alineación de modelos como optimización teórica de perspectivas".
  • DRO, optimización de recompensa directa, consulte el artículo "Aprendizaje por refuerzo regularizado sin conexión para la alineación de modelos de lenguaje grandes".

Fusión de SFT y alineación

Investigaciones anteriores han realizado principalmente SFT y alineación de forma secuencial, pero este enfoque ha demostrado ser laborioso y puede conducir a un olvido catastrófico. La investigación de seguimiento tiene dos direcciones: una es integrar estos dos procesos en un solo paso; la otra es ajustar los dos modelos en paralelo y finalmente fusionarlos.

  • ORPO, optimización de preferencias de odds ratio, consulte el artículo "ORPO: optimización de preferencias monolíticas sin modelo de referencia".
  • PAFT, ajuste fino paralelo, consulte el artículo "PAFT: un paradigma de entrenamiento paralelo para un ajuste fino efectivo de llm".

DPO controlado por longitud y DPO sin referencia

Investigaciones anteriores han demostrado que el resultado de un LLM suele ser demasiado detallado. Para resolver este problema, R-DPO y SimPO se centran en controlar la duración de la respuesta sin afectar el rendimiento de la generación.

Además, DPO requiere una estrategia de referencia para garantizar que el modelo alineado no se desvíe demasiado del modelo de referencia. Por el contrario, SimPO y RLOO proponen métodos que eliminan la necesidad de un modelo de referencia sin afectar el efecto LLM.

  • R-DPO, DPO regularizado, consulte el artículo "Separar la longitud de la calidad en la optimización de la preferencia directa".
  • SimPO, optimización de preferencias simples, consulte el documento "SimPO: optimización de preferencias simples con recompensa sin referencias", el informe "Superando completamente a DPO: el equipo de Chen Danqi propuso SimPO de optimización de preferencias simples y también perfeccionó el modelo de código abierto 8B más potente ".
  • RLOO, REINFORCE Leave-One-Out, artículo principal del curso "Back to basics: Revisiting reinforced style optimality for learning from human feedback in LLMs" (Volver a lo básico: Revisando la optimización del estilo de refuerzo para el aprendizaje a partir de la retroalimentación humana en los LLM).

Optimización de preferencias lista por lista

Las investigaciones anteriores sobre PPO y DPO se centraron en las preferencias por pares, mientras que las investigaciones sobre RLHF recopilaron preferencias por listas para acelerar el proceso de recopilación de datos y luego las convirtieron en preferencias por pares. No obstante, para mejorar el rendimiento de LLM, es factible utilizar directamente conjuntos de datos en forma de lista para realizar la optimización de preferencias. Los siguientes tres artículos analizan específicamente este enfoque.

  • LiPO, optimización de preferencias por lista, consulte el artículo "LIPO: optimización de preferencias por lista mediante el aprendizaje de clasificación".
  • RRHF, consulte el artículo "RRHF: Clasificar las respuestas para alinear los modelos de lenguaje con la retroalimentación humana sin lágrimas".
  • PRO, optimización del ranking de preferencias, consulte el artículo "Optimización del ranking de preferencias para la alineación humana".

optimización de preferencias negativas

Estos estudios comparten una premisa común: la generación actual de LLM ha superado el desempeño humano en tareas como la traducción y el resumen. Por lo tanto, es ventajoso tratar el resultado del LLM como una respuesta deseada sin depender del tratamiento de datos etiquetados por humanos como una respuesta preferida. Por el contrario, las respuestas indeseables aún se pueden utilizar para alinear los LLM, un proceso llamado optimización de preferencias negativas (NPO).

  • NN, método de ejemplo negativo negativo, consulte el artículo "Negación de negativos: alineación sin muestras positivas humanas mediante optimización de la diferencia distributiva".
  • NPO, optimización de preferencias negativas, consulte el artículo "Optimización de preferencias negativas: del colapso catastrófico al desaprendizaje efectivo".
  • CPO, Optimización de preferencias contrastivas, consulte el artículo "Optimización de preferencias contrastivas: superando los límites del rendimiento cinematográfico en la traducción automática".

nash aprendiendo

Los estudios anteriores suelen utilizar modelos BT y de recompensa puntual para obtener preferencias por pares. Sin embargo, este enfoque es inferior al modelado directo de preferencias por pares y no puede resolver inconsistencias en las preferencias por pares. Para superar estas limitaciones, algunos estudios han propuesto el método de aprendizaje de Nash.

  • Nash aprende de la retroalimentación humana, consulte el artículo "Nash aprende de la retroalimentación humana".
  • SPPO, optimización de preferencias de autojuego, consulte el artículo "Un enfoque minimaximalista para el aprendizaje por refuerzo a partir de la retroalimentación humana".
  • DNO, Optimización directa de Nash, consulte el artículo "Optimización directa de Nash: enseñanza de modelos de lenguaje para la automejora con preferencias generales".

Comparación de diferentes métodos.

Se han realizado algunos estudios para comparar estos diferentes métodos. Estos estudios pueden ilustrar las respectivas ventajas y desventajas de cada enfoque.

  • Evaluar DPO y sus variantes

El artículo "Información sobre la alineación: evaluación de dpo y sus variantes en múltiples tareas" evalúa de manera integral los modelos de recompensa implícita, es decir, sin algoritmos de aprendizaje por refuerzo, en múltiples tareas como razonamiento, resolución de problemas matemáticos, credibilidad, respuesta a preguntas y tareas múltiples. Comprensión incluyendo DPO, KTO, IPO y CPO. Estas evaluaciones involucran tres escenarios diferentes: 1) ajustar un modelo de ajuste fino supervisado (SFT), 2) ajustar un modelo previamente entrenado y 3) ajustar un modelo de instrucción.

El estudio encontró que KTO superó a otros métodos de alineación en la mayoría de los puntos de referencia. Además, las investigaciones muestran que la alineación no mejora significativamente el razonamiento y el rendimiento de respuesta de preguntas del modelo, pero sí mejora significativamente las capacidades de resolución de problemas matemáticos del modelo. El estudio también destacó la importancia del tamaño de los datos, ya que los métodos de alineación funcionan mejor en subconjuntos de datos más pequeños. Además, el estudio encontró que KTO y CPO pueden evitar efectivamente la etapa SFT e ingresar directamente a la etapa de alineación sin afectar el rendimiento. Por el contrario, DPO e IPO muestran una degradación significativa del rendimiento al pasar por alto la etapa SFT y entrar directamente en la etapa de alineación.

  • ¿Es DPO un mejor método de alineación de LLM que PPO?

El artículo "¿Es DPO superior a PPO para la alineación de LLM? Un estudio integral" muestra que DPO puede tener limitaciones inherentes, puede producir respuestas sesgadas y puede causar una degradación del rendimiento debido a cambios en la distribución.

Descubrieron que la política entrenada por DPO favorecía respuestas invisibles, especialmente muestras fuera de distribución. El DPO iterativo/en línea alivia este problema al explorar ampliamente el espacio de respuesta y actualizar continuamente el modelo de referencia. Por el contrario, RLHF/PPO aborda estos desafíos mediante la normalización de la dominancia, lotes de gran tamaño y el uso de promedios móviles exponenciales en un modelo de referencia. En última instancia, estos hallazgos demuestran que el PPO supera al DPO iterativo/en línea, que a su vez supera al DPO estándar.

Para obtener más detalles, consulte el artículo de la columna Heart of the Machine "ICML 2024 Oral | ¿DPO es más adecuado para LLM que PPO? El último secreto revelado por el equipo de Tsinghua Wuyi".

dirección futura

Al analizar artículos anteriores, el equipo identificó una serie de preguntas de investigación para una mayor exploración.

Tareas generales para la evaluación de la alineación.

Diferentes artículos han utilizado diferentes tareas para evaluar el desempeño de estos métodos. Sin embargo, algunas tareas como GSM8K se centran más en la inferencia y pueden no ser adecuadas para evaluar el rendimiento de la alineación. En cambio, se deben priorizar tareas como TruthfulQA o aquellas que se centran en la toxicidad para evaluar la toxicidad de los LLM ajustados. Se deben encontrar formas de combinar estas tareas para crear una lista de clasificación unificada para evaluar la alineación.

Uso de modelos de recompensa implícitos, preferencias por listas y aprendizaje de Nash para modelos de lenguaje más amplios

Actualmente, el modelo más grande que utiliza un modelo de recompensa implícita solo tiene 70 mil millones de parámetros. Si estos métodos pueden extenderse a modelos más grandes, como los del tamaño de GPT-4 y Claude-3, debería ayudarnos a comprender mejor su efectividad relativa con RLHF/PPO.

De manera similar, los modelos de preferencias por listas también merecen más estudio. Cuando se utiliza RLHF, se recopila un conjunto de datos de preferencias utilizando preferencias en forma de lista, que luego se convierten en datos de preferencias en pares. Quedan por resolver los problemas potenciales con las aplicaciones a gran escala de modelos de preferencias por listas.

Finalmente, el aprendizaje de Nash puede resolver inconsistencias entre anotadores humanos. Si el modelo de aprendizaje de Nash puede integrarse en un LLM a mayor escala, se podrá demostrar su capacidad para capturar la complejidad de la naturaleza humana.

Experimentos sobre retroalimentación binaria

Tanto KTO como DRO utilizan mecanismos de retroalimentación binaria como "me gusta" y "no me gusta" en lugar de preferencias emparejadas. Estas retroalimentaciones binarias provienen de un conjunto de datos de preferencias, donde las respuestas deseadas se etiquetan como ejemplos positivos y las respuestas no deseadas se etiquetan como ejemplos negativos. También necesitamos más investigaciones sobre conjuntos de datos binarios realistas. Además, los conjuntos de datos binarios son más fáciles de recopilar que los datos de preferencias, por lo que se espera utilizar conjuntos de datos de retroalimentación binaria más grandes para la alineación. Sin embargo, el ruido en la retroalimentación binaria puede ser más obvio que el ruido en el conjunto de datos de preferencia, por lo que cómo filtrar eficazmente los datos ruidosos también es una dirección de investigación muy interesante.

Experimentar con comentarios útiles de IA

La retroalimentación actual de la IA incluye principalmente retroalimentación inofensiva en RLAIF y clasificación de retroalimentación en DPO iterativo. Sin embargo, cuando se utiliza RLAIF, los anotadores humanos siguen proporcionando comentarios útiles. Este enfoque se justifica porque generar respuestas útiles es significativamente más difícil que identificar comentarios dañinos. Una dirección de investigación futura interesante es utilizar el LLM para generar comentarios útiles, permitiendo así que el LLM se mejore.

Acelere el aprendizaje de Nash

Los métodos de aprendizaje de Nash pueden modelar eficazmente preferencias por pares y resolver inconsistencias entre anotaciones humanas. Sin embargo, se requieren múltiples iteraciones para converger hacia la estrategia óptima. Aunque su autor no indicó explícitamente el tiempo necesario para la alineación, se puede suponer que será mucho más lento que los modelos de recompensa implícita como el DPO. Por lo tanto, mejorar la velocidad del proceso de aprendizaje de Nash también es una dirección de investigación que merece atención.

Terminación de la iteración/aprendizaje en línea

Cuando se utiliza capacitación iterativa/en línea, es fundamental determinar cuándo finalizar una iteración. Investigaciones anteriores han descubierto que el aprendizaje iterativo a veces reduce el rendimiento del LLM en determinadas tareas, lo que puede ser un signo de sobreajuste. Sin embargo, ningún investigador ha explorado todavía cómo determinar la época razonable para terminar las iteraciones.

SFT simplificado + alineación

Los enfoques actuales suelen implementar SFT y la alineación de manera secuencial. Sin embargo, este enfoque a menudo conduce a un olvido catastrófico y hace que todo el proceso de formación sea más laborioso. El método PAFT mitiga el olvido catastrófico al ajustar primero el SFT y la alineación por separado y luego fusionarlos, pero esto también aumenta la complejidad. Por el contrario, la tecnología ORPO integra ambos procesos simultáneamente, pero da como resultado una degradación del rendimiento. Entonces, ¿cómo se combinan eficazmente SFT y alineación para lograr un alto rendimiento y al mismo tiempo mantener una alta eficiencia? Éste sigue siendo un desafío que debe resolverse.

Consulte el documento original para obtener más detalles.