Mi información de contacto
Correo[email protected]
2024-08-19
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
Nuevo informe de sabiduría
Editor: Qiao Yang
[Introducción a la Nueva Sabiduría]Cada vez más estudios han descubierto que el postentrenamiento es igualmente importante para modelar el rendimiento. Nathan Lambert, investigador de aprendizaje automático en Allen AI, publicó recientemente una publicación de blog técnico que resume las recetas de entrenamiento post-modelo utilizadas por los gigantes tecnológicos.
Con el rápido desarrollo de los círculos académicos e industriales de LLM, no solo la potencia informática y los datos utilizados para la capacitación previa se están desarrollando locamente, sino que los métodos de alineación y ajuste de la capacitación posterior también se actualizan constantemente.
Los modelos lanzados anteriormente, como InstructGPT y WebGPT, utilizan métodos RLHF estándar, y el estilo y la escala de gestión de datos que contienen parecen estar desactualizados.
En los últimos meses, gigantes de la IA como Meta, Google y NVIDIA han lanzado modelos de código abierto, acompañados de artículos o informes detallados, incluidos , , , y el informe del modelo básico de Apple Intellegence.
A partir de esta información revelada, podemos ver algunas tendencias de vanguardia en los métodos posteriores al entrenamiento. El científico investigador de Allen AI, Nathan Lambert, publicó recientemente un artículo sobre este tema.
Dirección original: https://www.interconnects.ai/p/frontier-model-post-training
El Dr. Nathan Lambert se graduó en UC Berkeley, dirigió el equipo RLHF en HuggingFace y actualmente es investigador de aprendizaje automático en Allen AI.
En su artículo, señala que los datos sintéticos, el entrenamiento iterativo, las etiquetas de preferencia humana y el filtrado extenso son características comunes de los métodos de post-entrenamiento utilizados en estos modelos. Específicamente, la nueva receta post-entrenamiento se basa en los siguientes ajustes preestablecidos:
-Los datos sintéticos pueden ser de mayor calidad que los datos humanos, especialmente para tareas desafiantes.
- RLHF puede escalar a escalas mayores que el ajuste fino de instrucciones
- Se requieren múltiples rondas de entrenamiento y generación para obtener el mejor modelo.
- El filtrado de datos es la parte más importante del entrenamiento.
Estos supuestos están en gran medida entrelazados para formar un régimen de entrenamiento que puede ampliarse a equipos grandes, lo que lo hace ideal para los gigantes tecnológicos. El contenido específico del artículo proporciona una explicación detallada de los cuatro puntos anteriores.
El nuevo oleoducto estándar
Si consideramos que la puntuación de ChatBot Arena mide el rendimiento del modelo posterior al entrenamiento, que está relacionado en gran medida con el estilo y la solidez, casi todos los laboratorios importantes han logrado ganancias significativas a través del entrenamiento iterativo.
Todavía tenemos que ver el lanzamiento de Gemini 2 o GPT-5, que pueden restablecer el paradigma actual posterior al entrenamiento y potencialmente desbloquear un control más profundo sobre nuestros modelos.
Pero desde el punto de vista actual, los métodos utilizados por varios laboratorios importantes obviamente están convergiendo, y esta tendencia es mucho más clara de lo esperado.
Datos de preferencia humana
El proceso inicial de RLHF se centra en datos humanos, que se presentan en dos formas principales: 1) datos humanos para ajustar instrucciones para tareas especializadas; 2) datos de preferencias humanas sobre la finalización de tareas;
Estos conjuntos de datos de ajuste son costosos y están estrictamente protegidos. Hasta donde yo sé, el único público es No Robots, que Lambert lanzó cuando estaba en el equipo de HuggingFace.
Dirección del almacén: https://huggingface.co/datasets/HuggingFaceH4/no_robots
Los datos de preferencia humana están relacionados en gran medida con mejoras en modelos específicos. Pero incluso cuando los datos pueden ser abiertos, no hay certeza de que las preferencias de un modelo puedan transferirse a otro.
Lambert y su equipo hicieron un intento similar con HuggingFace, pero fracasó con un pequeño contrato de datos pagos.
En este momento, el único aspecto en el que se utilizan datos humanos son los datos de preferencias. A juzgar por los datos revelados por Llama 2 y otros rumores, Meta puede haber gastado entre 10 y 20 millones de dólares en datos de preferencias, o incluso más. Esto también se limita al modelo final publicado y no incluye experimentos ni evaluaciones más amplias.
Nemotron utiliza una gran cantidad de datos sintéticos para reemplazar los datos humanos, pero en términos relativos, el ajuste de este modelo no es tan bueno.
Existe un desafío urgente, pero también una oportunidad, para la comunidad abierta: determinar el alcance de la intervención humana en este tipo de datos y si puede ser reemplazado por métodos como LLM-as-a-Judge o modelos de recompensa.
ExtendidoRLHF
Thomas Scialom, jefe de alineación de Llama 3, dijo en el podcast Latent Space:
RLHF es mucho más escalable. Cuesta menos, es más fácil de operar y, en general, da como resultado un mejor rendimiento.
También dijo que usaría "el 100% del presupuesto de datos de alineación para los datos de alineación requeridos en la etapa RL, en lugar de dedicar más tiempo a las instrucciones".
La mayoría de los esfuerzos de alineación de código abierto se centran en el ajuste fino de la instrucción extendida (IFT o SFT). IFT es fácil de operar, adecuado para una variedad de tareas y fácil de usar con datos sintéticos.
Pero está claro que la industria sólo utiliza el IFT como punto de partida para expandir el RLHF. Los datos SFT se centran principalmente en áreas específicas que los modelos anteriores no cubrieron y luego amplían RLHF sobre esta base.
RLHF es un proceso iterativo y el proceso de generación del modelo le permite seguir mejorando. El entrenamiento de 5 rondas se detalla en los artículos de Llama 2 y Nemotron, pero no sabemos si existe un límite superior para este número.
Llama 3.1 se entrenó con 6 rondas de datos de preferencia, Llama 2 se entrenó con 5 rondas, Nemotron se entrenó con 4 rondas y antes hubo varias rondas de ajuste de instrucción.
Para los datos de preferencia humana, las iteraciones múltiples pueden estar impulsadas principalmente por consideraciones de viabilidad:
1. Los datos se transfieren de la empresa de anotaciones al laboratorio en lotes.
2. Realizar múltiples rondas de capacitación a pequeña escala puede reducir el riesgo de entrega del producto final. En lugar de esperar a que todos los datos estén disponibles antes de comenzar el entrenamiento, deje que el modelo vaya encaminándose gradualmente.
Estos factores prácticos pueden parecer intrascendentes, pero a menudo desencadenan ciertas normas industriales.
La siguiente imagen es del documento Llama 2, que registra datos relacionados con 5 rondas de muestreo de rechazo y PPO.
Nemotron también realiza ajustes SFT de 2 ruedas y alineación de 4 ruedas. Entre ellos, RPO es un modelo de recompensa ponderado con un optimizador de DPO.
Métodos iterativos RLHF similares se remontan a la "Inteligencia artificial constitucional" propuesta por Anthropic, pero la comunidad de código abierto no parece haber reproducido este resultado a gran escala.
Actualmente, la comunidad académica está prestando atención a la "formación de DPO en línea", que tiene una dirección similar, pero no presta tanta atención a los datos entre rondas. Actualmente, este enfoque todavía requiere mucho trabajo manual, pero una vez que el proceso se automatice, el DPO en línea será el futuro.
De hecho, la selección del algoritmo de cada equipo para la fase posterior al entrenamiento no debería ser tan rígida. DPO y PPO tienen cada uno sus propias ventajas y desventajas. El primero es más fácil de escalar, pero los métodos inspirados en PPO (como RL en línea) tienen un límite superior de rendimiento más alto.
Actualmente, estos enfoques están motivados principalmente por la simplicidad, ya que estos equipos todavía son relativamente nuevos y construyen sistemas modulares, y un miembro del equipo posterior a la capacitación de Llama 3 confirmó este enfoque hacia la simplicidad de la ingeniería.
Llama 3 tiene un ciclo post-entrenamiento simple: muestreo de rechazo, SFT y DPO. Esto no sólo da como resultado un rendimiento óptimo a nivel empírico sino que también permite la reproducibilidad. Además, los equipos pueden explorar muchos flujos de trabajo diferentes (por ejemplo, codificación, matemáticas) de forma asincrónica, reuniendo datos en el mismo bucle simple.datos sintéticos
Una parte importante de este nuevo ciclo RLHF son los datos de comando sintéticos que exceden las capacidades humanas en la mayoría de las tareas.
Si puede mejorar un poco el modelo y generar mejores instrucciones, entonces "comience de nuevo" y actualice los puntos de control.
Meta afirma explícitamente en el documento que "utilizan el modelo 405B para mejorar la calidad posterior al entrenamiento de nuestros modelos más pequeños"; Google lo hace destilando Gemini Flash, pero de hecho la mayoría de los modelos de vanguardia probablemente incluyen algunos pasos similares.
Escuché que OpenAI está utilizando 50 billones de tokens de datos para entrenar el modelo de próxima generación, la mayoría de los cuales son datos sintéticos. El año pasado hubo un rumor de que Anthropic tenía un "corpus de IA de Constitución a escala previa al entrenamiento", lo que ahora parece razonable.
Estas empresas de IA se dieron cuenta de la importancia de los datos sintéticos hace 12 a 18 meses, cuando ya no utilizaban los resultados del modelo para el entrenamiento de autoiteración. Pero Meta es diferente porque se beneficia de otros modelos abiertos mejores.
Una mirada al post-entrenamiento de hoy deja claro que el problema de los fallos del modelo en datos sintéticos es muy exagerado. El colapso del modelo solo ocurre cuando se descartan los datos originales y solo los datos nuevos generados se dejan en un entorno configurado artificialmente.
La calidad de los datos es el rey
Gran parte del informe Llama 3.1 trata sobre los detalles de la gestión de datos, y cada subárea relevante requiere instrucciones de gestión amplias y específicas.
Esto es consistente con lo que sé del equipo posterior a la capacitación dirigido por John Schulman en OpenAI y otros equipos similares: especifique un dominio específico, obtenga datos relevantes y el modelo mejorará.
Pero sin una gestión y un filtrado de datos exhaustivos, ninguno de los métodos RLHF anteriores funcionará.
En Allen AI, comenzamos a priorizar más los datos en el proceso posterior al entrenamiento y usted puede sentir inmediatamente el cambio en la velocidad de mejora del modelo.
Estudio de caso: Nemotrón y Llama
El proceso post-entrenamiento de Llama es el siguiente:
Esta imagen de Nemotron es relativamente simple:
En conjunto, podemos ver lo que la mayoría de los métodos tienen en común.
Pero el cuadro siguiente y la mayoría de los artículos de investigación de la industria ignoran los datos.
Modelos como Llama 3.1 han mencionado muchos detalles en el informe, como regularización, ajuste de la función de pérdida, promedio del modelo, etc., pero estas son ganancias marginales en el rendimiento del modelo y están en gran medida más allá del alcance del ciclo central de ajuste. .
En cierto momento, estos detalles se volverán insignificantes.
Referencias:
https://www.interconnects.ai/p/frontier-model-post-training