¡Los datos de alineación de LLM se sintetizan de forma totalmente automática! Estudiante de doctorado chino de la Universidad de Washington propone el método Magpie, Macbook Air puede ejecutarlo

2024-07-26

Nuevo informe de sabiduría

Editor: Qiao Yang

[Introducción a la Nueva Sabiduría] Un artículo reciente de la Universidad de Washington y Allen AI propone un enfoque novedoso e interesante para la síntesis de datos. Descubrieron que hacer un uso completo de las características autorregresivas de LLM puede guiar el modelo para generar automáticamente datos de ajuste fino de instrucciones de alta calidad.

Los datos son cruciales para la formación de LLM, pero a menudo nos centramos en los datos de formación y evaluación, mientras que se ignoran los datos de ajuste.

Por ejemplo, aunque los modelos de la serie Llama tienen pesos abiertos (como Llama-3-Instruct), el conjunto de datos de ajuste sigue siendo privado.

Gran parte del éxito de LLM depende del ajuste de la instrucción, un proceso que permite que el modelo generalice mejor las tareas a las que no ha estado expuesto durante el entrenamiento.

Así como la efectividad de la capacitación depende de la calidad del corpus de capacitación, la efectividad del ajuste de la instrucción también depende de la disponibilidad de conjuntos de datos de instrucción de alta calidad.

Sin embargo, en comparación con el corpus de entrenamiento autosupervisado sin etiquetar, los conjuntos de datos de alineación y ajuste fino de alta calidad son más difíciles de construir y expandir porque se requieren más anotaciones manuales y existen rangos de sugerencias predefinidos.

Incluso las empresas que se especializan en proporcionar datos a los gigantes de la tecnología de IA no pueden lograr la anotación automatizada en la etapa actual, e incluso tienen que contratar profesionales con salarios elevados para participar en el ajuste y la construcción de conjuntos de datos alineados.

Alexandr Wang, director ejecutivo de Scale AI, dijo una vez:

Recientemente, un artículo publicado conjuntamente por la Universidad de Washington y la institución de investigación Allen AI se centra en cómo sintetizar datos de ajuste fino de alta calidad con LLM alineado.

Dirección del artículo: https://arxiv.org/abs/2406.08464

El método propuesto en el artículo logra la automatización de todo el proceso y no requiere ningún problema con las semillas. Lo que es aún más sorprendente es que el código no solo se puede ejecutar localmente, sino que también utiliza LLM para generar automáticamente datos muy confiables y de alta calidad.

Después de utilizar el modelo base de Llama-3-8B para ajustar el conjunto de datos SFT que generaron, obtuvieron un modelo con un rendimiento más sólido que la versión oficial optimizada Llama-3-Instruct.

El documento fue enviado y respaldado por Sebastian Raschka, una gran figura en el círculo de la IA.

Al principio, no creía que este método realmente pudiera ejecutarse localmente en MacBook Air, pero después de probarlo él mismo, se sorprendió gratamente al descubrir que realmente podía hacerlo.

Raschka es autor de varios libros técnicos de gran éxito, entre ellos "Construcción de modelos de lenguaje grandes desde cero", "Aprendizaje automático de Python", etc. Actualmente se desempeña como ingeniero de investigación en Lightning AI.

El primer autor del artículo, Zhangchen Xu, es un estudiante de doctorado de segundo año en el Laboratorio de Seguridad de Redes de la Universidad de Washington y estudia con la profesora Radha Poovendran. Sus intereses de investigación son la seguridad, la privacidad y la equidad del aprendizaje automático, y actualmente lo está. centrándose en cómo construir un LLM confiable.

Entonces, echemos un vistazo más de cerca a cómo se implementa este método eficiente de síntesis de datos.

Descripción general del método

Una entrada típica de LLM generalmente consta de 3 partes:

- plantilla de consulta previa

- Consulta de contenido (consulta)

- Plantilla posterior a la consulta

Dos de las plantillas generalmente están predefinidas por el desarrollador del modelo para garantizar que el modelo se solicite correctamente.

Por ejemplo, la forma de entrada de Llama-2-chat es:

[INST] Hola! [/INST]

En estudios anteriores, generalmente existen dos métodos para construir conjuntos de datos de ajuste fino. Una es dejar que los humanos lo hagan directamente, lo que obviamente consume tiempo y recursos. El segundo es comenzar con una pequeña cantidad de instrucciones iniciales anotadas manualmente y llamar a LLM a través de indicaciones para sintetizar más instrucciones.

Aunque el segundo método ahorra mano de obra, pone a prueba el nivel de ingeniería rápida y la selección de los problemas iniciales de semillas. En otras palabras, es difícil lograr una expansión controlable a gran escala.

Un problema más grave es que las instrucciones sintetizadas suelen estar muy cerca de las instrucciones semilla, lo que afectará gravemente la diversidad de conjuntos de datos a gran escala. La creación de conjuntos de datos de instrucción diversos y de alta calidad de manera escalable sigue siendo un problema desafiante en el campo LLM.

Sin embargo, el autor hizo un descubrimiento interesante en los primeros experimentos: debido a las características autorregresivas de LLM, cuando solo se ingresa la plantilla de consulta previa, el modelo sintetizará automáticamente la consulta y, desde el punto de vista del contenido, parece tener buena calidad y diversidad. Esto demuestra que puede explotar eficazmente las capacidades aprendidas durante el proceso de alineación.

Inspirado por esto, el autor propuso la siguiente idea para construir un conjunto de datos de instrucción: usar la plantilla de consulta previa como mensaje, ingresarla en el LLM alineado y generar automáticamente datos de instrucción.

Como se muestra en la figura siguiente, cada instancia de datos de instrucción contiene uno o más pares instrucción-respuesta, y se especifican las funciones de proveedor y seguidor de instrucciones.

La Figura 1 describe la canalización generada automáticamente por todos los datos, que se divide aproximadamente en dos pasos.

El primero es la generación de instrucciones. El método MAGPIE construye el contenido de la consulta en el formato de la plantilla de instrucción predefinida de LLM, pero solo incluye al proveedor de instrucciones (como el usuario) y no incluye el contenido de instrucción específico.

Usando esto como entrada LLM, el modelo generará instrucciones de manera autorregresiva. Este proceso garantiza la diversidad de instrucciones generadas, ya que no se requieren habilidades de ingeniería de sugerencias específicas ni se utilizan preguntas iniciales.

En el segundo paso, MAGPIE ingresa las instrucciones generadas previamente a LLM para obtener el contenido de la respuesta.

Al repetir repetidamente los dos pasos anteriores, se pueden obtener múltiples rondas de datos de instrucción. Si desea generar datos para un campo específico, puede hacerlo agregando las indicaciones correspondientes.

Después de obtener los resultados de la generación original, el autor también los filtró según la longitud del texto, la categoría de la tarea, la calidad de la entrada, la dificultad de la entrada y otros indicadores.

El documento utiliza dos modelos, Llama-3-8B-Instruct y Llama-3-70B-Instruct respectivamente, para construir dos conjuntos de datos MAGPIE-Air y MAGPIE-Pro, y brinda ejemplos de instrucciones generadas en el apéndice:

Como puede ver, la calidad del texto es realmente buena y completamente comparable a las instrucciones escritas por humanos.

Sin embargo, para evaluar la calidad de datos a tan gran escala, no podemos confiar únicamente en sentimientos subjetivos, por lo que el autor realizó un análisis cuantitativo del conjunto de datos de instrucción generado MAGPIE-Pro.

Análisis de conjuntos de datos

Cobertura

Para considerar la diversidad de textos de instrucción, una métrica eficaz es la cobertura de incrustaciones de texto en el espacio semántico.

El autor tomó muestras aleatorias del texto de instrucciones de MAGPIE-Pro, lo codificó en vectores de incrustación y lo proyectó en un espacio bidimensional utilizando el método t-SNE para comparar, incluidos Alpaca, Evol Instruct y UltraChat.

Cada punto de proyección t-SNE en la siguiente figura representa 10.000 instrucciones seleccionadas al azar. Se puede ver que la proyección de MAGPIE-Pro cubre básicamente el alcance de los otros tres conjuntos de datos, lo que demuestra que proporciona un tema más amplio y diverso.

Atributos de comando

El artículo utiliza el modelo Llama-3-8B-Instruct para evaluar varios atributos de los datos de instrucción MAGPIE, como la categoría de la tarea, la calidad, la dificultad, la similitud y la calidad de la respuesta de la instrucción.

Las categorías de tareas para generar instrucciones son principalmente recuperación de información, que representan más de la mitad, y también incluyen escritura creativa, búsqueda de consejos, planificación, matemáticas, razonamiento, lluvia de ideas y edición, etc., que son básicamente consistentes con las necesidades principales de los usuarios humanos. .

La calidad y dificultad de las instrucciones también se evalúan automáticamente utilizando el modelo Llama-3-8B-Instruct.

Se puede ver que en ambos conjuntos de datos, la mayoría de los casos se consideran promedio o superiores, y la calidad general de MAGPIE-Pro es mejor que la de MAGPIE-Air.

La distribución de la dificultad de las instrucciones del conjunto de datos es básicamente similar, con más del 60% concentrado en el nivel "fácil", y el conjunto de datos Pro es un poco más desafiante que el Air.

Al calcular la similitud de las instrucciones, el grado de diversificación se puede evaluar desde otro aspecto. El artículo utiliza FAISS para buscar los vecinos más cercanos de cada texto incrustado y calcular la distancia entre ellos para medir el grado de similitud.

En términos de calidad de la respuesta, se utiliza FsfairX-LLaMA3-RM-v0.1 como modelo de evaluación de recompensas y URIAL como modelo de referencia para la comparación. Una diferencia de recompensa positiva indica una mayor calidad, lo que resulta beneficioso para el proceso de ajuste de la instrucción.

Como se puede ver en la Figura 5b, la distribución de datos de MAGPIE se desplaza hacia la derecha en su conjunto y tiene un valor máximo más bajo que el modelo de referencia, lo que indica que la calidad general de la respuesta es mejor.

seguridad

Además, en términos de seguridad de los comandos, el autor utilizó Llama-guard-2 para la evaluación automática y descubrió que la mayor parte del conjunto de datos MAGPIE es seguro, pero aún contiene menos del 1% de comandos o resultados de respuesta dañinos.

Evaluación de resultados

Uno de los aspectos más destacados de esta investigación son sus costos de funcionamiento eficientes y su proceso totalmente automatizado sin ninguna intervención manual.

Al crear el conjunto de datos MAGPIE-Air de 3M, se utilizaron cuatro GPU A100 para completar la generación de comando/respuesta en 1,55 horas/50 horas. Generar el conjunto de datos 1M MAGPIE-Pro lleva 3,5 horas/150 horas respectivamente.

Si se ejecuta en un servidor en la nube, el coste también es muy considerable. Cuesta $0,12 o $1,10 por cada 1.000 instancias generadas, según el conjunto de datos Air o Pro.

Para reflejar verdaderamente las ventajas del método MAGPIE, el documento en realidad aplica el conjunto de datos al ajuste fino del modelo base y lo compara con la versión ajustada lanzada oficialmente.

El autor seleccionó como referencia los 6 conjuntos de datos de ajuste fino de instrucciones de código abierto más avanzados, como ShareGPT y Evol Instruct. Entre ellos, ShareGPT y WildChat están escritos por humanos, y Evol Instruct y UltraChat son conjuntos de datos sintéticos.

Los modelos base ajustados incluyen Llama-3 y Qwen-1.5, y se seleccionan dos indicadores ampliamente utilizados, AlpacaEval y Arena-Hard, para evaluar el rendimiento.

De la comparación detallada de datos entre las dos tablas, se puede encontrar que, independientemente del modelo base que se utilice, el conjunto de datos generado por el método MAGPIE tiene mayor calidad, es mejor que todos los conjuntos de datos de referencia y es mejor que los datos oficiales. establecido en la mayoría de los indicadores Lanzado modelo ajustado.

A medida que la ley de escala de LLM toca gradualmente el muro de datos, el método de este artículo abre otra puerta de esperanza para los datos sintéticos. Quizás utilizando algoritmos y técnicas cuidadosamente diseñados, los datos sintéticos de LLM puedan convertirse gradualmente en el "pilar" de los conjuntos de datos públicos.

Referencias:

https://arxiv.org/abs/2406.08464

noticias

¡Los datos de alineación de LLM se sintetizan de forma totalmente automática! Estudiante de doctorado chino de la Universidad de Washington propone el método Magpie, Macbook Air puede ejecutarlo

Introducción

Mi información de contacto