noticias

¡Una evaluación de 10,000 palabras de grandes conjuntos de datos de ajuste de instrucciones de modelos! Producido conjuntamente por Tencent y la Universidad Jiao Tong de Shanghai

2024-08-15

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

  • Contribuido por Tencent Youtube Lab
    Qubits | Cuenta pública QbitAI

Con el rápido desarrollo de modelos grandes, el ajuste de instrucciones juega un papel crucial en la mejora del rendimiento del modelo y las capacidades de generalización.

Sin embargo, los métodos de evaluación y selección de datos para conjuntos de datos de ajuste de instrucciones aún no han formado un sistema unificado y falta una revisión exhaustiva y profunda.

Para llenar este vacío, Tencent Youtu Lab publicó una revisión completa para solucionarlo.

Tiene más de 10.000 palabras e incluye más de 400 documentos.



Este estudio cubre los métodos de evaluación y selección de datos en tres aspectos principales: calidad, diversidad e importancia, cada uno de los cuales está clasificado y elaborado en detalle.

Al mismo tiempo, el autor también presta atención a los últimos avances y tendencias en este campo, incluidas algunas tecnologías y métodos emergentes, como el uso de potentes modelos de lenguaje como GPT para la puntuación de datos, muestreo Coreset basado en optimización de dos capas, etc. .

Evaluación integral de conjuntos de datos de ajuste de instrucciones

El objetivo de desarrollo de los LLM es desbloquear la capacidad de generalización de las tareas de procesamiento del lenguaje natural (NLP), en las que el ajuste de las instrucciones juega un papel importante y la calidad de los datos es crucial para el efecto del ajuste de las instrucciones.

Los autores llevan a cabo un estudio en profundidad de los métodos de evaluación y selección de datos para varios conjuntos de datos de ajuste de instrucción, clasificándolos y elaborándolos desde tres aspectos: calidad, diversidad e importancia.



★Evaluación y selección de calidad.

"Calidad" se refiere principalmente a la integridad, precisión y razonabilidad de los puntos de datos de respuesta al comando. Los métodos existentes generalmente desarrollan un mecanismo de puntuación unificado para considerar estas dimensiones de manera integral.

En cuanto a la calidad del conjunto de datos, el autor resume principalmente cuatro métodos de prueba:

  • El primero es diseñar indicadores manualmente, como el uso de vocabulario, sintaxis, similitud semántica, etc. para evaluar la calidad de los datos. La ventaja es que el cálculo del indicador es claro, pero no puede detectar pares instrucción-respuesta que no coinciden.
  • El segundo es utilizar indicadores basados ​​​​en modelos. Este método utiliza un modelo entrenable (como el uso de perplejidad, evaluador de puntuación multidimensional, etc.), combinado con una tecnología híbrida de múltiples indicadores conscientes de la capacitación (como incertidumbre, puntuación de recompensa). , etc.). Este método tiene el potencial de seleccionar muestras imparciales de alta calidad.
  • El tercer método es entregarlo directamente a GPT y llamar a las API de OpenAI para calificar automáticamente el conjunto de datos de ajuste de instrucciones. Este método está altamente alineado con las preferencias humanas. Después de recopilar una pequeña cantidad de muestras de puntuación de GPT, ajuste el LLM de código abierto. para la medición de la calidad puede mejorar la rentabilidad.
  • Finalmente, existe la evaluación manual. Este método es indispensable al construir conjuntos de datos de alineación de preferencias y puede proporcionar datos de alta calidad para el entrenamiento del modelo. Sin embargo, existe el problema de la inconsistencia del etiquetado que debe formularse y complementarse con otras medidas. como puntuación GPT.

★Evaluación y selección de diversidad.

La diversidad aquí se refiere a la diversidad individual (como el vocabulario y la riqueza semántica) y la diversidad general (como la distribución de datos) del conjunto de datos de instrucciones. Elegir un conjunto de datos con diversidad puede mejorar la capacidad de generalización del modelo.

El autor también resume cuatro formas de probar la diversidad de conjuntos de datos.

  • Indicadores diseñados manualmente: incluida la diversidad léxica (como la proporción de token de tipo, vocd-D, MTLD, HD-D, etc.) y la diversidad semántica (como el cálculo de la distancia mediante el gráfico k-NN, el cálculo de la varianza mediante la incrustación de BERT, etc. ), etc. tipo de indicador.
  • Métricas basadas en modelos: evalúe la diversidad a través de métodos relacionados con la entropía (como la entropía básica, la entropía de Rényi, el índice de Simpson, la puntuación de Vendi, etc.), incorporaciones de Task2Vec, marcadores de diversidad de etiqueta abierta, etc.
  • Muestreo de conjuntos de núcleos basado en características geométricas: seleccione el subconjunto más informativo y diverso a través de métodos codiciosos, de pastoreo y otros de centro k para representar el conjunto de datos completo, de modo que el rendimiento de entrenamiento del modelo en el subconjunto sea cercano al rendimiento de entrenamiento en el conjunto de datos completo, la tecnología de agrupación juega un papel en la explicación de la estructura de datos.
  • Muestreo de conjuntos de núcleos basado en dos niveles: trate el muestreo de conjuntos de núcleos como un problema de optimización de dos niveles, seleccionando subconjuntos optimizando máscaras duras o pesos suaves, lo que implica la optimización de los parámetros internos del modelo y el bucle externo de selección de datos. Se introducen algunos métodos. mediante conjunto de validación, técnicas de optimización y coincidencia de gradientes, etc. para mejorar la solidez y la eficiencia.

★Evaluación y selección de importancia.

La importancia se refiere a la necesidad de muestras para el entrenamiento del modelo, que está relacionada con la tarea del modelo y también con el rendimiento. Es posible que las muestras fáciles no requieran ajustes adicionales, mientras que las muestras difíciles son fundamentales para el entrenamiento del modelo.

Existen varios indicadores y métodos principales para evaluar la importancia:

  • Métricas diseñadas a mano: evalúe la dificultad del texto a través de métricas de legibilidad (como gramática, vocabulario, dependencias de inferencia, etc.), seleccione muestras desafiantes para evaluar la solidez del modelo y cree puntos de referencia de PNL discriminativos.
  • Indicadores basados ​​en modelos: incluida la incertidumbre (como la incertidumbre inmediata), puntuaciones de recompensa (utilizando el modelo de recompensa para juzgar la necesidad de muestras para el comportamiento del modelo) y modelos de datos (como predecir el impacto de los puntos de datos en el comportamiento del modelo a través del modelo de datos). DSIR basado en la distribución Puntuación de importancia de estimación de similitud, MATES selección continua del subconjunto más efectivo, Xie et al seleccionan muestras similares a la distribución objetivo mediante remuestreo de importancia) y otros métodos.
  • Muestreo de conjuntos de núcleos basado en pérdida y error: estimación de la importancia registrando los errores de las muestras en el entrenamiento (como olvidar la puntuación, memorización, influencia, etc.), seleccionando muestras que contribuyen en gran medida a la pérdida o conducen a un rendimiento deficiente; algunos estudios utilizan una aproximación iterativa y agentes pequeños El modelo acelera el cálculo de los efectos marginales.
  • Muestreo de conjunto de núcleos basado en gradientes: utiliza las características de los gradientes para afectar directamente la optimización del modelo de lenguaje, seleccionados mediante la coincidencia de gradientes (como aproximar el gradiente de todo el conjunto de datos) y la influencia basada en gradientes (como medir el impacto de las muestras en los parámetros del modelo). mediante multiplicación de gradiente ponderado superior) Datos, algunas técnicas (como la búsqueda de similitud de gradiente de rango bajo, la aproximación de muestra móvil, etc.) se utilizan para acelerar los cálculos y mejorar la eficiencia, mientras que se debe considerar la precisión y la eficiencia de la aproximación.



Desafíos actuales y direcciones futuras

Los autores encontraron una brecha entre la efectividad de la selección de datos y el desempeño informado del modelo en los puntos de referencia, debido a razones que incluyen una mala correlación entre la pérdida de evaluación y el desempeño de los puntos de referencia, contaminación del conjunto de pruebas, etc.

En el futuro, será necesario crear puntos de referencia especializados para evaluar modelos de ajuste de instrucciones y puntos de datos seleccionados, y desacoplar la selección de datos y la evaluación de modelos para excluir el impacto de la contaminación de datos.

Actualmente no existe un estándar unificado para distinguir las instrucciones "buenas" y "malas". Los métodos de medición de calidad existentes son específicos de la tarea y carecen de interpretabilidad. En el futuro, se necesitarán definiciones más unificadas y universales y una mejor interpretabilidad de los procesos de selección para adaptarse a diferentes. necesidades de las tareas posteriores.

A medida que se expande el conjunto de datos, determinar el índice de selección óptimo se vuelve difícil debido al aumento de ruido, sobreajuste y problemas de olvido. Se recomienda determinar el mejor índice de selección mediante esquemas de medición de calidad, enfatizando la diversidad y considerando la similitud con los datos previos al entrenamiento. Ratios de selección óptimos y canales de escalabilidad optimizados para la evaluación y selección de datos.

Además de los conjuntos de datos, el tamaño de los modelos grandes también está aumentando, lo que hace que la evaluación y selección de datos sea menos rentable, lo que requiere el desarrollo de modelos sustitutos eficientes y, al mismo tiempo, repensar las técnicas tradicionales de aprendizaje automático, como las técnicas de optimización y los métodos de reducción de dimensionalidad.

Página de inicio del proyecto:
https://github.com/yuleiqin/fantastic-data-engineering
Dirección del papel:
https://arxiv.org/abs/2408.02085