noticias

La Universidad de Ciencia y Tecnología de China se asoció con Huawei Noah Entropy Law para revelar el rendimiento y la tasa de compresión de datos de modelos grandes

2024-07-22

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

La columna AIxiv es una columna donde Machine Heart publica contenido académico y técnico. En los últimos años, la columna Heart of the Machine AIxiv ha recibido más de 2.000 informes, que cubren los mejores laboratorios de las principales universidades y empresas de todo el mundo, promoviendo eficazmente los intercambios y la difusión académicos. Si tiene un trabajo excelente que desea compartir, no dude en contribuir o contactarnos para informarnos. Correo electrónico de envío: [email protected]; [email protected];

Este trabajo fue completado por el equipo del miembro del IEEE Chen Enhong del Laboratorio Nacional Clave de Inteligencia Cognitiva de la Universidad de Ciencia y Tecnología de China y el Laboratorio Arca de Noé de Huawei. El equipo del profesor Chen Enhong está profundamente involucrado en los campos de la minería de datos y el aprendizaje automático, y ha publicado muchos artículos en las principales revistas y conferencias. Los artículos de Google Scholar han sido citados más de 20.000 veces. El Laboratorio Arca de Noé es el laboratorio de Huawei dedicado a la investigación básica sobre inteligencia artificial. Se adhiere al concepto de igual énfasis en la investigación teórica y la innovación de aplicaciones, y está comprometido a promover la innovación y el desarrollo tecnológico en el campo de la inteligencia artificial.

Los datos son la piedra angular del éxito de los grandes modelos de lenguaje (LLM), pero no todos los datos son beneficiosos para el aprendizaje de modelos. Intuitivamente, se espera que las muestras de alta calidad sean más eficientes en la enseñanza de LLM. Por lo tanto, los métodos existentes suelen centrarse en la selección de datos basada en la calidad. Sin embargo, la mayoría de estos métodos evalúan diferentes muestras de datos de forma independiente, ignorando los complejos efectos combinatorios entre muestras. Como se muestra en la Figura 1, incluso si cada muestra tiene una calidad perfecta, su combinación aún puede ser subóptima debido a la redundancia o inconsistencia de la información mutua. Aunque el subconjunto basado en la calidad consta de las tres muestras de calidad, el conocimiento que codifican es en realidad redundante y conflictivo. Por el contrario, otro subconjunto de datos que consta de varias muestras de calidad relativamente inferior pero diversas puede transmitir más información en la enseñanza de LLM. Por lo tanto, la selección de datos basada en la calidad no es totalmente consistente con el objetivo de maximizar el conocimiento del LLM.

Este artículo tiene como objetivo revelar la relación intrínseca entre el desempeño del LLM y la selección de datos. Inspirándonos en la naturaleza de la compresión de información de LLM, descubrimos una ley de entropía que vincula el rendimiento de LLM con la tasa de compresión de datos y la pérdida de los pasos anteriores del entrenamiento del modelo, que refleja respectivamente el grado de redundancia de información del conjunto de datos y el efecto inherente. de LLM en el conjunto de datos. El grado de dominio del conocimiento. A través de derivaciones teóricas y evaluaciones empíricas, encontramos que el rendimiento del modelo está inversamente relacionado con la relación de compresión de los datos de entrenamiento, lo que generalmente resulta en una menor pérdida de entrenamiento. Con base en los hallazgos de la ley de entropía, proponemos un método de selección de datos general y muy eficiente para entrenar LLM, llamado ZIP, cuyo objetivo es priorizar subconjuntos de datos con bajas tasas de compresión. ZIP selecciona con avidez diversos datos en múltiples etapas y, en última instancia, obtiene un subconjunto de datos con buena diversidad.



Equipo: Equipo de Chen Enhong en el Laboratorio Nacional Clave de Inteligencia Cognitiva de la Universidad de Ciencia y Tecnología de China, Laboratorio Arca de Noé de Huawei

Enlace del artículo: https://arxiv.org/pdf/2407.06645

Enlace del código: https://github.com/USTC-StarTeam/ZIP



Figura 1

Ley de entropía

Realizamos un análisis teórico de la relación entre la compresión de datos y el rendimiento del LLM. Intuitivamente, la exactitud y diversidad de los datos de entrenamiento afectarán el rendimiento del modelo final. Al mismo tiempo, el rendimiento del LLM puede ser subóptimo si los datos tienen graves conflictos inherentes o si el modelo no comprende bien la información codificada en los datos. Con base en estos supuestos, denotamos el desempeño de LLM como Z, que se espera que se vea afectado por:

Relación de compresión de datos R: intuitivamente, un conjunto de datos con una relación de compresión más baja indica una mayor densidad de información.

Pérdida de entrenamiento L: indica si los datos son difíciles de recordar para el modelo. Bajo el mismo modelo base, una alta pérdida de entrenamiento generalmente se debe a la presencia de ruido o información inconsistente en el conjunto de datos.

Coherencia de los datos C: la coherencia de los datos se refleja en la entropía de la probabilidad del siguiente token dada la situación anterior. Una mayor coherencia de los datos generalmente conduce a una menor pérdida de entrenamiento.

Calidad promedio de los datos Q: refleja la calidad promedio de los datos a nivel de muestra, que se puede medir a través de varios aspectos objetivos y subjetivos.



Con base en la ley de la entropía, proponemos dos inferencias:

Si C se trata como una constante, la pérdida de entrenamiento se ve directamente afectada por la relación de compresión. Por lo tanto, el rendimiento del modelo está controlado por la relación de compresión: si la relación de compresión de datos R es mayor, entonces Z suele ser peor, lo que se verificará en nuestros experimentos.

Con la misma relación de compresión, una mayor pérdida de entrenamiento significa una menor coherencia de los datos. Por tanto, el conocimiento efectivo aprendido por el modelo puede ser más limitado. Esto se puede utilizar para predecir el rendimiento de LLM en diferentes datos con una relación de compresión y calidad de muestra similares. Más adelante mostraremos la aplicación de este razonamiento en la práctica.

ZIP: un algoritmo de selección de datos muy ligero

Bajo la guía de la ley de entropía, propusimos ZIP, un método de selección de datos que selecciona muestras de datos a través de la tasa de compresión de datos, con el objetivo de maximizar la cantidad de información efectiva con un presupuesto de datos de entrenamiento limitado. Por razones de eficiencia, adoptamos un paradigma codicioso iterativo de múltiples etapas para obtener soluciones aproximadas de manera eficiente con tasas de compresión relativamente bajas. En cada iteración, primero utilizamos una etapa de selección global para seleccionar un grupo de muestras candidatas con una relación de compresión baja para encontrar muestras con alta densidad de información. Luego empleamos una etapa de selección local de grano grueso para seleccionar un conjunto de muestras más pequeñas que tengan la redundancia más baja con las muestras seleccionadas. Finalmente, utilizamos una etapa de selección local detallada para minimizar la similitud entre las muestras que se agregarán. El proceso anterior continúa hasta que se obtienen datos suficientes. El algoritmo específico es el siguiente:



Resultados experimentales

1. Efectividad del algoritmo de selección ZIP para diferentes LLM y en diferentes etapas de alineación de LLM

Al comparar diferentes algoritmos de selección de datos SFT, el modelo entrenado en base a datos de selección ZIP muestra ventajas en rendimiento y también es superior en eficiencia. Consulte la siguiente tabla para obtener resultados específicos:



Gracias a las características de ZIP independientes del modelo y del contenido, también se puede aplicar a la selección de datos en la etapa de alineación de preferencias. Los datos seleccionados por ZIP también muestran grandes ventajas. Consulte la siguiente tabla para obtener resultados específicos:



2. Verificación experimental de la ley de la entropía.

Con base en el experimento de selección de datos SFT, ajustamos múltiples curvas de relación según el efecto del modelo, la tasa de compresión de datos y la pérdida del modelo en los pasos anteriores del entrenamiento. Los resultados se muestran en la Figura 2 y la Figura 3, de las cuales podemos observar la estrecha correlación entre los tres factores. En primer lugar, los datos con una tasa de compresión baja generalmente conducen a mejores resultados del modelo. Esto se debe a que el proceso de aprendizaje de los LLM está altamente relacionado con la compresión de información. Podemos pensar en el LLM como un compresor de datos, por lo que los datos con una tasa de compresión más baja significan más cantidad. conocimiento y por lo tanto más valioso para el compresor. Al mismo tiempo, se puede observar que los índices de compresión más bajos suelen ir acompañados de mayores pérdidas de entrenamiento. Esto se debe a que los datos que son difíciles de comprimir contienen más conocimiento, lo que plantea mayores desafíos para que LLM absorba el conocimiento que contiene.



Figura 2 Mistral-7B



Figura 3 Llama-3-8B

3.Aplicación práctica de la ley de la entropía.

Proporcionamos una aplicación de una ley de entropía para guiar las actualizaciones incrementales de los datos de capacitación de LLM en escenarios reales. En este escenario de tarea, la cantidad de datos de entrenamiento permanece relativamente estable y solo se modifica una pequeña parte de los datos.Los resultados se muestran en la Figura 4, donde



Son 5 versiones de datos que se actualizan gradualmente de forma incremental. Debido a requisitos de confidencialidad, solo se proporciona la relación relativa de los efectos del modelo bajo diferentes tasas de compresión. De acuerdo con las predicciones de la ley de entropía, suponiendo que la calidad de los datos no disminuye significativamente después de cada actualización incremental, se puede esperar que el rendimiento del modelo mejore a medida que disminuye la tasa de compresión de datos.Esta predicción es consistente con la versión de datos en la figura.

Los resultados son consistentes.Sin embargo, la versión de los datos

Muestra aumentos inusuales en la pérdida y la compresión de datos, lo que indica una posible degradación en el rendimiento del modelo debido a una menor coherencia en los datos de entrenamiento. Esta predicción fue confirmada aún más por una evaluación posterior del desempeño del modelo. Por lo tanto, la ley de entropía se puede utilizar como principio rector del entrenamiento LLM para predecir el riesgo potencial de falla del entrenamiento LLM sin entrenar el modelo en el conjunto de datos completo hasta la convergencia. Esto es particularmente importante dado el alto costo de la formación de LLM.



Figura 4