noticias

¡Una sola tarjeta maneja Llama 3.1 405B, lo que permite que los modelos grandes se adelgacen fácilmente!El kit de herramientas de súper compresión está aquí

2024-08-02

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Contribución del equipo de la cadena de herramientas modelo.
Qubits | Cuenta pública QbitAI

Una sola tarjeta maneja Llama 3.1 (405B), ¡la última herramienta de compresión de modelos grandes ya está aquí!

Recientemente, Llama-3.1 ha alcanzado la cima del código abierto, pero su modelo más potente, la versión 405B, requiere más de 900 GB de memoria, lo que plantea un desafío más exigente en cuanto a recursos.

Herramientas de compresión de modelos grandes y puntos de referencia lanzados conjuntamente por la Universidad de Beihang, SenseTime, el Politécnico de Nanyang y otros equipos.Licenciado en Derecho, puede resolver este problema muy bien.

Permite completar la calibración y evaluación de Llama 3.1 405B con un solo 80G A100, lo que permite la cuantificación a un costo ultrabajo.

Admite múltiples algoritmos de compresión, modelos y backends de inferencia, con una gran escalabilidad y capacidades de evaluación integrales.



Actualmente, el equipo de investigación ha incluido el método de uso en la página de inicio de GitHub, que se puede obtener haciendo clic en el enlace al final del artículo.

Llama3.1 es más grande y más difícil de comprimir

La cuantificación de bits bajos es una de las técnicas comunes para resolver problemas con recursos limitados. Con este fin, investigadores relevantes utilizaron LLMC para realizar una compresión cuantificada en Llama 3.1.

Los resultados se muestran en la Tabla 1. Algunos algoritmos en LLMC, como QuaRot y AWQ, pueden mantener efectivamente la precisión de la cuantificación en modelos con parámetros 70B y 405B. El algoritmo de "redondeo" (Naive) más simple muestra una pérdida de precisión significativa en estos modelos a gran escala, especialmente cuando se cuantifican las activaciones.



El equipo de investigación descubrió que la disminución en la precisión de la cuantificación del modelo de la serie Llama 3.1 se debe a la presencia de algunos valores atípicos o valores atípicos en su tensor de activación que son más significativos que otros modelos. A medida que aumenta el tamaño del modelo Llama 3.1, el fenómeno de estos valores atípicos se vuelve más grave. Los valores atípicos se refieren a puntos de los datos donde ciertos valores son significativamente diferentes de otros valores y son uno de los factores clave que afectan la precisión de la cuantificación.

Con la ayuda de las herramientas de LLMC, el equipo de investigación visualizó los tensores de activación de entrada de las 4 capas (q_proj, o_proj, gate_proj, down_proj) del primer bloque del modelo de la serie Llama 3.1 (8B, 70B, 405B) (como se muestra en la Figura 1-3). La parte inferior de cada subfigura muestra el promedio y la desviación estándar de los valores de Kurtosis de todos los tokens en el valor de activación de esta capa.







En la Figura 1-3 se puede encontrar que en la serie de modelos Llama 3.1, hay valores atípicos en algunos canales del tensor de activación, y este fenómeno es más obvio en modelos más grandes.

Por lo tanto, se puede inferir razonablemente que:Aunque el modelo Llama 3.1 405B se ha vuelto más fuerte, también se ha vuelto más "anormal" y más difícil de cuantificar.

La herramienta LLMC admite una serie de algoritmos de cuantificación para suprimir valores atípicos en modelos grandes, incluidos AWQ, SmoothQuant, OS+, QuaRot, etc. Como puede verse en la Tabla 1, estos métodos mejoran en gran medida la precisión de la cuantificación de Llama 3.1 al suprimir eficazmente los valores atípicos. Por ejemplo, en la cuantificación del modelo 405B W8A8, SmoothQuant, OS+ y QuaRot pueden lograr casi la misma precisión que el modelo de punto flotante.

LLMC: Kit de herramientas integral para adelgazar modelos grandes



△Diagrama del marco LLMC

Soporta múltiples algoritmos . LLMC admite múltiples algoritmos de compresión, incluidos 16 métodos de cuantificación diferentes, que cubren cuantificación de precisión mixta, activada por peso y solo por peso. Esta diversidad permite una comparación justa y un análisis en profundidad de diferentes enfoques. Por supuesto, además de la cuantificación, actualmente se admiten varios tipos de algoritmos dispersos y relacionados.



△Clasificación de algunos algoritmos de compresión compatibles con hardware actualmente admitidos por LLMC

Alineación altamente precisa . El equipo de LLMC realizó varios experimentos de alineación comparando varios algoritmos de cuantificación establecidos (LLMC frente al documento/código original).

La configuración experimental es la misma que la del artículo original o la configuración predeterminada de su código fuente abierto (que se muestra en la Tabla 3).

Los resultados de estos experimentos se resumen en las Tablas 4-6. Los resultados de la tabla muestran que la herramienta LLMC es casi consistente en rendimiento con los algoritmos de cuantificación originales informados en la literatura. A través de estos experimentos, demostramos que LLMC no solo es eficaz sino también confiable para reproducir los resultados de los métodos de cuantificación existentes. Esto garantiza que la contribución de la herramienta a la investigación cuantitativa del LLM sea creíble y valiosa.





Cuantificar a un costo ultrabajo . El kit de herramientas de LLMC está diseñado para utilizar eficientemente los recursos y ser capaz de ejecutar modelos grandes con requisitos mínimos de hardware. Gracias al mecanismo de operación de nivel de bloque único, solo se necesita un 80G A100 para completar la calibración y evaluación de Llama 3.1 405B, logrando así una cuantificación de costo ultra bajo.

Compatibilidad con múltiples servidores . LLMC admite una variedad de configuraciones de cuantificación y formatos de modelo, y es compatible con múltiples backends y plataformas de hardware, como LightLLM, TRT-LLM, PPL-LLM, vLLM, MLC-TVM y llama.cpp, lo que lo hace muy versátil.



Alta escalabilidad . El conjunto de herramientas es altamente modular y extensible, capaz de adaptarse fácilmente desde la cuantificación de números enteros a la cuantificación de punto flotante, desde modelos densos a modelos de mezcla de expertos (MoE), desde LLM a modelos de lenguaje visual (VLM), y desde cuantificación a dispersión. Este diseño modular garantiza que los usuarios puedan ampliar y personalizar el conjunto de herramientas para satisfacer sus necesidades.





evaluación de la diversidad . LLMC es capaz de realizar una evaluación integral de modelos de compresión, proporcionando indicadores y análisis de rendimiento detallados, como perplejidad (PPL), análisis de visualización de datos, curtosis (Kurtosis), error y distribución de valores atípicos. Esta capacidad de evaluación integral garantiza que los usuarios puedan tomar decisiones informadas sobre la mejor estrategia de compresión para sus modelos.



El equipo de LLMC ha lanzado LLMC, un conjunto de herramientas de compresión de modelos grandes multifuncional, que admite múltiples algoritmos de compresión, modelos y backends de inferencia, y tiene una gran escalabilidad y capacidades de evaluación integrales.

Este conjunto de herramientas permite a los usuarios comprimir LLM de 100 mil millones de parámetros utilizando una sola GPU, lo que facilita enormemente la aplicación de la cuantificación de LLM. Equipados con este poderoso conjunto de herramientas, los futuros investigadores de modelos grandes, así como los usuarios comunes, pueden integrar de manera efectiva algoritmos y formatos adecuados requeridos por las plataformas de back-end correspondientes para sus aplicaciones, popularizando así las aplicaciones de compresión de modelos grandes.

Dirección de la herramienta: https://github.com/ModelTC/llmc
Dirección del artículo: https://arxiv.org/abs/2405.06001