Una singola scheda gestisce Llama 3.1 405B, consentendo ai modelli di grandi dimensioni di snellirsi facilmente! Il toolkit di super compressione è qui

Una singola scheda gestisce Llama 3.1 405B, consentendo ai modelli di grandi dimensioni di snellirsi facilmente!Il toolkit di super compressione è qui

2024-08-02

Contributo del team della catena di strumenti del modello
Qubit |. Account pubblico QbitAI

Una singola scheda gestisce Llama 3.1 (405B), l'ultimo strumento di compressione per modelli di grandi dimensioni è qui!

Recentemente, Llama-3.1 ha raggiunto il vertice dell'open source, ma il suo modello più potente, la versione 405B, richiede più di 900 GB di memoria, ponendo una sfida più impegnativa alle risorse.

Strumenti e benchmark per la compressione di modelli di grandi dimensioni lanciati congiuntamente da Beihang University, SenseTime, Nanyang Polytechnic e altri teamLaurea in giurisprudenza, può risolvere molto bene questo problema.

Consente a un 80G A100 di completare la calibrazione e la valutazione di Llama 3.1 405B, ottenendo così una quantificazione a costi estremamente bassi.

Supporta più algoritmi di compressione, modelli e backend di inferenza, con forte scalabilità e capacità di valutazione complete.

Al momento, il team di ricerca ha inserito il metodo di utilizzo sulla home page di GitHub, che può essere ottenuto facendo clic sul collegamento alla fine dell'articolo.

Llama3.1 è più grande e più difficile da comprimere

La quantizzazione a bit basso è una delle tecniche comuni per risolvere problemi con risorse limitate. A tal fine, ricercatori pertinenti hanno utilizzato LLMC per eseguire la compressione quantizzata su Llama 3.1.

I risultati sono mostrati nella Tabella 1. Alcuni algoritmi in LLMC, come QuaRot e AWQ, possono mantenere efficacemente la precisione di quantizzazione sui modelli con parametri 70B e 405B. Il più semplice algoritmo di "arrotondamento" (Naive) mostra una significativa perdita di accuratezza su questi modelli su larga scala, specialmente quando le attivazioni sono quantizzate.

Il gruppo di ricerca ha scoperto che il calo dell’accuratezza della quantificazione del modello della serie Llama 3.1 è dovuto alla presenza di alcuni valori anomali o anomali nel suo tensore di attivazione che sono più significativi rispetto ad altri modelli. All’aumentare delle dimensioni del modello Llama 3.1, il fenomeno di questi valori anomali diventa più grave. I valori anomali si riferiscono a punti nei dati in cui determinati valori sono significativamente diversi da altri valori e sono uno dei fattori chiave che influenzano l'accuratezza della quantificazione.

Con l'aiuto degli strumenti LLMC, il gruppo di ricerca ha visualizzato i tensori di attivazione dell'input dei 4 strati (q_proj, o_proj, gate_proj, down_proj) del primo blocco del modello della serie Llama 3.1 (8B, 70B, 405B) (come mostrato in Figura 1-3). La parte inferiore di ciascuna sottofigura mostra la media e la deviazione standard dei valori di Kurtosi di tutti i token nel valore di attivazione di questo livello.

Dalla Figura 1-3 si può osservare che nella serie di modelli Llama 3.1 sono presenti valori anomali in alcuni canali del tensore di attivazione e questo fenomeno è più evidente nei modelli più grandi.

Pertanto si può ragionevolmente dedurre che:Sebbene il modello Llama 3.1 405B sia diventato più forte, è anche diventato più "anormale" e più difficile da quantificare.。

Lo strumento LLMC supporta una serie di algoritmi di quantizzazione per eliminare i valori anomali in modelli di grandi dimensioni, tra cui AWQ, SmoothQuant, OS+, QuaRot e così via. Come si può vedere dalla Tabella 1, questi metodi migliorano notevolmente la precisione di quantizzazione di Llama 3.1 sopprimendo efficacemente i valori anomali. Ad esempio, nella quantizzazione del modello 405B W8A8, SmoothQuant, OS+ e QuaRot possono raggiungere quasi la stessa precisione del modello a virgola mobile.

LLMC: kit di strumenti dimagranti one-stop per modelli di grandi dimensioni

△Diagramma quadro LLMC

Supporta più algoritmi . LLMC supporta più algoritmi di compressione, inclusi 16 diversi metodi di quantizzazione, che coprono la quantizzazione solo ponderata, attivata dal peso e a precisione mista. Questa diversità consente un confronto equo e un’analisi approfondita dei diversi approcci. Naturalmente, oltre alla quantizzazione, attualmente sono supportati vari tipi di algoritmi sparsi e correlati.

△Classificazione di alcuni algoritmi di compressione compatibili con l'hardware attualmente supportati da LLMC

Allineamento estremamente accurato . Il team LLMC ha condotto diversi esperimenti di allineamento confrontando diversi algoritmi di quantizzazione consolidati (LLMC rispetto alla carta/codice originale).

Le impostazioni sperimentali sono le stesse dell'articolo originale o le impostazioni predefinite del suo codice open source (mostrate nella Tabella 3).

I risultati di questi esperimenti sono riassunti nelle Tabelle 4-6. I risultati nella tabella mostrano che lo strumento LLMC è quasi coerente nelle prestazioni con gli algoritmi di quantizzazione originali riportati in letteratura. Attraverso questi esperimenti, dimostriamo che LLMC non è solo efficace ma anche affidabile nel riprodurre i risultati dei metodi di quantificazione esistenti. Ciò garantisce che il contributo dello strumento alla ricerca quantitativa LLM sia credibile e prezioso.

Quantificare a costi ultra-bassi . Il toolkit LLMC è progettato per essere efficiente in termini di risorse e in grado di eseguire modelli di grandi dimensioni con requisiti hardware minimi. Grazie al meccanismo operativo a livello di blocco singolo, è necessario un solo 80G A100 per completare la calibrazione e la valutazione di Llama 3.1 405B, ottenendo così una quantificazione a bassissimo costo.

Compatibilità backend multipla . LLMC supporta una varietà di impostazioni di quantizzazione e formati di modello ed è compatibile con più backend e piattaforme hardware, come LightLLM, TRT-LLM, PPL-LLM, vLLM, MLC-TVM e llama.cpp, rendendolo estremamente versatile.

Elevata scalabilità . Il toolkit è altamente modulare ed estensibile, in grado di adattarsi facilmente dalla quantizzazione intera alla quantizzazione in virgola mobile, dai modelli densi ai modelli Mix of Experts (MoE), dal LLM ai modelli del linguaggio visivo (VLM) e dalla quantizzazione alla sparsificazione. Questo design modulare garantisce che gli utenti possano espandere e personalizzare il toolkit in base alle proprie esigenze.

valutazione della diversità . LLMC è in grado di effettuare una valutazione completa dei modelli di compressione, fornendo indicatori e analisi di prestazione dettagliati, come perplessità (PPL), analisi di visualizzazione dei dati, curtosi (Kurtosis), distribuzione di errori e valori anomali. Questa capacità di valutazione completa garantisce che gli utenti possano prendere decisioni informate sulla migliore strategia di compressione per i loro modelli.

Il team LLMC ha rilasciato LLMC, un toolkit multifunzionale per la compressione di modelli di grandi dimensioni, che supporta più algoritmi di compressione, modelli e backend di inferenza e presenta una forte scalabilità e capacità di valutazione complete.

Questo toolkit consente agli utenti di comprimere LLM da 100 miliardi di parametri utilizzando solo una singola GPU, il che facilita notevolmente l'applicazione della quantizzazione LLM. Dotati di questo potente toolkit, i futuri ricercatori di modelli di grandi dimensioni così come gli utenti ordinari possono integrare in modo efficace algoritmi e formati adatti richiesti dalle corrispondenti piattaforme back-end per le loro applicazioni, rendendo così popolari le applicazioni di compressione di modelli di grandi dimensioni.

Indirizzo dello strumento: https://github.com/ModelTC/llmc
Indirizzo del documento: https://arxiv.org/abs/2405.06001

notizia

Una singola scheda gestisce Llama 3.1 405B, consentendo ai modelli di grandi dimensioni di snellirsi facilmente!Il toolkit di super compressione è qui

introduzione

le mie informazioni di contatto