Eine einzige Karte verarbeitet Llama 3.1 405B, sodass große Modelle problemlos schlanker werden können! Das Super-Komprimierungs-Toolkit ist hier

Eine einzige Karte verarbeitet Llama 3.1 405B, sodass große Modelle problemlos schlanker werden können!Das Super-Komprimierungs-Toolkit ist da

2024-08-02

Beitrag des Model-Tool-Chain-Teams
Qubits |. Öffentliches Konto QbitAI

Eine einzige Karte verarbeitet Llama 3.1 (405B), das neueste Komprimierungstool für große Modelle ist da!

Kürzlich hat Llama-3.1 die Spitze der Open Source erreicht, aber sein leistungsstärkstes 405B-Versionsmodell benötigt mehr als 900 GB Speicher, was eine größere Herausforderung für die Ressourcen darstellt.

Große Modellkomprimierungstools und Benchmarks, die gemeinsam von der Beihang University, SenseTime, Nanyang Polytechnic und anderen Teams eingeführt wurdenLLMC, kann dieses Problem sehr gut lösen.

Damit kann ein 80G A100 die Kalibrierung und Bewertung von Llama 3.1 405B abschließen und so eine äußerst kostengünstige Quantifizierung erreichen.

Es unterstützt mehrere Komprimierungsalgorithmen, Modelle und Inferenz-Backends mit starker Skalierbarkeit und umfassenden Auswertungsmöglichkeiten.

Derzeit hat das Forschungsteam die Verwendungsmethode auf der GitHub-Homepage veröffentlicht, die durch Klicken auf den Link am Ende des Artikels abgerufen werden kann.

Llama3.1 ist größer und schwerer zu komprimieren

Die Low-Bit-Quantisierung ist eine der gängigen Techniken zur Lösung ressourcenbeschränkter Probleme. Zu diesem Zweck verwendeten relevante Forscher LLMC, um eine quantisierte Komprimierung für Llama 3.1 durchzuführen.

Die Ergebnisse sind in Tabelle 1 aufgeführt. Einige Algorithmen in LLMC, wie z. B. QuaRot und AWQ, können die Quantisierungsgenauigkeit bei Modellen mit 70B- und 405B-Parametern effektiv aufrechterhalten. Der einfachste „Rundungs“-Algorithmus (naiv) zeigt bei diesen groß angelegten Modellen einen erheblichen Genauigkeitsverlust, insbesondere wenn Aktivierungen quantisiert werden.

Das Forschungsteam stellte fest, dass der Rückgang der Quantifizierungsgenauigkeit des Modells der Llama 3.1-Serie auf das Vorhandensein einiger Ausreißer oder Ausreißer in seinem Aktivierungstensor zurückzuführen ist, die signifikanter sind als bei anderen Modellen. Mit zunehmender Größe des Llama 3.1-Modells wird das Phänomen dieser Ausreißer immer schwerwiegender. Ausreißer beziehen sich auf Punkte in den Daten, an denen sich bestimmte Werte erheblich von anderen Werten unterscheiden, und sind einer der Schlüsselfaktoren für die Quantifizierungsgenauigkeit.

Mit Hilfe von LLMC-Tools visualisierte das Forschungsteam die Eingabeaktivierungstensoren der 4 Schichten (q_proj, o_proj, gate_proj, down_proj) des ersten Blocks des Llama 3.1-Serienmodells (8B, 70B, 405B) (wie in Abbildung dargestellt). 1-3 ). Der untere Teil jeder Unterfigur zeigt den Durchschnitt und die Standardabweichung der Kurtosis-Werte aller Token im Aktivierungswert dieser Ebene.

Aus Abbildung 1-3 geht hervor, dass es in der Modellreihe Llama 3.1 in einigen Kanälen des Aktivierungstensors Ausreißer gibt, und dieses Phänomen ist in größeren Modellen offensichtlicher.

Daher kann vernünftigerweise gefolgert werden, dass:Obwohl das Modell Llama 3.1 405B stärker geworden ist, ist es auch „abnormaler“ und schwieriger zu quantifizieren.。

Das LLMC-Tool unterstützt eine Reihe von Quantisierungsalgorithmen zur Unterdrückung von Ausreißern in großen Modellen, darunter AWQ, SmoothQuant, OS+, QuaRot usw. Wie aus Tabelle 1 ersichtlich ist, verbessern diese Methoden die Quantisierungsgenauigkeit von Llama 3.1 erheblich, indem sie Ausreißer effektiv unterdrücken. Beispielsweise können SmoothQuant, OS+ und QuaRot bei der Quantisierung des 405B-Modells W8A8 nahezu die gleiche Genauigkeit wie das Gleitkommamodell erreichen.

LLMC: One-Stop-Toolkit zum Abnehmen großer Modelle

△LLMC-Framework-Diagramm

Unterstützt mehrere Algorithmen . LLMC unterstützt mehrere Komprimierungsalgorithmen, darunter 16 verschiedene Quantisierungsmethoden, die nur gewichtete, gewichtsaktivierte und gemischte Quantisierung abdecken. Diese Vielfalt ermöglicht einen fairen Vergleich und eine eingehende Analyse verschiedener Ansätze. Natürlich werden derzeit neben der Quantisierung auch verschiedene Arten von Sparse- und verwandten Algorithmen unterstützt.

△Klassifizierung einiger hardwarefreundlicher Komprimierungsalgorithmen, die derzeit von LLMC unterstützt werden

Hochpräzise Ausrichtung . Das LLMC-Team führte mehrere Ausrichtungsexperimente durch und verglich mehrere etablierte Quantisierungsalgorithmen (LLMC vs. Originalpapier/-code).

Die experimentellen Einstellungen sind dieselben wie im Originalpapier oder den Standardeinstellungen des Open-Source-Codes (siehe Tabelle 3).

Die Ergebnisse dieser Experimente sind in den Tabellen 4–6 zusammengefasst. Die Ergebnisse in der Tabelle zeigen, dass die Leistung des LLMC-Tools nahezu mit den ursprünglichen Quantisierungsalgorithmen übereinstimmt, über die in der Literatur berichtet wird. Durch diese Experimente zeigen wir, dass LLMC nicht nur effektiv, sondern auch zuverlässig die Ergebnisse bestehender Quantifizierungsmethoden reproduziert. Dadurch wird sichergestellt, dass der Beitrag des Tools zur quantitativen LLM-Forschung glaubwürdig und wertvoll ist.

Quantifizieren Sie zu extrem niedrigen Kosten . Das LLMC-Toolkit ist so konzipiert, dass es ressourceneffizient ist und große Modelle mit minimalen Hardwareanforderungen ausführen kann. Dank des Single-Block-Level-Betriebsmechanismus ist nur ein 80G A100 erforderlich, um die Kalibrierung und Bewertung von Llama 3.1 405B abzuschließen, wodurch eine äußerst kostengünstige Quantifizierung erreicht wird.

Kompatibilität mit mehreren Backends . LLMC unterstützt eine Vielzahl von Quantisierungseinstellungen und Modellformaten und ist mit mehreren Backends und Hardwareplattformen wie LightLLM, TRT-LLM, PPL-LLM, vLLM, MLC-TVM und llama.cpp kompatibel, was es äußerst vielseitig macht.

Hohe Skalierbarkeit . Das Toolkit ist hochgradig modular und erweiterbar und kann problemlos von der Ganzzahlquantisierung zur Gleitkommaquantisierung, von dichten Modellen zu Mix-of-Experts-Modellen (MoE), von LLM zu visuellen Sprachmodellen (VLM) und von Quantisierung zu Sparsifizierung angepasst werden. Dieser modulare Aufbau stellt sicher, dass Benutzer das Toolkit erweitern und an ihre Bedürfnisse anpassen können.

Diversitätsbewertung . LLMC ist in der Lage, Komprimierungsmodelle umfassend auszuwerten und detaillierte Leistungsindikatoren und Analysen bereitzustellen, z. B. Perplexität (PPL), Datenvisualisierungsanalyse, Kurtosis (Kurtosis), Fehler und Ausreißerverteilung. Diese umfassende Auswertungsfunktion stellt sicher, dass Benutzer fundierte Entscheidungen über die beste Komprimierungsstrategie für ihre Modelle treffen können.

Das LLMC-Team hat LLMC veröffentlicht, ein multifunktionales Toolkit zur Komprimierung großer Modelle, das mehrere Komprimierungsalgorithmen, Modelle und Inferenz-Backends unterstützt und über eine starke Skalierbarkeit und umfassende Auswertungsmöglichkeiten verfügt.

Mit diesem Toolkit können Benutzer LLM mit 100 Milliarden Parametern mit nur einer einzigen GPU komprimieren, was die Anwendung der LLM-Quantisierung erheblich erleichtert. Ausgestattet mit diesem leistungsstarken Toolkit können zukünftige Forscher großer Modelle sowie normale Benutzer geeignete Algorithmen und Formate, die von entsprechenden Back-End-Plattformen für ihre Anwendungen benötigt werden, effektiv integrieren und so Komprimierungsanwendungen für große Modelle bekannt machen.

Tool-Adresse: https://github.com/ModelTC/llmc
Papieradresse: https://arxiv.org/abs/2405.06001

Nachricht

Eine einzige Karte verarbeitet Llama 3.1 405B, sodass große Modelle problemlos schlanker werden können!Das Super-Komprimierungs-Toolkit ist da

Einführung

meine Kontaktdaten