70-fache ultimative Komprimierung! Egal wie viele Kontrollpunkte Sie an einem großen Modell haben, Sie werden keine Angst haben

70-fache ultimative Komprimierung!Egal wie viele Kontrollpunkte Sie an einem großen Modell haben, Sie werden keine Angst haben.

2024-08-05

Die AIxiv-Kolumne ist eine Kolumne, in der Machine Heart akademische und technische Inhalte veröffentlicht. In den letzten Jahren hat die Kolumne „Heart of the Machine AIxiv“ mehr als 2.000 Berichte erhalten, die Spitzenlabore großer Universitäten und Unternehmen auf der ganzen Welt abdecken und so den akademischen Austausch und die Verbreitung wirksam fördern. Wenn Sie hervorragende Arbeiten haben, die Sie teilen möchten, können Sie gerne einen Beitrag leisten oder uns für die Berichterstattung kontaktieren. E-Mail-Adresse: [email protected]; [email protected]

Die Autoren dieses Artikels stammen alle vom Noah Laboratory von Huawei. Der erste Autor ist Li Wenshuo, und die entsprechenden Autoren sind Wang Yunhe und Chen Xinghao. In den letzten Jahren haben relevante Teams eine Reihe repräsentativer Arbeiten auf Top-Konferenzen wie ICML, CVPR, NeurIPS, ICCV und ECCV veröffentlicht. Sie haben umfangreiche Ergebnisse in Bereichen wie effizienten großen Sprachmodellen und visuellen Modellen erzielt und mit ihnen zusammengearbeitet Die institutionelle Zusammenarbeit ist umfangreich.

Als wohlverdienter „König des Verkehrs“ in der aktuellen KI-Industrie und -Wissenschaft haben große Modelle eine große Anzahl von Wissenschaftlern und Unternehmen angezogen, die Ressourcen in Forschung und Ausbildung investieren. Mit zunehmendem Maßstab sind System- und Technikprobleme zu unvermeidlichen Problemen beim Training großer Modelle geworden. Während des 54-tägigen Trainings von Llama3.1 stürzte das System beispielsweise 466 Mal ab, im Durchschnitt alle 2,78 Stunden!

Dann sind häufige Lagerkontrollpunkte erforderlich. Aber auch die Speicherung von Kontrollpunkten ist ein großes Projekt für sich.

Meta hat große Anstrengungen unternommen, um die Speicherprüfpunktzeiten zu verkürzen und die Speicherfrequenz zu erhöhen, um häufigen Systemausfällen entgegenzuwirken. Aber häufiges Speichern bedeutet auch einen hohen Speicherressourcenaufwand. Um dieser Herausforderung gerecht zu werden, ist der Trainingscluster mit einer 240-PB-SSD ausgestattet.

Die ExCP-Methode von Huawei Noah wurde ins Leben gerufen, um den enormen Speicheraufwand zu bewältigen. Sie schlugen eine extreme Komprimierungs-Checkpoint-Technologie vor, mit der das Modell verlustfrei um das 70-fache komprimiert werden kann, wodurch der Speicheraufwand während des Trainings erheblich reduziert wird.

Der Code ist jetzt Open Source und wird unter dem Apache 2.0-Framework veröffentlicht. Einige Partner in der Ausgabe haben die Ergebnisse erfolgreich reproduziert.

Artikeladresse: https://arxiv.org/abs/2406.11257
Lageradresse: https://github.com/Gaffey/ExCP

Die Methode ist auch sehr innovativ. Das eine besteht darin, die Restinformationen von Kontrollpunkten im Training zu nutzen, um durch die spärliche Informationsmenge in der Zeitreihe ein höheres Bereinigungsverhältnis zu erreichen und Gewichte werden zur Komprimierung kombiniert, um eine insgesamt hohe Komprimierungsrate zu erreichen.

spezifische Methode

1. Checkpoint-Residuen

Während des Trainingsprozesses können die aktuellen Parameter als das im vorherigen Prüfpunkt gespeicherte Gewicht plus die Summe der Gradientenaktualisierungen in aufeinanderfolgenden Iterationen betrachtet werden. Dieser Teil ist relativ spärlich und enthält weniger Informationen, sodass dieser Rest komprimiert wird Verhältnis erhalten werden kann. Im Gegenteil, der im Optimierer gespeicherte Impuls ist der gleitende Durchschnitt des ersten und zweiten Moments des Gradienten. Für den ersten Moment beträgt der Standardparameter des gleitenden Durchschnitts 0,9, der nach der Iteration im Bereich von Hunderten liegt. Es besteht keine große Korrelation mit dem am letzten Prüfpunkt gespeicherten Inhalt, sodass der Optimierer direkt seinen eigenen Wert und nicht den Rest komprimiert.Der endgültige zu komprimierende Prüfpunkt wird ausgedrückt als

2. Gewichtsoptimierende Momentum-Gelenkkompression

Bestehende Arbeiten im Zusammenhang mit der Modellkomprimierung konzentrieren sich im Allgemeinen nur auf die Inferenzleistung des Modells oder die Größe des endgültigen Speicherkontrollpunkts des Modells, berücksichtigen jedoch nicht den Speicherplatzaufwand des Modells während des gesamten Trainingsprozesses. Daher komprimieren bestehende Arbeiten nur die Gewichte und ignorieren, dass gängige Optimierer wie Adam tatsächlich doppelt so viel Impuls speichern wie die Anzahl der Gewichte. Einerseits komprimiert diese Arbeit die beiden zusammen und verbessert so das Gesamtkomprimierungsverhältnis erheblich. Andererseits nutzt sie auch die Korrelation zwischen Gewichten und Optimiererimpuls, um das Komprimierungsverhältnis des anderen weiter zu verbessern.

Gewichtsbereinigung: Da das Gewicht der Bereinigung der Restwert ist, kann das Moment zweiter Ordnung des Optimiererimpulses grob die Änderungsamplitude des Gewichtsrestwerts im vergangenen Zeitraum darstellen, also das Moment zweiter Ordnung des Optimiererimpulses kann als Indikator verwendet werden, um das Schnittverhältnis verschiedener Schichten zu bestimmen.Die Beschneidungsstrategie ist in der folgenden Formel dargestellt

In der Formel stellen W und das Gewicht bzw. das zweite Moment dar.

Optimierer-Impulsbeschneidung: Für die Impulsbereinigung können Sie das Moment erster Ordnung als Indikator für die Beschneidung verwenden. In der Arbeit finden Sie einen kurzen Beweis für die Konvergenz.Wenn gleichzeitig das Gewicht einer Position beschnitten wurde, sollte gleichzeitig auch der Optimiererimpuls der entsprechenden Position verarbeitet werden, sodass die Bereinigungsstrategie wie in der folgenden Formel dargestellt ist

Stellt in der Formel das Moment erster Ordnung dar.

3. Gesamtkomprimierungsprozess

Der gesamte Komprimierungsprozess ist in Algorithmus 1 dargestellt. Die Schritte Gewichtsrestberechnung/gemeinsame Komprimierung/ungleichmäßige Quantisierung/Codierungskomprimierung werden nacheinander ausgeführt, um das endgültige Komprimierungsergebnis zu erhalten.

Der Prozess zum Wiederherstellen der vollständigen Datei des Prüfpunkts ist wie in Algorithmus 2 dargestellt. Nach der Dekomprimierung wird das Gleitkommaergebnis zunächst aus dem nach der ungleichmäßigen Quantisierung gespeicherten Codebuch und Index wiederhergestellt und dann mit dem Basisgewicht (der vorherigen Prüfung) verglichen Das ursprüngliche Gewicht des Punktes oder das wiederhergestellte Rekonstruktionsgewicht werden addiert, um die vollständige Datei des Kontrollpunkts zu erhalten. Der Vorgang zum Wiederherstellen der Prüfpunktdateien im gesamten Trainingsprozess ist wie in Algorithmus 3 dargestellt. Nach Abschluss des Trainings werden nur die zufälligen Startwerte der Initialisierungsgewichte und die an jedem Prüfpunkt gespeicherten Komprimierungsergebnisse gespeichert, und dann werden die Prüfpunkte wiederhergestellt Sequenz, um die vollständige Sequenz zu erhalten. Eine Sequenz von Kontrollpunkten, aus der ein oder mehrere Kontrollpunkte ausgewählt werden können, um das Training/Testen usw. fortzusetzen.

Experimentelle Ergebnisse

Der Artikel bewertet nicht nur große Sprachmodelle, sondern diese Methode kann auch bei größeren visuellen Modellen wie ViT-L32 gute Ergebnisse erzielen.

Aus dem Ablationsexperiment geht auch hervor, dass die Verwendung der Restbeschneidungsmethode den durch das Beschneiden verursachten Verlust erheblich reduziert.

Der Artikel enthält auch Beispiele für Fragen und Antworten für große Sprachmodelle vor und nach der Komprimierung. Es ist ersichtlich, dass die Komprimierung selbst die Frage- und Antwortfähigkeit des Modells nicht beeinträchtigt.

Nachricht

70-fache ultimative Komprimierung!Egal wie viele Kontrollpunkte Sie an einem großen Modell haben, Sie werden keine Angst haben.

Einführung

meine Kontaktdaten