Meta stellt das Skalierungsgesetz in Frage und veröffentlicht MobileLLM, ein kleines 350-Millionen-Modell für Mobilgeräte mit einer Leistung, die mit 7B LLaMA-v

Meta stellt das Skalierungsgesetz in Frage und veröffentlicht MobileLLM, ein kleines 350-Millionen-Modell auf der mobilen Seite mit einer Leistung, die mit 7B LLaMA-v vergleichbar ist

2024-07-22

Neuer Weisheitsbericht

Herausgeber: Qiao Yang

[Einführung in die neue Weisheit] Das Skalierungsgesetz ist noch nicht am Ende und „kleine Modelle“ sind nach und nach zu einem Trend geworden, den Technologiegiganten aufholen. Die kürzlich von Meta veröffentlichte MobileLLM-Serie wurde sogar auf weniger als 1 B skaliert. Die beiden Versionen verfügen nur über 125 Mio. bzw. 350 Mio. Parameter, haben jedoch eine bessere Leistung als größere Modelle erzielt.

Auf den Pressekonferenzen mehrerer Technologieriesen im Mai und Juni können wir bereits vage einen wichtigen Entwicklungstrend der KI erahnen: vom Cloud-Rechenzentrum zum Einzelnutzer, vom großen Server zum Notebook und Mobilgerät.

Das Befolgen des Skalierungsgesetzes ist nicht mehr der einzige Weg, und die Geschichte der Models, die „mit kleinen Mitteln große Erfolge erzielen“, geht weiter.

Zuerst hat Microsoft es aktualisiert; dann hat Google es verwendet.

Was die Hardware angeht, haben wir gesehen, dass KI-Funktionen nach und nach tief in elektronische Produkte integriert werden.

Beispielsweise ist die berüchtigte Recall-Funktion von Microsoft ein wichtiger Teil davon; Apple hat auch Apps unter dem Dach von Apple Intelligence auf den Markt gebracht und strebt eine nahtlose Integration mit iOS an.

Heutzutage erreichen die Parameter von LLM oft mehrere zehn Milliarden. Die Parameter von Apple 3B sind bereits sehr klein, aber für mobile Geräte wie Mobiltelefone gibt es immer noch einen hohen Schwellenwert.

Es verwendet nicht nur ein 2-Bit- und 4-Bit-Komprimierungsmodell mit gemischter Präzision (durchschnittlich 3,5 Bit pro Gewicht), sondern erfordert zum Betrieb auch mindestens 8 GB Speicher und einen M1-Chip.

Ein kürzlich von Meta veröffentlichtes Papier zeigt, dass die Anzahl der Parameter des neu vorgeschlagenen MobileLLM-Modells weiter reduziert werden kann, aber die Leistung ist immer noch beeindruckend.

Papieradresse: https://arxiv.org/abs/2402.14905

LeCun befürwortete diese Forschung auch persönlich in einem Tweet und lobte eine Reihe von Operationen, die die Anzahl der Parameter reduzierten.

Dieses Papier wurde von ICML 2024 angenommen und der Modelltrainingscode wurde als Open Source auf GitHub bereitgestellt.

GitHub-Adresse: https://github.com/facebookresearch/MobileLLM

Einführung

Lassen Sie uns zunächst eine Hypothese aufstellen. Wenn GPT-4 (mit etwa 1 Billion Parametern) im Leben mit einer Inferenzgeschwindigkeit von 50 Token/s eingesetzt wird, welche Art von Hardware benötigen Sie?

Die Antwort lautet 100 Millionen H100-GPUs. Ganz zu schweigen von mobilen Geräten, sie können nicht zu Hause platziert werden.

Was wäre also, wenn wir den Standard senken und ein Modell wie LLaMA-v2 7B, gepaart mit 8-Bit-Quantisierung, verwenden würden?

Eine einfache Berechnung zeigt, dass allein das Speichern von Modellparametern etwa 7 GB erfordert, es handelt sich jedoch nicht um Speicherplatz, sondern um wertvollen Betriebsspeicherplatz (DRAM).

Darüber hinaus kann der DRAM durch das KI-Modell nicht vollständig belegt werden. Unter Berücksichtigung des Betriebs des Betriebssystems und anderer Anwendungen darf der LLM-Speicheranteil 10 % nicht überschreiten.

Den Statistiken in Abbildung 2 zufolge sind kürzlich von verschiedenen Marken herausgebrachte Mobilgeräte im Allgemeinen mit 6 bis 12 GB DRAM ausgestattet. Das bedeutet, dass die Parametergröße des Modells auf <1B reduziert werden sollte, wenn Sie es erfolgreich auf einem Mobiltelefon bereitstellen möchten.

Nicht nur der Speicher, sondern auch der Stromverbrauch ist ein großes Problem. Der Energieverbrauch des 7B-Modells beträgt etwa 0,7 J/Token, und bei einem voll aufgeladenen iPhone gehen etwa 50 kJ verloren. Berechnet: Wenn die Generierungsgeschwindigkeit 10 Token/s beträgt, können Sie mit einer vollständigen Ladung Ihres Mobiltelefons nur 2 Stunden lang mit dem Modell sprechen.

Basierend auf den oben genannten Überlegungen ist es eine idealere Wahl, ein <1B-Modell auf dem mobilen Endgerät bereitzustellen. Daher liegt die Parametergröße von MobileLLM bei 125M/350M, was eine Größenordnung weniger ist als das 3B-Modell von Apple Man kann ihn als den „Mini unter den Minis“ bezeichnen.

Aber lassen Sie sich nicht durch das Skalierungsgesetz einschränken. Kleine Parameter bedeuten keine schwachen Fähigkeiten. Die Bedeutung der Modellarchitektur sollte wieder in den Blickpunkt kommen.

MobileLLM erreicht nicht nur SOTA-Leistung in Modellen gleicher Größe, sondern schlägt auch vor, dass die Tiefe der Architektur wichtiger ist als die Breite. Ein „tiefes und schmales“, „schlankes“ kleines Modell kann auch abstrakte Konzepte lernen.

Architektur und Methoden

Bei nur 125 Mio./350 Mio. Parametern ist die Optimierung des Architekturdesigns innerhalb eines begrenzten Bereichs zu einem wichtigen Thema geworden.

Für LLM <1B hat der Autor vier effektive Architekturdesigntechniken untersucht.

1) Verwenden Sie das SwiGLU-Feedforward-Netzwerk

2) Machen Sie die Gesamtform des Netzwerks „lang und schmal“, also tief und schmal

3) Verwenden Sie die Einbettungs-Freigabemethode erneut

4) Verwenden Sie den gruppierten Abfrageaufmerksamkeitsmechanismus (gruppierte Abfrageaufmerksamkeit).

Auf dieser Grundlage schlug der Autor auch eine blockweise Schichtteilungsmethode vor, die die Modellgenauigkeit weiter verbessern kann, ohne zusätzlichen Speicheraufwand zu verursachen, jedoch auf Kosten einer Erhöhung der Inferenzverzögerung des Decodierungsprozesses.

Dieses Modell mit zusätzlichem Layer-Sharing-Mechanismus trägt die Bezeichnung MobileLLM-LS.

Widerlegung des Skalierungsgesetzes: Die architektonische Gestaltung kleiner Modelle ist sehr wichtig

Das Papier, in dem das Skalierungsgesetz für 2020 vorgeschlagen wird, geht davon aus, dass die Menge der Trainingsdaten, die Menge der Parameter und die Anzahl der Trainingsiterationen die Schlüsselfaktoren sind, die die Leistung bestimmen, und die Auswirkungen der Modellarchitektur nahezu ignoriert werden können.

Der Autor dieses Artikels schlug jedoch durch vergleichende Experimente vor, dass dieses Gesetz nicht für kleine Modelle gilt.

Wenn die Modellparameter auf 125 M oder 350 M festgelegt sind, weist das „schmale“ Modell mit 30 bis 42 Schichten eine deutlich bessere Leistung auf als das „kurze und fette“ Modell mit etwa 12 Schichten (Abbildung 4). , Leseverständnis usw. 8 Bei allen Benchmarks gibt es ähnliche Trends.

Dies ist tatsächlich eine sehr interessante Entdeckung, da in der Vergangenheit beim Entwurf von Architekturen für kleine Modelle in der Größenordnung von 125 MB im Allgemeinen nicht mehr als 12 Schichten gestapelt wurden.

Warum zum „Code-Sharing“ zurückkehren?

Die Methode „Embedding Sharing“ wurde zuerst von kleinen Modellen wie OPT vorgeschlagen, da die Parameter der Codierungsschicht im kleinen Modell einen erheblichen Anteil ausmachen.

Beispielsweise wird in einem 125M-Modell eine Kodierung mit einer Kontextlänge von 32k und einer Dimension von 512 verwendet. Die Eingabe- und Ausgabekodierungsebenen enthalten 16M-Parameter, was 20 % ausmacht.

Im Vergleich dazu ist die Anzahl der Codierungsschichtparameter großer Modelle vernachlässigbar. Im LLaMA-7B sank dieser Anteil beispielsweise auf 3,7 %, im LLaMA-70B betrug er sogar nur noch 0,7 %. Daher ist Shared Coding für LLM entbehrlich.

Die Veralterung des Code-Sharings im Zeitalter großer Modelle bedeutet nicht, dass diese Technologie nicht mehr für kleine Modelle geeignet ist. Sie kann die Modellarchitektur kompakter und effizienter machen.

Wie in Tabelle 1 gezeigt, behielt das Modell nach der Codefreigabe insgesamt immer noch seine ursprüngliche Leistung bei, reduzierte jedoch die Gesamtparametermenge um 16 Millionen und verbesserte sich bei einigen Benchmarks sogar.

Layer-Sharing-Mechanismus

Wie bereits erwähnt, ergaben die experimentellen Ergebnisse der Arbeit, dass die „Schlankheit“ kleiner Modelle der Leistungsverbesserung zuträglich ist. Daher dachte der Autor: Wenn ein Layer-Sharing-Mechanismus eingeführt wird, wäre das nicht gleichbedeutend mit einer Erhöhung der Modelltiefe, während die Gesamtzahl der Parameter unverändert bleibt?

Experimente haben gezeigt, dass diese Methode tatsächlich die Leistung verbessern kann, und in der Arbeit wurden auch verschiedene Layer-Sharing-Methoden verglichen (Abbildung 6). Nach Abwägung von Gerätespeicher, Leistung und Inferenzlatenz wurde schließlich eine sofortige blockweise Freigabe (sofortige blockweise Freigabe) durchgeführt , Abbildung 6b).

Bewertungsexperiment

Der Autor erstellte MobileLLM/MobileLLM-LS-Modelle mit 125M- und 350M-Parametern und trainierte sie anhand eines 1T-Datensatzes.

Das vorab trainierte Modell wird an mehreren Datensätzen ohne Stichproben getestet, einschließlich häufig verwendeter Benchmarks wie ARC-easy, ARCchallenge, HellaSwag, WinoGrande, TQA und RACE.

Tabelle 3 zeigt die Bewertungsergebnisse des Zero-Sample-Common-Sense-Argumentation. Die MobileLLM-Serie hat im Wesentlichen umfassende SOTA erreicht und übertrifft nicht nur die zuvor veröffentlichten klassischen Modelle wie OPT und BLOOM, sondern auch besser als das kürzlich veröffentlichte GPT-neo, Galactica. RWKV und andere Parameter.

In Bezug auf die Beantwortung von Fragen und das Leseverständnis schneidet MobileLLM immer noch gut ab (Tabelle 4). Im Vergleich zu anderen Modellen weisen der 125M und der 325M MobileLLM eine Verbesserung von >6,4 Punkten bzw. etwa 10 Punkten bei der TQA auf.

Nachgelagerte Aufgaben

Neben der Bewertung von Benchmark-Tests berücksichtigt der Beitrag auch die unterschiedlichen Anforderungen an das Modell bei der Umsetzung von Anwendungsszenarien und führt entsprechende Auswertungen durch.

AlpacaEval und MT-Bench testen die Leistung des Modells in Einzelrunden- und Mehrrunden-Chat-Aufgaben. Im Vergleich zu den anderen drei Basismodellen weist MobileLLM immer noch die beste Leistung auf und kann sogar 350 Millionen Parameter verwenden, um die Leistung anderer zu übertreffen Parameter >1B Modelle.

Abgesehen vom Dialog kann der EM-Score von MobileLLM im API-Aufrufszenario mit dem von LLaMA-v2 mit 7B-Parametern übereinstimmen.

Darüber hinaus ist MobileLLM auch sehr kompatibel mit der Quantisierung (PTQ). Nach der W8A8-Quantifizierung sank die Leistung des Modells um weniger als 0,5 Punkte und es ist immer noch mit dem Layer-Sharing-Mechanismus kompatibel, sodass es sich an den Einsatz unter strengeren Hardwarebedingungen anpassen kann.

Über den Autor

Der korrespondierende Autor dieses Artikels, Zechun Liu, ist Forschungswissenschaftler bei Meta Reality Labs. Sie schloss ihr Studium an der Fudan University mit einem Bachelor ab und erlangte einen Ph.D. an der Hong Kong University of Science and Technology. Bevor sie zu Meta kam, war sie mehr als zwei Jahre lang Gastwissenschaftlerin an der CMU.

Zechuns Forschungsinteressen sind die Anwendung von Deep Learning in realen Szenarien, wie z. B. die Einschränkungen unzureichender Ressourcen, der Kompromiss zwischen Rechenressourcen und Genauigkeit usw., mit einem Schwerpunkt auf Netzwerkbinarisierung und -quantisierung, Netzwerkkanalbereinigung und Architektur Design und Wissensdestillation usw.

Verweise:

https://x.com/ylecun/status/1810035281472491665

https://arxiv.org/abs/2402.14905

Nachricht

Meta stellt das Skalierungsgesetz in Frage und veröffentlicht MobileLLM, ein kleines 350-Millionen-Modell auf der mobilen Seite mit einer Leistung, die mit 7B LLaMA-v vergleichbar ist

Einführung

meine Kontaktdaten