ACL2024: Yuntian Lifei SPACE-Engine vorgestellt, große Modellbegründung könnte in eine neue Phase eintreten

ACL2024: Yuntian Lifei SPACE-Engine vorgestellt, die Überlegungen zu großen Modellen könnten in eine neue Phase eintreten

2024-08-14

Vom 11. bis 16. August fand in Bangkok, Thailand, die 62. Jahrestagung der Association for Computational Linguistics (ACL) statt.

Der Artikel „Generation Meets Verification: Accelerating Large Language Model Inference with Smart Parallel Auto-Correct Decoding“ des großen Modellteams von Yuntian Lifei wurde als ACL24 Findings Long Paper angenommen. Dies ist eine schrittweise Darstellung einiger Forschungsergebnisse des großen Modells von Yuntian Lifei.

Die ACL-Jahreskonferenz ist die weltweit führende akademische Konferenz auf dem Gebiet der Computerlinguistik und der Verarbeitung natürlicher Sprache. Sie wird von der International Association for Computational Linguistics organisiert und wird in der empfohlenen Konferenz als Klasse-A-Konferenz aufgeführt Liste der China Computer Federation (CCF).

In der ausgewählten Arbeit von Yuntian Lifei wurde die SPACE-Engine vorgeschlagen – eine innovative Lösung zur verlustfreien Beschleunigung großer Modellinferenzen. Das zeigen die Ergebnisse von Tests an verschiedenen Typen großer ModelleNach Verwendung der SPACE-Engine erhöhte sich die Inferenzgeschwindigkeit des Modells im HumanEval-Testsatz um 270–400 %.Die Qualität der Inferenzergebnisse bleibt unverändert und es kann sowohl eine „schnelle Berechnung“ als auch eine „genaue Berechnung“ erreicht werden.

Ausgewählte Artikel des großen Modellteams von Yuntian Lifei

Für gängige Argumentationslösungen ist es schwierig, „sowohl Bedürfnisse als auch Wünsche“ zu erfüllen.

RAUM istSmartPAbonnierenAauto-Crichtig DtDie Abkürzung Codierung bedeutet „intelligente parallele automatische Fehlerkorrekturdecodierung“.

Dieses Argumentationsschema weist zwei Hauptmerkmale auf: Erstens übernimmt essemi-autoregressivArgumentationsmodell, das das Denken erheblich beschleunigt; das zweite ist das HinzufügenverifizierenDiese Methode kann die Argumentationsgeschwindigkeit verbessern und gleichzeitig die Argumentationsgenauigkeit sicherstellen.

Was ist „semiautoregressiv“? Warum sollten wir eine Verifizierung hinzufügen? Bevor wir diese Probleme erklären, müssen wir zunächst verstehen, wie das aktuelle große Modell „funktioniert“.

Öffnen Sie die APP des großen Sprachmodells, geben Sie „Was ist das große Modell?“ in das Dialogfeld ein und das große Modell gibt seine Antwort Wort für Wort aus: „Das große Modell ist ein Deep-Learning-Modell mit mehreren zehn Millionen.“ Parameter.“ Der Prozess dieser Antwort kann gesehen werden Scheint sehr einfach. Tatsächlich haben große Modelle jedoch hinter den Kulissen mehrere „autoregressive“ Zyklen erlebt.

Zuerst sagt das große Modell basierend auf dem von uns eingegebenen Inhalt das erste Wort der Ausgabe voraus – „groß“, bringt dann das Wort „groß“ zurück zum Eingabeende und sagt basierend auf dem nächsten Wort voraus, welches ausgegeben werden soll Wort „groß“. Natürlich handelt es sich bei dieser „Vorhersage“ nicht um eine „blinde Vermutung“ aus dem Nichts, aber das Modell trifft eine umfassende Beurteilung auf der Grundlage der im vorherigen Trainingsprozess angezeigten Daten und wählt das Wort mit der höchsten Wahrscheinlichkeit als nächstes Ausgabewort aus .

In diesem Fall ist das zweite Ausgabewort „module“. Nach der Ausgabe des zweiten Wortes bringt das große Modell die Wörter „big modulus“ wieder zum Eingabeterminal und sagt das dritte generierte Wort voraus. Dieser Zyklus wird fortgesetzt, bis der vollständige Satz endet.

Dieser Vorgang ist „Autoregression“.

Derzeit ist die Autoregression die gängige Lösung für die Inferenz großer Modelle.Ob ChatGPT, das Open-Source-Llama oder viele große inländische Modelle, sie verwenden hauptsächlich autoregressive Inferenzlösungen.

Schematische Darstellung des autoregressiven Schemas

Auch die Vor- und Nachteile des autoregressiven Schemas liegen auf der Hand. Der Vorteil besteht darin, dass sichergestellt wird, dass die generierten Inhalte korrekt, aussagekräftig und kontextkohärent sind. Die Nachteile sind ein hoher Rechenaufwand und eine lange Inferenzverzögerung.

Um diese Probleme zu überwinden, werden von der Industrie Lösungen vorgeschlagen„Semiautoregressiv“Und„Spekulationsdekodierung“。

„Semi-autoregressiv“ ist ein Kompromiss zwischen „autoregressiv“ und „nicht-autoregressiv“. oben erwähnt,„Autoregressiv“Es verwendet die generierten Wörter, um das nächste Wort vorherzusagen.„Nicht autoregressiv“Es ist das Gegenteil von „autoregressiv“ und sagt den gesamten Satz auf einmal voraus.„Nicht autoregressiv“Die Lösung kann die Effizienz des Denkens verbessern, die Genauigkeit der Ausgabe wird jedoch erheblich verringert. Die „semiautoregressive“ Lösung berücksichtigt umfassend die Vor- und Nachteile von „autoregressiv“ und „nicht autoregressiv“, um die Geschwindigkeits- und Genauigkeitsanforderungen der Argumentation großer Modelle auszugleichen.

Die Verwendung der „semiautoregressiven“ Lösung hat jedoch neue Probleme verursacht – erstens können die meisten großen Modelle nicht verwendet werden, und zweitens kann die Genauigkeit nicht den Anforderungen der Industrie entsprechen.Mainstream-Großmodelle werden nach dem autoregressiven Inferenzmodus erstellt. Wenn Sie eine semi-autoregressive Lösung verwenden möchten, müssen Sie das große Modell von Grund auf neu trainieren. Das Training eines großen Modells erfordert viel Strom, Rechenleistung und Arbeitskraft. Fast niemand wird das schließlich trainierte große Modell stürzen und von vorne beginnen, um das Inferenzschema zu ändern.

Eine weitere Möglichkeit ist die „spekulative Dekodierung“.Dieser Plan basiert auf„Entwurf – Validieren“Für die Prozessarbeit müssen Sie zunächst ein Hilfsmodell mit einer relativ kleinen Anzahl von Parametern einführen. Das kleine Modell „entwirft“ zunächst die Kandidatenantworten, und dann überprüft das große Modell, ob die Kandidatenantworten richtig sind oder nicht. Aufgrund der Tatsache, dass kleine Modelle schneller argumentieren als große Modelle und große Modelle mehrere Kandidatenantworten gleichzeitig überprüfen können, kann diese Dekodierungsmethode nicht nur die Genauigkeit der Ausgabeergebnisse sicherstellen, sondern auch die Argumentation beschleunigen.

Diese Lösung hat jedoch auch Nachteile. Zunächst ist es notwendig, zunächst ein sehr „zuverlässiges“ kleines Modell zu erstellen und in der Lage zu sein, die Antwort schnell und genau zu „entwerfen“, was an sich schon schwierig ist. Zweitens müssen die beiden Modelle „den gleichen Text, die gleiche Spur und das gleiche System“ haben. Nur durch das Erreichen eines hohen Maßes an Konsistenz in Bezug auf Wortsegmentierer und Wortlisten können die Verifizierungsergebnisse garantiert werden.

SPACE-Inferenz-Engine – kleine Modifikationen, große Beschleunigung

Da mehrere Lösungen nicht „sowohl Bedürfnisse als auch Wünsche“ erfüllen können, gibt es eine Lösung, die nur ihre Vorteile beibehalten und ihre Mängel vermeiden kann. Dies ist die vom großen Modellteam von Yuntian Lifei vorgeschlagene SPACE-Inferenz-Engine. SPACE kombiniert die beiden Lösungen „semiautoregressive überwachte Feinabstimmung“ und „automatische Korrekturdekodierung“, um es großen Modellen zu ermöglichen, mehrere Ergebnisse in einer Inferenz zu generieren und die Ergebnisüberprüfung gleichzeitig durchzuführen, um die Qualität der generierten Ergebnisse sicherzustellen. gleichzeitig,Diese Inferenz-Engine ist für jedes große Modell geeignet. Wenn ein großes Modell diese Inferenz-Engine übernimmt, muss durch Feinabstimmung und Optimierung des Modells nicht nur kein zusätzliches Hilfsmodell trainiert werden, sondern es wird auch die Inferenzeffizienz verbessert und die parallelen Rechenressourcen wie die GPU voll ausgenutzt erreicht eine hohe Rechenleistungsauslastung.

Der Unterschied zwischen dem autoregressiven Schema (links) und dem SPACE-Schema (rechts)

Wie oben erwähnt, haben die meisten großen Sprachmodelle ihre eigenen „autoregressiven“ Eigenschaften und können die „semiautoregressive“ Lösung nicht direkt anwenden. In diesem Zusammenhang verwendet SPACE die Methode der „semiautoregressiven überwachten Feinabstimmung“. Durch überwachtes Training lernt das Modell, eine Reihe möglicher Kandidatenwörter vorzuschlagen, wenn es auf die spezielle [MASKE]-Markierung stößt (wie in der Abbildung oben gezeigt). . Dies ermöglicht es dem Modell, während des Denkens Operationen durchzuführen, die dem „Raten“ ähneln, und mehrere am wahrscheinlichsten richtige Kandidatenwörter auszugeben, wodurch es über die Fähigkeit zum semiautoregressiven Denken verfügt.

Vereinfacht gesagt kann das große Modell mit Unterstützung des Schemas „semiautoregressive überwachte Feinabstimmung“ während der Argumentation selbst „Vermutungen“ anstellen und mehrere Wörter ausgeben, die wahrscheinlich als Kandidatenantworten richtig sind.

Allerdings kann, genau wie bei der Prüfung, im Entwurf eine große Menge an Inhalten aufgeführt werden, in der Prüfungsarbeit müssen jedoch die richtigen Antworten ausgefüllt werden. Wie kann sichergestellt werden, dass die Ergebnisse korrekt sind? Dies erfordert eine Überprüfung der Ergebnisse, und genau das leistet die „automatische Korrekturdekodierung“.

Insbesondere geben wir während der Argumentation auch die vom großen Modell im vorherigen Schritt der Argumentation generierten Kandidatenwörter in das Modell ein, sodass das Modell eine Selbstprüfung durchführen und feststellen kann, ob diese Kandidatenantworten korrekt sind.

Die Beurteilungsmethode ist ebenfalls sehr einfach. Wenn das vom Modell generierte Wort mit der vorherigen Kandidatenantwort übereinstimmt, wird das Kandidatenwort als richtig angesehen. Um beim traditionellen autoregressiven Denken zu überprüfen, ob ein Wort korrekt ist, muss das Wort erneut in das Sprachmodell eingegeben werden, um auf das nächste Wort zu schließen.

Dies ist hier bei SPACE jedoch nicht erforderlich. Da wir das Kandidatenwort im Voraus in das Modell eingegeben haben und überprüft wurde, ob das Kandidatenwort korrekt ist, können wir zu diesem Zeitpunkt direkt die neue Antwort aus dem richtigen Kandidatenwort erhalten, sodass wir die Antwort nicht erneut eingeben müssen in das Modell einarbeiten und dann fortfahren. Daher besteht der Vorteil dieses Mechanismus darin, dass, wenn ein Kandidatenwort als korrekt verifiziert wird, es nicht an das Modell zurückgegeben werden muss, um die nächste Antwort zu generieren, wodurch die Argumentationszeit verkürzt wird.

Als Analogie kann das traditionelle autoregressive Denken mit einem 4×100-Meter-Staffellauf verglichen werden: Bei einem regulären Wettkampf müssen vier Athleten nacheinander den Staffelstab übernehmen, um das gesamte Rennen zu absolvieren und erfordert eine wörtliche Begründung. Im Plan von SPACE begannen die vier Athleten gleichzeitig zu laufen. Als der erste Athlet 100 Meter sprintete und den Endpunkt erreichte, erreichten auch die anderen Athleten den Endpunkt ihrer jeweiligen 100-Meter-Etappe. Allerdings muss der erste Athlet nach Erreichen der Ziellinie überprüft werden. Wenn die Überprüfung bestanden wird, kann die Punktzahl des zweiten Athleten bestätigt werden, und dann kann der zweite Athlet überprüft werden, und so weiter.

Wenn ein Athlet die Überprüfung nicht besteht, muss er zu seiner 100-Meter-Startlinie zurückkehren und erneut starten, um das Rennen zu beenden. Wenn jeder der vier Athleten die Verifizierung bestehen kann, muss diese Gruppe im besten Fall nur 1/4 der Zeit in einem regulären Spiel verbringen, um das Spiel zu beenden, und erzielt so im schlimmsten Fall einen Beschleunigungseffekt Wenn jeder Athlet die Überprüfung nicht besteht, ist die benötigte Zeit die gleiche wie bei einem regulären Wettkampf. Ob die Überprüfung bestanden werden kann, hängt hauptsächlich von der Genauigkeit der Antworten der Kandidaten ab.

Gleichzeitig fügen wir während des Inferenzprozesses des SPACE-Modells auch eine spezielle [MASK]-Kennung in die Eingabe ein, um das große Modell bei der Generierung einer aktualisierten Version der Kandidatenantwort zu unterstützen. Bei diesem Mechanismus überprüft jede Runde des Argumentationsmodells nicht nur die Genauigkeit der in der vorherigen Runde generierten Kandidatenwörter, sondern stellt auch neue Kandidatenwörter für die folgende Argumentation bereit.

Dieses Design sollVerbessern Sie die Genauigkeit der Kandidatenwörter, denn jedes Mal, wenn eine neue Antwort erscheint, werden die ursprünglichen Kandidatenwörter durch die Aktualisierung genauer. Dieser Vorgang ähnelt einer Wettervorhersage: Wir machen jeden Tag Vorhersagen über die Wetterbedingungen für die kommende Woche, und mit der Zeit nimmt die Genauigkeit der Wettervorhersagen für einen bestimmten Tag in der Zukunft allmählich zu. Dies liegt daran, dass wir im Laufe der Zeit mehr Sensordaten sammeln, wodurch wir genauere Wettervorhersagen liefern können.

Die traditionelle Verifizierungs- und Korrekturmethode ist die oben erwähnte „spekulative Dekodierung“, was bedeutet, dass Sie zuerst ein zuverlässiges kleines Modell trainieren und dann ein großes Modell verwenden müssen, um es zu überprüfen. Die Generierungsqualität des kleinen Modells hat großen Einfluss auf das Endergebnis.

SPACE hat jedoch eine neue Lösung vorgeschlagen, mit der der Zweck der Generierung und Verifizierung ohne Verwendung kleiner Modelle erreicht werden kann und die Verifizierungsarbeit und die Generierungsarbeit gleichzeitig durchgeführt werden können. Auf diese Weise können die Effizienz und Genauigkeit der Argumentation erheblich verbessert werden.

Kehren wir zum ursprünglichen Beispiel zurück. Wenn wir „Was ist ein großes Modell?“ eingeben, generiert das große Modell im SPACE-Inferenzmodus zunächst gleichzeitig und automatisch die Worte „Große Modelle haben zig Millionen Parameter“. Korrigieren Sie sie gleichzeitig. Der Decodierungsalgorithmus überprüft die generierten Wörter sofort einzeln und behält nur die Wörter mit korrekten Überprüfungsergebnissen als endgültige Antwort bei, wodurch der Effekt erzielt wird, dass im Prozess der Vorwärtsbegründung von a mehrere Wörter generiert werden großes Modell, das den Zweck der Beschleunigung erreicht.

Werfen wir abschließend einen Blick auf die Auswirkungen von SPACE.

Wir haben Experimente mit einer Reihe großer Open-Source-Sprachmodelle durchgeführt und dabei gängige große Sprachmodelle mit unterschiedlichen Parametergrößen von 6 bis 70 Milliarden abgedeckt.Wie aus der folgenden Tabelle ersichtlich ist, hat SPACE bei Modellen mit größeren Parametern deutlichere Beschleunigungseffekte.。

Darüber hinaus kann SPACE auch in Verbindung mit anderen Technologien zur Inferenzbeschleunigung verwendet werden, z. B. kontinuierliches Stapeln, Flash-Aufmerksamkeit, KV-Cache, Quantisierung usw., um eine schnellere Inferenzgeschwindigkeit zu erzielen.

Um diesen Standpunkt zu überprüfen, haben wir SPACE auf einem Mainstream-Inferenz-Framework TGI implementiert. Experimente haben gezeigt, dass der Beschleunigungseffekt von SPACE in Kombination mit anderen Inferenzbeschleunigungstechnologien ebenfalls hervorragend ist.

Große Modelle haben Eingang in Tausende von Branchen gefunden, und „Argumentation“ ist von entscheidender Bedeutung

Training und Inferenz sind die beiden Kernphasen im Lebenszyklus großer Modelle. Training löst das Problem der „Erstellung eines großen Modells von Grund auf“, während Inferenz das Problem löst, wie große Modelle auf Tausende von Branchen angewendet werden können.

Wenn das letzte Jahr als das erste Jahr der Explosion großer Modelle definiert wird, dann ist dieses Jahr das erste Jahr der Implementierung großer Modellanwendungen. Daher haben die Argumentationsfähigkeiten großer Modelle zunehmend Beachtung gefunden.

Yuntian Lifei hat viele Anstrengungen unternommen, um die Anwendung großer Modelle zu beschleunigen. In Bezug auf die Rechenleistung brachte das Unternehmen im vergangenen Jahr DeepEdge10 auf den Markt, einen Edge-Inferenzchip für große Modelle, und brachte kürzlich die Beschleunigerkarte IPU-X6000 auf den Markt, die zur Inferenzbeschleunigung verschiedener großer Modelle wie Sprache, Vision und Multi-Modelle eingesetzt werden kann. Modalität.

In Bezug auf Algorithmen schlug Yuntian Lifei die SPACE-Inferenz-Engine vor, die die Geschwindigkeit der Inferenz großer Modelle erheblich verbessert. In Bezug auf die Anwendung wurde Yuntian Lifeis selbst entwickeltes groß angelegtes Modell Yuntian Tianshu in vielen Branchen wie intelligenten Regierungsangelegenheiten, Stadtverwaltung, intelligenter Sicherheit, intelligentem Transport, intelligentem Geschäft, intelligenter Bildung usw. angewendet und dabei Industrie erforscht und geschaffen Maßstäbe.

Yuntian Lifei wird auch in Zukunft hart arbeiten und größere Beiträge zur Forschung und Entwicklung, Anwendung und Förderung großer modellbezogener Technologien leisten.

Bericht/Feedback

Nachricht

ACL2024: Yuntian Lifei SPACE-Engine vorgestellt, die Überlegungen zu großen Modellen könnten in eine neue Phase eintreten

Einführung

Meine Kontaktdaten