Die erste Blogserie des ehemaligen Google-Wissenschaftlers Yi Tay mit dem Titel „The Story of LLM“: Warum ist BERT verschwunden?

2024-07-21

Neuer Weisheitsbericht

Herausgeber: Yongyong Qiao Yang

[Einführung in die neue Weisheit]Der ehemalige Google-Wissenschaftler Yi Tay hat die Blog-Reihe „Modellarchitektur im LLM-Zeitalter“ ins Leben gerufen. Im ersten Blogbeitrag geht es darum, wie BERT, das auf der Nur-Encoder-Architektur basiert, durch T5, das auf der Encoder-Decoder-Architektur basiert, ersetzt und analysiert wurde Aussterben von BERT Die ganze Geschichte und die Vor- und Nachteile verschiedener Architekturmodelle Die Geschichte als Lektion zu nehmen ist von großer Bedeutung für zukünftige Innovationen.

Yi Tay, ein ehemaliger Google-Wissenschaftler, der gerne bloggt, war in letzter Zeit zu gelangweilt, um zu fliegen, deshalb schrieb er einen ausführlichen Artikel über ein Thema, das viele Menschen derzeit beschäftigt – das Auf und Ab von Modellarchitekturen in der LLM-Ära .

Dieses Mal versuchte Yi Tay, alles zu enträtseln, was in der neuen LLM-Ära passiert, zum Thema „Was ist mit BERT und T5 passiert?“? Auch über den Aufstieg und Fall des Transformer-Encoders, PrefixLM und Rauschunterdrückungsziele.

Blog-Adresse: https://www.yitay.net/blog/model-architecture-blogpost-encoders-prefixlm-denoising

Warum ist das reine Encoder-Modell „nicht mehr beliebt“? Warum ist BERT so mächtig, kann es aber nicht „skalieren“?

Es ist schwer, das Gesamtbild zu sehen, wenn man darin ist. Zu diesen Themen, die den Menschen in der Branche Kopfzerbrechen bereiten, teilte Yi Tay seine Beobachtungen und Gedanken mit.

Und Yi Tay sagte auch, dass dies nur der erste einer Reihe von Blogbeiträgen sei und man sich auf weitere Inhalte von ihm zum Thema „Modellarchitektur im LLM-Zeitalter“ freuen könne.

Beschlossen, eine neue Blog-Reihe mit Updates zur Modellarchitektur im LLM-Zeitalter zu starten. Nachfolgend finden Sie Teil 1, der die breitere Architektur von Transformer-Encodern/Encoder-Decodern, PrefixLM und Rauschunterdrückungszielen abdeckt. Eine Frage, die sich viele Leute stellen werden, ist: „Menschen, die sich vor etwa fünf Jahren mit Sprach- und NLP-Forschung beschäftigten, fragten sich, wo die Encoder-Modelle geblieben sind. Wenn BERT so gut funktioniert, warum nicht seinen Umfang erweitern?“ Was ist außerdem mit dem Encoder-Decoder- oder reinen Encoder-Modell passiert? Ist das Rauschunterdrückungsziel gut? Ich teile meine Gedanken in diesem Blogbeitrag.

Yi Tay ist ein echter „Geschichtenerzähler“ in der LLM-Ära. In seinem Blog hat er die Entwicklung der Modellarchitektur in den letzten Jahren prägnant zusammengefasst und seine eigenen Erkenntnisse dargelegt.

Hintergrund

Um auch Menschen, die nicht so technikaffin sind, das Lesen zu erleichtern, erläuterte Yi Tay zunächst den Hintergrund der Geschichte.

In der Modellarchitektur gab es in den letzten Jahren drei wichtige Paradigmen.

Nur-Encoder-Modelle (wie BERT), Encoder-Decoder-Modelle (wie T5) und Nur-Decoder-Modelle (wie die GPT-Serie).

Aber die Menschen sind über diese Aufteilung sehr verwirrt und es gibt viele Missverständnisse, daher ist dies der Zweck von Yi Tay, der diesen Blogbeitrag schreibt. Er hofft, allen zu einem klareren Verständnis zu verhelfen.

Zunächst muss klargestellt werden, dass das Encoder-Decoder-Modell tatsächlich immer noch ein autoregressives Modell ist. Der Decoder im Encoder-Decoder-Modell ist im wahrsten Sinne des Wortes und im Wesentlichen immer noch ein Kausaldecoder.

Der Text wird zuerst an den Encoder übergeben und dann über den Cross-Attention-Mechanismus an den Decoder gesendet, anstatt das Decodermodell vorab zu füllen.

Daher ist das T5-Modell auch ein Sprachmodell!

Eine Variante davon ist das Prefix Language Model oder die PrefixLM-Architektur, die bis auf den Cross-Attention-Mechanismus fast dasselbe tut. (Und einige andere kleine Details, wie z. B. Gewichtsverteilung zwischen Encoder/Decoder und kein Encoder-Engpass)

PrefixLM wird manchmal als nicht-kausaler Decoder bezeichnet. Kurz gesagt, Encoder-Decoder, Encoder-only und PrefixLM sind nicht so unterschiedlich!

Wenn Sie diesbezüglich immer noch Zweifel haben, hat Yi Tay auch einen Hinweis gegeben – Hyung Wons wunderbare Rede in Stanford im April dieses Jahres, in der er die Beziehung zwischen diesen Modellen geschickt erläuterte.

Vorlesungsadresse: https://www.youtube.com/watch?v=orDKvo8h71o

Gleichzeitig ist die Entrauschungsmethode von Nur-Encoder-Modellen wie BERT anders (d. h. direkt vor Ort) und beruht in gewissem Maße auf zusätzlichen „Aufgabenköpfen“, die mit dem vorab trainierten Basismodell ausgeführt werden .

Das Entrauschungsziel von BERT wurde später auf Modelle wie T5 angewendet, jedoch mit bestimmten Modifikationen und einem Sequenz-zu-Sequenz-Format.

Allerdings ist es erwähnenswert, dass die Rauschunterdrückung in T5 nicht unbedingt eine neue Zielfunktion an sich ist (im Sinne des maschinellen Lernens), sondern eher eine Datentransformation über Eingaben hinweg, d Ziel zum Trainieren!

Die Leute denken immer, dass das Encoder-Decoder-Modell ein Entrauschungsmodell sein muss, und ein Grund für diese Illusion ist, dass das T5-Modell zu repräsentativ ist.

Dies ist jedoch nicht immer der Fall.

Sie können eine reguläre Sprachmodellierungsaufgabe (d. h. CLM) verwenden, um den Encoder-Decoder zu trainieren, oder Sie können eine Span-Korruptionsaufgabe verwenden, um den Kausaldecoder zu trainieren.

Wie bereits erwähnt, handelt es sich hierbei in erster Linie um eine Datentransformation.

Es sollte auch beachtet werden, dass ein 2N-Parameter-Encoder-Decoder im Allgemeinen den gleichen Rechenaufwand hat wie ein Nur-N-Parameter-Decoder-Modell, sodass ihr FLOP/Parameter-Verhältnis unterschiedlich ist.

Basierend auf unserem Verständnis des oben genannten Hintergrunds werden wir nun den Text eingeben:

In Bezug auf Entrauschungsziele (ist es nutzlos? Lässt es sich nicht skalieren? Ist es zu einfach?)

Um es klarzustellen: Das von Yi Tay erwähnte Entrauschungsziel bezieht sich auf jede Variante der Span-Korruption.

Manchmal wird es auch Füllen oder Ausfüllen der Lücke genannt. Es gibt viele Möglichkeiten, es auszudrücken (sowie Spannenlänge, Zufälligkeit, Sentinel-Token usw.), solange Sie verstehen, dass sie alle dasselbe bedeuten.

Obwohl die Entrauschungsziele in Modellen im BERT-Stil größtenteils vorhanden sind, ist ein etwas modernerer Ansatz der „T5-Stil“, bei dem es sich um eine Datentransformation handelt, die von Encoder/Ecoder- oder Nur-Decoder-Modellen durchgeführt wird.

Bei dieser Datentransformation wird das Masken-Token einfach „nach hinten verschoben“, damit das Modell Vorhersagen treffen kann.

Das Hauptziel der Vorschulung besteht darin, nützliche interne Darstellungen zu erstellen, die möglichst effizient und effektiv auf nachgelagerte Aufgaben abgestimmt sind.

Je besser die internen Darstellungen sind, desto einfacher ist es, diese erlernten Darstellungen später für etwas Nützliches zu nutzen.

Wie wir alle wissen, leistet das einfache Ziel der „kausalen Sprachmodellierung“ (CLM), die nächsten Token vorherzusagen, gute Dienste und ist zur Grundlage der LLM-Revolution geworden. Die Frage ist nun, ob das Entrauschungsziel gleich gut ist.

Aus öffentlichen Informationen wissen wir, dass der T5-11B auch nach der Ausrichtung/SFT sehr gut funktioniert (der Flan-T5 XXL hat einen MMLU-Wert von 55+, was für ein Modell dieser Größe zu diesem Zeitpunkt ziemlich gut ist).

Daher können wir einige Schlussfolgerungen ziehen: Die Fähigkeit, das Rauschunterdrückungsziel vom Vortraining auf die Ausrichtung zu übertragen, kann dazu beitragen, dass das Modell auf der Skala von 11B besser funktioniert.

Yi Tay ist der Ansicht, dass Rauschunterdrückungsziele großartig sind, aber als eigenständiges Ziel nicht ausreichen.

Den Nachteil können wir als geringeres „Verlustrisiko“ bezeichnen. Im Entrauschungsziel wird nur eine kleine Anzahl von Token maskiert und im Lernprozess (d. h. Aktualisieren des Verlustwerts) verwendet.

Im Gegensatz dazu liegt die Token-Nutzung bei der herkömmlichen Sprachmodellierung bei nahezu 100 %.

Diese Eigenschaft des Rauschunterdrückungsziels führt dazu, dass die Stichprobeneffizienz pro FLOP eher niedrig ist und es daher bei FLOP-basierten Vergleichen sehr benachteiligt ist.

Ein weiterer Nachteil besteht darin, dass Entrauschungsziele weniger natürlich sind als die normale Sprachmodellierung, da sie die Ein-/Ausgabe auf seltsame Weise neu formatieren, was sie für das Lernen in wenigen Schritten etwas umständlich macht. (Trotzdem können diese Modelle immer noch so eingestellt werden, dass sie bei Aufgaben mit wenigen Schüssen eine einigermaßen gute Leistung erbringen.)

Yi Tay ist daher der Ansicht, dass Entrauschungsziele fast nur als Ergänzung zur herkömmlichen Sprachmodellierung und nicht als eigenständiges Trainingsziel verwendet werden können.

Die Anfänge der Einheit und warum xBERT ausgestorben ist

Der Ausstieg aus BERT-ähnlichen Modellen ist eine interessante Phase, aber heutzutage reden nicht mehr viele Leute darüber, es ist subtil.

Dies könnte auch erklären, warum wir keine sehr großen BERT-Modelle mehr laufen sehen. was ist der Grund?

Dabei geht es in erster Linie um die Vereinheitlichung und Transformation von Aufgaben-/Modellierungsparadigmen.

Modelle im BERT-Stil waren umständlich, aber sie waren wirklich veraltet, weil die Leute ein Modell für alle Aufgaben verwenden wollten, also wurde eine bessere Möglichkeit zur Entrauschung eingeführt – die Verwendung autoregressiver Modelle.

Zwischen 2018 und 2021 gab es einen versteckten Paradigmenwechsel von der Feinabstimmung einzelner Aufgaben hin zu groß angelegten Modellen mit mehreren Aufgaben.

Allmählich wurde die Aufmerksamkeit aller auf das einheitliche SFT-Modell gelenkt, das auch das einheitliche allgemeine Modell ist, das wir heute sehen.

Mit BERT ist dies zu schwierig.

Diese „Ungeschicklichkeit“ von BERT hat jedoch wenig mit der Aufgabe der „Entrauschung“ zu tun. Wenn Sie diesen Modelltyp dennoch verwenden möchten, können Sie die Aufgabe „Geräuschreduzierung“ auf andere Weise ausdrücken (z. B. T5).

Daher sind Modelle im BERT-Stil zu diesem Zeitpunkt fast veraltet, da eine grundsätzlich bessere Alternative auftaucht.

Genauer gesagt sind Encoder-Decoder- und Nur-Decoder-Modelle in der Lage, mehrere Aufgaben gleichzeitig auszudrücken, ohne dass aufgabenspezifische Klassifizierungsheader erforderlich sind.

Gleichzeitig haben Forscher und Ingenieure herausgefunden, dass die Leistung des Encoder-Decoder-Modells genauso konkurrenzfähig ist wie die des BERT-Encoders, wenn der Encoder einfach entfernt wird und nur der Decoder übrig bleibt.

Wenn nur der Decoder belassen wird, bleibt darüber hinaus auch der bidirektionale Aufmerksamkeitsvorteil erhalten, der BERT gegenüber GPT-Modellen bei kleinen Aufgaben (normalerweise im Produktionsmaßstab) überlegen macht.

Der Wert des Rauschunterdrückungsziels

Ähnlich wie die reguläre Sprachmodellierung funktioniert, lernt das Denoising-Pre-Training-Ziel auch, das nächste Wort vorherzusagen.

Im Gegensatz zum herkömmlichen CLM führt letzteres jedoch eine Datentransformation in der Sequenz durch, um zu lernen, „die Lücken auszufüllen“, anstatt einfach Text vorherzusagen, der natürlicherweise von links nach rechts erscheint.

Es ist erwähnenswert, dass Entrauschungsziele manchmal als „Füllaufgaben“ bezeichnet und manchmal mit regulären Sprachmodellierungsaufgaben für das Vortraining gemischt werden.

Während spezifische Konfigurations- und Implementierungsdetails variieren können, verwendet das heutige LLM wahrscheinlich eine Kombination aus Sprachmodellierung und Padding.

Und interessanterweise scheint sich der Hybrid aus Sprachmodellierung und Padding ungefähr zur gleichen Zeit verbreitet zu haben (z. B. UL2, FIM, GLM, CM3), wobei viele Teams auf irgendeine Weise ihre eigene „Geschmacksrichtung“ in den Hybrid einbrachten.

Übrigens ist PaLM-2 das größte öffentlich veröffentlichte und gemeldete Modell, das auf diese Weise trainiert wurde.

Es ist erwähnenswert, dass gemischtes Training nicht unbedingt gleichzeitig gemischt werden muss, sondern nacheinander gestapelt werden kann.

Beispielsweise wird Flan-T5 zunächst auf 1Tspan-Korruptionstoken trainiert und wechselt dann vor der Feinabstimmung der Anweisungen zur Präfixsprachenmodellierungsaufgabe von 100B-Tokens.

In gewisser Weise kann man sagen, dass es sich dabei um ein hybrides Zielmodell aus Rauschunterdrückung und Sprachmodellierung handelt.

Yi Tay teilte auch eine inoffizielle Erfahrung mit: Darstellungen, die durch Entrauschen von Zielen gelernt wurden, schneiden in bestimmten Aufgabenkategorien besser ab und werden manchmal auf effizientere Weise abgetastet.

Mit diesem Ziel trainierte feinabgestimmte Modelle erzeugen im Allgemeinen bessere SFT-Modelle, insbesondere bei kleineren Maßstäben.

Apropos Einzelaufgaben-Feinabstimmung: Wir können sehen, dass das Modell PaLM-1 62B dem kleineren T5 unterlegen ist.

Bidirektionale Aufmerksamkeit + Rauschunterdrückung von Zielen können in einem relativ kleinen Bereich eine große Rolle spielen! Ich glaube, viele Praktiker haben diese Situation inzwischen gesehen, insbesondere in der Produktion.

Vor- und Nachteile der Encoder/Decoder-Architektur

Die Encoder-Decoder-Architektur hat tatsächlich einige Vorteile gegenüber dem regulären Nur-Decoder-Modell.

Die Encoderseite ist nicht durch Kausalmasken eingeschränkt, sodass Sie Aufmerksamkeitsebenen wie verrückt mit aggressivem Pooling oder jeder Form linearer Aufmerksamkeit stapeln können, ohne sich über die Einschränkungen autoregressiver Designs Gedanken machen zu müssen.

Dies ist eine gute Möglichkeit, weniger wichtigen „Kontext“ an den Encoder zu übergeben. Sie können den Encoder auch kleiner machen, was auch schön ist.

Ein Beispiel in Charformer verdeutlicht die Notwendigkeit der Encoder-Decoder-Architektur. Wir können viel Aufhebens um den Encoder machen, um die Geschwindigkeitsmängel bei der Codierung auf Byte-Ebene zu beheben.

Gleichzeitig besteht jedoch ein Nachteil von Encoder-Decoder im Vergleich zu PrefixLM darin, dass Eingabe und Ziel feste Zuordnungslängen haben müssen.

Wenn die vorgegebene Eingabelänge beispielsweise 1024 Token beträgt, muss die Encoderseite auf diesen Wert aufgefüllt werden, was zu viel Rechenverschwendung führen kann.

Im Gegensatz dazu können in PrefixLM Eingaben und Ziele direkt verbunden werden, wodurch dieses Problem entschärft wird.

Relevanz für heutige Modelle und wichtige Erkenntnisse

Ob aus der Perspektive der Modellarchitektur oder aus der Perspektive vor der Ausbildung: Um ein kompetenter LLM-Forscher und -Praktiker zu werden, ist die Fähigkeit, induktive Voreingenommenheit zum Denken zu nutzen, von entscheidender Bedeutung. Und das Verständnis der grundlegenden Nuancen zwischen verschiedenen Modellarchitekturen kann bei zukünftigen Innovationen hilfreich sein.

Yi Tay teilte seine wichtigsten Erkenntnisse mit:

Sowohl Encoder-Decoder- als auch Nur-Decoder-Modelle sind autoregressive Modelle, es gibt jedoch Unterschiede auf der Implementierungsebene, die jeweils Vor- und Nachteile haben. Ihre induktiven Vorspannungen unterscheiden sich geringfügig, und die beste Verwendung hängt wirklich vom nachgelagerten Anwendungsfall und erheblichen Anwendungseinschränkungen ab. Für die meisten LLM-Anwendungen und Nischenanwendungsfälle gelten reine Encoder-Modelle im BERT-Stil größtenteils als veraltet.
Das Entrauschungsziel ist hauptsächlich eine Ergänzung zu CLM. Als „Hilfsziel“ im Vortraining bringt es normalerweise etwas Hilfe. Während dies bei Codemodellen häufig der Fall ist (d. h. Code-Stuffing), ist es in heutigen Allzweckmodellen nicht ungewöhnlich, ein CLM mit einem Rauschunterdrückungsziel für das Vortraining zu verwenden (obwohl dies keine Voraussetzung ist).
Bidirektionale Aufmerksamkeitsmechanismen helfen bei kleineren Maßstäben sehr, sind bei größeren Modellen jedoch oft nur eine Option. Yi Tay glaubt, dass bidirektionale Aufmerksamkeit wie viele andere Arten von Modifikationen in der Transformer-Architektur eine induktive Tendenz hat.

Zusammenfassend lässt sich abschließend sagen, dass wir keine erfolgreiche Skalierung von xBERT gesehen haben: Das BERT-Modell wurde zugunsten des flexibleren (autoregressiven) T5-Modells zur Rauschunterdrückung veraltet.

Dies ist hauptsächlich auf die Vereinheitlichung der Paradigmen zurückzuführen und jeder möchte allgemeine Modelle anstelle aufgabenspezifischer Modelle verwenden.

Gleichzeitig wird autoregressives Entrauschen manchmal als nebensächliches Trainingsziel in CLM integriert.

Über den Autor

Yi Tay ist derzeit Mitbegründer und Chefwissenschaftler des KI-Startups Reka. Reka widmet sich dem Aufbau modernster generativer Modelle und der Weiterentwicklung der Forschung im Bereich der künstlichen Intelligenz.

Zuvor war er als leitender Forschungswissenschaftler bei Google Brain tätig, wo er sich mit LLM- und KI-bezogenen Arbeiten befasste, und fungierte außerdem als technischer Leiter des US-Forschungsteams bei Google Research, wo er an Transformer-Erweiterungen und -Architektur arbeitete.

Während seiner Zeit bei Google trug Yi Tay zu etwa 20 Produktveröffentlichungen bei.

Während Yi Tays Tätigkeit als Forschungswissenschaftler bei Google drehten sich die meisten seiner veröffentlichten Arbeiten um Transformer, insbesondere in Bezug auf Effizienz, Skalierbarkeit und Architekturforschung.

Neben dem Bloggen liebt Yi Tay auch klassische Musik. Er sagte: „Wenn ich nicht Forscher geworden wäre, hätte ich vielleicht professioneller Musiker werden wollen.“ Interessanterweise erhielt er diesbezüglich ein Diplom.

Ich freue mich darauf, dass Yi Tay wieder einen Langstreckenflug unternimmt, damit ich sehen kann, wie er seinen Blog erneut aktualisiert.

Verweise:

https://x.com/YiTayML/status/1813262126162845772

Nachricht

Die erste Blogserie des ehemaligen Google-Wissenschaftlers Yi Tay mit dem Titel „The Story of LLM“: Warum ist BERT verschwunden?

Einführung

meine Kontaktdaten