Wo ist das berühmte BERT geblieben? Die Antwort auf diese Frage signalisiert einen Paradigmenwechsel in LLM

Wo ist das berühmte BERT geblieben?Die Antwort auf diese Frage signalisiert einen Paradigmenwechsel im LLM

2024-07-22

Wo ist das Encoder-Modell geblieben? Wenn BERT gut funktioniert, warum nicht erweitern? Was ist mit Encoder-Decoder- oder Nur-Encoder-Modellen?

Im Bereich der großen Sprachmodelle (LLM) herrscht mittlerweile eine Ära vor, in der ausschließlich Decodermodelle (wie die GPT-Modellreihe) dominieren. Wie sieht es mit der Entwicklung von Encoder-Decoder- oder Nur-Encoder-Modellen aus? Warum schenken BERT, das einst so berühmt war, nach und nach immer weniger Aufmerksamkeit?

Kürzlich veröffentlichte Yi Tay, Chefwissenschaftler und Mitbegründer des KI-Startups Reka, einen Blogbeitrag, um seine Ansichten zu teilen. Yi Tay arbeitete mehr als drei Jahre bei Google Research und Google Brain, bevor er Reka mitbegründete, und beteiligte sich an der Entwicklung berühmter LLMs wie PaLM, UL2, Flan-2 und Bard sowie multimodaler Modelle wie PaLI-X und ViT-22B funktionieren. Das Folgende ist der Inhalt seines Blogbeitrags.

Grundlegende Einführung

Im Allgemeinen ist die LLM-Modellarchitektur in den letzten Jahren hauptsächlich in drei Hauptparadigmen unterteilt: Nur-Encoder-Modell (wie BERT), Encoder-Decoder-Modell (wie T5) und Nur-Decoder-Modell (wie GPT-Serie). Modelle). Menschen sind oft verwirrt und missverstehen diese Klassifizierungsmethoden und -strukturen.

Das erste, was Sie verstehen müssen, ist, dass das Encoder-Decoder-Modell tatsächlich ein autoregressives Modell ist. Im Encoder-Decoder-Modell ist der Decoder im Wesentlichen immer noch ein Kausaldecoder. Anstatt das Decodermodell vorab zu füllen, wird Text an den Encoder ausgelagert und dann per Cross-Attention an den Decoder gesendet. Ja, das T5-Modell ist auch ein Sprachmodell!

Eine Variante dieses Modelltyps ist das Prefix Language Model, kurz PrefixLM, das fast auf die gleiche Weise funktioniert, jedoch ohne gegenseitige Aufmerksamkeit (und andere kleine Details wie gemeinsame Gewichtungen zwischen Encoder/Decoder und kein Encoder-Engpass). PrefixLM wird manchmal als nicht-kausaler Decoder bezeichnet. Einfach ausgedrückt gibt es insgesamt keinen großen Unterschied zwischen Encoder-Decoder-, Nur-Decoder-Modellen und PrefixLM!

In Hyung Wons jüngstem hervorragenden Vortrag erklärt er fachmännisch die Beziehung zwischen diesen Modellen. Einzelheiten finden Sie im Bericht von Machine Heart: „Was wird die wichtigste treibende Kraft für die KI-Forschung sein?“ Forschungswissenschaftler des ChatGPT-Teams: Rechenkosten sinken》

Gleichzeitig ist die Rauschunterdrückungsmethode von Nur-Encoder-Modellen wie BERT anders (d. h. direkt vor Ort), und damit das Nur-Encoder-Modell nach dem Vortraining wirklich eine Rolle spielt, ist es erforderlich auf den Klassifizierungsheader „task“ verlassen. Später übernahmen Modelle wie T5 eine „modifizierte“ Version des Rauschunterdrückungsziels, die ein Sequenz-zu-Sequenz-Format verwendete.

Zu diesem Zweck ist es wichtig darauf hinzuweisen: Das Entrauschen in T5 ist keine neue Zielfunktion (im Sinne des maschinellen Lernens), sondern eine Datentransformation über Eingaben hinweg, d Zielsetzung).

Man geht immer davon aus, dass Encoder-Decoder-Modelle Modelle zur Rauschunterdrückung sein müssen, auch weil T5 so repräsentativ ist. Dies ist jedoch nicht immer der Fall. Sie können den Encoder-Decoder mithilfe regulärer Sprachmodellierungsaufgaben (z. B. kausaler Sprachmodellierung) trainieren. Kausaldecoder können wiederum auch mithilfe von Span-Corruption-Aufgaben trainiert werden. Wie ich bereits sagte, handelt es sich im Grunde genommen um eine Datentransformation.

Ein weiterer erwähnenswerter Punkt: Im Allgemeinen ist ein Encoder-Decoder mit 2N Parametern rechnerisch dasselbe wie ein Nur-Decoder-Modell mit N Parametern, daher ist ihr Verhältnis von FLOPs zur Anzahl der Parameter unterschiedlich. Dies ähnelt der Verteilung der „Modellsparsität“ zwischen Eingabe und Ziel.

Das ist nichts Neues und ich habe es mir auch nicht selbst ausgedacht. Es stand im T5-Papier von 2019 und auch im UL2-Papier wurde dieser Punkt noch einmal betont.

Im Moment bin ich froh, dass ich das klarstellen kann. Nun zu den Zielen.

In Bezug auf Entrauschungsziele (funktioniert es nicht? Lässt es sich nicht skalieren? Oder ist es einfach zu einfach?)

Das Entrauschungsziel bezieht sich hier auf jede Variante der „Span Damage“-Aufgabe. Dies wird manchmal als „Ausfüllen“ oder „Ausfüllen der Lücken“ bezeichnet. Es gibt viele Möglichkeiten, dies auszudrücken, z. B. Spannenlänge, Zufälligkeit, Sentinel-Token usw. Sie müssen den Schlüssel verstanden haben.

Obwohl das Entrauschungsziel von Modellen im BERT-Stil grundsätzlich vorhanden ist (z. B. befindet sich der Klassifizierungskopf auf dem Masken-Token), ist der „T5-Stil“ moderner, d. h. durch einen Encoder-Decoder oder einen Nur-Decoder Modell zur Datentransformation. Bei einer solchen Datentransformation werden die maskierten Token einfach „zurückbewegt“, damit das Modell Vorhersagen treffen kann.

Das Hauptziel des Vortrainings besteht darin, interne Darstellungen aufzubauen, die auf möglichst effiziente und effektive Weise auf die nachgelagerte Aufgabe abgestimmt sind. Je besser diese interne Darstellung ist, desto einfacher ist es, diese erlernten Darstellungen für nachfolgende Aufgaben zu nutzen. Wir alle wissen, dass die einfache Vorhersage des nächsten Wortes für das Ziel der „kausalen Sprachmodellierung“ äußerst gut funktioniert und zum Kern der LLM-Revolution geworden ist. Die Frage ist nun, ob das Entrauschungsziel gleich gut ist.

Basierend auf öffentlichen Informationen wissen wir, dass der T5-11B auch nach Ausrichtung und überwachter Feinabstimmung recht gut funktioniert (der MMLU-Wert des Flan-T5 XXL liegt bei 55+, was für ein Modell dieser Größe damals ziemlich gut war). . Daher können wir den Schluss ziehen, dass der Übertragungsprozess der Entrauschung von Zielen (Vortraining → Ausrichtung) auf dieser Skala relativ gut funktioniert.

Meiner Meinung nach funktioniert das Rauschunterdrückungsziel gut, aber nicht gut genug, um als eigenständiges Ziel zu dienen. Ein großer Nachteil ergibt sich aus der sogenannten geringeren „Verlustexposition“. Beim Entrauschungsziel wird nur eine kleine Anzahl von Token maskiert und gelernt (d. h. beim Verlust berücksichtigt). Im Gegensatz dazu liegt dieser Wert bei der regulären Sprachmodellierung bei nahezu 100 %. Dies macht die Samples pro FLOP sehr ineffizient, was das Rauschunterdrückungsziel bei Vergleichen auf Flop-Basis erheblich benachteiligt.

Ein weiterer Nachteil von Denoising-Zielen besteht darin, dass sie weniger natürlich sind als die normale Sprachmodellierung, da die Eingabe/Ausgabe auf seltsame Weise neu formatiert wird, wodurch sie für das Lernen mit wenigen Schüssen weniger geeignet sind. (Aber es ist immer noch möglich, diese Modelle so zu optimieren, dass sie bei Aufgaben mit wenigen Schüssen eine einigermaßen gute Leistung erbringen.) Daher glaube ich, dass Entrauschungsziele nur als ergänzende Ziele zur regulären Sprachmodellierung verwendet werden sollten.

Die Anfänge der Einheit und der Grund, warum BERT-ähnliche Modelle verschwanden

Modelle wie BERT verschwanden nach und nach und nicht mehr viele Leute reden über sie. Dies kann auch erklären, warum wir derzeit keine sehr großen BERT-Modelle sehen können. was ist der Grund? Dies ist größtenteils auf die Vereinheitlichung und den Wandel der Aufgaben-/Modellierungsparadigmen zurückzuführen. Modelle im BERT-Stil sind umständlich, aber der wahre Grund, warum BERT-Modelle veraltet waren, ist, dass die Leute alles auf einmal machen wollten, also wurde eine bessere Methode zur Entrauschung übernommen – die Verwendung autoregressiver Modelle.

Im Zeitraum 2018–2021 kam es zu einem impliziten Paradigmenwechsel: von der Feinabstimmung einzelner Aufgaben hin zu groß angelegten Modellen mit mehreren Aufgaben. Dies führte uns langsam zum einheitlichen SFT-Modell, dem universellen Modell, das wir heute sehen. Dies ist mit BERT schwierig zu bewerkstelligen. Ich glaube nicht, dass das viel mit „Rauschunterdrückung“ zu tun hat. Für Leute, die immer noch ein solches Modell (z. B. T5) verwenden möchten, haben sie einen Weg gefunden, die Aufgabe zur Rauschunterdrückung vor dem Training neu zu formulieren, was dazu führt, dass Modelle im BERT-Stil heutzutage grundsätzlich veraltet sind, weil wir bessere alternative Pläne haben.

Genauer gesagt können Encoder-Decoder- und Nur-Decoder-Modelle für eine Vielzahl von Aufgaben verwendet werden, ohne dass aufgabenspezifische Klassifizierungsheader erforderlich sind. Beim Encoder-Decoder stellten Forscher und Ingenieure fest, dass der Verzicht auf den Encoder ähnliche Auswirkungen wie beim BERT-Encoder hatte. Darüber hinaus bleiben die Vorteile der bidirektionalen Aufmerksamkeit erhalten – ein Vorteil, der BERT in kleinen Maßstäben (häufig Produktionsmaßstäben) gegenüber GPT konkurrenzfähig macht.

Der Wert des Rauschunterdrückungsziels

Das entrauschende Vortrainingsziel lernt auch, das nächste Wort auf ähnliche Weise wie bei der regulären Sprachmodellierung vorherzusagen. Im Gegensatz zur herkömmlichen kausalen Sprachmodellierung erfordert dies jedoch die Verwendung einer Datentransformation für die Sequenz, damit das Modell lernen kann, „die Lücken auszufüllen“, anstatt einfach natürlichen Text von links nach rechts vorherzusagen.

Es ist erwähnenswert, dass Entrauschungsziele manchmal als „Padding-Aufgaben“ bezeichnet werden und im Vortrainingsprozess manchmal mit regulären Sprachmodellierungsaufgaben gemischt werden.

Obwohl die genauen Konfigurations- und Implementierungsdetails variieren können, verwenden die heutigen modernen LLMs möglicherweise eine Kombination aus Sprachmodellierung und Padding. Interessanterweise verbreitete sich dieser Hybrid aus „Sprachmodell + Polsterung“ tatsächlich etwa zur gleichen Zeit (wie UL2, FIM, GLM, CM3) und viele Teams brachten ihre eigenen einzigartigen Hybridlösungen mit. Das größte bekannte, auf diese Weise trainierte Modell ist übrigens wahrscheinlich PaLM-2.

Es ist auch zu beachten, dass der Aufgabenmix vor dem Training auch der Reihe nach gestapelt werden kann und nicht unbedingt gleichzeitig gemischt werden muss. Beispielsweise wurde Flan-T5 zunächst auf beschädigten Token mit einer Spanne von 1T trainiert und dann umgestellt auf 100B Token für das Feedforward-Sprachmodellierungsziel. Passen Sie dann den Flan-Befehl an. Dies ist bis zu einem gewissen Grad für hybride Rauschunterdrückungs-/LM-Zielmodelle geeignet. Um es klar auszudrücken: Das Ziel der Präfix-Sprachmodellierung (nicht zu verwechseln mit Architektur) ist eine rein kausale Sprachmodellierung, bei der ein Teilungspunkt zufällig bestimmt und an die Eingabe gesendet wird (ohne Verlust und nicht kausale Maskierung).

Übrigens könnte Padding seinen Ursprung im Code-LLM-Bereich haben, wo das „Ausfüllen der Lücken“ eher eine Funktion war, die zum Schreiben von Code erforderlich war. Gleichzeitig besteht die Motivation von UL2 eher darin, das Rauschunterdrückungsziel und die Aufgabenklasse, in der sich bidirektionales LLM auszeichnet, mit inhärent generativen Aufgaben (z. B. Zusammenfassung oder Generierung mit offenem Ende) zu vereinen. Der Vorteil dieser „Rückwärtsverschiebung“ der autoregressiven Dekodierung besteht darin, dass sie es dem Modell nicht nur ermöglicht, längerfristige Abhängigkeiten zu lernen, sondern auch, dass es implizit von nicht expliziter bidirektionaler Aufmerksamkeit profitiert (denn um die Lücken zu füllen, müssen Sie ... die Zukunft gesehen haben).

Es gibt eine legendäre Erfahrung: Darstellungen, die durch Entrauschen von Zielen gelernt wurden, schneiden bei bestimmten Aufgabenkategorien besser ab und weisen manchmal eine höhere Stichprobeneffizienz auf. Im U-PaLM-Artikel zeigen wir, wie eine kleine Menge an span-geschädigtem Up-Training das Verhalten und neu auftretende Phänomene bei einer Reihe von BIG-Bench-Aufgaben verändert. Auf dieser Grundlage führt die Feinabstimmung eines mit diesem Ziel trainierten Modells häufig zu einem besser überwachten, feinabgestimmten Modell, insbesondere wenn der Maßstab klein ist.

Im Hinblick auf die Feinabstimmung einzelner Aufgaben zeigt sich, dass das Modell PaLM-1 62B dem viel kleineren Modell T5 unterlegen ist. Im relativ kleinen Maßstab ist „bidirektionale Aufmerksamkeit + Ziel zur Rauschunterdrückung“ ein wunderschöner Kombinationsschlag! Ich glaube, dass viele Praktiker diese Situation auch bemerkt haben, insbesondere bei Produktionsanwendungen.

Wie wäre es mit bidirektionaler Aufmerksamkeit?

Bidirektionale Aufmerksamkeit ist eine interessante „induktive Tendenz“ für Sprachmodelle – eine, die oft mit Zielen und Modellrückgraten verwechselt wird. Induktive Vorspannung hat in verschiedenen Computerbereichen unterschiedliche Verwendungszwecke und kann unterschiedliche Auswirkungen auf die Expansionskurve haben. Allerdings ist die bidirektionale Aufmerksamkeit auf größeren Skalen möglicherweise weniger wichtig als auf kleineren Skalen oder kann unterschiedliche Auswirkungen auf verschiedene Aufgaben oder Modalitäten haben. PaliGemma verwendet beispielsweise die PrefixLM-Architektur.

Hyung Won wies in seinem Vortrag auch darauf hin: „PrefixLM-Modelle (Decoder-only-Modelle mit bidirektionaler Aufmerksamkeit) haben auch Caching-Probleme, was ein inhärenter Fehler dieser Art von Architektur ist.“ Ich denke jedoch, dass es viele Möglichkeiten gibt, diesen Fehler zu umgehen, aber das würde den Rahmen dieses Artikels sprengen.

Vor- und Nachteile der Encoder-Decoder-Architektur

Die Encoder-Decoder-Architektur hat im Vergleich zum reinen Decoder-Modell Vor- und Nachteile. Der erste Fall besteht darin, dass die Encoderseite nicht durch die kausale Maske eingeschränkt ist. Bis zu einem gewissen Grad können Sie die Aufmerksamkeitsschicht loslassen und aggressiv Pooling oder jede andere Form linearer Aufmerksamkeit durchführen, ohne sich über die Designbeschränkungen der Autoregression Gedanken machen zu müssen. Dies ist eine großartige Möglichkeit, weniger wichtigen „Kontext“ auf den Encoder auszulagern. Sie können den Encoder auch kleiner machen, was ebenfalls von Vorteil ist.

Ein Beispiel für eine erforderliche Encoder-Decoder-Architektur ist Charformer, der Encoder mutig nutzt und den Geschwindigkeitsnachteil von Modellen auf Byte-Ebene abmildert. Innovationen auf der Encoderseite können schnelle Vorteile bringen, ohne sich über die erheblichen Fallstricke der Kausalmaskierung Gedanken machen zu müssen.

Gleichzeitig besteht ein Nachteil des Encoder-Decoders im Vergleich zu PrefixLM darin, dass dem Eingang und dem Ziel ein festes Budget zugewiesen werden muss. Wenn das Eingabebudget beispielsweise 1024 Token beträgt, muss die Encoderseite diesen Wert auffüllen, was viel Rechenaufwand bedeuten kann. Im Gegensatz dazu können in PrefixLM Eingaben und Ziele direkt verbunden werden, wodurch dieses Problem entschärft wird.

Relevanz für heutige Modelle und wichtige Erkenntnisse

In der heutigen Zeit besteht eine Schlüsselkompetenz eines qualifizierten LLM-Forschers und -Praktikers darin, induktive Vorurteile sowohl aus dem architektonischen Aspekt als auch aus dem Aspekt vor der Ausbildung ableiten zu können. Das Verständnis der subtilen Unterschiede kann Menschen dabei helfen, daraus Schlüsse zu ziehen und weiterhin Innovationen zu entwickeln.

Hier sind meine wichtigsten Erkenntnisse:

Encoder-Decoder- und Nur-Decoder-Modelle sind beide autoregressive Modelle, unterscheiden sich auf der Implementierungsebene und haben ihre eigenen Vor- und Nachteile. Es handelt sich um leicht unterschiedliche induktive Vorspannungen. Welche zu verwenden ist, hängt von nachgelagerten Anwendungsfällen und Anwendungseinschränkungen ab. Gleichzeitig können Encodermodelle im BERT-Stil für die meisten LLM-Anwendungsfälle und Nischenanwendungsfälle als veraltet angesehen werden.

Das Entrauschungsziel kann hauptsächlich als Ergänzung zum kausalen Sprachmodell verwendet werden. Sie wurden erfolgreich als „Unterstützungsziele“ während der Ausbildungsphase eingesetzt. Das Trainieren kausaler Sprachmodelle mithilfe von Entrauschungszielen hilft oft bis zu einem gewissen Grad. Obwohl dies in der Welt der Codemodelle (d. h. Code-Stuffing) sehr verbreitet ist, ist es heutzutage auch bei Allzweckmodellen üblich, ein kausales Sprachmodell plus ein Entrauschungsziel für das Vortraining zu verwenden.

Bidirektionale Aufmerksamkeit kann kleineren Modellen sehr helfen, ist aber bei größeren Modellen entbehrlich. Dabei handelt es sich größtenteils um Gerüchte. Ich denke, dass bidirektionale Aufmerksamkeit eine induktive Tendenz hat, ähnlich wie bei vielen anderen Arten von Modifikationen des Transformer-Modells.

Abschließend noch eine Zusammenfassung. Derzeit ist keine groß angelegte Version des BERT-Modells in Betrieb: Das BERT-Modell ist veraltet und wurde durch das flexiblere (autoregressive) T5-Modell zur Rauschunterdrückung ersetzt. Dies ist hauptsächlich auf die Vereinheitlichung des Paradigmas zurückzuführen, d. h. Menschen ziehen es vor, ein allgemeines Modell zur Ausführung verschiedener Aufgaben zu verwenden (anstatt ein aufgabenspezifisches Modell zu verwenden). Gleichzeitig kann autoregressives Entrauschen manchmal als Nebenziel kausaler Sprachmodelle verwendet werden.

Ursprünglicher Link: https://www.yitay.net/blog/model-architecture-blogpost-encoders-prefixlm-denoising

Nachricht

Wo ist das berühmte BERT geblieben?Die Antwort auf diese Frage signalisiert einen Paradigmenwechsel im LLM

Einführung

meine Kontaktdaten