Was passiert, wenn ich die Transformer-Ebene verschlüssele/überspringe? Die neuesten Forschungsergebnisse enthüllen den Mechanismus des Informationsflusses

Was passiert, wenn ich die Transformer-Ebene verschlüssele/überspringe?Neueste Forschungsergebnisse enthüllen den Mechanismus des Informationsflusses

2024-07-26

Der Westwind kommt vom Aofei-Tempel
Qubits |. Öffentliches Konto QbitAI

Der Informationsflussmechanismus in Transformer wurde durch die neueste Forschung enthüllt:

Sind alle Schichten notwendig? Tut die mittlere Schicht dasselbe? Spielt die Reihenfolge der Schichten eine Rolle?

Wennüberspringen Sie einige SchichtenWas passiert beispielsweise, wenn der Ausgang von Schicht 4 mit Schicht 6 verbunden wird?Mischen Sie die Reihenfolge der Ebenen nach dem Zufallsprinzip, was ist zum Beispiel mit 4-6-5-7?

Eine aktuelle Studie mit dem Titel „Transformer Layers as Painters“ erfreut sich großer Beliebtheit und wurde von einem Forschungsteam der KI-Startups Sakana AI und Emergence AI durchgeführt.

Sie gingen vom internen Funktionsprinzip von Transformer aus und kamen durch eine Reihe von Experimenten zu Schlussfolgerungen zu den oben genannten Themen. Das Team erklärte, dass ein tiefes Verständnis dieser Prinzipien nicht nur die Effizienz der Nutzung bestehender Modelle verbessern, sondern auch dazu beitragen kann, die Architektur zu verbessern und neue Varianten zu entwickeln.

Lucas Beyer, Google DeepMind-Forscher und ViT-Autor, gefiel es direkt nach der Lektüre:

Tolle Zusammenfassung! Obwohl einige der Experimente in früheren Studien gezeigt wurden, gefallen mir die neuen Details, die Sie hinzugefügt haben, insbesondere die Hervorhebung, dass Aufgaben vom Typ „Argumentation“ stärker betroffen sind als andere Aufgaben!

Viele Wissenschaftler und Ingenieure äußerten ebenfalls starke Empfehlungen.

Es besteht eine gute Wette, dass einige dieser Erkenntnisse letztendlich zur Verbesserung von Transformer genutzt werden.

Die Experimente bestätigten erneut, dass das Kopieren von Ebenen für kreative Aufgaben hilfreich ist, für Argumentationsaufgaben jedoch im Allgemeinen unwirksam ist. Das Beschneiden funktioniert in der mittleren Ebene nicht am besten, erfordert aber dennoch Reparaturanpassungen.

Welche Experimente hat das Forschungsteam in dieser Studie durchgeführt? Welche Fragen wurden beantwortet?

Experimentelle Modellauswahl und Benchmarking

Schauen wir uns zunächst die experimentelle Konfiguration an

Experimentieren Sie mitNur DecoderUndNur Encoderam Modell durchgeführt.

Darunter ist das Nur-Decoder-Modell die WahlLama2, untersucht hauptsächlich Llama2-7B mit 32 Schichten und 7 Milliarden Parametern. Das erweiterte Experiment umfasst auch die Modelle 13B (40 Schichten) und 70B (80 Schichten).

Das Nur-Encoder-Modell wähltBERT, mit 24 Schichten und 340 Millionen Parametern.

Die Forscher verwendeten für diese Modelle Standardkontrollpunkte vor dem Training. In allen Experimenten wurde das Modell eingefroren, und mit Ausnahme der BERT-Bewertung, die einen standardmäßigen Feinabstimmungsschritt beinhaltete, wurden die Modellparameter nicht durch Feinabstimmung oder andere Methoden geändert.

In Bezug auf Benchmark-Tests verwendet Llama2 die folgenden Standard-Benchmarks: ARC (Fragen zu naturwissenschaftlichen Tests), HellaSwag (Fragen zum gesunden Menschenverstand), GSM8K (Fragen zur Mathematik), WinoGrande (logisches Denken), LAMBADA (Vokabularvorhersage). Unter anderem wird LAMBADA zur Messung der Verwirrung verwendet, was der ursprünglichen Token-Vorhersage, die während des Trainings verwendet wurde, am nächsten kommt.

Zur Leistungsbewertung von Llama2 wird der normalisierte Median der Benchmarks bereitgestellt, der die Leistung von 0 bis 1 quantifiziert (optimale Modellleistung).

Für BERT wird der GLUE-Benchmark übernommen und seine Bewertungsmetriken befolgt, einschließlich der nicht normalisierten Durchschnittspunktzahl des Benchmarks. Beachten Sie, dass die Standard-BERT-Auswertung einen Feinabstimmungsschritt umfasst und somit das Modell anpasst. Im Anhang zeigen die Forscher außerdem ein Auswertungsergebnis, bei dem nur der Kopf des Modells angepasst werden kann.

Die Motivation für das Experiment ergab sich ursprünglich aus dieser Frage:

Ist es möglich, mehrere Schichten irgendwie zu einer einzigen, möglicherweise größeren Schicht zu kombinieren?Es wird vermutet, dass die mittlere Schicht des neuronalen Netzwerks möglicherweise aufgrund der Verwendung von Restverbindungen während des Trainings beschädigt wirdEs kann ein gemeinsamer Darstellungsraum genutzt werden.(Dies gilt nicht für Standard-Mehrschicht-Perzeptrone, die über keinen Mechanismus zur Förderung einer gemeinsamen Darstellung oder Konsistenz der Anordnung zwischen Schichten verfügen.)

Wenn Ebenen einen Darstellungsraum gemeinsam nutzen können, hat dies erhebliche Auswirkungen auf nachfolgende Zustandsberechnungen oder das dynamische Hinzufügen neuer Erkenntnisse zum vorab trainierten Transformer-Modell und nachgelagerten Anwendungen.

8 wichtige Fragen zu Transformer

Nutzen die Ebenen denselben Darstellungsraum?

Um festzustellen, ob verschiedene Schichten denselben Darstellungsraum teilen, untersuchten die Forscher die TransformerÜberspringen Sie bestimmte Ebenen oder ändern Sie die Reihenfolge benachbarter Ebenender Robustheit.

Ändern Sie beispielsweise im Llama2-7B-Modell den Ausgabestream von der normalen Reihenfolge „Schicht 4 -> Schicht 5 -> Schicht 6“ in „Schicht 4 -> Schicht 6“ und überspringen Sie Schicht 5. Was passiert?

Oder was passiert, wenn die Ausgabe von Schicht 4 an Schicht 6 gesendet wird und dann die Ausgabe von Schicht 6 an Schicht 5 und dann an Schicht 7 gesendet wird?

Wie in der Abbildung unten gezeigt, ergab das Experiment, dass mit Ausnahme der ersten und letzten paar SchichtenLlama2-7B zeigt eine gute Robustheit durch das Überspringen oder Ändern der Schichtreihenfolge。

Das heißt, die mittlere Schicht teilt sich einen Darstellungsraum, und die mittlere Schicht und die „äußere Schicht“ (die erste und letzte Schicht) verfügen über unabhängige Darstellungsräume.

Um diese Hypothese weiter zu bestätigen, haben die Forscher die durchschnittliche Kosinusähnlichkeit zwischen den verborgenen Zustandsaktivierungen verschiedener Schichten in verschiedenen Modellen (Llama2-7B, Llama2-13B und BERT-Large) gemessen und sie mit Benchmarks verglichen.

Abbildung 3 unten zeigtKonsistenz zwischen allen Mittelschichten . Beispielsweise ist die Aktivierung der vierten Schicht unten der Aktivierung der vierten Schicht oben sehr ähnlich. Für das 40-schichtige Llama2-13B können Sie sehen, dass die Schichten basierend auf ihrer Ähnlichkeit in 4–5 Gruppen unterteilt werden können: Schicht 0, Schichten 1–3, die mittlere Schicht und dann die letzten ein oder zwei Schichten.

Dies deutet darauf hin, dass das Modell möglicherweiseEs gibt drei verschiedene Darstellungsräume für die Ebenen „Anfang“, „Mitte“ und „Ende“. . Die Forscher fanden außerdem heraus, dass die Anzahl der „Startschichten“ mit der Gesamtzahl der Schichten im Modell zuzunehmen schien.

Darüber hinaus kann eine hohe Kosinusähnlichkeit beweisen, dass es einen gemeinsamen Repräsentationsraum gibt, während eine niedrige Ähnlichkeit eher darauf hindeutet, dass diese Räume nicht gemeinsam genutzt werden. Die Daten von Llama2-7B in Abbildung 3 oben stimmen in hohem Maße mit den in Abbildung 2 gezeigten Leistungsergebnissen überein, was weiter beweist:

Zumindest der Repräsentationsraum auf der mittleren Ebene wird gemeinsam genutzt.

Sind alle Schichten notwendig?

Um weiter zu überprüfen, ob der Darstellungsraum der mittleren Schicht tatsächlich geteilt wird, führten die Forscher auch Tests durchExperiment zum Überspringen von Ebenen(Während der Experimente wurde keine Feinabstimmung durchgeführt).

Konkret wird der Ausgang der N-ten Schicht direkt an den Eingang der N+M-ten Schicht (M>1) weitergeleitet, wodurch die M-1-Schicht „übersprungen“ wird, wie in der folgenden Abbildung dargestellt.

Ursprünglich wurde die N+M-Schicht nur auf die Eingabe der N+M-1-Schicht trainiert. Kann sie nun die Aktivierung der N-Schicht verstehen?

Bei dieser Art von Experiment führen Forscher die erste Schicht und die letzte N-1-Schicht normal aus, während sie die N+1- bis TN-Schichten überspringen oder modifizieren (T ist die Gesamtzahl der Schichten im Modell).

Wie in Abbildung 4 unten gezeigt, wurden in mehreren Benchmark-Tests Llama2-7B und BERT-Large getestetDie Leistung nimmt allmählich ab (Die Abbildung zeigt die allmähliche Zunahme der Anzahl übersprungener Ebenen von links nach rechts). Dieses Ergebnis ergab:

Es sind nicht alle Schichten erforderlich, und das Weglassen zumindest einiger mittlerer Schichten hat keine gravierenden Auswirkungen auf die Gesamtleistung.

Erfüllen die mittleren Ränge alle die gleiche Funktion?

Sind Zwischenschichten redundant, wenn sie sich einen gemeinsamen Darstellungsraum teilen?

Um diese Frage zu beantworten, wiederholten die Forscher das vorherige „Überspringen“-Experiment, aber dieses Mal übersprangen sie nicht die mittlere Schicht, sondernDie Gewichte aller Mittelschichten wurden durch die Gewichte der Mittelschicht ersetzt,Wie nachfolgend dargestellt.

Tatsächlich werden T-2N+1 Mal auf der zentralen Ebene ausgeführt, wobei T die Gesamtzahl der Schichten des Modells ist (Llama2-7B beträgt 32 Schichten, BERT-Large beträgt 24 Schichten).

Im resultierenden Benchmark-Test wird mit zunehmender Anzahl ausgetauschter SchichtenDie Modellleistung lässt schnell nach . Und der Leistungsabfall ist viel schwerwiegender als nur das Überspringen einiger Schichten; diese Art der Gewichtsersetzung ist äußerst schädlich.

daher,Es ist nicht überflüssig, dass die mittleren Schichten jeweils unterschiedliche Funktionen erfüllen. Die Aufteilung der Gewichte zwischen den mittleren Schichten kann katastrophale Folgen haben.

Spielt die Reihenfolge der Schichten eine Rolle?

Die obigen Experimente zeigen, dass die mittlere Schicht zwar den Darstellungsraum teilt, in diesem Raum jedoch unterschiedliche Operationen ausführt. Spielt also die Reihenfolge dieser Operationen eine Rolle? Die Forscher führten zwei Versuchsreihen durch.

Zunächst wird die mittlere Schicht entsprechend trainiertumgekehrte Reihenfolge der Reihe nach ausgeführt (umgekehrte Reihenfolge). Übergeben Sie die Ausgabe der Schicht TN an die Schicht TN-1 usw. bis zur Schicht N und übergeben Sie dann die Ausgabe dieser Schicht an die letzte TN-Schicht.

Wie nachfolgend dargestellt:

Das zweite Experiment,zufällige AnordnungDie mittleren Schichten werden geordnet und über 10 zufällige Seed-Ergebnisse gemittelt.

Die Ergebnisse sind wie folgt: In beiden Fällen zeigen die ModelleLangsamer Leistungsabfall。

Hier ist ein Spoiler zu einem experimentellen Ergebnis, unabhängig davon, ob es sich um eine umgekehrte Reihenfolge oder eine zufällige Reihenfolge handelt, die Modellleistung ist besser als das direkte Überspringen dieser Ebenen, was darauf hinweist, dass sie auch dann noch produzieren können, wenn sie auf Eingaben in Nicht-Trainingsreihenfolge ausgeführt werden effektive Leistung.

Spielt also die Reihenfolge der Ebenen eine Rolle? Das Fazit lautet:

Die Anpassung der Ebenenreihenfolge hat einen gewissen Einfluss auf die Leistung, und sowohl die zufällige Reihenfolge als auch die umgekehrte Reihenfolge führen zu gewissen Leistungseinbußen.

Es ist erwähnenswert, dass die zufällige Reihenfolge eine bessere Leistung erbringt als die umgekehrte Reihenfolge. Dies kann daran liegen, dass die umgekehrte Reihenfolge der Reihenfolge während des Trainings völlig entgegengesetzt ist und jede zufällige Reihenfolge zumindest eine gewisse sequentielle Kohärenz beibehält (d. h. eine Schicht i folgt immer einer anderen Schicht j, wobei i > j).

Können diese Schichten parallel ausgeführt werden?

Wenn das Vorhandensein von Ebenen, d. h. dass sie nicht übersprungen werden, wichtiger ist als die Reihenfolge, in der sie ausgeführt werden, kann dies in Betracht gezogen werdenFühren Sie diese Ebenen unabhängig voneinander aus und kombinieren Sie dann ihre Ergebnisse ? Wie nachfolgend dargestellt.

Die Forscher führten ein Experiment durch, bei dem sie, anstatt die N- zu TN-Schichten zu überspringen, diese Zwischenschichten parallel laufen ließen und ihre Durchschnittsergebnisse dann an die letzten N-Schichten weitergaben.

Die Ergebnisse sind in der folgenden Abbildung dargestellt. Mit Ausnahme des GSM8K-Benchmarks für mathematische Probleme zeigen alle Benchmarks einen langsamen Leistungsabfall.

Interessant,Parallele Ebenen sind leistungsfähiger als das Überspringen von Ebenen, jedoch nicht so gut wie das Ausführen von Ebenen in umgekehrter Reihenfolge.

Zusammenfassend lässt sich sagen, dass es möglich ist, diese Schichten parallel auszuführen? die Antwort ist:Ja, außer bei mathelastigen Benchmarks.

Ist die Reihenfolge bei manchen Aufgaben wichtiger?

Die meisten Varianten (einschließlich umgekehrter Reihenfolge, Überspringen und parallel) zeigen den schnellsten Leistungsabfall in den ARC-Benchmarks für abstraktes Denken oder GSM8K-Benchmarks für mathematisches Denken.

Dies kann durch die Tatsache erklärt werden, dass Aufgaben zum schrittweisen Denken empfindlicher auf Änderungen in der Ebenenreihenfolge reagieren als „semantische“ Aufgaben wie Winogrande oder HellaSwag.

Dies liegt daran, dass Argumentationsaufgaben eine Kombination aus strukturellen und semantischen Informationen erfordern, während Aufgaben wie HellaSwag nur mit Semantik erledigt werden können.

Durch Experimente kamen die Forscher zu dem Schluss:Bei Mathematik- und Argumentationsaufgaben kommt es stärker auf Ordnung an als bei „semantischen“ Aufgaben.

Hilft Iteration bei parallelen Ebenen?

Vergleicht man den internen Betriebsmechanismus von Transformer mit dem Prozess des Malens eines Gemäldes: Die Leinwand (Eingabe) wird zwischen einigen Malern weitergegeben, einige Maler sind auf das Malen von Vögeln spezialisiert und einige sind besser im Malen von Rädern ... Jeder Maler zeichnet der Reihe nach von einem anderen Der Maler nimmt die Leinwand in die Hand und entscheidet, ob er das Gemälde ergänzt oder es direkt an den nächsten Maler weitergibt (unter Verwendung von Restverbindungen).

Es ist denkbar, dass bestimmte Schichten das Gemälde nur dann „ergänzen“, wenn sie entsprechenden Input erhalten. Beispielsweise zeichnet ein Künstler, der „Räder zeichnet“, eher Räder, wenn er zuerst die Karosserie eines Autos sieht.

Im Transformer tragen einige Schichten möglicherweise nur zum Vorwärtsdurchlauf bei, wenn sie die entsprechende Eingabe erhalten, anstatt die Eingabe direkt über die Restverbindung weiterzuleiten.

Wenn man es so betrachtet, verglichen mit der einmaligen Ausführung der parallelen Ebene,Iterative Ausführung paralleler SchichtenSollte die Leistung verbessern.

Die Forscher testeten dies, indem sie die durchschnittliche Ausgabe der parallelen Schichten in dieselbe Schicht zurückführten und die Anzahl der Iterationen festlegten, wie unten gezeigt:

In Abbildung 9 unten zeigen die Forscher die Ergebnisse der dreimaligen Iteration der parallelen Schicht. Diese Methode ist deutlich besser als die einmalige Ausführung der parallelen Schicht.

Die einzige Ausnahme ist, wenn die Startschicht N 15 für Llama2-7B oder 11 für BERT ist. In diesem Fall entspricht der Effekt der dreimaligen Parallelisierung der Schleife der dreimaligen Wiederholung nur der mittleren Schicht, und die parallele Schicht entspricht zu diesem Zeitpunkt dem vollständigen Modell.

Die Forscher wiederholten das Experiment auch mit unterschiedlicher Anzahl von Iterationen.

Die folgende Abbildung zeigt, wie sich die Leistung von Llama2-7B mit der Anzahl der parallelen Schichten M und der Anzahl der Iterationen ändert.

Die optimale Anzahl von Iterationen für jedes M wird durch das rote Kästchen angezeigt. Mit Ausnahme von M=29 und M=31 (fast alle Schichten sind parallelisiert) ist die optimale Anzahl von Iterationen ungefähr linear proportional zur Anzahl paralleler Schichten.

Die Schlussfolgerung lautet also:Iteration hilft bei parallelen Schichten, und die optimale Anzahl von Iterationen ist proportional zur Anzahl paralleler Schichten.

Welche Varianten beeinträchtigen die Leistung am wenigsten?

Abschließend verglichen die Forscher alle verschiedenen Varianten des Experiments anhand derselben Grafik.

Die Ergebnisse zeigen, dassWiederholen Sie eine Schicht(Wie oben erwähnt, ersetzen Sie die mittleren Schichten durch eine gleiche Anzahl zentraler Schichten)Schlimmster Effekt, sinkt die Leistung schnell auf die zufällige Grundlinie.

Iterative Parallelität und zufällige sequenzielle Leistungseinbußen sind minimal, wobei die iterative Parallelität in BERT und Llama2-7B am besten abschneidet.

Weitere experimentelle Ergebnisse wurden dem Anhang der Arbeit hinzugefügt, und interessierte Familienmitglieder können die Originalarbeit überprüfen.

Papierlink: https://arxiv.org/abs/2407.09298v1
Referenzlink: https://x.com/A_K_Nain/status/1812684597248831912

Belegung