Nachricht

Neuronale Netzwerkarchitektur „verschiedene Wege führen zum gleichen Ziel“? ICML 2024 Paper: Verschiedene Modelle, aber die gleichen Lerninhalte

2024-07-16

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


Neuer Weisheitsbericht

Herausgeber: Qiao Yang

[Einführung in die neue Weisheit] Tiefe neuronale Netze gibt es in vielen Größen und Architekturen, und es ist allgemein anerkannt, dass sich dies auf die vom Modell erlernten abstrakten Darstellungen auswirkt. Der erste von zwei UCL-Wissenschaftlern auf der ICML 2024 veröffentlichte Artikel wies jedoch darauf hin, dass bestimmte Netzwerkverhaltensweisen bei unterschiedlichen Architekturen weit verbreitet sind, wenn die Modellarchitektur flexibel genug ist.

Seit die KI in die Ära großer Modelle eingetreten ist, ist das Skalierungsgesetz fast zum Konsens geworden.


Papieradresse: https://arxiv.org/abs/2001.08361

OpenAI-Forscher schlugen in diesem Artikel im Jahr 2020 vor, dass die Leistung des Modells in einer Potenzgesetzbeziehung mit drei Indikatoren steht: Parametermenge N, Datensatzgröße D und Trainingsrechenleistung C.


Zusätzlich zu diesen drei Aspekten haben Faktoren wie die Auswahl von Hyperparametern sowie die Breite und Tiefe des Modells innerhalb eines angemessenen Bereichs kaum Einfluss auf die Leistung.

Darüber hinaus stellt die Existenz dieser Potenzgesetzbeziehung keine Vorgaben für die Modellarchitektur dar. Mit anderen Worten: Wir können davon ausgehen, dass das Skalierungsgesetz auf fast jede Modellarchitektur anwendbar ist.

Darüber hinaus scheint ein im Jahr 2021 im Bereich der Neurowissenschaften veröffentlichter Artikel dieses Phänomen aus einem anderen Blickwinkel zu berühren.


Papieradresse: https://www.frontiersin.org/journals/computational-neuroscience/articles/10.3389/fncom.2021.625804/full

Sie fanden heraus, dass AlexNet, VGG, ResNet und andere für visuelle Aufgaben konzipierte Netzwerke zwar große strukturelle Unterschiede aufweisen, sie jedoch nach dem Training mit demselben Datensatz in der Lage zu sein scheinen, sehr ähnliche Semantiken, wie etwa die hierarchische Beziehung von Objektkategorien, zu erlernen.


Aber was ist der Grund dafür? Wenn Sie über die oberflächliche Erfahrung hinausgehen, inwieweit ähneln sich verschiedene Netzwerkarchitekturen auf der wesentlichen Ebene?

Zwei Forscher am UCL haben dieses Jahr einen Artikel veröffentlicht, in dem sie versuchen, diese Frage zu beantworten, indem sie sich mit der abstrakten Darstellung befassen, die neuronale Netze lernen.


Papieradresse: https://arxiv.org/abs/2402.09142

Sie leiteten eine Theorie ab, die die Dynamik des Repräsentationslernens in komplexen, groß angelegten Modellarchitekturen effektiv zusammenfasst und dessen „reiche“ und „faule“ Eigenschaften entdeckt. Wenn das Modell flexibel genug ist, können bestimmte Netzwerkverhaltensweisen über verschiedene Architekturen hinweg verbreitet sein.

Dieses Papier wurde von der ICML 2024-Konferenz angenommen.

Modellierungsprozess

Der universelle Approximationssatz besagt, dass ein nichtlineares neuronales Netzwerk bei ausreichenden Parametern jede glatte Funktion lernen und approximieren kann.

Inspiriert von diesem Theorem geht der Artikel zunächst davon aus, dass die Kodierungszuordnung von der Eingabe zur verborgenen Darstellung und die Dekodierungszuordnung von der verborgenen Darstellung zur Ausgabe beliebige glatte Funktionen sind.

Daher kann die funktionale Dynamik unter Vernachlässigung der Details der Netzwerkarchitektur wie folgt modelliert werden:

Der Prozess des Trainings eines neuronalen Netzwerks kann als Optimierung einer Glättungsfunktion für einen bestimmten Datensatz angesehen werden, wobei die Netzwerkparameter ständig geändert werden, um die MSE-Verlustfunktion zu minimieren:


In⟨⋅⟩Symbole stellen Durchschnittswerte über den gesamten Datensatz dar.

Da wir daran interessiert sind, die dynamischen Prozesse zu untersuchen, die den Raum darstellen, kann die Funktion in eine Kombination aus zwei glatten Karten aufgeteilt werden: die Kodierungskarteℎ:→und Dekodierungszuordnung:→Zu diesem Zeitpunkt kann die Verlustfunktion in Gleichung (1) wie folgt geschrieben werden:


Als nächstes kann der Prozess der Parameteraktualisierung mithilfe der Gradientenabstiegsregel wie folgt geschrieben werden:

Wo ist der Kehrwert der Lernrate?

Obwohl Gleichung (4) genau genug ist, besteht das Problem darin, dass sie explizit von Netzwerkparametern abhängt und ein ausreichend allgemeiner mathematischer Ausdruck das Ignorieren dieses Implementierungsdetails erfordert.

Wenn die Ausdrucksfähigkeit des neuronalen Netzwerks groß genug ist, sollte die Optimierung der Verlustfunktion im Idealfall direkt in etwa zwei Abbildungen ausgedrückt werdenund Funktion.


Wie dies mathematisch erreicht wird, bleibt jedoch unklar. Beginnen wir daher mit dem einfacheren Fall – wir betrachten nicht den gesamten Datensatz, sondern zwei Datenpunkte.

Während des Trainings, aufgrund der Mapping-FunktionWenn sich die Summe ändert, bewegen sich Darstellungen verschiedener Datenpunkte im verborgenen Raum, nähern sich einander an oder interagieren miteinander.

Zum Beispiel für zwei Punkte im Datensatz, wenn⁢(1) und⁢(2) ist nah genug undund eine glatte Funktion ist, kann der Mittelwert der beiden Punkte verwendet werden, um eine lineare Näherung der beiden Abbildungsfunktionen durchzuführen:


Inbzwund die Jacobi-Matrix von .

Unter der Annahme, dass das neuronale Netzwerk über ausreichende Ausdruckskraft und Freiheitsgrade verfügt, sind die Linearisierungsparameter, und kann effektiv optimiert werden, dann kann der Gradientenabstiegsprozess ausgedrückt werden als:


Gleichung (6) beschreibt die Hauptmodellierungshypothese des Artikels, die eine äquivalente Theorie für große komplexe Architektursysteme sein soll und keinen spezifischen Parametrisierungsmethoden unterliegt.


Abbildung 1 ist ein visueller Ausdruck des obigen Modellierungsprozesses. Um das Problem zu vereinfachen, wird angenommen, dass sich zwei Datenpunkte im verborgenen Raum nur näher oder weiter entfernen, sich jedoch nicht drehen.

Der Hauptindikator, der uns wichtig ist, ist der Abstand „ℎ“ im verborgenen Raum, der es uns ermöglicht, die vom Modell erlernte Darstellungsstruktur zu kennen, und der vom Modell ausgegebene Abstand „‖“, der bei der Modellierung der Verlustkurve hilft.

Zusätzlich wird eine externe Variable eingeführt, um die Darstellungsgeschwindigkeit zu steuern, oder kann als Ausgabeausrichtung angesehen werden, die den Winkelunterschied zwischen der vorhergesagten Ausgabe und der tatsächlichen Ausgabe darstellt.

Daraus erhalten wir ein unabhängiges System aus drei Skalarvariablen:



Darunter wurden die Implementierungsdetails des neuronalen Netzwerks abstrakt als zwei Konstanten ausgedrückt: 1/und 1/, was die effektive Lernrate angibt.

Dynamische Konsistenz lernen

Nach Abschluss der Modellierung trainierte die Arbeit neuronale Netze verschiedener Architekturen anhand des Zweipunktdatensatzes und verglich die tatsächliche Lerndynamik mit der numerischen Lösung der äquivalenten Theorie. Die Ergebnisse sind in Abbildung 2 dargestellt.


Die Standardstruktur bezieht sich auf ein 20-Schichten-Netzwerk, 500 Neuronen pro Schicht und Leaky ReLU.

Es ist ersichtlich, dass, obwohl nur zwei Konstanten angepasst werden müssen, die gerade beschriebene Äquivalenztheorie dennoch gut an die tatsächliche Situation verschiedener neuronaler Netze angepasst werden kann.

Dieselben Gleichungen können die Dynamik mehrerer komplexer Modelle und Architekturen während des Trainings genau beschreiben, was darauf hindeutet, dass das Modell, wenn es ausdrucksstark genug ist, schließlich zu einem gemeinsamen Netzwerkverhalten konvergiert.

Setzen Sie es auf einen größeren Datensatz wie MNIST und verfolgen Sie die Lerndynamik zweier Datenpunkte, und die Äquivalenztheorie gilt immer noch.


Die Netzwerkarchitektur umfasst 4 vollständig verbundene Schichten, jede Schicht enthält 100 Neuronen und verwendet die Leaky-ReLU-Aktivierungsfunktion

Es ist jedoch zu beachten, dass sich die Änderungsmuster von ‖ℎ‖, ‖⁢‖ und den drei Variablen ändern, wenn das Anfangsgewicht allmählich zunimmt (Abbildung 3).

Denn wenn das Anfangsgewicht groß ist, sind die beiden Datenpunkte zu Beginn des Trainings weit voneinander entfernt, sodass die lineare Näherung der Formel (5) nicht mehr gilt und das obige theoretische Modell versagt.


strukturierte Darstellung

Können wir anhand der Glättebeschränkungen und der oben genannten Äquivalenztheorie die Regeln in der Darstellungsstruktur neuronaler Netze zusammenfassen?

Aus Formel (7) lässt sich ableiten, dass es einen eindeutigen Fixpunkt gibt, der den endgültigen Darstellungsabstand zweier Datenpunkte darstellt:


Wenn das Anfangsgewicht groß ist, konvergiert der endgültige Darstellungsabstand zu hoch, und der Wert hängt von der Dateneingabe und der zufälligen Initialisierung ab. Wenn das Anfangsgewicht hingegen klein ist, konvergiert es zu niedrig, was von der Eingabe und Ausgabe abhängt Struktur der Daten.

Diese Trennung zwischen Zufallsmechanismen und strukturierten Mechanismen bestätigt weiter den „Reichtum“ und die „Trägheit“ im Lernprozess tiefer neuronaler Netze, die in früheren Arbeiten vorgeschlagen wurden, insbesondere angesichts der Tatsache, dass die Größe der Anfangsgewichte ein Schlüsselfaktor sein wird.

Der Artikel gibt eine intuitive Erklärung für dieses Phänomen:

Wenn die anfänglichen Gewichte groß sind, werden die beiden Datenpunkte im verborgenen Raum zu Beginn des Trainings weit voneinander entfernt sein, sodass die Flexibilität des Netzwerks es dem Decoder ermöglicht, die korrekte Ausgabe für jeden Datenpunkt einzeln frei zu lernen, ohne dass wesentliche Anpassungen erforderlich sind. Darstellungsstruktur. Daher ähnelt das endgültig gelernte Muster der Struktur, die bereits bei der Initialisierung vorhanden war.

Im Gegenteil, wenn das Gewicht klein ist, liegen die beiden Datenpunkte näher beieinander, und aufgrund von Glättungseinschränkungen muss die Codierungszuordnungsfunktion entsprechend der Zielausgabe angepasst werden, indem die Darstellung der beiden Datenpunkte verschoben wird, um sie an die Daten anzupassen .

Daher werden wir sehen, dass das Repräsentationslernen bei kleinen Gewichten einen strukturierten Effekt zeigt (Abbildung 5).


Die Änderung der Aufgabe des neuronalen Netzwerks zur Anpassung einer Exklusiv-ODER-Funktion (XOR) kann dies intuitiver demonstrieren. Wenn das Initialisierungsgewicht klein ist, lernt das Modell offensichtlich die strukturellen Eigenschaften der XOR-Funktion.


Im neuronalen Netzwerk mit nur 2 Schichten auf der rechten Seite gibt es eine große Abweichung zwischen Theorie und Experiment, was die Bedeutung der Annahme einer hohen Aussagekraft des Modells in der obigen Theorie verdeutlicht.

abschließend

Der Hauptbeitrag dieser Arbeit ist die Einführung einer Äquivalenztheorie, die in der Lage ist, gemeinsame Teile des dynamischen Lernprozesses in verschiedenen neuronalen Netzwerkarchitekturen auszudrücken und eine strukturierte Darstellung gezeigt hat.

Aufgrund der Glättebeschränkung des Modellierungsprozesses und der Vereinfachung der Interaktion von Datenpunkten kann diese Theorie immer noch kein universelles Modell zur Beschreibung des Trainingsprozesses tiefer neuronaler Netze werden.

Das Wertvollste an dieser Studie ist jedoch, dass sie zeigt, dass einige der für das Repräsentationslernen erforderlichen Elemente möglicherweise bereits im Gradientenabstiegsprozess enthalten sind und nicht nur auf die in der spezifischen Modellarchitektur enthaltene induktive Vorspannung zurückzuführen sind.

Darüber hinaus betont die Theorie auch, dass die Skalierung der Anfangsgewichte ein Schlüsselfaktor für die endgültige Bildung der Darstellungsstruktur ist.

In zukünftigen Arbeiten müssen wir noch einen Weg finden, die Äquivalenztheorie zu erweitern, um größere und komplexere Datensätze zu verarbeiten, anstatt nur die Interaktion zweier Datenpunkte zu modellieren.

Gleichzeitig führen viele Modellarchitekturen induktive Verzerrungen ein, die sich auf das Repräsentationslernen auswirken und möglicherweise mit den Repräsentationseffekten der Modellierung interagieren.

Verweise:

https://arxiv.org/abs/2402.09142