Nachricht

Wissenschaftler enthüllen die linearen Eigenschaften tiefer neuronaler Netze und tragen so zur Entwicklung besserer Modellfusionsalgorithmen bei

2024-07-15

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


Obwohl Deep Learning in den letzten Jahren große Erfolge erzielt hat, hinkt das Verständnis der Menschen seiner Theorie noch hinterher.

Aus diesem Grund haben Forschungsthemen, die versuchen, die Verlustfunktion und den Optimierungsprozess des Deep Learning aus theoretischer Sicht zu erklären, mehr Aufmerksamkeit erhalten.

Obwohl beim Deep Learning verwendete Verlustfunktionen häufig als hochdimensionale komplexe Black-Box-Funktionen angesehen werden, wird angenommen, dass diese Funktionen, insbesondere diejenigen, die in tatsächlichen Trainingstrajektorien vorkommen, komplexe, harmlose Strukturen enthalten, die den Gradienten-basierten Optimierungsprozess effektiv fördern können.

Wie in vielen anderen wissenschaftlichen Disziplinen besteht ein wichtiger Schritt beim Aufbau einer Theorie des Deep Learning darin, die nicht trivialen Phänomene zu verstehen, die in Experimenten entdeckt wurden, um ihre zugrunde liegenden Mechanismen aufzuklären.

Kürzlich haben Wissenschaftler auf diesem Gebiet ein bemerkenswertes Phänomen entdeckt: Mode Connectivity.

Das heißt, verschiedene optimale Punkte, die durch zwei unabhängige Gradientenoptimierungen erhalten wurden, können durch einen einfachen Pfad im Parameterraum verbunden werden, während der Verlust oder die Genauigkeit entlang des Pfads nahezu konstant bleibt.

Dieses Phänomen ist zweifellos überraschend, da die verschiedenen optimalen Punkte einer nichtkonvexen Funktion wahrscheinlich in unterschiedlichen und isolierten „Tälern“ liegen.

Dies ist jedoch bei den in der Praxis gefundenen optimalen Punkten nicht der Fall.

Interessanter ist, dass einige Forscher die lineare Modenkonnektivität entdeckt haben, die stärker ist als die Modenkonnektivität.

Untersuchungen zur Konnektivität im linearen Modus zeigen, dass verschiedene optimale Punkte durch lineare Pfade verbunden werden können.

Obwohl zwei völlig unabhängige Netzwerke normalerweise nicht die Anforderungen der Linear Mode Connectivity erfüllen, gibt es zwei Möglichkeiten, ein Netzwerk zu erhalten, das dies erfüllt:

Das erste Netzwerk ist die Spawning-Methode.

Wenn das Netzwerk mit der Initialisierung beginnt und für eine kleine Anzahl von Epochen trainiert, werden die Parameter kopiert, um zwei Netzwerke zu erhalten. Anschließend wurden die beiden Netzwerke unabhängig voneinander unter unterschiedlichen Stochastizitäten weiter trainiert.

Das zweite Netzwerk ist die Permutationsmethode.

Das heißt, die beiden Netzwerke werden zunächst unabhängig voneinander trainiert und dann werden die Neuronen eines Netzwerks neu angeordnet, um sie an die Neuronen des anderen Netzwerks anzupassen.

In einer früheren Arbeit wollten Dr. Zhou Zhanpeng von der Shanghai Jiao Tong University und Mitarbeiter des Shanghai Artificial Intelligence Laboratory die Linear Mode Connectivity aus der Perspektive des Feature-Learnings erklären.

Und wirft die Frage auf: Was passiert mit den internen Merkmalen, wenn die Gewichte zweier trainierter Netzwerke linear interpoliert werden?


Bild |. Zhou Zhanpeng (Quelle: Zhou Zhanpeng)

Durch Untersuchungen haben sie herausgefunden, dass Features in fast allen Schichten auch einer starken Form einer linearen Verbindung genügen: Das heißt, die Feature-Maps im Gewichtsinterpolationsnetzwerk stimmen ungefähr mit der linearen Interpolation der Feature-Maps in den beiden ursprünglichen Netzwerken überein.

Sie nennen dieses Phänomen Layerwise Linear Feature Connectivity.

Darüber hinaus stellten sie fest, dass die schichtweise lineare Feature-Konnektivität immer gleichzeitig mit der linearen Modus-Konnektivität auftritt.

Und beweist diese Regel: Wenn zwei Modelle, die auf demselben Datensatz trainiert wurden, die Layerwise Linear Feature Connectivity erfüllen, können sie gleichzeitig auch die Linear Mode Connectivity erfüllen.

Darüber hinaus führte das Forschungsteam eine eingehende Untersuchung der Gründe für die schichtweise lineare Feature-Konnektivität durch.

Und zwei Schlüsselbedingungen wurden identifiziert: die schwache Additivität der ReLU-Funktion und die kommutative Eigenschaft zwischen den beiden trainierten Netzwerken.

Ausgehend von diesen beiden Bedingungen bewiesen sie, dass sie die Layerwise Linear Feature Connectivity im ReLU-Netzwerk erhalten, und verifizierten diese beiden Bedingungen experimentell.

Gleichzeitig bewiesen sie auch, dass die Permutationsmethode es zwei Netzwerken ermöglicht, die lineare Mode-Konnektivität zu erfüllen, indem sie sie austauschbar macht.

Im Allgemeinen hat das Forschungsteam eine lineare Eigenschaft gefunden, die feinkörniger ist als die lineare Mode-Konnektivität und das neuronale Netzwerk besser erfüllen kann.

Die oben genannten Ergebnisse basieren jedoch alle auf Netzwerken, die mit demselben Datensatz trainiert wurden.

Daher warfen sie eine neue Frage auf: Kann eine schichtweise lineare Feature-Konnektivität auf zwei Modellen hergestellt werden, die auf unterschiedlichen Datensätzen trainiert wurden?

Das Team stellte fest, dass die Spawning-Methode dem Trainingsparadigma „Pre-Training-Fine-Tuning“ sehr nahe kommt. Das heißt, sowohl die Spawning-Methode als auch die Feinabstimmung beginnen mit einem Modell, das über einen bestimmten Zeitraum trainiert wurde, um weiteres Training durchzuführen.

Das Modell in der Spawning-Methode wird jedoch weiterhin auf demselben Datensatz trainiert, während das Modell in der Feinabstimmung auf verschiedenen Datensätzen trainiert werden kann.

In einer aktuellen Arbeit fanden sie heraus, dass im Rahmen des Pre-Training-Fine-Tuning-Paradigmas verschiedene Feintuning-Modelle auch die Eigenschaften der Layerwise Linear Feature Connectivity erfüllen, die das Forschungsteam Cross-Task Linearity nennt.

Es wurde festgestellt, dass das Netzwerk unter dem Pre-Training-Fine-Tuning-Paradigma tatsächlich eher einer linearen Abbildung vom Parameterraum zum Merkmalsraum entspricht.

Das heißt, Cross-Task Linearity erweitert die Definition der Layerwise Linear Feature Connectivity auf Modelle, die auf verschiedenen Datensätzen trainiert wurden.

Interessanterweise nutzte das Team die Ergebnisse der Cross-Task-Linearität auch, um zwei gängige Modellfusionstechniken zu erklären:

Erstens ermittelt die Modellmittelung den Durchschnitt der Gewichte mehrerer Modelle, die auf denselben Datensatz abgestimmt sind, aber unterschiedliche Hyperparameterkonfigurationen verwenden, wodurch Genauigkeit und Robustheit verbessert werden.

In der Studie wurde das durchschnittliche Gewicht der Forschungsgruppe als Durchschnitt der Merkmale auf jeder Ebene interpretiert, wodurch ein enger Zusammenhang zwischen Modellmittelung und Modellintegration hergestellt und somit die Wirksamkeit der Modellmittelung erklärt wurde.

Zweitens kann Task Arithmetic mit einfachen arithmetischen Operationen die Gewichte von Modellen kombinieren, die auf verschiedene Aufgaben abgestimmt sind, um das Verhalten des Modells entsprechend zu steuern.

Während der Forschung wandelte das Team arithmetische Operationen im Parameterraum in Operationen im Merkmalsraum um und erklärte so die Aufgabenarithmetik aus der Perspektive des Merkmalslernens.

Anschließend untersuchten sie die Bedingungen, unter denen aufgabenübergreifende Linearität auftritt, und entdeckten die Bedeutung des Vortrainings für aufgabenübergreifende Linearität.

Experimentelle Ergebnisse zeigen, dass das aus der Vortrainingsphase gewonnene allgemeine Wissen dazu beiträgt, die Anforderungen der aufgabenübergreifenden Linearität zu erfüllen.

Während der Studie wurde auch ein vorläufiger Versuch unternommen, die aufgabenübergreifende Linearität zu beweisen, und es wurde festgestellt, dass die Entstehung der aufgabenübergreifenden Linearität mit der Flachheit der Netzwerklandschaft und der Gewichtslücke zwischen den beiden fein abgestimmten Modellen zusammenhängt.

Kürzlich wurde auf der International Conference on Machine Learning (ICML) 2024 ein verwandter Artikel mit dem Titel „On the Emergence of Cross-Task Linearity in Pretraining-Finetuning“ veröffentlicht [1].


Abbildung |. Verwandte Artikel (Quelle: ICML 2024)

Das Forschungsteam äußerte die Hoffnung, dass diese Entdeckung zu besseren Modellfusionsalgorithmen inspirieren kann.

Wenn es in Zukunft notwendig ist, ein multifähiges, fein abgestimmtes Großmodell zu bauen, wird die Großmodellfusion zu einer der Kerntechnologien. Diese Arbeit bietet solide experimentelle und theoretische Unterstützung für die Fusion großer Modelle und kann zu besseren Algorithmen für die Fusion großer Modelle führen.

Als nächstes hoffen sie, die lineare Moduskonnektivität, die schichtweise lineare Feature-Konnektivität und die aufgabenübergreifende Linearität aus der Perspektive der Trainingsdynamik zu verstehen.

Obwohl sie einige Erklärungen auf der Funktionsebene erhalten haben, können sie die lineare Moduskonnektivität immer noch nicht aus der Perspektive erster Prinzipien erklären.

Warum muss die Spawning-Methode beispielsweise zunächst nur ein paar Epochen trainieren, um schließlich zwei Modelle zu erhalten, die die Linear Mode Connectivity erfüllen?

Und wie lässt sich eine solche Laichzeit vorhersagen? Um diese Fragen zu beantworten, müssen wir die Linear Mode Connectivity aus der Perspektive von Training und Optimierung verstehen, und dies ist auch die Folgebemühung des Teams.

Verweise:

1.Zhou, Z., Chen, Z., Chen, Y., Zhang, B., & Yan, J. Über die Entstehung von Cross-Task-Linearität im Pretraining-Finetuning-Paradigma. Auf der 41. Internationalen Konferenz zum maschinellen Lernen.

Bedienung/Satz: He Chenlong

01/ Das Team von Hong Kong City entwickelt eine neue Art von Nanoschichtmembran, die in speziellen Szenarien zur Süßwasseraufbereitung eingesetzt werden kann, und schafft Durchbrüche bei der Anwendung zweidimensionaler Materialien.

02/ Jahrzehntelange chemische Probleme haben glaubwürdige Antworten gegeben. Wissenschaftler haben einen neuen mikroskopischen Mechanismus für die Auflösung von Chlorwasserstoff unter Bildung von Salzsäure vorgeschlagen, der die Entwicklung mehrerer Disziplinen fördern wird.

03/ Wissenschaftler entwickeln eine neue Methode zur Quantensensorsteuerung, die schwache Signale genau erkennen und zur Erkennung und Steuerung einzelner Kernspins verwendet werden kann

04/ Die neuen „Top 35 Technological Innovators Under 35“ China-Gewinner von „MIT Technology Review“ werden offiziell bekannt gegeben!Erleben Sie die Innovationskraft der wissenschaftlichen und technologischen Jugend in Shanghai

05/ Mit einer dynamischen Festigkeit von 14 GPa hat das Team der Universität Peking erfolgreich superstarke Kohlenstoff-Nanoröhrenfasern entwickelt, die als leichte, leistungsstarke Struktur- und Schutzmaterialien verwendet werden können