nouvelles

Les scientifiques révèlent les propriétés linéaires des réseaux neuronaux profonds, contribuant ainsi à créer de meilleurs algorithmes de fusion de modèles

2024-07-15

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


Bien que l’apprentissage profond ait connu un grand succès ces dernières années, la compréhension de sa théorie par les gens est encore à la traîne.

Pour cette raison, les sujets de recherche qui tentent d’expliquer la fonction de perte et le processus d’optimisation de l’apprentissage profond d’un point de vue théorique ont reçu davantage d’attention.

Bien que les fonctions de perte utilisées dans l'apprentissage profond soient souvent considérées comme des fonctions de boîte noire complexes de haute dimension, on pense que ces fonctions, en particulier celles rencontrées dans les trajectoires d'entraînement réelles, contiennent des structures bénignes complexes qui peuvent efficacement promouvoir un processus d'optimisation basé sur le gradient.

Comme dans de nombreuses autres disciplines scientifiques, une étape clé dans la construction d’une théorie de l’apprentissage profond réside dans la compréhension des phénomènes non triviaux découverts lors d’expériences afin d’élucider leurs mécanismes sous-jacents.

Récemment, des chercheurs dans le domaine ont découvert un phénomène frappant : la connectivité mode.

Autrement dit, différents points optimaux obtenus grâce à deux optimisations de gradient indépendantes peuvent être reliés par un simple chemin dans l'espace des paramètres, tandis que la perte ou la précision le long du chemin reste presque constante.

Ce phénomène est sans doute surprenant car les différents points optimaux d'une fonction non convexe sont susceptibles de se situer dans des « vallées » différentes et isolées.

Cependant, cela ne se produit pas pour les points optimaux trouvés dans la pratique.

Ce qui est plus intéressant, c'est que certains chercheurs ont découvert une connectivité en mode linéaire qui est plus forte que la connectivité en mode.

Les recherches sur la connectivité en mode linéaire montrent que différents points optimaux peuvent être connectés par des chemins linéaires.

Bien que deux réseaux complètement indépendants ne satisfassent généralement pas à la connectivité en mode linéaire, il existe deux manières d'obtenir un réseau qui le satisfasse :

Le premier réseau est la méthode Spawning.

Lorsque le réseau démarre depuis l'initialisation et s'entraîne pendant un petit nombre d'époques, les paramètres sont copiés pour obtenir deux réseaux. Les deux réseaux ont ensuite continué à être formés indépendamment selon des stochasticités différentes.

Le deuxième réseau est la méthode de permutation.

Autrement dit, les deux réseaux sont d’abord entraînés indépendamment, puis les neurones d’un réseau sont réorganisés pour correspondre aux neurones de l’autre réseau.

Dans un travail précédent, le Dr Zhou Zhanpeng de l'Université Jiao Tong de Shanghai et des collaborateurs du Laboratoire d'intelligence artificielle de Shanghai espéraient expliquer la connectivité en mode linéaire du point de vue de l'apprentissage des fonctionnalités.

Et pose la question : qu'arrive-t-il aux caractéristiques internes lors de l'interpolation linéaire des poids de deux réseaux formés ?


Photo | Zhou Zhanpeng (Source : Zhou Zhanpeng)

Grâce à des recherches, ils ont découvert que les caractéristiques de presque toutes les couches satisfont également à une forte forme de connexion linéaire : c'est-à-dire que les cartes de caractéristiques dans le réseau d'interpolation de poids sont approximativement les mêmes que l'interpolation linéaire des cartes de caractéristiques dans les deux réseaux d'origine.

Ils appellent ce phénomène la connectivité des entités linéaires par couches.

De plus, ils ont constaté que la connectivité des entités linéaires par couches se produit toujours en même temps que la connectivité en mode linéaire.

Et prouve cette règle : si deux modèles formés sur le même ensemble de données satisfont à la connectivité des caractéristiques linéaires par couche, alors ils peuvent également satisfaire la connectivité en mode linéaire en même temps.

En outre, l’équipe de recherche a mené une étude approfondie des raisons de la connectivité des fonctionnalités linéaires par couches.

Et deux conditions clés ont été identifiées : la faible additivité de la fonction ReLU et la propriété commutative entre les deux réseaux formés.

À partir de ces deux conditions, ils ont prouvé qu'ils obtenaient la connectivité des caractéristiques linéaires par couche dans le réseau ReLU et ont vérifié expérimentalement ces deux conditions.

Dans le même temps, ils ont également prouvé que la méthode de permutation permet à deux réseaux de satisfaire la connectivité en mode linéaire en les rendant interchangeables.

En général, l’équipe de recherche a découvert une propriété linéaire plus fine que la connectivité en mode linéaire et capable de mieux satisfaire le réseau neuronal.

Cependant, les résultats ci-dessus sont tous basés sur des réseaux formés sur le même ensemble de données.

Ils ont donc soulevé une nouvelle question : la connectivité des caractéristiques linéaires par couches peut-elle être établie sur deux modèles formés sur des ensembles de données différents ?

L’équipe a remarqué que la méthode Spawning est très proche du paradigme de formation pré-entraînement-mise au point. C'est-à-dire que la méthode de reproduction et le réglage fin partent d'un modèle qui a été formé pendant un certain temps pour effectuer une formation ultérieure.

Cependant, le modèle dans Spawning Method continue d'être formé sur le même ensemble de données, tandis que le modèle en cours de réglage peut être formé sur différents ensembles de données.

Dans un travail récent, ils ont découvert que dans le cadre du paradigme de réglage fin avant la formation, différents modèles de réglage fin satisfont également aux propriétés de la connectivité des fonctionnalités linéaires par couches, que l'équipe de recherche appelle linéarité inter-tâches.

Il a été constaté que dans le cadre du paradigme de réglage précis avant la formation, le réseau est en réalité plus proche d'un mappage linéaire de l'espace des paramètres à l'espace des fonctionnalités.

Autrement dit, la linéarité inter-tâches étend la définition de la connectivité des fonctionnalités linéaires par couches aux modèles formés sur différents ensembles de données.

Il est intéressant de noter que l’équipe a également utilisé les résultats de la linéarité inter-tâches pour expliquer deux techniques courantes de fusion de modèles :

Premièrement, le Model Averaging prend la moyenne des poids de plusieurs modèles affinés sur le même ensemble de données mais en utilisant différentes configurations d'hyperparamètres, améliorant ainsi la précision et la robustesse.

Dans l'étude, le poids moyen du groupe de recherche a été interprété comme la moyenne des caractéristiques de chaque couche, établissant ainsi un lien étroit entre le Model Averaging et l'intégration du modèle, expliquant ainsi l'efficacité du Model Averaging.

Deuxièmement, avec des opérations arithmétiques simples, Task Arithmetic peut combiner les poids de modèles affinés sur différentes tâches pour contrôler le comportement du modèle en conséquence.

Au cours de la recherche, l'équipe a transformé les opérations arithmétiques dans l'espace des paramètres en opérations dans l'espace des fonctionnalités, expliquant ainsi l'arithmétique des tâches du point de vue de l'apprentissage des fonctionnalités.

Par la suite, ils ont exploré les conditions dans lesquelles se produit la linéarité inter-tâches et ont découvert l’importance de la pré-formation à la linéarité inter-tâches.

Les résultats expérimentaux montrent que les connaissances communes acquises dès la phase de pré-formation contribuent à répondre aux exigences de linéarité inter-tâches.

Au cours de l'étude, l'entreprise a également tenté de prouver la linéarité inter-tâches et a découvert que l'émergence de la linéarité inter-tâches est liée à la planéité du paysage réseau et à l'écart de poids entre les deux modèles affinés.

Récemment, un article connexe intitulé « Sur l'émergence de la linéarité des tâches croisées dans le pré-entraînement-Finetuning » a été publié lors de la Conférence internationale sur l'apprentissage automatique (ICML) 2024 [ 1].


Figure | Articles connexes (Source : ICML 2024)

L’équipe de recherche a exprimé l’espoir que cette découverte puisse inspirer de meilleurs algorithmes de fusion de modèles.

À l’avenir, s’il est nécessaire de construire un grand modèle multi-capables et affiné, la fusion de grands modèles deviendra l’une des technologies de base. Ce travail fournit un solide support expérimental et théorique pour la fusion de grands modèles et peut inspirer de meilleurs algorithmes de fusion de grands modèles.

Ensuite, ils espèrent comprendre la connectivité en mode linéaire, la connectivité des fonctionnalités linéaires par couches et la linéarité inter-tâches du point de vue de la dynamique de formation.

Bien qu'ils aient obtenu quelques explications au niveau des fonctionnalités, ils ne peuvent toujours pas expliquer la connectivité en mode linéaire du point de vue des premiers principes.

Par exemple, pourquoi la méthode de génération n'a-t-elle besoin que de former d'abord quelques époques pour finalement obtenir deux modèles qui répondent à la connectivité en mode linéaire ?

Et comment prédire une telle période de frai ? Pour répondre à ces questions, nous devons comprendre la connectivité en mode linéaire du point de vue de la formation et de l’optimisation, et c’est également l’effort de suivi de l’équipe.

Les références:

1. Zhou, Z., Chen, Z., Chen, Y., Zhang, B., & Yan, J. Sur l'émergence de la linéarité inter-tâches dans le paradigme de pré-entraînement-réglage fin. Dans la quarante et unième conférence internationale sur l'apprentissage automatique.

Opération/composition : He Chenlong

01/ L'équipe de la ville de Hong Kong développe un nouveau type de membrane nanocouche, qui peut être utilisée pour le traitement de l'eau douce dans des scénarios spéciaux et découvre des percées dans l'application de matériaux bidimensionnels.

02/ Des décennies de problèmes chimiques ont reçu des réponses crédibles. Les scientifiques ont proposé un nouveau mécanisme microscopique de dissolution du chlorure d'hydrogène pour former de l'acide chlorhydrique, qui favorisera le développement de multiples disciplines.

03/ Les scientifiques créent une nouvelle méthode de contrôle par détection quantique capable de détecter avec précision les signaux faibles et pouvant être utilisée pour détecter et contrôler des spins nucléaires individuels.

04/ Les nouveaux gagnants chinois du « MIT Technology Review » du « Top 35 des innovateurs technologiques de moins de 35 ans » sont officiellement annoncés !Soyez témoin du pouvoir d'innovation de la jeunesse scientifique et technologique de Shanghai

05/ Avec une résistance dynamique de 14 GPa, l'équipe de l'Université de Pékin a développé avec succès des fibres de nanotubes de carbone super résistantes, qui peuvent être utilisées comme matériaux structurels et protecteurs légers et hautes performances.