nouvelles

Architecture de réseau neuronal « différents chemins mènent au même objectif » ? Article ICML 2024 : Des modèles différents, mais le même contenu d'apprentissage

2024-07-16

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


Nouveau rapport de sagesse

Editeur : Qiao Yang

[Introduction à la nouvelle sagesse] Les réseaux de neurones profonds existent dans de nombreuses tailles et architectures, et il est généralement admis que cela affecte les représentations abstraites apprises par le modèle. Cependant, le premier article publié par deux chercheurs de l'UCL à l'ICML 2024 a souligné que si l'architecture du modèle est suffisamment flexible, certains comportements de réseau sont répandus parmi les différentes architectures.

Depuis que l’IA est entrée dans l’ère des grands modèles, la Scaling Law est presque devenue un consensus.


Adresse papier : https://arxiv.org/abs/2001.08361

Les chercheurs d'OpenAI ont proposé dans cet article en 2020 que les performances du modèle ont une relation de loi de puissance avec trois indicateurs : la quantité de paramètres N, la taille de l'ensemble de données D et la puissance de calcul d'entraînement C.


En plus de ces trois aspects, des facteurs tels que la sélection des hyperparamètres ainsi que la largeur et la profondeur du modèle ont peu d'impact sur les performances dans une plage raisonnable.

De plus, l’existence de cette relation puissance-loi n’impose aucune stipulation sur l’architecture du modèle. En d’autres termes, nous pouvons penser que la loi de mise à l’échelle est applicable à presque toutes les architectures de modèles.

Par ailleurs, un article publié dans le domaine des neurosciences en 2021 semble aborder ce phénomène sous un autre angle.


Adresse de l'article : https://www.frontiersin.org/journals/computational-neuroscience/articles/10.3389/fncom.2021.625804/full

Ils ont constaté que même si les réseaux tels qu'AlexNet, VGG et ResNet conçus pour les tâches visuelles présentent de grandes différences structurelles, ils semblent être capables d'apprendre une sémantique très similaire, telle que la relation hiérarchique entre les catégories d'objets, après un entraînement sur le même ensemble de données. .


Mais quelle est la raison derrière cela ? Au-delà d’une expérience superficielle, dans quelle mesure les différentes architectures de réseau sont-elles similaires au niveau essentiel ?

Deux chercheurs de l'UCL ont publié un article cette année, tentant de répondre à cette question en examinant la représentation abstraite apprise par les réseaux de neurones.


Adresse papier : https://arxiv.org/abs/2402.09142

Ils ont dérivé une théorie qui résume efficacement la dynamique de l'apprentissage des représentations dans des architectures de modèles complexes à grande échelle, découvrant ses caractéristiques « riches » et « paresseuses ». Lorsque le modèle est suffisamment flexible, certains comportements de réseau peuvent être répandus dans différentes architectures.

Cet article a été accepté par la conférence ICML 2024.

Processus de modélisation

Le théorème d'approximation universelle stipule qu'avec suffisamment de paramètres, un réseau neuronal non linéaire peut apprendre et approximer n'importe quelle fonction fluide.

Inspiré par ce théorème, l'article suppose d'abord que le mappage de codage de l'entrée vers la représentation cachée et le mappage de décodage de la représentation cachée vers la sortie sont des fonctions lisses arbitraires.

Par conséquent, tout en ignorant les détails de l’architecture du réseau, la dynamique fonctionnelle peut être modélisée de la manière suivante :

Le processus de formation d'un réseau neuronal peut être considéré comme l'optimisation d'une fonction de lissage sur un ensemble de données spécifique, modifiant constamment les paramètres du réseau pour minimiser la fonction de perte MSE :


dans⟨⋅⟩Les symboles représentent les moyennes sur l’ensemble des données.

Puisque nous souhaitons étudier les processus dynamiques qui représentent l'espace, la fonction peut être divisée en une combinaison de deux cartes lisses : la carte d'encodageℎ:→, et mappage de décodage:→, à ce stade, la fonction de perte dans l'équation (1) peut s'écrire :


Ensuite, le processus de mise à jour des paramètres à l’aide de la règle de descente de gradient peut s’écrire comme suit :

où est l’inverse du taux d’apprentissage.

Bien que l’équation (4) soit suffisamment précise, le problème est qu’elle dépend explicitement des paramètres du réseau, et une expression mathématique suffisamment générale nécessite d’ignorer ce détail de mise en œuvre.

Idéalement, si la capacité d'expression du réseau neuronal est suffisamment riche, l'optimisation de la fonction de perte devrait être directement exprimée sous la forme d'environ deux mappages.et fonction.


Cependant, la manière mathématique d’y parvenir reste floue. Par conséquent, commençons par le cas le plus simple : nous ne considérons pas l’ensemble des données dans son intégralité, mais deux points de données.

Pendant l'entraînement, grâce à la fonction de cartographieÀ mesure que la somme change, les représentations de différents points de données se déplacent dans l’espace caché, se rapprochent ou interagissent les unes avec les autres.

Par exemple, pour deux points de l'ensemble de données, si⁢(1) et⁢(2) est suffisamment proche etet est une fonction lisse, alors la moyenne des deux points peut être utilisée pour effectuer une approximation linéaire des deux fonctions de cartographie :


danset respectivementet la matrice jacobienne de .

En supposant que le réseau neuronal possède une expressivité et des degrés de liberté suffisants, les paramètres de linéarisation, et peut être efficacement optimisé, alors le processus de descente de gradient peut être exprimé comme suit :


L'équation (6) décrit la principale hypothèse de modélisation de l'article, qui se veut une théorie équivalente pour les systèmes à architecture complexe à grande échelle et n'est pas soumise à des méthodes de paramétrage spécifiques.


La figure 1 est une expression visuelle du processus de modélisation ci-dessus. Afin de simplifier le problème, on suppose que deux points de données se rapprocheront ou s'éloigneront seulement dans l'espace caché, mais ne tourneront pas.

Le principal indicateur qui nous intéresse est la distance ‖ℎ‖ dans l'espace caché, qui nous permet de connaître la structure de représentation apprise par le modèle, et la distance ‖‖ sortie par le modèle, qui aide à modéliser la courbe de perte.

De plus, une variable externe est introduite pour contrôler la vitesse de représentation, ou peut être considérée comme un alignement de sortie, représentant la différence angulaire entre la sortie prédite et la sortie réelle.

De là, nous obtenons un système indépendant de trois variables scalaires :



Parmi eux, les détails de mise en œuvre du réseau neuronal ont été exprimés de manière abstraite sous la forme de deux constantes : 1/et 1/, indiquant le taux d’apprentissage effectif.

Apprentissage de la cohérence dynamique

Une fois la modélisation terminée, l'article a formé des réseaux de neurones de différentes architectures sur l'ensemble de données à deux points et a comparé la dynamique d'apprentissage réelle avec la solution numérique de la théorie équivalente. Les résultats sont présentés dans la figure 2.


La structure par défaut fait référence à un réseau à 20 couches, 500 neurones par couche et ReLU qui fuit.

On peut voir que même si seules deux constantes doivent être ajustées, la théorie de l'équivalence qui vient d'être décrite peut toujours bien s'adapter à la situation réelle de divers réseaux de neurones.

Les mêmes équations peuvent décrire avec précision la dynamique de plusieurs modèles et architectures complexes au cours de la formation, ce qui semble indiquer que si le modèle est suffisamment expressif, il finira par converger vers un comportement de réseau commun.

Mettez-le sur un ensemble de données plus vaste comme le MNIST et suivez la dynamique d'apprentissage de deux points de données, et la théorie de l'équivalence est toujours valable.


L'architecture réseau comprend 4 couches entièrement connectées, chaque couche comprend 100 neurones et utilise la fonction d'activation ReLU qui fuit.

Cependant, il convient de noter que lorsque le poids initial augmente progressivement (Figure 3), les modèles de changement de ‖ℎ‖, ‖⁢‖ et des trois variables changeront.

Parce que lorsque le poids initial est important, les deux points de données seront très éloignés l'un de l'autre au début de l'entraînement, donc l'approximation linéaire de la formule (5) ne tient plus et le modèle théorique ci-dessus échoue.


représentation structurée

À partir des contraintes de douceur et de la théorie de l'équivalence mentionnée ci-dessus, pouvons-nous résumer les règles de la structure de représentation des réseaux de neurones ?

D'après la formule (7), on peut en déduire qu'il existe un point fixe unique, qui est la distance de représentation finale de deux points de données :


Si le poids initial est grand, la distance de représentation finale convergera vers un niveau élevé, et la valeur dépend de l'entrée des données et de l'initialisation aléatoire. À l'inverse, si le poids initial est petit, il convergera vers un niveau faible, ce qui dépend de l'entrée et de la sortie ; structure des données.

Cette séparation entre mécanismes aléatoires et mécanismes structurés vérifie en outre la « richesse » et « l'inertie » du processus d'apprentissage des réseaux de neurones profonds proposés dans des articles précédents, d'autant plus que l'échelle des poids initiaux deviendra un facteur clé.

L'article donne une explication intuitive de ce phénomène :

Si les poids initiaux sont importants, les deux points de données dans l'espace caché seront éloignés l'un de l'autre au début de l'entraînement. La flexibilité du réseau permet donc au décodeur d'apprendre librement la sortie correcte pour chaque point de données individuellement sans avoir besoin d'ajustements importants. Structure de représentation. Par conséquent, le modèle final appris ressemble à la structure déjà présente lors de l’initialisation.

Au contraire, lorsque le poids est faible, les deux points de données sont plus proches l'un de l'autre et, en raison de limitations de fluidité, la fonction de mappage d'encodage doit être ajustée en fonction de la sortie cible, en déplaçant la représentation des deux points de données pour s'adapter aux données. .

Nous verrons donc que lorsque les poids sont petits, l’apprentissage des représentations montrera un effet structuré (Figure 5).


Changer la tâche du réseau neuronal pour adapter une fonction OU exclusif (XOR) peut le démontrer de manière plus intuitive. Lorsque le poids d'initialisation est faible, le modèle apprend évidemment les caractéristiques structurelles de la fonction XOR.


Dans le réseau neuronal avec seulement 2 couches à droite, il existe un écart important entre la théorie et l'expérience, ce qui illustre l'importance de l'hypothèse d'une grande expressivité du modèle dans la théorie ci-dessus.

en conclusion

La principale contribution de cet article est l'introduction d'une théorie d'équivalence capable d'exprimer des parties communes du processus d'apprentissage dynamique dans différentes architectures de réseaux neuronaux et a démontré une représentation structurée.

En raison de la limitation de la fluidité du processus de modélisation et de la simplification de l'interaction des points de données, cette théorie ne peut toujours pas devenir un modèle universel pour décrire le processus de formation des réseaux de neurones profonds.

Cependant, l’aspect le plus précieux de cette étude est qu’elle montre que certains des éléments requis pour l’apprentissage des représentations peuvent déjà être inclus dans le processus de descente de gradient, et pas seulement à cause du biais inductif contenu dans l’architecture spécifique du modèle.

En outre, la théorie souligne également que l’échelle des pondérations initiales est un facteur clé dans la formation finale de la structure de représentation.

Dans les travaux futurs, nous devons encore trouver un moyen d’étendre la théorie de l’équivalence pour gérer des ensembles de données plus vastes et plus complexes, plutôt que de simplement modéliser l’interaction de deux points de données.

Dans le même temps, de nombreuses architectures de modèles introduisent des biais inductifs qui affectent l’apprentissage des représentations, interagissant potentiellement avec les effets représentationnels de la modélisation.

Les références:

https://arxiv.org/abs/2402.09142