nouvelles

Oxbridge n'a pas réussi à « empoisonner » l'IA et est apparu 9 fois sur la couverture de Nature, déclenchant un débat houleux dans les cercles universitaires ! L’IA peut-elle entraîner l’IA à percer

2024-07-27

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


Nouveau rapport de sagesse

Editeur : Énée si endormi

[Introduction à la nouvelle sagesse] L'article d'Oxford et de Cambridge sur neuf empoisonnements qui ont provoqué l'effondrement du modèle a reçu de nombreuses critiques : cela peut-il également être inclus dans Nature ? Ce sujet a fait l’objet de discussions plus approfondies dans les cercles universitaires, et tout le monde partage le même point de vue : les données synthétiques sont considérées par beaucoup comme une panacée, mais il n’y a rien de gratuit dans le monde.

À l’ère de l’IA, les données sont le nouveau pétrole. À une époque où les données humaines mondiales s’épuisent progressivement, les données synthétiques sont-elles notre avenir ?

La récente polémique suscitée par un article en couverture de Nature nous a fait comprendre : ce qui est important, ce ne sont pas les « données synthétiques », mais « l'utilisation correcte des données synthétiques ».

Jeudi, un article d'Oxford, de Cambridge, de l'Imperial College, de l'Université de Toronto et d'autres institutions a fait la couverture de Nature.


Cependant, ce à quoi les gens ne s’attendaient pas, c’est qu’une fois l’article publié, il déclencherait de nombreuses discussions au sein de la communauté de l’IA.



Certains pensent que le cœur du problème ne réside pas dans les « données synthétiques » mais dans la « qualité des données ».

Même si toutes les données artificielles sont utilisées, si la qualité est trop mauvaise, le résultat sera « des déchets entrants, des déchets sortants ».



Certains pensent même que les chercheurs ont délibérément adopté des méthodes qui ne correspondent pas à l'opération réelle et qui relèvent en réalité de la « démagogie ».


À cet égard, le professeur Ma Yi a déclaré que nous sommes désormais entrés dans une ère qui manque d'idées et de méthodes scientifiques...

De nombreuses études ne sont rien d’autre qu’une redécouverte du bon sens scientifique.


Comment éviter le crash du modèle ?

La question est donc la suivante : comment pouvons-nous éviter l’effondrement du modèle lorsque nous utilisons l’IA pour synthétiser des données ?

Les données hybrides sont l'avenir

Pour cet article en couverture de Nature, Alexandr Wang, PDG de Scale AI, est tout à fait d’accord.

Il a déclaré que l'utilisation de données purement synthétiques pour former des modèles n'apporterait pas de gain d'informations.

Habituellement, lorsqu’une mesure d’évaluation augmente en raison de l’auto-distillation, c’est probablement à cause de compromis plus subtils :

  • Les données synthétiques peuvent améliorer les estimations à court terme, mais vous payez alors le prix de l’effondrement du modèle.

  • Vous accumulez une dette invisible en cours de formation ou de mise au point du modèle, qui sera difficile à rembourser


Concrètement, dans les générations successives d’entraînements synthétiques, les erreurs proviennent principalement de trois aspects :

  • erreur d'approximation statistique

  • erreur d'expressivité fonctionnelle

  • erreur d'approximation fonctionnelle

Autrement dit, chaque fois que vous entraînez un nouveau modèle à l'aide des données générées par le modèle précédent, vous perdez des informations et de la précision, ce qui rend le modèle de plus en plus vide et finit par cesser de fonctionner correctement.


Bien que ces expériences aient été réalisées sur un modèle à petite échelle (paramètres 100M), les effets fondamentaux observés apparaîtront également sur des modèles à plus grande échelle au fil du temps.

Par exemple, la plupart des modèles actuels ne sont pas en mesure de générer des articles de blog de style Slate Star Codex, encore une fois en raison de pannes de modèle. À mesure que nous entraînons continuellement les modèles, ils perdent progressivement la capacité de faire des prédictions sur une large distribution.


Selon Wang, les données hybrides constituent l'orientation future du développement, qui peut éviter tous les problèmes épineux liés à l'effondrement du modèle.

Autrement dit, dans le processus de synthèse des données, celles-ci doivent être générées via une nouvelle source d'informations :

(1) Utiliser des données du monde réel comme graines

(2) Des experts humains participent

(3) Moteur logique formel

En revanche, les développeurs qui entraînent accidentellement leurs modèles sur des données synthétiques sans obtenir d’informations finiront par constater que leurs modèles deviennent de plus en plus étranges et stupides au fil du temps.

L'apprentissage par renforcement est tout ce dont vous avez besoin

Des chercheurs de Meta, de l'Université de New York et de l'Université de Pékin ont proposé une méthode de « rétroaction de classement-élagage » via des humains ou des modèles plus faibles, qui peut restaurer ou même surpasser les performances d'origine du modèle.

Concernant cette recherche, LeCun l'a également transmise pour exprimer son soutien.


Comme nous le savons tous, il est beaucoup plus facile pour les humains et les machines de faire la distinction entre les bons et les mauvais exemples que de générer des échantillons de haute qualité à partir de zéro.

Sur cette base, l’auteur propose une toute nouvelle méthode pour empêcher l’effondrement du modèle grâce au retour de données synthétiques.


Adresse papier : https://arxiv.org/abs/2406.07515

Pour étudier cette question, les auteurs fournissent d’abord des résultats analytiques dans un cadre théorique.

Ici, les auteurs proposent des modèles de mélange gaussiens et des modèles linéaires dans la limite de grande dimension comme classificateurs et laissent un vérificateur (par exemple, humain ou oracle) sélectionner ou élaguer les données générées.

Les résultats montrent que lorsque le nombre de points de données synthétiques approche l'infini, les modèles entraînés sur des données sélectionnées peuvent obtenir des résultats optimaux comparables à ceux entraînés sur des données brutes.

Les simulations sur des données synthétiques montrent que la supervision Oracle produit systématiquement des résultats presque optimaux par rapport à l'utilisation d'annotations brutes.

De plus, étant donné que la distinction de données de haute qualité grâce à la supervision humaine est plus simple et moins coûteuse que l’annotation humaine directe, cela fournit des preuves solides de l’efficacité de la supervision humaine.


Un modèle de mélange gaussien avec un générateur linéaire et un sécateur linéaire : le sécateur améliore les performances en renforçant sélectivement les données synthétiques

Ensuite, les auteurs ont mené deux expériences à grande échelle :

1. Entraînez le transformateur sur une tâche arithmétique (prédiction des valeurs propres matricielles) et utilisez la distance par rapport à la valeur réelle pour élaguer de grandes quantités de données synthétiques.

2. Résumé de l'actualité à l'aide d'un grand modèle de langage (Llama 2) et de données synthétiques limitées

Les résultats montrent que dans les deux cas, s’appuyer uniquement sur les données générées entraîne une dégradation des performances et des plantages du modèle, même si la quantité de données augmente.

De plus, la sélection de la meilleure solution dans le pool de générations sur la seule base de la perplexité n'améliore pas les performances, c'est-à-dire que le modèle lui-même n'a pas la capacité de sélectionner la meilleure prédiction basée sur la perplexité.

En revanche, sous la supervision d'Oracle, il est possible d'obtenir un ensemble de données synthétiques amélioré par rétroaction dont les performances dépassent celles de l'ensemble de données d'origine à mesure que la quantité de données augmente.


L'augmentation humaine et du modèle améliore les performances et évite les pannes du modèle. La dégradation des performances se produit sans augmentation ;

Par conséquent, lors de la formation d’un nouveau modèle avec des données synthétiques, vous devez non seulement vous concentrer sur la qualité du générateur, mais vous avez également besoin d’un vérificateur de haute qualité pour sélectionner les données.

Pour résumer en une phrase : le renforcement suffit !

Données réelles + données synthétiques

Concernant les plaintes des lecteurs concernant cet article de couverture de Nature, Rylan Schaeffer, doctorant à l'Université de Stanford, a exprimé sa compréhension.

Il a noté que l’effondrement du modèle se produit souvent lorsque les chercheurs adoptent délibérément des méthodes qui ne correspondent pas à la pratique réelle.

L'accumulation de données peut s'effondrer ou non, tout dépend des détails opérationnels spécifiques.

Si vous le faites délibérément s’effondrer, bien sûr, il s’effondrera.


Dans cet article, co-écrit par Stanford, le Maryland et le MIT, Schaeffer examine comment l'accumulation de données affecte l'effondrement du modèle.

Après des expérimentations, ils ont confirmé que le remplacement des données réelles originales par des données synthétiques à chaque génération entraînerait effectivement l’effondrement du modèle.

Cependant, l’effondrement du modèle peut être évité si des générations successives de données synthétiques sont accumulées aux côtés des données réelles originales.


Adresse papier : https://arxiv.org/abs/2404.01413

En pratique, les futures générations de LLM seront formées sur des quantités croissantes de données au fil du temps. Par exemple, Llama 1 nécessite 1 400 milliards de jetons, Llama 2 nécessite 2 000 milliards de jetons et Llama 3 nécessite 15 000 milliards de jetons.

Dans un sens, ce paramètre d'accumulation de données est extrêmement pessimiste——

Dans ce futur hypothétique, des données synthétiques sont déversées de manière incontrôlable sur Internet pour être utilisées pour entraîner la prochaine itération du modèle.


Comme le montre le côté droit de la figure, l'accumulation de données peut éviter l'effondrement du modèle.

Les chercheurs ont utilisé trois paramètres expérimentaux différents : transformateur causal, modèle de diffusion et encodeur autovariationnel, et se sont entraînés respectivement sur des ensembles de données de texte réel, de conformation moléculaire et d'image.

Ils ont constaté que le remplacement des données provoquait l’effondrement du modèle pour tous les modèles et pour tous les ensembles de données, alors que l’accumulation de données empêchait l’effondrement du modèle.

Modélisation du langage causal basée sur Transformer

Tout d’abord, ils ont formé le transformateur causal sur des données textuelles.

Plus précisément, le paramètre 9M GPT-2 d'une seule époque et le modèle linguistique Llama 2 des paramètres 12M, 42M et 125M ont été pré-entraînés sur TinyS-tories.

Le premier est un ensemble de données de nouvelles symboliques de 470 millions généré par GPT-3.5/4 au niveau de lecture de la maternelle.

Pour chaque itération d'ajustement du modèle n ≥ 2, nous échantillonnons un nouvel ensemble de données de la même taille que TinvStories à partir des types linguistiques de l'itération précédente, puis remplaçons ou concaténons l'ensemble de données précédent avec l'ensemble de données nouvellement généré.

Dans chaque itération d'ajustement de modèle, ils pré-entraînent un nouveau modèle initialisé sur l'ensemble de données de remplacement ou concaténées de l'itération précédente.


Les résultats montrent que, pour toutes les architectures, le nombre de paramètres et les températures d'échantillonnage, le remplacement des données entraîne une augmentation de l'entropie croisée des tests à mesure que le nombre d'itérations d'ajustement du modèle augmente (Figure 2 à gauche).

Ils ont également constaté que, pour toutes les architectures, le nombre de paramètres et les températures d'échantillonnage, à mesure que le nombre d'itérations d'ajustement du modèle augmente, les données accumulées entraînent une entropie croisée de test égale ou inférieure (Figure 2, à droite).

La figure 3 est la courbe d'apprentissage pour chaque itération d'ajustement de modèle lors du remplacement répété de données (en haut) et de l'accumulation de données (en bas).

Les résultats montrent que l’accumulation de données évite l’effondrement du modèle dans la modélisation du langage.


Le 125M Llama2 et le 9M GPT-2 ont tous deux montré une dégradation de la qualité lors du remplacement des données (R), mais ont maintenu une génération de texte de haute qualité lors de l'accumulation de données (A).


Modèles de diffusion pour les données conformationnelles moléculaires

Ensuite, ils ont formé une séquence de modèles de diffusion sur les données de conformation moléculaire.

Plus précisément, les chercheurs ont formé GeoDiff, un modèle de diffusion géométrique pour la génération de conformation moléculaire, sur l'ensemble de données GEOMDrugs.

Ils ont sous-échantillonné la partie formation de l’ensemble de données GEOM-Drugs à 40 000 conformations moléculaires, l’ont utilisée comme ensemble de formation initiale et ont effectué 50 étapes de diffusion pour chaque prédiction.

Résultats Après 8 itérations d'ajustement du modèle, les chercheurs ont constaté que la perte de test augmentait lors du remplacement des données, ce qui correspondait à nos expériences de modèle de langage, et que la perte de test restait relativement constante lors de l'accumulation de données (Figure 4).


Contrairement aux modèles de langage, ils ont constaté que lors du remplacement des données, les performances se détériorent considérablement lors de la première itération d’ajustement du modèle de formation sur des données synthétiques, et ne diminuent pas davantage de manière significative lors des itérations suivantes.

Encodeur autovariationnel pour les données d'image

À la fin de l'expérience, les chercheurs ont formé une séquence d'encodeur variationnel (VAE) sur CelebA. L'ensemble de données contient 200 000 images de visage et est divisé en un ensemble d'entraînement et un ensemble de test.

Ce choix établit un équilibre entre des ensembles de données réalistes avec de nombreux échantillons, images couleur et résolutions, et la faisabilité informatique de l'entraînement du modèle pour de nombreuses itérations sur les données accumulées.

En conséquence, ils ont constaté que le remplacement des données à chaque itération provoquait à nouveau un effondrement du modèle :

L'erreur de test augmente rapidement à chaque itération supplémentaire, et chaque itération produit des visages de moindre qualité et moins diversifiés, jusqu'à ce que toute la génération de modèle représente un modèle unique.


En revanche, l’accumulation de données à chaque itération ralentit considérablement l’effondrement du modèle :

L'erreur de test augmente beaucoup plus lentement à chaque itération supplémentaire.

Bien que la diversité des générations diminue par rapport aux panneaux du milieu et de droite de la figure 6, elle représente toujours les principaux axes de variation de l'ensemble de données, comme le sexe, mais le modèle ne semble plus en générer d'autres le long des axes les plus courts des données. collecteur. Détails tels que lunettes et accessoires.

Un autre phénomène intéressant est que, contrairement à la modélisation du langage, l’erreur de test sur les données accumulées augmente avec le nombre d’itérations (bien que beaucoup plus lentement que sur les données de remplacement).

Pourquoi cette différence existe-t-elle ? Cette direction de recherche est laissée au futur.

Les références:

https://x.com/alexandr_wang/status/1816491442069782925 https://x.com/RylanSchaeffer/status/1816535790534701304

https://arxiv.org/abs/2404.01413

https://arxiv.org/abs/2406.07515