Couverture Nature : L'IA entraîne l'IA, plus elle s'entraîne, plus elle devient stupide

Couverture nature : L'IA entraîne l'IA, plus elle s'entraîne, plus elle devient stupide

2024-07-27

Baijiao vient du temple Aofei
Qubits | Compte public QbitAI

Entraînement à l'IA L'IA peut-elle rendre l'IA stupide ? !

Des chercheurs d'Oxford, de Cambridge et d'autres institutions ont récemment découvert que les grands modèles peuvent s'effondrer lorsqu'ils sont entraînés avec des données synthétiques.Ses résultats de recherche ont été sélectionnés comme les plus récentsCouverture naturelle。

Direct :LES DÉCHETS SONT DEHORS !

Vous savez, la plupart des grands modèles d'entreprises technologiques utilisent désormais des données synthétiques pour atténuer la « pénurie de données ». Il s’agit sans aucun doute d’une vague d’eau froide déversée sur l’ensemble de l’industrie.

L’équipe de recherche a donné un tel exemple.

Ils ont testé le modèle OPT-125m de Meta et ont demandé des informations sur l'architecture médiévale.

Chaque réglage fin est entraîné sur les données générées la dernière fois. Les réponses des premiers tours se sont avérées plutôt bonnes. Du coup, la neuvième fois, j'ai commencé à dire des bêtises...

Qu'est-ce que c'est que ça avec les lapins ? !

L'auteur principal de l'article a déclaré qu'il avait considéré que les données synthétiques pouvaient introduire des erreurs dans les grands modèles, mais qu'il ne s'attendait pas à ce que les modèles se détériorent aussi rapidement.

Trois erreurs provoquent l'effondrement du modèle

Tout d’abord, l’équipe a défini ce qu’était l’effondrement du modèle.

L'effondrement du modèle est un processus de dégradation dans lequel le contenu généré par le modèle contamine la prochaine génération d'ensembles de données de formation. Après s’être entraînés sur des données contaminées, les modèles de nouvelle génération ont tendance à mal comprendre la réalité.

Ce cycle se poursuit encore et encore, chaque génération étant pire que la suivante.

Selon le passage du temps, il existe principalement deux situations : l'effondrement précoce du modèle et l'effondrement tardif du modèle.

Au début de l’effondrement du modèle, le modèle commence à perdre certaines informations sur la queue. (Semblable à certains événements à faible probabilité dans une distribution de probabilité) Et lors de l'effondrement tardif du modèle, le modèle convergera pour n'avoir presque aucune ressemblance avec la distribution d'origine.

L'occurrence de ce processus est liée à la conception du modèle, au processus d'apprentissage et à la qualité des données utilisées.

Spécifique à la théorie, elle inclut principalement l’écart du grand modèle par rapport au modèle original provoqué par ces trois erreurs.

erreur d'approximation statistique . Il s’agit du principal type d’erreur qui survient en raison d’une taille d’échantillon limitée et disparaît à mesure que la taille de l’échantillon tend vers l’infini. En effet, des informations peuvent être perdues à chaque étape de rééchantillonnage, avec une probabilité non nulle.
erreur d'expressivité de la fonction . Cette erreur est causée par la capacité d’expression limitée de l’approximation des fonctions. En particulier, les réseaux de neurones ne constituent une approximation universelle que lorsque leur taille atteint l'infini. Cependant, en l’absence des deux autres erreurs, cette erreur ne se produirait qu’à la première génération.
erreur d'approximation de fonction . Principalement causé par les limitations du processus d'apprentissage, telles que les biais structurels dans la descente de gradient stochastique ou le choix des objectifs. Cette erreur peut être considérée comme l’erreur qui survient dans le cas de données infinies et d’un pouvoir expressif parfait à chaque génération.

Impact sur les modèles de langage

Les chercheurs ont ensuite évalué l’impact de l’effondrement du modèle sur le modèle de langage. Étant donné que former un grand modèle à partir de zéro coûte très cher, ils ont choisi d'évaluer le paramètre le plus courant pour les modèles de langage :Affiner les paramètres。

Chaque cycle de formation commence par un modèle pré-entraîné avec les dernières données. Les données d'entraînement proviennent d'un autre modèle pré-entraîné affiné.

Ils ont utilisé le modèle de langage méta causal OPT-125m, qui a été affiné sur wikitext2.

Pour générer des données à partir du modèle entraîné, l’équipe a utilisé une recherche par faisceau à cinq voies. Ils ont défini la séquence de formation sur 64 jetons ; puis, pour chaque séquence de jetons de l'ensemble de formation, il a été demandé au modèle de prédire les 64 jetons suivants.

Ils parcourent tous les ensembles de données d'entraînement d'origine et génèrent un ensemble de données artificielles de même taille.Si l'erreur du modèle est 0, il génère l'ensemble de données wikitext2 d'origine.

Afin de mieux ressentir la différence, ils ont utilisé deux paramètres différents : un groupe, à l'exception de la formation initiale, il n'y a pas de données de formation originales dans le processus ultérieur ; l'autre groupe conserve 10 % des données originales.

Les résultats ont montré que les erreurs produites par le modèle augmentaient avec le temps. Cela amène également le modèle à oublier les événements à faible probabilité dans l'ensemble de données et leurs sorties deviennent plus homogènes, avant que le modèle ne s'effondre complètement. Finalement, le phénomène du début est apparu.

De plus, des phénomènes similaires d’effondrement des modèles ont été observés dans les modèles VAE et GMM.

Le professeur Emily Wenger de l'Université Duke a déclaré que l'atténuation du problème n'a pas été facile jusqu'à présent.

Les principales entreprises technologiques ont déployé une technologie qui intègre des « filigranes » -

Signalez le contenu généré par l’IA à exclure des données d’entraînement. La difficulté est que cela nécessite une coordination entre les entreprises technologiques et est donc moins viable commercialement.

De cette manière, les entreprises qui obtiennent des données sur Internet peuvent former des modèles plus représentatifs du monde réel. Par conséquent, la première vague de grands modèles avait l’avantage d’être le premier à arriver.

Que pensez-vous de ce point de vue ?

Liens de référence :
[1]https://www.nature.com/articles/d41586-024-02420-7
[2]https://www.nature.com/articles/d41586-024-02355-z
[3]https://www.nature.com/articles/s41586-024-07566-y

nouvelles