2024-07-27
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
Baijiao vient du temple Aofei
Qubits | Compte public QbitAI
Entraînement à l'IA L'IA peut-elle rendre l'IA stupide ? !
Des chercheurs d'Oxford, de Cambridge et d'autres institutions ont récemment découvert que les grands modèles peuvent s'effondrer lorsqu'ils sont entraînés avec des données synthétiques.Ses résultats de recherche ont été sélectionnés comme les plus récentsCouverture naturelle。
Direct :LES DÉCHETS SONT DEHORS !
Vous savez, la plupart des grands modèles d'entreprises technologiques utilisent désormais des données synthétiques pour atténuer la « pénurie de données ». Il s’agit sans aucun doute d’une vague d’eau froide déversée sur l’ensemble de l’industrie.
L’équipe de recherche a donné un tel exemple.
Ils ont testé le modèle OPT-125m de Meta et ont demandé des informations sur l'architecture médiévale.
Chaque réglage fin est entraîné sur les données générées la dernière fois. Les réponses des premiers tours se sont avérées plutôt bonnes. Du coup, la neuvième fois, j'ai commencé à dire des bêtises...
Qu'est-ce que c'est que ça avec les lapins ? !
L'auteur principal de l'article a déclaré qu'il avait considéré que les données synthétiques pouvaient introduire des erreurs dans les grands modèles, mais qu'il ne s'attendait pas à ce que les modèles se détériorent aussi rapidement.
Tout d’abord, l’équipe a défini ce qu’était l’effondrement du modèle.
L'effondrement du modèle est un processus de dégradation dans lequel le contenu généré par le modèle contamine la prochaine génération d'ensembles de données de formation. Après s’être entraînés sur des données contaminées, les modèles de nouvelle génération ont tendance à mal comprendre la réalité.
Ce cycle se poursuit encore et encore, chaque génération étant pire que la suivante.
Selon le passage du temps, il existe principalement deux situations : l'effondrement précoce du modèle et l'effondrement tardif du modèle.
Au début de l’effondrement du modèle, le modèle commence à perdre certaines informations sur la queue. (Semblable à certains événements à faible probabilité dans une distribution de probabilité) Et lors de l'effondrement tardif du modèle, le modèle convergera pour n'avoir presque aucune ressemblance avec la distribution d'origine.
L'occurrence de ce processus est liée à la conception du modèle, au processus d'apprentissage et à la qualité des données utilisées.
Spécifique à la théorie, elle inclut principalement l’écart du grand modèle par rapport au modèle original provoqué par ces trois erreurs.
Les chercheurs ont ensuite évalué l’impact de l’effondrement du modèle sur le modèle de langage. Étant donné que former un grand modèle à partir de zéro coûte très cher, ils ont choisi d'évaluer le paramètre le plus courant pour les modèles de langage :Affiner les paramètres。
Chaque cycle de formation commence par un modèle pré-entraîné avec les dernières données. Les données d'entraînement proviennent d'un autre modèle pré-entraîné affiné.
Ils ont utilisé le modèle de langage méta causal OPT-125m, qui a été affiné sur wikitext2.
Pour générer des données à partir du modèle entraîné, l’équipe a utilisé une recherche par faisceau à cinq voies. Ils ont défini la séquence de formation sur 64 jetons ; puis, pour chaque séquence de jetons de l'ensemble de formation, il a été demandé au modèle de prédire les 64 jetons suivants.
Ils parcourent tous les ensembles de données d'entraînement d'origine et génèrent un ensemble de données artificielles de même taille.Si l'erreur du modèle est 0, il génère l'ensemble de données wikitext2 d'origine.
Afin de mieux ressentir la différence, ils ont utilisé deux paramètres différents : un groupe, à l'exception de la formation initiale, il n'y a pas de données de formation originales dans le processus ultérieur ; l'autre groupe conserve 10 % des données originales.
Les résultats ont montré que les erreurs produites par le modèle augmentaient avec le temps. Cela amène également le modèle à oublier les événements à faible probabilité dans l'ensemble de données et leurs sorties deviennent plus homogènes, avant que le modèle ne s'effondre complètement. Finalement, le phénomène du début est apparu.
De plus, des phénomènes similaires d’effondrement des modèles ont été observés dans les modèles VAE et GMM.
Le professeur Emily Wenger de l'Université Duke a déclaré que l'atténuation du problème n'a pas été facile jusqu'à présent.
Les principales entreprises technologiques ont déployé une technologie qui intègre des « filigranes » -
Signalez le contenu généré par l’IA à exclure des données d’entraînement. La difficulté est que cela nécessite une coordination entre les entreprises technologiques et est donc moins viable commercialement.
De cette manière, les entreprises qui obtiennent des données sur Internet peuvent former des modèles plus représentatifs du monde réel. Par conséquent, la première vague de grands modèles avait l’avantage d’être le premier à arriver.
Que pensez-vous de ce point de vue ?
Liens de référence :
[1]https://www.nature.com/articles/d41586-024-02420-7
[2]https://www.nature.com/articles/d41586-024-02355-z
[3]https://www.nature.com/articles/s41586-024-07566-y