nouvelles

étude : l’utilisation répétée de contenu généré par l’ia pour entraîner l’ia peut provoquer un « effondrement du modèle »

2024-09-05

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

it house news le 5 septembre. le 4 septembre, heure locale, selon forbes, le dr ilya shumelov de l'université d'oxford et son équipe ont découvert que lorsque les logiciels d'ia générative s'appuient uniquement sur le contenu, la qualité des réponses commence à se détériorer. la recherche a été publiée dans la revue nature.

après les deux premières requêtes, les réponses se sont progressivement éloignées de l'exactitude, à la cinquième requête, la qualité a chuté de manière significative, et à la neuvième requête consécutive, les réponses avaient complètement dégénéré en charabia dénué de sens. les chercheurs qualifient cette surutilisation cyclique du contenu génératif de l’ia d’« effondrement du modèle », dans lequel le résultat de l’ia s’écarte progressivement de la réalité et finit par devenir sans valeur après avoir continuellement contaminé son propre ensemble de formation.

"il est surprenant de voir avec quelle rapidité et imperceptibilité l'effondrement du modèle se produit", a déclaré shumelov. "au début, cela affecte un petit nombre de données, celles qui sont sous-représentées. ensuite, cela affecte la diversité des résultats, conduisant à une variabilité réduite. parfois, vous observerez. de petites améliorations sur la majorité des données, mais cette amélioration masque une détérioration des performances du modèle sur une minorité de données.

les chercheurs ont identifié l'existence d'un « effondrement du modèle » en utilisant un wikipédia pré-entraîné alimenté par l'ia, puis en laissant le modèle d'ia se mettre à jour en fonction du contenu qu'il a généré. l'influence des données contaminées entraîne progressivement une érosion de l'ensemble de formation d'origine et les informations de sortie deviennent difficiles à comprendre. par exemple, après le neuvième cycle de requête, l’entrée wikipédia étudiée est passée de manière comique d’un clocher d’église anglaise du xive siècle à un article sur des lapins bobtail de différentes couleurs.

selon des rapports, selon une autre étude publiée par l'équipe amazon web services en juin, environ 57 % des textes en ligne ont été traduits par des algorithmes d'ia. si les données générées par l’homme sur internet sont rapidement écrasées par le contenu filtré par l’ia, et si les résultats des recherches de shumeilov sont vrais, alors l’ia pourrait s’autodétruire – et détruire internet en même temps.

l’étude conclut que la seule façon de parvenir à un développement durable à long terme de l’ia est de garantir qu’elle ait accès au contenu existant non généré par l’ia et qu’elle continue d’introduire de nouveaux contenus générés par l’homme.