nouvelles

nous devons être attentifs au risque d’« effondrement du modèle » de l’ia.

2024-10-01

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

source de l'image : « theweek » aux états-unis
【point de vue d'aujourd'hui】
◎notre journaliste zhang jiaxin
du service client à la création de contenu, l’intelligence artificielle (ia) a contribué aux progrès dans de nombreux domaines. mais un problème croissant connu sous le nom d’« effondrement du modèle » pourrait anéantir toutes les réalisations de l’ia.
« l'effondrement du modèle » est un problème souligné dans un article de recherche publié dans la revue britannique nature en juillet de cette année. il fait référence à l’utilisation d’ensembles de données générés par l’ia pour former les futures générations de modèles d’apprentissage automatique, ce qui pourrait « contaminer » sérieusement leurs résultats.
plusieurs médias étrangers ont rapporté qu'il ne s'agit pas seulement d'un problème technique dont les data scientists doivent s'inquiéter. si rien n'est fait, « l'effondrement du modèle » pourrait avoir un impact profond sur les entreprises, la technologie et l'ensemble de l'écosystème numérique. le professeur xiong deyi, directeur du laboratoire de traitement du langage naturel de l'université de tianjin, a expliqué « l'effondrement du modèle » d'un point de vue professionnel dans une interview avec un journaliste du science and technology daily.
que se passe-t-il avec « l’effondrement du modèle » ?
la plupart des modèles d'ia, tels que gpt-4, sont formés sur de grandes quantités de données, dont la plupart proviennent d'internet. initialement, ces données sont générées par les humains et reflètent la diversité et la complexité du langage, du comportement et de la culture humains. l'ia apprend de ces données et les utilise pour générer du nouveau contenu.
cependant, à mesure que l'ia recherche de nouvelles données sur le web pour entraîner le modèle de nouvelle génération, l'ia est susceptible d'absorber une partie du contenu qu'elle génère, créant ainsi une boucle de rétroaction dans laquelle la sortie d'une ia devient l'entrée de un autre. lorsque l’ia générative est entraînée avec son propre contenu, ses résultats peuvent également s’écarter de la réalité. c'est comme faire plusieurs copies d'un document, chaque version perdant certains détails d'origine et aboutissant à un résultat flou et moins précis.
le new york times a rapporté que lorsque l’ia est séparée du contenu humain, la qualité et la diversité de sa production diminuent.
xiong deyi a expliqué : « la distribution des données réelles du langage humain est généralement conforme à la loi de zipf, c'est-à-dire que la fréquence des mots est inversement proportionnelle à l'ordre des mots. la loi de zipf révèle qu'il existe un phénomène de longue traîne dans les données du langage humain, c'est-à-dire , il existe un grand nombre de contenus basse fréquence et diversifiés.
xiong deyi a en outre expliqué qu'en raison d'erreurs telles que l'échantillonnage approximatif, le phénomène de longue traîne de la distribution réelle disparaît progressivement dans les données générées par le modèle. la distribution des données générées par le modèle converge progressivement vers une distribution incompatible avec la distribution. distribution réelle, et la diversité est réduite, ce qui entraîne un « effondrement du modèle ».
l’ia se « cannibalise »-t-elle elle-même une mauvaise chose ?
concernant « l'effondrement du modèle », le magazine américain « theweek » a récemment publié un article commentant que cela signifie que l'ia se « cannibalise » elle-même.
xiong deyi estime qu'avec l'émergence de ce phénomène, plus la proportion de données générées par le modèle dans la formation itérative ultérieure du modèle est élevée, plus le modèle suivant perdra d'informations sur les données réelles, ce qui rendra la formation du modèle plus difficile.
à première vue, « l’effondrement du modèle » semble être un problème de niche dont seuls les chercheurs en ia doivent se préoccuper à l’heure actuelle en laboratoire, mais son impact sera profond et durable.
un article du journal américain atlantic monthly soulignait que pour développer des produits d'ia plus avancés, les géants de la technologie pourraient être amenés à fournir des données synthétiques aux programmes, c'est-à-dire des données simulées générées par les systèmes d'ia. cependant, comme les résultats de certaines ia génératives sont pleins de préjugés, de désinformation et de contenus absurdes, ceux-ci seront transmis à la prochaine version du modèle d'ia.
le magazine américain « forbes » a rapporté que « l’effondrement du modèle » pourrait également exacerber les problèmes de biais et d’inégalités dans l’ia.
cela ne signifie pas pour autant que toutes les données synthétiques sont mauvaises. le new york times a déclaré que dans certains cas, les données synthétiques peuvent aider l’ia à apprendre. par exemple, lorsque le résultat d'un grand modèle d'ia est utilisé pour entraîner un modèle plus petit, ou lorsque la bonne réponse peut être vérifiée, comme la solution à un problème mathématique ou la meilleure stratégie pour des jeux comme les échecs, le go, etc.
l’ia s’empare-t-elle d’internet ?
le problème de la formation de nouveaux modèles d’ia pourrait mettre en lumière un défi plus vaste. le magazine "scientific american" a déclaré que le contenu de l'ia envahit internet et que le texte généré par de grands modèles de langage inonde des centaines de sites web. par rapport au contenu créé par l’homme, le contenu de l’ia peut être créé plus rapidement et en plus grande quantité.
le pdg d'openai, sam altman, a déclaré en février de cette année que l'entreprise générait environ 100 milliards de mots chaque jour, l'équivalent du texte d'un million de romans, dont une grande partie était diffusée sur internet.
l’abondance de contenus ia sur internet, notamment des tweets de robots, des images ridicules et de faux commentaires, a alimenté une perception plus négative. le magazine "forbes" a déclaré que la "théorie de l'internet mort" estime que la plupart du trafic, des publications et des utilisateurs sur internet ont été remplacés par des robots et du contenu généré par l'ia, et que les humains ne peuvent plus déterminer la direction d'internet. l’idée circulait initialement uniquement sur les forums en ligne, mais a récemment gagné en popularité.
heureusement, les experts affirment que la « théorie de l’internet mort » n’est pas encore devenue une réalité. le magazine « forbes » a souligné que la grande majorité des articles largement diffusés, y compris des opinions profondes, un langage pointu, des observations approfondies et des définitions de nouveautés dans de nouveaux contextes, ne sont pas générés par l'ia.
cependant, xiong deyi a encore souligné : « avec l'application généralisée de grands modèles, la proportion de données synthétiques d'ia dans les données internet pourrait devenir de plus en plus élevée. une grande quantité de données synthétiques d'ia de mauvaise qualité ne fera pas seulement usage ultérieur des données internet. modèles de formation il y aura un certain degré d'« effondrement du modèle », et cela aura également un impact négatif sur la société, comme la génération d'informations erronées qui induisent certaines personnes en erreur. par conséquent, le contenu généré par l'ia n'est pas seulement un problème technique, mais aussi un problème technique. c’est aussi un problème social qui doit être géré en toute sécurité. réponse efficace sous un double angle grâce à la technologie de l’ia.
(source : quotidien de la science et de la technologie)
rapport/commentaires