La nature révèle des informations privilégiées choquantes : des papiers ont été vendus à des prix exorbitants pour nourrir l’IA ! Les éditeurs gagnent des centaines de millions, les auteurs ne gagnent rien
2024-08-15
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
Nouveau rapport de sagesse
Editeur : Service éditorial[Introduction à la nouvelle sagesse]Un article dans Nature a révélé : L'article que vous avez publié a peut-être été utilisé pour entraîner le modèle ! Certains éditeurs ont gagné 23 millions de dollars en vendant des données. Cependant, les auteurs qui ont travaillé dur pour coder l’article ne peuvent pas obtenir un centime.
Le monde est plongé dans une crise des données, que devons-nous faire ?Les papiers se rassemblent !Récemment, un article de Nature nous révélait que même des documents de recherche scientifique ont été utilisés pour entraîner l'IA...Il semblerait que de nombreux éditeurs universitaires aient autorisé les entreprises technologiques à accéder à leurs propres articles pour former des modèles d’IA.Un article, de l'idéation à la finalisation, implique le travail acharné de l'auteur jour et nuit. Désormais, il est très probable qu'il devienne des données pour entraîner l'IA sans le savoir.Ce qui est encore plus ennuyeux, c'est que son journal a été utilisé par l'éditeur pour réaliser des bénéfices.Selon un rapport de Nature, le mois dernier, l'éditeur universitaire britannique Taylor & Francis a signé un accord de 10 millions de dollars avec Microsoft, permettant à Microsoft d'accéder à ses données pour améliorer les systèmes d'IA.Une mise à jour des investisseurs en juin a montré que l'éditeur américain Wiley avait réalisé un énorme bénéfice de 23 millions de dollars après avoir autorisé une entreprise à utiliser son modèle de formation de contenu !Mais cet argent n’a rien à voir avec les auteurs de la plupart des articles.De plus, Lucy Lu Wang, chercheuse en IA à l'Université de Washington, a également déclaré que même s'il ne se trouve pas dans un référentiel en libre accès, tout contenu pouvant être lu en ligne a probablement été saisi dans LLM.Ce qui est encore plus effrayant, c'est que si un document a été utilisé comme données de formation pour le modèle, il ne peut pas être supprimé une fois la formation du modèle terminée.Si votre article n’a pas encore été utilisé pour former l’IA, ne vous inquiétez pas, cela devrait l’être bientôt !Les ensembles de données sont comme l’or et les grandes entreprises enchérissent sur eux
Nous savons tous que le LLM doit être formé sur des données massives, et ces données sont généralement récupérées sur Internet.C'est à partir des milliards de jetons contenus dans ces données de formation que LLM dérive des modèles pour générer du texte, des images et du code.Les articles universitaires sont longs et ont une densité d'informations élevée, ils constituent donc évidemment l'une des données les plus précieuses pouvant être alimentées en LLM.De plus, former les LLM sur une grande quantité d’informations scientifiques peut également améliorer considérablement leurs capacités de raisonnement sur des sujets scientifiques.Wang a co-créé S2ORC, un ensemble de données basé sur 81,1 millions d'articles universitaires. Initialement, l'ensemble de données S2ORC a été développé pour l'exploration de texte, mais plus tard, il a été utilisé pour former LLM.Pile, construit par l'organisation à but non lucratif Eleuther AI en 2020, est l'un des ensembles de données open source à grande échelle les plus utilisés dans la recherche en PNL, avec un volume total de 800 Go. Il contient un grand nombre de textes provenant de sources académiques, la proportion d'articles arXiv étant de 8,96 %. Il couvre également d'autres sites Web académiques tels que PubMed, FreeLaw et NIH.Il y a quelque temps, l'ensemble de données de jetons open source 1T MINT a également découvert le trésor arXiv, extrayant un total de 870 000 documents et 9 milliards de jetons.À partir de l'organigramme de traitement des données ci-dessous, nous pouvons voir à quel point la qualité des données du papier est élevée : il n'y a presque pas besoin de beaucoup de filtrage et de déduplication, et le taux d'utilisation est extrêmement élevé.Aujourd’hui, en réponse aux conflits liés aux droits d’auteur, les grandes sociétés de modélisation ont commencé à payer de l’argent réel pour acheter des ensembles de données de haute qualité.Cette année, le Financial Times a vendu son contenu à OpenAI pour un prix considérable ; Reddit a également conclu un accord similaire avec Google.À l’avenir, de telles transactions deviendront inévitables.Prouver que le papier a été utilisé par LLM est extrêmement difficile
Certains développeurs d’IA ouvriront leurs propres ensembles de données, mais de nombreuses entreprises qui développent des modèles d’IA garderont confidentielles la plupart de leurs données de formation.Stefan Baack, analyste de données de formation en IA à la Fondation Mozilla, a déclaré que personne ne sait de quelles données de formation disposent ces entreprises.Les sources de données les plus populaires parmi les initiés de l’industrie sont sans aucun doute les résumés du référentiel open source arXiv et de la base de données académique PubMed.Actuellement, arXiv héberge le texte intégral de plus de 2,5 millions d’articles, et PubMed contient un nombre étonnant de citations, dépassant les 37 millions.Bien que le texte intégral de certains articles sur des sites Web tels que PubMed soit payant, les résumés des articles sont consultables gratuitement, et cette partie peut avoir été explorée par de grandes entreprises technologiques.Alors, existe-t-il une méthode technique pour savoir si son papier a été utilisé ?Pour l'instant, c'est encore difficile.Yves-Alexandre de Montjoye, informaticien à l'Imperial College de Londres, a déclaré : « Il est très difficile de prouver que LLM a utilisé un certain papier.Une solution consiste à utiliser des phrases très rares dans le texte papier pour inciter le modèle et voir si sa sortie correspond au mot suivant dans le texte original.Certains érudits ont un jour incité GPT-3 avec le début du troisième chapitre de "Harry Potter et la pierre philosophale", et le modèle a craché rapidement et correctement sur une page complète du contenu du livre.Si c’est le cas, alors c’est parti : le document est dans l’ensemble de formation du modèle.Et sinon ? Cela ne constitue pas nécessairement une preuve valable que le papier n’a pas été utilisé.Parce que les développeurs peuvent coder les LLM afin de filtrer les réponses afin qu'elles ne correspondent pas trop étroitement aux données de formation.Il est possible que, malgré tous nos efforts, nous ne puissions toujours pas le prouver sans équivoque.Une autre méthode est « l’attaque par inférence de membre ».Le principe de cette méthode est que lorsque le modèle voit quelque chose qu’il a déjà vu, il aura plus confiance dans le résultat.À cette fin, l’équipe de De Montjoye a développé un « piège du droit d’auteur ».Pour tendre le piège, l'équipe générait des phrases plausibles mais dénuées de sens et les masquait dans le travail, comme du texte blanc sur fond blanc ou un champ de largeur nulle sur une page Web.Si le modèle est plus perplexe face aux phrases de contrôle inutilisées que par les phrases de contrôle cachées dans le texte, cela peut être utilisé comme preuve statistique que le piège a été vu.Litige en matière de droit d'auteur
Cependant, même s’il peut être prouvé que le LLM a été formé sur un certain papier, que pouvons-nous faire ?Il existe ici une controverse de longue date.De l'avis de l'éditeur, si un développeur utilise un texte protégé par le droit d'auteur dans une formation sans obtenir l'autorisation, il s'agit définitivement d'une contrefaçon.Mais l'autre partie peut le réfuter de cette façon : le grand modèle n'est pas plagié, alors comment peut-il y avoir une allégation de contrefaçon ?En effet, LLM ne copie rien, il prend simplement les informations des données de formation, les désassemble et les utilise pour apprendre à générer du nouveau texte.La question la plus complexe est de savoir comment tracer une frontière entre l’utilisation commerciale et la recherche universitaire.Selon les conditions d'utilisation actuelles du site Web arXiv, la capture, le stockage et l'utilisation de tous les documents électroniques préimprimés et des métadonnées du site Web sont conformes et pris en charge à des fins personnelles ou de recherche.Cependant, l’utilisation commerciale d’arXiv est strictement interdite.La question est donc la suivante : si une entreprise commerciale utilise un ensemble de données open source publié par un établissement universitaire pour former son modèle commercial, et que la source de données inclut arXiv ou des institutions d'édition universitaires similaires, comment cela compte-t-il ?De plus, les éditeurs ne précisent souvent pas clairement dans les conditions d’abonnement des utilisateurs si les articles peuvent être utilisés comme données de formation pour les modèles.