nouvelles

Les articles universitaires sont vendus à des prix élevés pour former de grands modèles, mais les auteurs ne reçoivent aucun revenu

2024-08-16

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

·Un nombre croissant d'éditeurs universitaires vendent des articles de recherche à des entreprises technologiques pour former des modèles d'intelligence artificielle (IA), tandis que les auteurs ne reçoivent aucun revenu.

Les grands modèles de langage (LLM) ont une fois de plus suscité la controverse en raison de problèmes de données de formation. Récemment, Elizabeth Gibney, rédactrice en chef de la revue de renommée internationale Nature, a publié un article intitulé « Votre article a-t-il été utilisé pour former un modèle d'intelligence artificielle ? Presque certain". L'auteur de l'article a déclaré que de plus en plus d'éditeurs universitaires accordent actuellement des licences pour des articles de recherche à des entreprises technologiques afin de former des modèles d'intelligence artificielle (IA). Un éditeur universitaire a gagné 23 millions de dollars grâce à cette somme, tandis que l'auteur n'en a gagné aucun. Ces transactions, souvent effectuées sans consulter les auteurs, ont suscité un fort mécontentement chez certains chercheurs.

"Si votre article n'a pas été utilisé comme données de formation en IA, il fera probablement bientôt partie de la formation." Elizabeth Jipney a souligné dans l'article qu'actuellement, les auteurs d'articles universitaires n'ont pratiquement pas le choix face aux éditeurs qui vendent leurs œuvres protégées par le droit d'auteur. ingérence. Pour les articles publiés publiquement, il n’existe aucun mécanisme permettant de confirmer si ces contenus sont utilisés comme données de formation à l’IA. Dans le cadre de l'utilisation de grands modèles linguistiques, la manière d'établir un mécanisme plus équitable pour protéger les droits et les intérêts des créateurs mérite un débat approfondi dans les cercles universitaires et du droit d'auteur.

Les grands modèles linguistiques (LLM) s'appuient souvent sur de grandes quantités de données extraites d'Internet pour la formation. Ces données comprennent des milliards d'informations linguistiques (appelées « jetons »), et en analysant les modèles entre ces jetons, le modèle est capable de générer un texte fluide. En raison de leur contenu riche et de leur haute densité d’informations, les articles universitaires ont plus de valeur que de grandes quantités de données ordinaires et constituent une source de données importante pour la formation en IA. L'analyste de données Stefan Baack de l'organisation mondiale à but non lucratif Mozilla Foundation a analysé que les articles scientifiques sont très utiles pour la formation de grands modèles de langage, notamment en termes de capacités de raisonnement sur des sujets scientifiques. C’est précisément en raison de la grande valeur des données que les grandes entreprises technologiques ont dépensé d’énormes sommes d’argent pour acheter des ensembles de données.

L'article souligne que cette année, le Financial Times a conclu un accord avec OpenAI pour concéder sous licence son contenu à cette dernière ; Reddit, connu sous le nom d'« American Post Bar », a également signé un accord similaire avec Google. Ces accords reflètent les tentatives des éditeurs d'éviter que leur contenu soit exploré gratuitement par des modèles d'IA grâce à une autorisation légale.

L'article révèle que le mois dernier, l'éditeur universitaire britannique Taylor & Francis a signé un accord de 10 millions de dollars avec Microsoft, permettant à Microsoft d'accéder à ses données pour améliorer les systèmes d'IA. En juin, l’éditeur américain Wiley a gagné jusqu’à 23 millions de dollars en fournissant du contenu à une entreprise pour la formation en IA. Et ces énormes revenus n’ont rien à voir avec les auteurs des journaux.

Actuellement, les chercheurs tentent d’utiliser des moyens techniques pour aider les auteurs à déterminer si leurs travaux ont été utilisés pour la formation de modèles d’IA. Lucy Lu Wang, chercheuse en intelligence artificielle à l'Université de Washington à Seattle, a déclaré que si un document a été utilisé comme données de formation pour un modèle, il ne peut pas être supprimé une fois la formation du modèle terminée.

Cependant, même s’il peut être prouvé que le papier est utilisé pour la formation en IA, il reste controversé au niveau juridique. L'article souligne que l'éditeur estime que l'utilisation de contenu non autorisé protégé par le droit d'auteur à des fins de formation constitue une infraction ; un autre point de vue juridique est que le modèle de langage à grande échelle ne copie pas directement le contenu, mais génère un nouveau texte par l'apprentissage.

Il convient de noter que tous les chercheurs ne sont pas opposés à l’utilisation de leurs travaux pour la formation en IA. Stefan Back a déclaré qu'il serait heureux de voir les résultats de ses recherches utilisés pour améliorer la précision de l'IA, et que cela ne le dérangerait pas si l'IA « imite » son style d'écriture. Cependant, il a également reconnu que tout le monde ne sera pas en mesure de faire face à ce problème facilement, en particulier ceux qui exercent des professions confrontées à la pression de la concurrence de l'IA, comme les artistes et les écrivains.

En fait, les litiges concernant l’utilisation d’œuvres intellectuelles protégées par le droit d’auteur pour former des modèles d’IA ont déjà attiré une large attention.

Le 14 août, le Washington Post a rapporté qu'un recours collectif intenté par plusieurs artistes visuels et illustrateurs aux États-Unis contre les outils de génération d'images IA avait fait une percée. Ils ont accusé des startups telles que Midjourney et Stability AI d'utiliser des travaux pour former des modèles d'IA sans consentement. L'affaire a connu des développements clés cette semaine. Le juge de district américain William Orrick a autorisé des éléments clés de l'affaire à avancer, ce qui signifie que le tribunal a décidé qu'il existe suffisamment de preuves juridiques pour que certaines accusations puissent aller de l'avant, ce qui pourrait être révélé au fur et à mesure que le processus juridique progresse. Les communications internes au sein de l'entreprise se développent. Outils d'IA.