Nature a publié un article : La définition du « plagiat académique » est brouillée par l’IA. Comment devrions-nous réagir ?

2024-08-02

(Source : Piotr Kowalczyk, illustrateur, graphiste)

【Note de l'éditeur】En avril de cette année, Science a renversé la règle d'acier précédente : elle stipule que l'intelligence artificielle générative (IA) et les grands modèles de langage (LLM) peuvent être légitimement utilisés pour créer des illustrations et rédiger du contenu papier une fois le chapitre « Méthodes » de l'article rédigé. .

maintenant, L’IA peut aider les chercheurs à libérer plus de temps pour réfléchir, mais la question est : est-ce considéré comme du plagiat ? Et dans quelles circonstances cette technologie devrait-elle être autorisée ?

Récemment, la journaliste scientifique Diana Kwon a publié un article dans le magazine Nature sur l'application des outils d'IA générative dans la rédaction universitaire ainsi que sur les défis et les impacts qu'elle entraîne.

Elle a souligné que les outils d'IA générative tels que ChatGPT présentent un grand potentiel pour gagner du temps, améliorer la clarté et réduire les barrières linguistiques, mais peuvent également impliquer des problèmes de plagiat et de violation du droit d'auteur.

Elle a également souligné que l’utilisation de l’IA a explosé dans la rédaction universitaire, notamment dans le domaine biomédical. Cependant,La détection du texte généré par l'IA est difficile car il peut être rendu presque indétectable avec une légère modification . en même temps,La frontière entre utilisation légale et illégale des outils d’IA pourrait encore s’estomper, alors que de plus en plus d'applications et d'outils intègrent des capacités d'IA.

En fin de compte, elle estime que des lignes directrices plus claires sont nécessaires sur l’utilisation de l’IA dans la rédaction académique pour aider les chercheurs et les revues à déterminer quand il est approprié d’utiliser les outils d’IA et comment divulguer leur utilisation.

L'académicien Toutiao a réalisé une compilation simple sans changer l'idée principale du texte original. Le contenu est le suivant :

Les universitaires ont été secoués par des incidents de plagiat cette année, depuis la démission du président de l'Université Harvard sur fond d'accusations en janvier jusqu'aux révélations en février de textes plagiés apparaissant dans des rapports d'évaluation par les pairs.

Mais la rédaction académique est confrontée à un problème plus grave . La popularité rapide des outils d’intelligence artificielle (IA) générative a soulevé la question de savoir si cela est considéré comme du plagiat et dans quelles circonstances cela devrait être autorisé. "L'IA est utilisée sur un large spectre, depuis l'écriture entièrement humaine jusqu'à l'écriture entièrement par l'IA, et il existe une énorme zone de confusion entre les deux", a déclaré Jonathan Bailey, consultant en droits d'auteur et plagiat à la Nouvelle-Orléans, en Louisiane.

Les outils d'IA générative basés sur de grands modèles linguistiques (LLM), tels que ChatGPT, peuvent gagner du temps, rendre le texte plus clair et compréhensible et réduire les barrières linguistiques. De nombreux chercheurs estiment désormais qu’ils sont acceptables dans certaines circonstances et que leur utilisation devrait être pleinement divulguée.

Mais ces outils compliquent un débat déjà houleux sur l’utilisation inappropriée du travail d’autrui. . LLM est formé pour générer du texte en apprenant à partir d’un large corpus d’écrits publiés. Par conséquent, cela pourrait conduire à un comportement proche du plagiat si un chercheur s'attribue le mérite du travail d'une machine, ou si un texte généré par une machine est très similaire au travail de quelqu'un sans en attribuer la source. Ces outils peuvent également être utilisés pour dissimuler un texte intentionnellement plagié, et leur utilisation est difficile à détecter. "Il va être très, très difficile de définir ce que nous entendons par malhonnêteté académique ou plagiat et où se situent les limites", déclare l'écologiste Pete Cotton de l'Université de Plymouth au Royaume-Uni.

Dans une enquête réalisée en 2023 auprès de 1 600 chercheurs,68 % des personnes interrogées ont déclaré que l'IA rendrait le plagiat plus facile et plus difficile à détecter . Debora Weber-Wulff, experte en identification du plagiat à l'Université des sciences appliquées de Berlin, a déclaré : « Tout le monde s'inquiète du fait que d'autres personnes utilisent ces systèmes, et ils s'inquiètent également de ne pas les utiliser alors qu'ils devraient les utiliser. C'est un peu la panique à ce sujet."

Quand le plagiat rencontre l’IA

Tel que défini par l'Office of Research Integrity des États-Unis,Le plagiat est « l’utilisation des idées, du processus, des résultats ou des écrits d’une autre personne sans citation ou reconnaissance appropriée ». . Une étude de 2015 estime que 1,7 % des scientifiques admettent avoir plagié et que 30 % savaient que leurs collègues avaient eu ce comportement.

LLM peut aggraver cette situation.Le plagiat intentionnel d'un texte écrit par un humain peut facilement être masqué si quelqu'un laisse d'abord un LLM réécrire le texte. . Muhammad Abdul-Mageed, informaticien et linguiste à l'Université de Colombie-Britannique au Canada, affirme que les outils peuvent être réécrits de manière sophistiquée, par exemple dans le style d'une revue universitaire.

Une question centrale est de savoir si l’utilisation de contenu non crédité entièrement écrit par une machine plutôt que par un humain est considérée comme du plagiat. Pas nécessairement, disent de nombreux chercheurs. Par exemple, le European Academic Integrity Network définit l’utilisation non autorisée ou non déclarée d’outils d’IA pour l’écriture comme une « génération de contenu non autorisée » plutôt que comme du plagiat. "Pour moi, le plagiat devrait être quelque chose qui peut être attribué à une autre personne identifiable", a déclaré Weber-Wulff, ajoutant que même s'il existe des cas d'IA générative produisant un texte presque identique au contenu écrit par l'homme existant, la situation, mais c'est généralement pas suffisant pour être considéré comme du plagiat.

Cependant, certaines personnes pensent que les outils d’IA générative violent le droit d’auteur.Le plagiat et la violation du droit d'auteur sont tous deux des utilisations inappropriées des œuvres d'autrui. Le plagiat constitue une violation de l'éthique académique, tandis que l'utilisation non autorisée d'œuvres protégées par le droit d'auteur peut violer la loi. . "Ces systèmes d'IA reposent sur le travail de millions, voire de centaines de millions de personnes", a déclaré Rada Mihalcea, informaticienne à l'Université du Michigan à Ann Arbor.

Certaines sociétés de médias et auteurs ont protesté contre ce qu’ils considèrent comme une violation du droit d’auteur par l’IA. En décembre 2023, le New York Times a intenté une action en justice pour droits d'auteur contre Microsoft et OpenAI. Le procès allègue que les deux sociétés ont copié et utilisé des millions d'articles du New York Times pour former LLM, et que le contenu généré par LLM est désormais « en concurrence » avec le contenu de la publication. Le procès comprend des cas dans lesquels des invites ont conduit GPT-4 à copier presque textuellement plusieurs passages d'un article de journal.

En février de cette année, OpenAI a déposé une requête auprès d'un tribunal fédéral demandant le rejet de certaines parties du procès, affirmant que "ChatGPT ne remplace en aucun cas un abonnement au New York Times". Un porte-parole de Microsoft a déclaré: "Des outils d'IA développés légalement". devraient permettre un développement responsable » et « ils ne peuvent pas non plus remplacer le contenu important diffusé par les journalistes ».

Si un tribunal décide que la formation d'une IA sur un texte sans autorisation constitue une violation du droit d'auteur, a déclaré Bailey, "ce sera un énorme choc pour les entreprises d'IA". Sans ensembles de formation approfondis, des outils comme ChatGPT "ne peuvent pas exister".

L'IA explose

Que cela s’appelle du plagiat ou non, l’utilisation de l’IA dans la rédaction académique a explosé depuis la sortie de ChatGPT en novembre 2022.

Dans une prépublication mise à jour en juillet, les chercheurs ont estimé queAu moins 10 % des résumés biomédicaux seront rédigés en LLM au premier semestre 2024, ce qui équivaut à environ 150 000 articles par an. . L'étude, dirigée par Dmitry Kobak, data scientist à l'Université de Tübingen en Allemagne, a analysé 14 millions de résumés publiés sur la base de données académique PubMed entre 2010 et juin 2024. Ils montrent que l’émergence du LLM est associée à une utilisation accrue de mots stylistiques tels que « fouilles », « présentation » et « soulignement », puis utilisent ces modèles lexicaux inhabituels pour estimer la proportion de résumés traités à l’aide de l’IA. "L'émergence d'assistants d'écriture basés sur le LLM a eu un impact sans précédent sur la littérature scientifique", écrivent-ils.

Figure | L'émergence du LLM est liée à l'utilisation accrue du vocabulaire de style.

Kobak prédit,Le recours aux LLM « va certainement continuer à augmenter » et « deviendra probablement plus difficile à détecter »。

L’utilisation non divulguée de logiciels dans la rédaction académique n’est pas nouvelle. Depuis 2015, Guillaume Cabanac, informaticien à l'Université de Toulouse en France, et ses collègues dénoncent des articles « charabia » rédigés par un logiciel appelé SCIgen, ainsi que des articles contenant des « phrases tordues » créées par un logiciel qui traduit automatiquement ou réécrit le texte » thèse. "Même avant l'arrivée de l'IA générative, les gens disposaient de ces outils", a déclaré Cabanac.

Cependant, l’utilisation de l’IA dans la rédaction académique présente également un certain intérêt. . Les chercheurs affirment que cela peut rendre les textes et les concepts plus clairs, réduire les barrières linguistiques et libérer du temps pour l'expérimentation et la réflexion. Hend Al-Khalifa, chercheur en technologies de l'information à l'Université King Saud de Riyad, a déclaré qu'avant que les outils d'IA générative ne soient disponibles, de nombreux collègues parlant l'anglais comme langue seconde auraient eu des difficultés à rédiger des articles. "Maintenant, ils se concentrent sur la recherche et utilisent ces outils pour simplifier l'écriture", a-t-elle déclaré.

Mais il existe encore une confusion quant à savoir quand l’utilisation de l’IA constitue un plagiat ou viole l’éthique. Soheil Feizi, informaticien à l'Université du Maryland, College Park, a déclaré qu'utiliser le LLM pour réécrire le contenu d'un article existant est clairement du plagiat. Mais si LLM est utilisé de manière transparente pour aider à exprimer des idées, que ce soit pour générer un texte basé sur des invites détaillées ou pour modifier un brouillon, il ne devrait pas être pénalisé. "Nous devrions permettre aux gens de s'exprimer sans effort et clairement en utilisant le LLM", a déclaré Feizi.

De nombreuses revues ont désormais des politiques autorisant l’utilisation du LLM dans une certaine mesure. Après avoir initialement interdit le texte généré par ChatGPT, Science a mis à jour sa politique en novembre 2023 pour indiquer que l'utilisation de la technologie de l'IA lors de la rédaction de manuscrits devrait être entièrement divulguée, y compris les systèmes et les invites utilisés. Il est de la responsabilité de l’auteur de s’assurer de l’exactitude et de « s’assurer qu’il n’y a pas de plagiat ». Nature indique également que les auteurs de manuscrits de recherche devraient documenter toute utilisation du LLM dans la section méthodes. Une analyse de 100 grands éditeurs universitaires et de 100 revues de premier plan a révélé qu'en octobre 2023, 24 % des éditeurs et 87 % des revues disposaient de lignes directrices pour l'utilisation de l'IA générative. Presque tous ceux qui fournissent des conseils indiquent que les outils d’IA ne peuvent pas être répertoriés comme auteurs, mais les politiques varient en fonction des types d’utilisations de l’IA autorisées et du niveau de divulgation requis. Weber-Wulff a déclaré qu’il était urgent de définir des lignes directrices plus claires sur l’utilisation de l’IA dans la rédaction universitaire.

Actuellement, Abdul-Mageed affirme que l'utilisation généralisée du LLM lors de la rédaction d'articles scientifiques est entravée par ses limites. Les utilisateurs sont invités à créer des invites détaillées décrivant le public, le style de langage et le sous-domaine de recherche. "Il est en fait très difficile d'obtenir un modèle linguistique qui vous donne exactement ce que vous voulez", a-t-il déclaré.

Mais Abdul-Mageed a dit :Les développeurs créent des applications qui permettront aux chercheurs de générer plus facilement du contenu scientifique professionnel . À l'avenir, a-t-il déclaré, les utilisateurs pourraient être en mesure de générer un article complet à partir de zéro simplement en sélectionnant des options dans un menu déroulant et en appuyant sur un bouton, sans avoir à rédiger des invites détaillées.

Les frontières pourraient encore s’estomper

Parallèlement à l'adoption rapide du LLM pour la rédaction de textes, un grand nombre d'outils conçus pour détecter le LLM ont également vu le jour. . Bien que de nombreux outils revendiquent des taux de précision élevés (plus de 90 % dans certains cas), les recherches montrent que la plupart des outils ne sont pas à la hauteur de leurs affirmations. Dans une étude publiée en décembre, Weber-Wulff et ses collègues ont évalué 14 outils de détection d’IA largement utilisés dans le monde universitaire. Seuls cinq d’entre eux ont pu identifier avec précision 70 % ou plus du texte comme étant écrit par l’IA ou par des humains, et aucun n’a obtenu un score supérieur à 80 %.

Lorsqu'il est détecté que quelqu'un a légèrement modifié le texte généré par l'IA,Lors du remplacement de synonymes et de la réorganisation des phrases, la précision du détecteur est tombée en moyenne en dessous de 50 % . Un tel texte est « pratiquement indétectable par les outils actuels », écrivent les auteurs. D'autres recherches ont montré que demander à une IA de réécrire un texte plusieurs fois peut réduire considérablement la précision d'un détecteur.

De plus, il existe d’autres problèmes avec les détecteurs IA. Une étude a montré que si les articles en anglais étaient rédigés par des anglophones non natifs, ils étaient plus susceptibles de classer à tort les écrits comme générés par l’IA. Feizi a déclaré que le détecteur ne peut pas faire la distinction de manière fiable entre un texte entièrement écrit par l'IA et les cas où l'auteur utilise un service basé sur l'IA pour peaufiner le texte, ce qui l'améliore en facilitant la grammaire et la clarté des phrases. "Faire la distinction entre ces cas serait très difficile et peu fiable, ce qui pourrait conduire à des taux de fausses alarmes extrêmement élevés.", a-t-il déclaré. Il a ajouté qu'être faussement accusé d'utiliser l'IA pourrait causer des "dommages considérables" à la réputation de ces universitaires ou étudiants.

Les frontières entre utilisation légale et illégale de l’IA pourraient encore s’estomper . En mars 2023, Microsoft a commencé à intégrer ses outils d'IA générative dans ses applications, notamment Word, PowerPoint et Outlook. Certaines versions de son assistant IA Copilot peuvent rédiger ou modifier du contenu. En juin, Google a également commencé à intégrer son modèle d'IA générative Gemini dans des outils tels que Docs et Gmail.

"L'IA est si profondément ancrée dans tout ce que nous utilisons que je pense qu'il deviendra de plus en plus difficile pour les gens de savoir si quelque chose que vous faites a été affecté par l'IA", a déclaré Debby, experte en enseignement supérieur à l'Université de St Mark's et St. John's au Royaume-Uni, a déclaré Cotton. « Je pense que nous ne pourrons peut-être pas suivre le rythme. »

Compilateur : Ma Xuewei

Auteur original : Diana Kwon, journaliste scientifique indépendante

Lien d'origine : https://www.nature.com/articles/d41586-024-02371-z

nouvelles