Les ChatGPT polluent le cercle académique

Les ChatGPT polluent le milieu académique

2024-08-01

des choses intelligentes
Compilé par Chen Junda
ModifierPanken

Selon un rapport publié hier par la revue universitaire Nature, l’utilisation de l’IA générative dans la rédaction académique a marqué le début d’une croissance explosive. Des recherches pertinentes montrent que 10 % des résumés d'articles sur PubMed, la plus grande base de données dans le domaine biomédical, sont soupçonnés d'être rédigés par l'IA, ce qui équivaut à l'implication de l'IA dans 150 000 articles chaque année.

Des recherches de l'Université des sciences appliquées de Berlin en Allemagne montrent que la précision moyenne des outils de détection AIGC traditionnels n'est que de 50 % et qu'il est facile de déterminer que le contenu écrit par des humains est généré par l'IA. Cependant, de nombreux articles générés par l’IA peuvent être facilement dissimulés par la paraphrase, la substitution de synonymes, etc. De plus, l’utilisation d’outils d’IA par les anglophones natifs est plus difficile à détecter.

Bien que les outils d’IA aient déjà été largement utilisés dans le monde universitaire, l’utilisation de l’IA générative pour produire directement des articles ou écrire des écrits fantômes reste controversée. Les outils d’IA facilitent le plagiat et peuvent conduire à une utilisation abusive de contenus protégés par le droit d’auteur.

L'écriture assistée par l'IA n'est pas sans mérite. De nombreux chercheurs utilisent l'écriture générative assistée par l'IA pour éviter d'avoir à publier des articles dans des langues inconnues et peuvent se concentrer sur la recherche scientifique elle-même. De nombreuses revues autorisent l’utilisation d’outils d’IA générative, mais exigent que les auteurs divulguent leur utilisation en détail dans leurs articles.

1. L'IA pourrait être impliquée dans la rédaction de 150 000 résumés, et les anglophones non natifs sont plus susceptibles d'être découverts

Depuis la sortie de ChatGPT fin 2022, l’utilisation de l’IA dans la rédaction académique a explosé. Une étude de l'Université de Tübingen en Allemagne montre qu'au premier semestre 2024, au moins 10 % des résumés d'articles biomédicaux seront rédigés à l'aide de l'IA, ce qui représente environ 150 000 articles par an.

Cette équipe de recherche a analysé les résumés de 14 millions d’articles dans la base de données du domaine biomédical PubMed de 2010 à 2024. Ils ont constaté qu’après l’émergence des outils d’IA générative représentés par ChatGPT, l’utilisation de mots stylistiques modificateurs spécifiques a augmenté anormalement. L’équipe de recherche a utilisé la fréquence de ces mots pour estimer la proportion de résumés rédigés à l’aide de l’IA.

Les chercheurs ont également constaté que l’utilisation des outils d’écriture de l’IA variait également selon les pays. Leurs données montrent que les articles de pays comme la Chine et la Corée du Sud utilisent plus fréquemment les outils d’écriture de l’IA que les articles des pays anglophones.

▲L'utilisation du vocabulaire stylistique dans la rédaction académique a explosé (Source : "Nature")

Selon l’analyse de l’équipe de recherche, la fréquence d’utilisation de l’IA par les auteurs des pays anglophones pourrait être similaire à celle d’autres pays, mais la manière dont ils l’utilisent pourrait être plus difficile à détecter.

En fait, avant l’émergence de cette vague d’IA générative, l’IA avait déjà été utilisée dans des domaines tels que la découverte de médicaments et la prédiction de la structure des protéines. Ces utilisations n’ont pas suscité trop de controverses. La raison en est peut-être que dans de telles applications, l’IA joue clairement un rôle. un rôle. C'est toujours un rôle de soutien.

L’application de l’IA générative dans la rédaction académique pose deux problèmes majeurs. D’une part, le plagiat est facilité par l’IA générative. Les plagiaires peuvent utiliser l'IA générative pour paraphraser les recherches d'autres personnes dans le style des revues universitaires. Le texte paraphrasé est généralement moins similaire au texte original, il est donc difficile d'être considéré comme du plagiat.

De plus, le modèle d'IA consomme une grande quantité de contenu protégé par le droit d'auteur pendant le processus de formation, et le modèle est très susceptible de fournir du contenu protégé par le droit d'auteur à l'utilisateur sans aucune invite. Le New York Times a découvert un jour que le chatbot IA d’OpenAI, ChatGPT, avait directement publié les mots originaux du rapport du New York Times sans en indiquer la source. Ils ont également poursuivi OpenAI pour contrefaçon.

2. Les outils de détection échouent dans le jeu du chat et de la souris. Ils peuvent être facilement contournés et mal évalués.

En réponse à l'utilisation croissante des outils d'IA, de nombreuses entreprises ont lancé des outils de détection de contenu AIGC, mais ces outils ont échoué dans le « jeu du chat et de la souris » avec l'IA générative.

À la fin de l’année dernière, plusieurs chercheurs de l’Université des sciences appliquées de Berlin en Allemagne ont publié une étude selon laquelle seuls 5 des 14 outils de détection de l’IA couramment utilisés dans le monde universitaire atteignaient un taux de précision supérieur à 70 %. La précision moyenne de la reconnaissance n'est que de 50 à 60 %.

▲Les outils de détection AIGC traditionnels sur le marché fonctionnent mal (Source : Weber‑Wulf et al.)

Ces outils de détection AIGC fonctionnent encore moins bien face au contenu généré par l’IA, édité par des humains et transcrit par des machines. Avec seulement des opérations simples telles que le remplacement des synonymes et l'ajustement de l'ordre des mots, la précision de l'outil de détection AIGC sera réduite à moins de 50 %. Des études ont montré que la précision de reconnaissance globale des outils de détection AIGC n'est que de 50 %.

▲05 et 06 sur la figure sont respectivement le texte après édition humaine et paraphrase automatique généré par l'IA. L'outil de détection AIGC fonctionne très mal sur ces deux types de texte (Source : Weber-Wulf et al.)

Les données montrent que les outils de reconnaissance AIGC disponibles sur le marché ont une grande précision dans l'identification des articles rédigés par des humains. Cependant, si l’auteur rédige d’abord un article original dans une langue qu’il connaît et demande ensuite au logiciel de traduction de le traduire dans une autre langue, l’outil d’identification peut le considérer à tort comme AIGC. Cela peut avoir un impact extrêmement négatif sur la réputation académique des universitaires et des étudiants.

3. Les frontières entre l’écriture assistée et l’inconduite académique sont floues, et les outils d’écriture basés sur l’IA ont également leur valeur.

Cependant, l’utilisation d’outils d’IA générative est pratique pour certains chercheurs. Hend Al-Khalifa, chercheur en technologies de l'information à l'Université King Saud de Riyad, a expliqué qu'avant l'avènement des outils d'IA générative, de nombreux collègues qui ne maîtrisaient pas l'anglais rencontraient de grandes difficultés lors de la rédaction d'articles et que désormais, ces universitaires peuvent se concentrer. sur la recherche elle-même au lieu de consacrer trop de temps à l'écriture.

La frontière entre l’écriture assistée par l’IA et l’inconduite académique est difficile à tracer. Soheil Feizi, informaticien à l'Université du Maryland, estime que l'utilisation de l'IA générative pour paraphraser le contenu d'un article existant est clairement du plagiat.

Mais l’utilisation d’outils d’IA pour aider à exprimer des opinions ne devrait pas être punie. Dans le but de divulguer de manière proactive l’utilisation des outils d’IA, les chercheurs peuvent utiliser des mots d’invite détaillés pour générer du texte, ou utiliser des outils d’IA pour modifier des brouillons.

De nombreuses revues ont également standardisé l’utilisation des outils d’IA dans la rédaction académique, sans l’interdire directement. La principale revue universitaire « Science » stipule que l'IA ne peut pas être répertoriée comme co-auteur, et que l'auteur doit divulguer le système d'IA et les mots d'invite utilisés, et être responsable de l'exactitude du contenu et s'il y a des soupçons de plagiat.

▲Réglementations pertinentes sur l'utilisation de l'IA dans la revue académique "Science" (Source : Site officiel de la revue académique "Science")

La revue académique Nature stipule que les chercheurs doivent enregistrer l'utilisation d'outils d'IA générative dans la section « Méthodes de recherche ». Les statistiques montrent qu'en octobre 2023, 87 des 100 revues les mieux classées avaient élaboré des lignes directrices pour l'utilisation des outils d'IA générative.

Conclusion : les outils d'IA ne sont pas un fléau, seul un changement d'orientation académique peut en guérir la cause profonde

Au cours de la dernière saison de remise des diplômes universitaires, de nombreuses universités nationales ont également introduit les outils de test AIGC dans le processus de soutenance et d'examen des thèses de fin d'études. Cependant, l’introduction de cet indicateur n’a pas permis de lutter efficacement contre les fautes académiques liées aux outils d’IA. Il existe également divers services sur le marché spécialisés dans la réduction du taux d'IA. Après avoir été jugés à tort comme générés par l'IA, de nombreux devoirs d'étudiants ont été modifiés au point de devenir méconnaissables en raison de la réduction du taux d'IA.

L’adoption d’une approche contradictoire des outils d’IA générative dans la recherche universitaire ne permettra peut-être pas de résoudre ce problème. Des chercheurs de l'Université des sciences appliquées de Berlin en Allemagne ont également souligné, en résumant la recherche, que le problème de l'abus de l'IA dans la rédaction académique est difficile à résoudre avec la seule détection de l'AIGC. L'ajustement d'une atmosphère académique axée sur le papier et les résultats est la clé. résoudre ce problème.

Source : "Nature"

nouvelles

Les ChatGPT polluent le milieu académique

Introduction

mes coordonnées