Nature publicó un artículo: La IA está desdibujando la definición de “plagio académico” ¿Cómo debemos responder?

2024-08-02

(Fuente: Piotr Kowalczyk, ilustrador, diseñador gráfico)

【Nota del editor】En abril de este año, Science anuló la regla de hierro anterior: estipula que la inteligencia artificial generativa (IA) y los grandes modelos de lenguaje (LLM) pueden usarse legítimamente para crear ilustraciones y escribir contenido en papel después de que se indique el capítulo "Métodos" del artículo. .

ahora, La IA puede ayudar a los investigadores a tener más tiempo para pensar, pero la pregunta es: ¿esto cuenta como plagio? ¿Y en qué circunstancias debería permitirse el uso de esta tecnología?

Recientemente, la periodista científica Diana Kwon publicó un artículo en la revista Nature en el que analiza la aplicación de herramientas de IA generativa en la escritura académica y los desafíos e impactos que conlleva.

Señaló que las herramientas de IA generativa como ChatGPT muestran un gran valor potencial para ahorrar tiempo, mejorar la claridad y reducir las barreras del idioma, pero también pueden implicar problemas de plagio e infracción de derechos de autor.

También señaló que el uso de la IA se ha disparado en la redacción académica, especialmente en el campo biomédico. Sin embargo,Detectar texto generado por IA es difícil porque puede volverse casi indetectable con una ligera edición. . al mismo tiempo,Las líneas entre el uso legal e ilegal de herramientas de IA pueden desdibujarse aún más, a medida que cada vez más aplicaciones y herramientas integran capacidades de IA.

En última instancia, cree que se necesitan directrices más claras sobre el uso de la IA en la redacción académica para ayudar a los investigadores y las revistas a determinar cuándo es apropiado utilizar herramientas de IA y cómo divulgar su uso.

El académico Toutiao ha realizado una recopilación sencilla sin cambiar la idea principal del texto original. El contenido es el siguiente:

Los académicos se han visto sacudidos por incidentes de plagio este año, desde la renuncia del presidente de la Universidad de Harvard en medio de acusaciones en enero hasta revelaciones en febrero de textos plagiados que aparecen en informes de revisión por pares.

Pero la escritura académica se enfrenta a un problema mayor . La rápida popularidad de las herramientas de inteligencia artificial (IA) generativa ha planteado dudas sobre si esto cuenta como plagio y bajo qué circunstancias debería permitirse. "La IA se utiliza en un amplio espectro, desde escrito enteramente por humanos hasta escrito enteramente por IA, y existe una enorme área de confusión en el medio", dijo Jonathan Bailey, consultor de derechos de autor y plagio en Nueva Orleans, Luisiana.

Las herramientas de IA generativa basadas en modelos de lenguaje grandes (LLM), como ChatGPT, pueden ahorrar tiempo, hacer que el texto sea más claro y comprensible y reducir las barreras del idioma. Muchos investigadores creen ahora que son aceptables en determinadas circunstancias y que su uso debería divulgarse plenamente.

Pero estas herramientas complican un debate ya acalorado sobre el uso inadecuado del trabajo de otras personas. . LLM está capacitado para generar texto aprendiendo de una gran cantidad de escritos publicados. Por lo tanto, esto podría conducir a un comportamiento similar al plagio si un investigador se atribuye el mérito del trabajo de una máquina, o si el texto generado por una máquina es muy similar al trabajo de alguien sin atribuir la fuente. Estas herramientas también se pueden utilizar para disfrazar texto plagiado intencionalmente y su uso es difícil de detectar. “Va a ser muy, muy difícil definir qué entendemos por deshonestidad académica o plagio y dónde están los límites”, dice el ecologista Pete Cotton de la Universidad de Plymouth en el Reino Unido.

En una encuesta de 2023 realizada a 1.600 investigadores,El 68% de los encuestados dijo que la IA hará que el plagio sea más fácil y más difícil de detectar. . Debora Weber-Wulff, experta en identificación de plagio de la Universidad de Ciencias Aplicadas de Berlín, dijo: "Todo el mundo está preocupado por el hecho de que otras personas utilicen estos sistemas, y también les preocupa que no los utilicen cuando deberían hacerlo. Hay un poco de pánico por esto."

Cuando el plagio se encuentra con la IA

Según lo definido por la Oficina de Integridad en la Investigación de EE. UU.,El plagio es "el uso de las ideas, procesos, resultados o escritos de otra persona sin citarlo o reconocerlo adecuadamente". . Un estudio de 2015 estimó que el 1,7% de los científicos admitieron haber cometido plagio y el 30% sabía que sus colegas habían incurrido en este comportamiento.

LLM puede empeorar esta situación.El plagio intencional de un texto escrito por humanos se puede disfrazar fácilmente si alguien primero permite que un LLM reescriba el texto. . Muhammad Abdul-Mageed, científico informático y lingüista de la Universidad de Columbia Británica en Canadá, dice que las herramientas pueden orientarse para reescribir de maneras sofisticadas, como el estilo de una revista académica.

Una pregunta central es si el uso de contenido no acreditado escrito íntegramente por una máquina en lugar de por un ser humano cuenta como plagio. No necesariamente, dicen muchos investigadores. Por ejemplo, la Red Europea de Integridad Académica define el uso no autorizado o no declarado de herramientas de inteligencia artificial para escribir como “generación de contenido no autorizado” en lugar de plagio. "Para mí, el plagio debería ser algo que pueda atribuirse a otra persona identificable", dijo Weber-Wulff, añadiendo que si bien hay ejemplos de IA generativa que produce texto que es casi idéntico al contenido existente escrito por humanos, esta situación es normalmente no es suficiente para ser considerado plagio.

Sin embargo, algunas personas creen que las herramientas de IA generativa violan los derechos de autor.El plagio y la infracción de derechos de autor son usos inapropiados de las obras de otras personas. El plagio es una violación de la ética académica, mientras que el uso no autorizado de obras protegidas por derechos de autor puede violar la ley. . "Estos sistemas de IA se basan en el trabajo de millones o incluso cientos de millones de personas", dijo Rada Mihalcea, científica informática de la Universidad de Michigan en Ann Arbor.

Algunas empresas de medios y autores han protestado por lo que consideran una infracción de derechos de autor por parte de AI. En diciembre de 2023, el New York Times presentó una demanda por derechos de autor contra Microsoft y OpenAI. La demanda alega que las dos empresas copiaron y utilizaron millones de artículos del New York Times para formar LLM, y que el contenido generado por LLM ahora "compite" con el contenido de la publicación. La demanda incluye casos en los que las indicaciones llevaron a GPT-4 a copiar varios pasajes de un artículo de periódico casi palabra por palabra.

En febrero de este año, OpenAI presentó una moción ante un tribunal federal para desestimar parte de la demanda, diciendo que "ChatGPT no sustituye de ninguna manera a una suscripción al New York Times". Un portavoz de Microsoft dijo: "Las herramientas de IA desarrolladas legalmente deberían ser". permitido un desarrollo responsable” y “tampoco pueden sustituir los importantes contenidos reproducidos por los periodistas”.

Si un tribunal dictamina que entrenar una IA en texto sin permiso constituye una infracción de derechos de autor, dijo Bailey, "será un gran shock para las empresas de IA". Sin conjuntos de capacitación extensos, herramientas como ChatGPT "no pueden existir".

La IA está explotando

Ya sea que esto se llame plagio o no, el uso de la IA en la redacción académica se ha disparado desde el lanzamiento de ChatGPT en noviembre de 2022.

En una preimpresión actualizada en julio, los investigadores estimaron queAl menos el 10% de los resúmenes biomédicos se escribirán utilizando LLM en el primer semestre de 2024, lo que equivale aproximadamente a 150.000 artículos por año. . El estudio, dirigido por Dmitry Kobak, científico de datos de la Universidad de Tubinga en Alemania, analizó 14 millones de resúmenes publicados en la base de datos académica PubMed entre 2010 y junio de 2024. Muestran que el surgimiento de LLM está asociado con un mayor uso de palabras estilísticas como "profundiza", "exhibición" y "guiones bajos", y luego utilizan estos patrones léxicos inusuales para estimar la proporción de resúmenes procesados con IA. "La aparición de asistentes de redacción basados en LLM ha tenido un impacto sin precedentes en la literatura científica", escriben.

Figura | La aparición de LLM está relacionada con el mayor uso del vocabulario de estilo.

Kobak predice,El uso de LLM "sin duda seguirá aumentando" y "probablemente será más difícil de detectar"。

El uso no revelado de software en la redacción académica no es nuevo. Desde 2015, Guillaume Cabanac, científico informático de la Universidad de Toulouse en Francia, y sus colegas han estado exponiendo artículos "galimatías" escritos por un software llamado SCIgen, así como artículos que contienen "frases retorcidas" creadas por un software que traduce o traduce automáticamente reescribe el texto”. tesis. "Incluso antes de que apareciera la IA generativa, la gente tenía estas herramientas", dijo Cabanac.

Sin embargo, también tiene cierto valor el uso de la IA en la redacción académica. . Los investigadores dicen que esto puede aclarar los textos y los conceptos, reducir las barreras del idioma y liberar tiempo para la experimentación y la reflexión. Hend Al-Khalifa, investigador de tecnología de la información de la Universidad Rey Saud en Riad, dijo que antes de que estuvieran disponibles las herramientas de inteligencia artificial generativa, muchos colegas que hablaban inglés como segundo idioma habrían tenido dificultades para escribir artículos. "Ahora se centran en la investigación y en el uso de estas herramientas para eliminar la molestia de escribir", afirmó.

Pero todavía existe confusión sobre cuándo el uso de la IA constituye plagio o viola la ética. Soheil Feizi, científico informático de la Universidad de Maryland, College Park, dijo que utilizar un LLM para reescribir el contenido de un artículo existente es claramente plagio. Pero si el LLM se utiliza de forma transparente para ayudar a expresar ideas, ya sea para generar texto basado en indicaciones detalladas o para editar un borrador, no debería penalizarse. "Deberíamos permitir que las personas se expresen sin esfuerzo y con claridad mediante LLM", dijo Feizi.

Muchas revistas ahora tienen políticas que permiten cierto nivel de uso de LLM. Después de prohibir inicialmente el texto generado por ChatGPT, Science actualizó su política en noviembre de 2023 para decir que el uso de tecnología de inteligencia artificial al escribir manuscritos debe divulgarse en su totalidad, incluidos los sistemas y las indicaciones utilizadas. Es responsabilidad del autor garantizar la exactitud y "garantizar que no haya plagio". Nature también dice que los autores de manuscritos de investigación deben documentar cualquier uso de LLM en la sección de métodos. Un análisis de 100 grandes editoriales académicas y 100 revistas altamente clasificadas encontró que, en octubre de 2023, el 24% de las editoriales y el 87% de las revistas tenían pautas para el uso de la IA generativa. Casi todos los que brindan orientación dicen que las herramientas de IA no pueden citarse como autores, pero las políticas varían según los tipos de usos permitidos de la IA y el nivel de divulgación requerido. Weber-Wulff afirmó que se necesitan con urgencia directrices más claras sobre el uso de la IA en la redacción académica.

Actualmente, Abdul-Mageed dice que el uso generalizado de LLM al escribir artículos científicos se ve obstaculizado por sus limitaciones. Se pide a los usuarios que creen indicaciones detalladas que describan la audiencia, el estilo del lenguaje y el subcampo de investigación. "En realidad, es muy difícil conseguir un modelo de lenguaje que te dé exactamente lo que quieres", dijo.

Pero Abdul-Mageed dijo:Los desarrolladores están creando aplicaciones que facilitarán a los investigadores la generación de contenido científico profesional. . En el futuro, dijo, los usuarios podrían simplemente seleccionar opciones de un menú desplegable, presionar un botón y generar un documento completo desde cero sin tener que escribir indicaciones detalladas.

Los límites pueden desdibujarse aún más

Junto con la rápida adopción de LLM para escribir textos, también ha surgido una gran cantidad de herramientas diseñadas para detectar LLM. . Aunque muchas herramientas afirman tener altas tasas de precisión (más del 90 % en algunos casos), las investigaciones muestran que la mayoría de las herramientas no están a la altura de sus afirmaciones. En un estudio publicado en diciembre, Weber-Wulff y sus colegas evaluaron 14 herramientas de detección de IA ampliamente utilizadas en el mundo académico. Sólo cinco de ellos pudieron identificar con precisión el 70% o más del texto como escrito por IA o humanos, y ninguno obtuvo una puntuación superior al 80%.

Cuando se detecta que alguien ha editado ligeramente el texto generado por IA,Al reemplazar sinónimos y reorganizar oraciones, la precisión del detector cayó por debajo del 50% en promedio . Dicho texto es "prácticamente indetectable con las herramientas actuales", escribieron los autores. Otra investigación ha demostrado que pedirle a una IA que reescriba el texto varias veces puede reducir significativamente la precisión de un detector.

Además, existen otros problemas con los detectores de IA. Un estudio demostró que si los artículos en inglés fueron escritos por hablantes no nativos de inglés, era más probable que clasificaran incorrectamente la escritura como generada por IA. Feizi dijo que el detector no puede distinguir de manera confiable entre texto escrito enteramente por IA y casos en los que el autor utiliza un servicio basado en IA para pulir el texto, lo que mejora el texto al ayudar a la claridad de la gramática y las oraciones. "Distinguir entre estos casos sería muy difícil y poco fiable, lo que podría conducir a tasas de falsas alarmas extremadamente altas.", dijo. Añadió que ser acusado falsamente de utilizar IA podría causar un "daño considerable" a la reputación de esos académicos o estudiantes.

Los límites entre el uso legal e ilegal de la IA pueden desdibujarse aún más . En marzo de 2023, Microsoft comenzó a integrar sus herramientas de inteligencia artificial generativa en sus aplicaciones, incluidas Word, PowerPoint y Outlook. Algunas versiones de su asistente de IA Copilot pueden redactar o editar contenido. En junio, Google también comenzó a integrar su modelo de IA generativa Gemini en herramientas como Docs y Gmail.

"La IA está tan profundamente arraigada en todo lo que utilizamos que creo que será cada vez más difícil para las personas saber si algo que están haciendo se ha visto afectado por la IA", afirmó Debby, experta en educación superior de la Universidad de San Marcos y San Francisco. John's en el Reino Unido dijo. "Creo que es posible que no podamos seguir el ritmo".

Compilador: Ma Xuewei

Autor original: Diana Kwon, periodista científica independiente

Enlace original: https://www.nature.com/articles/d41586-024-02371-z

noticias