Nature ha pubblicato un articolo: La definizione di “plagio accademico” viene offuscata dall’intelligenza artificiale. Come dovremmo rispondere?

2024-08-02

(Fonte: Piotr Kowalczyk, illustratore, grafico)

【Nota dell'editore】Nell'aprile di quest'anno, Science ha ribaltato la precedente regola ferrea: stabilisce che l'intelligenza artificiale generativa (AI) e i modelli linguistici di grandi dimensioni (LLM) possono essere legittimamente utilizzati per creare illustrazioni e scrivere contenuti di articoli dopo che è stato affermato il capitolo "Metodi" dell'articolo. .

Ora, L’intelligenza artificiale può aiutare i ricercatori a liberare più tempo per pensare, ma la domanda è: questo conta come plagio? E in quali circostanze si dovrebbe consentire l’utilizzo di questa tecnologia?

Recentemente, la giornalista scientifica Diana Kwon ha pubblicato un articolo sulla rivista Nature in cui discute dell’applicazione degli strumenti di intelligenza artificiale generativa nella scrittura accademica e delle sfide e degli impatti che comporta.

Ha sottolineato che gli strumenti di intelligenza artificiale generativa come ChatGPT mostrano un grande valore potenziale nel risparmiare tempo, migliorare la chiarezza e ridurre le barriere linguistiche, ma possono anche comportare problemi di plagio e violazione del copyright.

Ha inoltre osservato che l’uso dell’intelligenza artificiale è esploso nella scrittura accademica, soprattutto in campo biomedico. Tuttavia,Rilevare il testo generato dall'intelligenza artificiale è difficile perché può essere reso quasi non rilevabile con una leggera modifica . allo stesso tempo,I confini tra l’uso legale e illegale degli strumenti di intelligenza artificiale potrebbero ulteriormente confondersi, poiché sempre più applicazioni e strumenti integrano funzionalità di intelligenza artificiale.

In definitiva, ritiene che siano necessarie linee guida più chiare sull’uso dell’intelligenza artificiale nella scrittura accademica per aiutare i ricercatori e le riviste a determinare quando è appropriato utilizzare gli strumenti di intelligenza artificiale e come divulgarne l’uso.

L'accademico Toutiao ha realizzato una semplice compilazione senza modificare l'idea principale del testo originale. Il contenuto è il seguente:

Quest'anno gli accademici sono stati scossi da episodi di plagio, dalle dimissioni del presidente dell'Università di Harvard in mezzo alle accuse a gennaio alle rivelazioni di febbraio di testi plagiati apparsi nei rapporti di revisione paritaria.

Ma la scrittura accademica si trova ad affrontare un problema più grande . La rapida popolarità degli strumenti di intelligenza artificiale generativa (AI) ha sollevato dubbi sul fatto se ciò possa essere considerato plagio e in quali circostanze dovrebbe essere consentito. "L'intelligenza artificiale viene utilizzata in un ampio spettro, da scritto interamente da esseri umani a scritto interamente da intelligenza artificiale, e c'è un'enorme area di confusione nel mezzo", ha affermato Jonathan Bailey, consulente in materia di copyright e plagio a New Orleans, Louisiana.

Gli strumenti di intelligenza artificiale generativa basati su modelli linguistici di grandi dimensioni (LLM), come ChatGPT, possono far risparmiare tempo, rendere il testo più chiaro e comprensibile e ridurre le barriere linguistiche. Molti ricercatori ora credono che siano accettabili in determinate circostanze e che il loro utilizzo dovrebbe essere completamente divulgato.

Ma questi strumenti complicano un dibattito già acceso sull’uso inappropriato del lavoro altrui . LLM è addestrato a generare testo imparando da un ampio corpus di scritti pubblicati. Pertanto, ciò potrebbe portare a comportamenti simili al plagio se un ricercatore si prende il merito del lavoro di una macchina o se il testo generato dalla macchina è molto simile al lavoro di qualcuno senza attribuirne la fonte. Questi strumenti possono essere utilizzati anche per mascherare testo intenzionalmente plagiato e il loro utilizzo è difficile da individuare. “Sarà molto, molto difficile definire cosa intendiamo per disonestà accademica o plagio e quali siano i confini”, afferma l’ecologista Pete Cotton dell’Università di Plymouth nel Regno Unito.

In un sondaggio del 2023 condotto su 1.600 ricercatori,Il 68% degli intervistati afferma che l’intelligenza artificiale renderà il plagio più facile e difficile da individuare . Debora Weber-Wulff, esperta di identificazione del plagio presso l'Università di Scienze Applicate di Berlino, ha dichiarato: "Tutti sono preoccupati per altre persone che utilizzano questi sistemi, e sono anche preoccupati di non usarli quando dovrebbero usarli. c'è un po' di panico a riguardo."

Quando il plagio incontra l'intelligenza artificiale

Come definito dall’Ufficio statunitense per l’integrità della ricerca,Il plagio è “l’uso delle idee, dei processi, dei risultati o degli scritti di un’altra persona senza un’adeguata citazione o riconoscimento”. . Uno studio del 2015 ha stimato che l’1,7% degli scienziati ha ammesso di aver plagiato e il 30% sapeva che i propri colleghi avevano adottato questo comportamento.

LLM potrebbe peggiorare questa situazione.Il plagio intenzionale del testo scritto da esseri umani può essere facilmente mascherato se qualcuno prima lascia che un LLM riscriva il testo . Muhammad Abdul-Mageed, informatico e linguista presso l'Università della British Columbia in Canada, afferma che gli strumenti possono essere indirizzati alla riscrittura in modi sofisticati, ad esempio nello stile di una rivista accademica.

Una questione fondamentale è se l’utilizzo di contenuti non accreditati scritti interamente da una macchina anziché da un essere umano conta come plagio. Non necessariamente, dicono molti ricercatori. Ad esempio, l’European Academic Integrity Network definisce l’uso non autorizzato o non dichiarato di strumenti di intelligenza artificiale per la scrittura come “generazione di contenuti non autorizzati” piuttosto che come plagio. "Per me, il plagio dovrebbe essere qualcosa che può essere attribuito a un'altra persona identificabile", ha detto Weber-Wulff, aggiungendo che mentre ci sono esempi di intelligenza artificiale generativa che producono testo che è quasi identico al contenuto esistente scritto da esseri umani, la situazione, ma questo è di solito non abbastanza per essere considerato plagio.

Tuttavia, alcune persone credono che gli strumenti di intelligenza artificiale generativa violino il diritto d’autore.Il plagio e la violazione del copyright sono entrambi usi inappropriati delle opere di altre persone. Il plagio è una violazione dell'etica accademica, mentre l'uso non autorizzato di opere protette da copyright può violare la legge. . “Questi sistemi di intelligenza artificiale si basano sul lavoro di milioni o addirittura centinaia di milioni di persone”, ha affermato Rada Mihalcea, scienziato informatico presso l’Università del Michigan ad Ann Arbor.

Alcune società di media e autori hanno protestato contro quella che vedono come una violazione del copyright da parte dell'intelligenza artificiale. Nel dicembre 2023, il New York Times ha intentato una causa sul copyright contro Microsoft e OpenAI. La causa sostiene che le due società hanno copiato e utilizzato milioni di articoli del New York Times per formare LLM e che il contenuto generato da LLM è ora "in competizione" con il contenuto della pubblicazione. La causa include casi in cui i suggerimenti hanno portato GPT-4 a copiare quasi alla lettera diversi passaggi di un articolo di giornale.

Nel febbraio di quest'anno, OpenAI ha presentato una mozione alla corte federale per archiviare parte della causa, affermando che "ChatGPT non sostituisce in alcun modo un abbonamento al New York Times". Un portavoce di Microsoft ha affermato: "Gli strumenti di intelligenza artificiale sviluppati legalmente dovrebbero esserlo consentito uno sviluppo responsabile” e “né possono sostituire gli importanti contenuti interpretati dai giornalisti”.

Se un tribunale decidesse che addestrare un'intelligenza artificiale su un testo senza autorizzazione costituisce una violazione del copyright, ha affermato Bailey, "sarebbe un enorme shock per le aziende di intelligenza artificiale". Senza set di formazione estesi, strumenti come ChatGPT "non possono esistere".

L’intelligenza artificiale sta esplodendo

Che si chiami plagio o meno, l’uso dell’intelligenza artificiale nella scrittura accademica è esploso dal rilascio di ChatGPT nel novembre 2022.

In una prestampa aggiornata a luglio, i ricercatori lo hanno stimatoAlmeno il 10% degli abstract biomedici sarà scritto utilizzando LLM nella prima metà del 2024, equivalente a circa 150.000 articoli all'anno . Lo studio, condotto da Dmitry Kobak, data scientist dell'Università di Tubinga in Germania, ha analizzato 14 milioni di abstract pubblicati sul database accademico PubMed tra il 2010 e giugno 2024. Mostrano che l’emergere di LLM è associato a un maggiore uso di parole stilistiche come “delves”, “showcase” e “underscores”, e quindi utilizzano questi modelli lessicali insoliti per stimare la percentuale di riepiloghi elaborati utilizzando l’intelligenza artificiale. "L'emergere di assistenti di scrittura basati sul LLM ha avuto un impatto senza precedenti sulla letteratura scientifica", scrivono.

Figura |. L'emergere del LLM è legato al maggiore utilizzo del vocabolario di stile.

Kobak prevede,L'uso degli LLM "continuerà sicuramente ad aumentare" e "diventerà probabilmente più difficile da rilevare"。

L’uso non dichiarato del software nella scrittura accademica non è una novità. Dal 2015, Guillaume Cabanac, informatico dell'Università di Tolosa in Francia, e i suoi colleghi hanno denunciato documenti "incomprensibili" scritti da un software chiamato SCIgen, nonché documenti contenenti "frasi distorte" create da un software che traduce o traduce automaticamente riscrive il testo”. "Anche prima che arrivasse l'intelligenza artificiale generativa, le persone avevano questi strumenti", ha detto Cabanac.

Tuttavia, è utile utilizzare l’intelligenza artificiale anche nella scrittura accademica . I ricercatori affermano che ciò può rendere testi e concetti più chiari, ridurre le barriere linguistiche e liberare tempo per la sperimentazione e la riflessione. Hend Al-Khalifa, ricercatore di informatica presso la King Saud University di Riyadh, ha affermato che prima che fossero disponibili strumenti di intelligenza artificiale generativa, molti colleghi che parlavano inglese come seconda lingua avrebbero avuto difficoltà a scrivere documenti. "Ora si concentrano sulla ricerca e sull'utilizzo di questi strumenti per eliminare i problemi dalla scrittura", ha affermato.

Ma c’è ancora confusione su quando l’uso dell’intelligenza artificiale costituisca plagio o violi l’etica. Soheil Feizi, scienziato informatico dell'Università del Maryland, College Park, ha affermato che utilizzare LLM per riscrivere il contenuto di un articolo esistente è chiaramente un plagio. Ma se LLM viene utilizzato in modo trasparente per aiutare a esprimere idee, sia per generare testo basato su istruzioni dettagliate o per modificare una bozza, non dovrebbe essere penalizzato. "Dovremmo consentire alle persone di esprimersi senza sforzo e in modo chiaro utilizzando LLM", ha affermato Feizi.

Molte riviste ora dispongono di politiche che consentono un certo livello di utilizzo di LLM. Dopo aver inizialmente vietato il testo generato da ChatGPT, Science ha aggiornato la propria politica nel novembre 2023 affermando che l'uso della tecnologia AI durante la scrittura di manoscritti dovrebbe essere completamente divulgato, compresi i sistemi e i suggerimenti utilizzati. È responsabilità dell'autore garantirne l'accuratezza e "assicurarsi che non vi sia plagio". Nature dice anche che gli autori di manoscritti di ricerca dovrebbero documentare qualsiasi utilizzo di LLM nella sezione dei metodi. Un’analisi di 100 grandi editori accademici e 100 riviste di alto livello ha rilevato che, a partire dall’ottobre 2023, il 24% degli editori e l’87% delle riviste dispongono di linee guida per l’uso dell’intelligenza artificiale generativa. Quasi tutti coloro che forniscono indicazioni affermano che gli strumenti di intelligenza artificiale non possono essere citati come autori, ma le politiche variano in base ai tipi di utilizzo dell’intelligenza artificiale consentiti e al livello di divulgazione richiesto. Weber-Wulff ha affermato che sono urgentemente necessarie linee guida più chiare sull’uso dell’intelligenza artificiale nella scrittura accademica.

Attualmente, Abdul-Mageed afferma che l'uso diffuso di LLM durante la scrittura di articoli scientifici è ostacolato dai suoi limiti. Agli utenti viene chiesto di creare istruzioni dettagliate che descrivano il pubblico, lo stile linguistico e il sottocampo di ricerca. "In realtà è molto difficile ottenere un modello linguistico che ti dia esattamente quello che vuoi", ha detto.

Ma Abdul-Mageed ha detto:Gli sviluppatori stanno creando app che renderanno più semplice per i ricercatori generare contenuti scientifici professionali . In futuro, ha affermato, gli utenti potranno semplicemente selezionare le opzioni da un menu a discesa, premere un pulsante e generare un intero documento da zero senza dover scrivere istruzioni dettagliate.

I confini potrebbero ulteriormente confondersi

Insieme alla rapida adozione del LLM per la scrittura di testi, sono emersi anche un gran numero di strumenti progettati per rilevare il LLM. . Sebbene molti strumenti affermino tassi di precisione elevati, in alcuni casi superiori al 90%, la ricerca mostra che la maggior parte degli strumenti non è all’altezza di quanto affermato. In uno studio pubblicato a dicembre, Weber-Wulff e i suoi colleghi hanno valutato 14 strumenti di rilevamento dell’intelligenza artificiale ampiamente utilizzati nel mondo accademico. Solo cinque di loro sono stati in grado di identificare con precisione il 70% o più del testo come scritto da un’intelligenza artificiale o da esseri umani, e nessuno ha ottenuto un punteggio superiore all’80%.

Quando viene rilevato che qualcuno ha leggermente modificato il testo generato dall'intelligenza artificiale,Durante la sostituzione dei sinonimi e la riorganizzazione delle frasi, la precisione del rilevatore è scesa in media al di sotto del 50%. . Tale testo è "praticamente non rilevabile dagli strumenti attuali", hanno scritto gli autori. Altre ricerche hanno dimostrato che chiedere a un'intelligenza artificiale di riscrivere il testo più volte può ridurre significativamente la precisione del rilevatore.

Inoltre, ci sono altri problemi con i rilevatori AI. Uno studio ha dimostrato che se gli articoli in inglese fossero scritti da persone di madrelingua inglese, era più probabile che classificassero erroneamente la scrittura come generata dall’intelligenza artificiale. Feizi ha affermato che il rilevatore non è in grado di distinguere in modo affidabile tra testo scritto interamente dall’intelligenza artificiale e casi in cui l’autore utilizza un servizio basato sull’intelligenza artificiale per rifinire il testo, il che migliora il testo aiutando la grammatica e la chiarezza delle frasi. "Distinguere tra questi casi sarebbe molto difficile e inaffidabile, portando potenzialmente a tassi di falsi allarmi estremamente elevati," ha detto. Ha aggiunto che essere falsamente accusati di usare l'intelligenza artificiale potrebbe causare "danni considerevoli" alla reputazione di quegli accademici o studenti.

I confini tra uso legale e illegale dell’intelligenza artificiale potrebbero ulteriormente confondersi . Nel marzo 2023, Microsoft ha iniziato a integrare i suoi strumenti di intelligenza artificiale generativa nelle sue applicazioni, tra cui Word, PowerPoint e Outlook. Alcune versioni del suo assistente AI Copilot possono redigere o modificare contenuti. A giugno, Google ha anche iniziato a integrare il suo modello di intelligenza artificiale generativa Gemini in strumenti come Docs e Gmail.

"L'intelligenza artificiale sta diventando così profondamente radicata in tutto ciò che usiamo che penso che diventerà sempre più difficile per le persone sapere se qualcosa che stiamo facendo è stato influenzato dall'intelligenza artificiale", ha affermato Debby, esperta di istruzione superiore presso l'Università di St Mark's e St. John's nel Regno Unito ha detto Cotton. "Penso che potremmo non essere in grado di tenere il passo con il ritmo."

Compilatore: Ma Xuewei

Autore originale: Diana Kwon, giornalista scientifica freelance

Link originale: https://www.nature.com/articles/d41586-024-02371-z

notizia