Nature julkaisi artikkelin: Tekoäly hämärtää "akateemisen plagioinnin" määritelmää.

2024-08-02

(Lähde: Piotr Kowalczyk, kuvittaja, graafinen suunnittelija)

【Toimittajan huomautus】Tämän vuoden huhtikuussa Science kumosi aiemman rautasäännön: sen mukaan generatiivista tekoälyä (AI) ja suuria kielimalleja (LLM) voidaan käyttää laillisesti kuvien luomiseen ja paperisisällön kirjoittamiseen sen jälkeen, kun artikkelin "Menetelmät"-luku on todettu. .

nyt, Tekoäly voi auttaa tutkijoita vapauttamaan enemmän aikaa ajatteluun, mutta kysymys kuuluu, lasketaanko tämä plagiointiksi? Ja missä olosuhteissa tätä tekniikkaa pitäisi sallia?

Tiedetoimittaja Diana Kwon julkaisi äskettäin Nature-lehdessä artikkelin, jossa käsiteltiin generatiivisten tekoälytyökalujen soveltamista akateemiseen kirjoittamiseen ja sen tuomia haasteita ja vaikutuksia.

Hän huomautti, että generatiiviset tekoälytyökalut, kuten ChatGPT, tarjoavat suuren potentiaalin säästää aikaa, parantaa selkeyttä ja vähentää kielimuuria, mutta niihin voi liittyä myös plagiointia ja tekijänoikeusrikkomuksia.

Hän huomautti myös, että tekoälyn käyttö on kasvanut räjähdysmäisesti akateemisessa kirjoittamisessa, erityisesti biolääketieteen alalla. Kuitenkin,Tekoälyn luoman tekstin havaitseminen on vaikeaa, koska ne voidaan tehdä lähes havaitsemattomiksi pienellä muokkauksella . samaan aikaan,Rajat tekoälytyökalujen laillisen ja laittoman käytön välillä voivat hämärtyä entisestään, kun yhä useammat sovellukset ja työkalut integroivat tekoälyominaisuuksia.

Viime kädessä hän uskoo, että tekoälyn käytöstä akateemisessa kirjoittamisessa tarvitaan selkeämpiä ohjeita, jotta tutkijat ja lehdet voivat määrittää, milloin on tarkoituksenmukaista käyttää tekoälytyökaluja ja miten niiden käyttö paljastaa.

Akateeminen Toutiao on tehnyt yksinkertaisen kokoelman muuttamatta alkuperäisen tekstin pääideaa. Sisältö on seuraava:

Akateemikkoja ovat järkyttäneet plagiointitapaukset tänä vuonna Harvardin yliopiston presidentin erosta syytösten keskellä tammikuussa helmikuussa paljastettuihin plagioituihin tekstiin vertaisarviointiraporteissa.

Mutta akateeminen kirjoittaminen on suuremman ongelman edessä . Generatiivisen tekoälyn (AI) työkalujen nopea suosio on herättänyt kysymyksiä siitä, onko tämä plagiointia ja missä olosuhteissa se pitäisi sallia. "Tekoälyä käytetään laajalla kirjolla täysin ihmisen kirjoittamasta täysin tekoälyn kirjoittamaan, ja niiden välissä on valtava hämmennys", sanoi Jonathan Bailey, tekijänoikeus- ja plagiointikonsultti New Orleansista Louisianassa.

Suuriin kielimalleihin (LLM) perustuvat generatiiviset tekoälytyökalut, kuten ChatGPT, voivat säästää aikaa, tehdä tekstistä selkeämpää ja ymmärrettävämpää sekä vähentää kielimuuria. Monet tutkijat uskovat nyt, että ne ovat hyväksyttäviä tietyissä olosuhteissa ja että niiden käyttö tulisi paljastaa täysin.

Mutta nämä työkalut vaikeuttavat jo ennestään kiivasta keskustelua muiden ihmisten työn sopimattomasta käytöstä . LLM on koulutettu luomaan tekstiä oppimalla laajasta julkaistusta kirjoituksesta. Tästä syystä tämä voi johtaa plagioinnin kaltaiseen käyttäytymiseen, jos tutkija ottaa kunnian koneen työstä tai jos koneella luotu teksti on hyvin samankaltaista jonkun työn kanssa ilman lähdettä. Näitä työkaluja voidaan käyttää myös tarkoituksellisesti plagioidun tekstin naamiointiin, ja niiden käyttöä on vaikea havaita. "Tulee olemaan erittäin, hyvin vaikeaa määritellä, mitä tarkoitamme akateemisella epärehellisyydellä tai plagioinnilla ja missä ovat rajat", sanoo ekologi Pete Cotton Plymouthin yliopistosta Yhdistyneestä kuningaskunnasta.

Vuonna 2023 tehdyssä tutkimuksessa, johon osallistui 1 600 tutkijaa,68 % vastaajista sanoi, että tekoäly tekee plagioinnista helpompaa ja vaikeampaa havaita . Berliinin ammattikorkeakoulun plagioinnin tunnistusasiantuntija Debora Weber-Wulff sanoi: "Kaikki ovat huolissaan siitä, että muut ihmiset käyttävät näitä järjestelmiä, ja he ovat myös huolissaan siitä, etteivät he käytä niitä silloin, kun heidän pitäisi käyttää niitä. on hieman paniikkia tästä."

Kun plagiointi kohtaa tekoälyn

Yhdysvaltain tutkimuksen eheyden viraston määrittelemällä tavalla,Plagiointi on "toisen henkilön ideoiden, prosessien, tulosten tai kirjoitusten käyttöä ilman asianmukaista lainausta tai tunnustusta". . Vuonna 2015 tehdyssä tutkimuksessa arvioitiin, että 1,7 % tutkijoista myönsi plagioinnin ja 30 % tiesi, että heidän kollegansa olivat syyllistyneet tähän toimintaan.

LLM voi pahentaa tilannetta.Ihmisen kirjoittaman tekstin tahallinen plagiointi voidaan helposti naamioida, jos joku ensin antaa LLM:n kirjoittaa tekstin uudelleen . Muhammad Abdul-Mageed, tietojenkäsittelytieteilijä ja kielitieteilijä Brittiläisen Kolumbian yliopistosta Kanadasta, sanoo, että työkalut voidaan ohjata kirjoittamaan uudelleen hienostuneella tavalla, kuten akateemisen lehden tyyliin.

Ydinkysymys on, lasketaanko täysin koneen eikä ihmisen kirjoittaman mainitsemattoman sisällön käyttäminen plagiointia. Ei välttämättä, monet tutkijat sanovat. Esimerkiksi European Academic Integrity Network määrittelee tekoälytyökalujen luvattoman tai laittoman käytön kirjoittamiseen "luvaton sisällön luomiseksi" plagioinnin sijaan. "Minulle plagioinnin pitäisi olla jotain, joka voidaan lukea toisen tunnistettavissa olevan henkilön ansioksi", Weber-Wulff sanoi ja lisäsi, että vaikka on esimerkkejä generatiivisesta tekoälystä, joka tuottaa tekstiä, joka on lähes identtinen olemassa olevan ihmisen kirjoittaman sisällön kanssa, mutta tämä on ei yleensä riitä katsomaan plagiointia.

Jotkut ihmiset kuitenkin uskovat, että generatiiviset tekoälytyökalut rikkovat tekijänoikeuksia.Plagiointi ja tekijänoikeusloukkaukset ovat molemmat sopimatonta muiden ihmisten teosten käyttöä. . "Nämä tekoälyjärjestelmät on rakennettu miljoonien tai jopa satojen miljoonien ihmisten työhön", sanoi Rada Mihalcea, tietojenkäsittelytieteilijä Michiganin yliopistosta Ann Arborissa.

Jotkut mediayhtiöt ja kirjailijat ovat vastustaneet tekoälyn tekijänoikeusrikkomuksia. Joulukuussa 2023 New York Times nosti tekijänoikeusjutun Microsoftia ja OpenAI:ta vastaan. Oikeusjuttu väittää, että molemmat yhtiöt kopioivat ja käyttivät miljoonia New York Timesin artikkeleita LLM:n kouluttamiseen ja että LLM:n luoma sisältö "kilpailee" nyt julkaisun sisällön kanssa. Oikeusjuttu sisältää tapauksia, joissa kehotukset johtivat GPT-4:n kopioimaan useita lehtiartikkelin kohtia lähes sanatarkasti.

Tämän vuoden helmikuussa OpenAI jätti liittovaltion tuomioistuimeen hakemuksen osan kanteen hylkäämisestä sanoen, että "ChatGPT ei millään tavalla korvaa New York Times -tilausta Microsoftin edustaja sanoi: "Lakillisesti kehitettyjen tekoälytyökalujen pitäisi olla." vastuullinen kehitys” ja ”eivät myöskään voi korvata toimittajien esittämää tärkeää sisältöä”.

Jos tuomioistuin päättää, että tekoälyn kouluttaminen ilman lupaa on tekijänoikeusloukkaus, "se tulee olemaan valtava shokki tekoälyyrityksille ilman laajoja koulutussarjoja, ChatGPT:n kaltaisia työkaluja ei voi olla olemassa."

AI räjähtää

Kutsutaanpa tätä plagiointia tai ei, tekoälyn käyttö akateemisessa kirjoittamisessa on kasvanut räjähdysmäisesti ChatGPT:n julkaisun jälkeen marraskuussa 2022.

Heinäkuussa päivitetyssä preprintissä tutkijat arvioivat tämänVähintään 10 % biolääketieteellisistä tiivistelmistä kirjoitetaan LLM:llä vuoden 2024 ensimmäisellä puoliskolla, mikä vastaa noin 150 000 paperia vuodessa . Tutkimuksessa, jota johti Dmitry Kobak, datatutkija Tübingenin yliopistosta Saksasta, analysoitiin 14 miljoonaa tiivistelmää, jotka julkaistiin akateemisessa PubMed-tietokannassa vuosien 2010 ja kesäkuun 2024 välisenä aikana. Ne osoittavat, että LLM:n syntyminen liittyy lisääntyneeseen tyylisanojen, kuten "delves", "esitteleminen" ja "alaviivat", käyttöön, ja käyttävät sitten näitä epätavallisia leksikaalisia malleja arvioidakseen tekoälyllä käsiteltyjen yhteenvetojen osuuden. "LLM-pohjaisten kirjoitusassistenttien ilmestymisellä on ollut ennennäkemätön vaikutus tieteelliseen kirjallisuuteen", he kirjoittavat.

Kuva |. LLM:n syntyminen liittyy tyylisanaston lisääntyneeseen käyttöön.

Kobak ennustaa,LLM:ien käyttö "lisääntyy varmasti edelleen" ja "tulee todennäköisesti vaikeammaksi havaita"。

Ohjelmistojen julkistamaton käyttö akateemisessa kirjoittamisessa ei ole uutta. Vuodesta 2015 lähtien Ranskan Toulousen yliopiston tietojenkäsittelytieteilijä Guillaume Cabanac ja hänen kollegansa ovat paljastaneet SCIgen-nimisellä ohjelmistolla kirjoittamia "sisaruksia" sekä papereita, jotka sisältävät "kierrettyjä lauseita", jotka on luotu ohjelmistolla, joka kääntää kirjoittaa tekstiä uudelleen. "Jo ennen generatiivisen tekoälyn ilmestymistä ihmisillä oli nämä työkalut", Cabanac sanoi.

Tekoälyn käyttäminen akateemisessa kirjoittamisessa on kuitenkin myös arvokasta . Tutkijoiden mukaan tämä voi tehdä teksteistä ja käsitteistä selkeämpiä, vähentää kielimuuria ja vapauttaa aikaa kokeilulle ja pohdiskelulle. Hend Al-Khalifa, tietotekniikan tutkija King Saud -yliopistosta Riadissa, sanoi, että ennen kuin generatiiviset tekoälytyökalut olivat saatavilla, monilla englantia toisena kielenä puhuneilla kollegoilla olisi ollut vaikeuksia kirjoittaa artikkeleita. "Nyt he keskittyvät tutkimukseen ja käyttävät näitä työkaluja poistamaan kirjoittamisen vaivaa", hän sanoi.

Mutta edelleen on epäselvyyttä siitä, milloin tekoälyn käyttö on plagiointia tai rikkoo etiikkaa. Marylandin yliopiston College Parkin tietojenkäsittelytieteilijä Soheil Feizi sanoi, että LLM:n käyttäminen olemassa olevan paperin sisällön uudelleenkirjoittamiseen on selvästi plagiointia. Mutta jos LLM:ää käytetään läpinäkyvästi ideoiden ilmaisemiseen – joko tekstin luomiseen yksityiskohtaisten kehotteiden perusteella tai luonnoksen muokkaamiseen – sitä ei pitäisi rangaista. "Meidän pitäisi antaa ihmisten ilmaista itseään vaivattomasti ja selkeästi LLM:n avulla", Feizi sanoi.

Monilla aikakauslehdillä on nyt käytäntöjä, jotka sallivat jonkin tason LLM:n käytön. Kiellettyään alun perin ChatGPT:n luoman tekstin, Science päivitti käytäntöään marraskuussa 2023 ja sanoi, että tekoälytekniikan käyttö käsikirjoitusten kirjoittamisessa tulee paljastaa kokonaan - mukaan lukien käytetyt järjestelmät ja kehotteet. Kirjoittajan vastuulla on varmistaa tarkkuus ja "varmistaa, ettei plagiointia ole". Luonto sanoo myös, että tutkimuskäsikirjoitusten tekijöiden tulee dokumentoida kaikki LLM:n käyttö menetelmät-osiossa. 100 suuren akateemisen kustantajan ja 100 korkealle sijoittuneen lehden analyysissä havaittiin, että lokakuussa 2023 24 prosentilla kustantajista ja 87 prosentilla lehdistä on ohjeet generatiivisen tekoälyn käyttöön. Melkein kaikissa ohjeissa sanotaan, että tekoälytyökaluja ei voida mainita tekijöinä, mutta käytännöt vaihtelevat sallitun tekoälyn tyyppien ja vaaditun julkistamistason mukaan. Weber-Wulff sanoi, että selkeämpiä ohjeita tekoälyn käyttöön akateemisessa kirjoittamisessa tarvitaan kiireesti.

Tällä hetkellä Abdul-Mageed sanoo, että LLM:n laajaa käyttöä tieteellisten artikkeleiden kirjoittamisessa haittaavat sen rajoitukset. Käyttäjiä pyydetään luomaan yksityiskohtaisia kehotteita, jotka kuvaavat yleisöä, kielityyliä ja tutkimuksen alakenttää. "On itse asiassa erittäin vaikeaa saada kielimalli antamaan sinulle juuri sitä, mitä haluat", hän sanoi.

Mutta Abdul-Mageed sanoi:Kehittäjät rakentavat sovelluksia, jotka helpottavat tutkijoiden ammattimaisen tieteellisen sisällön tuottamista . Hän sanoi, että tulevaisuudessa käyttäjät voivat yksinkertaisesti valita vaihtoehtoja pudotusvalikosta, painaa painiketta ja luoda koko paperin tyhjästä ilman, että heidän tarvitsee kirjoittaa yksityiskohtaisia kehotteita.

Rajat voivat hämärtyä entisestään

LLM:n nopean käyttöönoton myötä tekstien kirjoittamiseen on myös syntynyt suuri joukko työkaluja, jotka on suunniteltu tunnistamaan LLM. . Vaikka monet työkalut väittävät korkean tarkkuuden – joissakin tapauksissa yli 90 % –, tutkimukset osoittavat, että useimmat työkalut eivät täytä vaatimuksiaan. Joulukuussa julkaistussa tutkimuksessa Weber-Wulff ja hänen kollegansa arvioivat 14 AI-tunnistustyökalua, joita käytetään laajalti korkeakouluissa. Vain viisi heistä pystyi tunnistamaan tarkasti 70 prosenttia tai enemmän tekstistä tekoälyn tai ihmisten kirjoittamana, eikä yksikään saanut yli 80 prosenttia.

Kun havaitaan, että joku on hieman muokannut tekoälyn luomaa tekstiä,Synonyymeja korvattaessa ja lauseita järjestettäessä ilmaisimen tarkkuus putosi keskimäärin alle 50 % . Kirjoittajat kirjoittivat, että tällainen teksti on "käytännössä havaitsematon nykyisillä työkaluilla". Muut tutkimukset ovat osoittaneet, että tekoälyn pyytäminen kirjoittamaan tekstiä uudelleen useita kertoja voi merkittävästi heikentää ilmaisimen tarkkuutta.

Lisäksi AI-ilmaisimissa on muita ongelmia. Eräs tutkimus osoitti, että jos englanninkielisiä artikkeleita kirjoittivat muut kuin englantia äidinkielenään puhuvat, he todennäköisemmin luokittelevat kirjoituksen virheellisesti tekoälyn luomaksi. Feizin mukaan ilmaisin ei pysty luotettavasti erottamaan kokonaan tekoälyllä kirjoittamaa tekstiä tapauksista, joissa kirjoittaja käyttää tekoälypohjaista palvelua tekstin hiomiseen, mikä parantaa tekstiä auttamalla kielioppia ja lauseiden selkeyttä. "Näiden tapausten erottaminen toisistaan olisi erittäin vaikeaa ja epäluotettavaa - johtaisi mahdollisesti erittäin korkeisiin vääriin hälytyksiinHän sanoi. Hän lisäsi, että tekoälyn käyttämisestä aiheettomasti syytettynä voisi aiheuttaa "huomattavaa vahinkoa" näiden tutkijoiden tai opiskelijoiden maineelle.

Tekoälyn laillisen ja laittoman käytön rajat voivat hämärtyä entisestään . Maaliskuussa 2023 Microsoft aloitti luovien tekoälytyökalujensa integroinnin sovelluksiinsa, kuten Wordiin, PowerPointiin ja Outlookiin. Jotkut sen tekoälyavustajan Copilotin versiot voivat luonnostella tai muokata sisältöä. Kesäkuussa Google aloitti myös generatiivisen tekoälymallinsa Gemini integroinnin työkaluihin, kuten Docsiin ja Gmailiin.

"Tekoäly on juurtunut niin syvälle kaikkeen, mitä käytämme, että uskon, että ihmisten on yhä vaikeampaa tietää, onko tekoäly vaikuttanut tekemiisi asioihin", sanoi Debby, korkeakoulujen asiantuntija St Mark's and St. John's Yhdistyneessä kuningaskunnassa Cotton sanoi. "Uskon, että emme ehkä pysty pysymään sen tahdissa."

Kääntäjä: Ma Xuewei

Alkuperäinen kirjoittaja: Diana Kwon, freelance-tiedetoimittaja

Alkuperäinen linkki: https://www.nature.com/articles/d41586-024-02371-z

uutiset