ChatGPT:t saastuttavat akateemisen circle

ChatGPT:t saastuttavat akateemista piiriä

2024-08-01

älykkäitä asioita
Kokoanut Chen Junda
EditPanken

Nature-lehden eilen julkaiseman raportin mukaan generatiivisen tekoälyn käyttö akateemisessa kirjoittamisessa on kasvanut räjähdysmäisesti. Asiaankuuluvat tutkimukset osoittavat, että 10 % biolääketieteen alan suurimman tietokannan PubMed-julkaisujen tiivistelmistä epäillään olevan tekoälyn kirjoittamia, mikä vastaa tekoälyn osallistumista 150 000 artikkeliin joka vuosi.

Saksalaisen Berliinin ammattikorkeakoulun tutkimus osoittaa, että AIGC:n yleisten tunnistustyökalujen keskimääräinen tarkkuus on vain 50 %, ja on helppo todeta, että ihmisen kirjoittama sisältö on tekoälyn tuottamaa. Monet tekoälyn luomat paperit voidaan kuitenkin helposti piilottaa muuntelemalla, korvaamalla synonyymit jne. Lisäksi englannin äidinkielenään puhuvien tekoälytyökalujen käyttöä on vaikeampi havaita.

Vaikka tekoälytyökaluja on käytetty laajalti yliopistomaailmassa aiemmin, generatiivisen tekoälyn käyttö suoraan paperien tai haamukirjoitusten tulostamiseen on edelleen kiistanalaista. Tekoälytyökalut helpottavat plagiointia ja voivat johtaa tekijänoikeudella suojatun sisällön väärinkäyttöön.

Tekoälyavusteinen kirjoittaminen ei ole ansioistaan. Monet tutkijat käyttävät generatiivista tekoälyn avulla kirjoitettua kirjoittamista välttääkseen julkaisuja tuntemattomilla kielillä ja voivat keskittyä itse tieteelliseen tutkimukseen. Monet lehdet sallivat generatiivisten tekoälytyökalujen käytön, mutta vaativat tekijöitä paljastamaan niiden käytön yksityiskohtaisesti kirjoissaan.

1. Tekoäly saattaa olla mukana kirjoittamassa 150 000 tiivistelmää, ja englannin äidinkielenään puhujat löydetään todennäköisemmin

ChatGPT:n julkaisun jälkeen vuoden 2022 lopulla tekoälyn käyttö akateemisessa kirjoittamisessa on lisääntynyt räjähdysmäisesti. Saksalaisen Tübingenin yliopiston tutkimus osoittaa, että vuoden 2024 ensimmäisellä puoliskolla biolääketieteellisten julkaisujen abstrakteista kirjoitetaan tekoälyllä vähintään 10 %, mikä vastaa noin 150 000 paperia vuodessa.

Tämä tutkimusryhmä analysoi 14 miljoonan artikkelin tiivistelmiä biolääketieteen kenttätietokannassa PubMed vuosina 2010–2024. He havaitsivat, että ChatGPT:n edustamien generatiivisten tekoälytyökalujen ilmestymisen jälkeen tiettyjen muokkaavien tyylisanojen käyttö lisääntyi epänormaalisti. Tutkimusryhmä käytti näiden sanojen esiintymistiheyttä arvioidakseen tekoälyllä kirjoitettujen abstraktien osuuden.

Tutkijat havaitsivat myös, että tekoälyn kirjoitustyökalujen käyttö vaihteli maittain. Heidän tiedot osoittavat, että Kiinan ja Etelä-Korean kaltaisten maiden paperit käyttävät tekoälyn kirjoitustyökaluja useammin kuin englanninkielisten maiden paperit.

▲Tyylisanaston käyttö akateemisessa kirjoittamisessa on lisääntynyt (Lähde: "Nature")

Tutkimusryhmän analyysin mukaan englanninkielisten maiden kirjoittajien tekoälyn käyttötiheys saattaa olla samanlainen kuin muissa maissa, mutta sen käyttötapa voi olla vaikeampi havaita.

Itse asiassa, ennen kuin tämä generatiivisen tekoälyn aalto syntyi, tekoälyä oli käytetty sellaisilla aloilla kuin lääkekehitys ja proteiinien rakenteen ennustaminen. Nämä käyttötavat eivät aiheuttaneet liikaa kiistaa se on edelleen tukirooli.

Generatiivisen tekoälyn soveltaminen akateemisessa kirjoittamisessa tuo esiin kaksi suurta ongelmaa. Toisaalta generatiivinen tekoäly helpottaa plagiointia. Plagioijat voivat käyttää generatiivista tekoälyä vertaillakseen muiden ihmisten tutkimusta akateemisten lehtien tyyliin. Parafraasoitu teksti on yleensä vähemmän samanlainen kuin alkuperäinen teksti, joten sitä on vaikea arvioida plagioimiseksi.

Lisäksi AI-malli kuluttaa suuren määrän tekijänoikeudella suojattua sisältöä koulutusprosessin aikana, ja malli näyttää erittäin todennäköisesti tekijänoikeudella suojattua sisältöä käyttäjälle ilman kehotteita. New York Times havaitsi kerran, että OpenAI:n AI-chatbot ChatGPT oli tuottanut suoraan New York Times -raportin alkuperäiset sanat merkitsemättä lähdettä. He haastoivat myös OpenAI:n oikeuteen rikkomisesta.

2. Havaintotyökalut epäonnistuvat kissa-hiiri-pelissä. Ne voidaan helposti kiertää ja arvioida helposti väärin.

Monet yritykset ovat ottaneet markkinoille AIGC-sisällöntunnistustyökalut vastauksena tekoälytyökalujen lisääntyvään käyttöön, mutta nämä työkalut ovat epäonnistuneet "kissa-hiiri-pelissä" generatiivisella tekoälyllä.

Viime vuoden lopulla useat Berliinin ammattikorkeakoulun tutkijat julkaisivat tutkimuksen. He havaitsivat, että vain 5 14:stä korkeakouluissa yleisesti käytetystä tekoälyn havaitsemistyökalusta saavutti yli 70 prosentin tarkkuuden. Keskimääräinen tunnistustarkkuus on vain 50–60 %.

▲ Markkinoilla olevat yleiset AIGC-tunnistustyökalut toimivat huonosti (Lähde: Weber-Wulf et al.)

Nämä AIGC-tunnistustyökalut toimivat vielä huonommin, kun kohtaavat tekoälyn luomaa sisältöä, jota ihmiset ovat muokkaaneet ja koneiden kirjoittamia. Vain yksinkertaisilla toimilla, kuten synonyymien korvaaminen ja sanajärjestyksen säätö, AIGC-tunnistustyökalun tarkkuus laskee alle 50 prosenttiin. Tutkimukset ovat osoittaneet, että AIGC-tunnistustyökalujen kattava tunnistustarkkuus on vain 50 %.

Kuvan ▲05 ja 06 ovat tekoälyn luomaa tekstiä ihmisen muokkauksen jälkeen. AIGC-tunnistustyökalu toimii erittäin huonosti näissä kahdessa tekstityypissä (Lähde: Weber-Wulf et al.)

Tiedot osoittavat, että markkinoilla olevilla AIGC-tunnistustyökaluilla on suuri tarkkuus ihmisen kirjoittamien papereiden tunnistamisessa. Jos kirjoittaja kuitenkin kirjoittaa ensin alkuperäisen artikkelin tuntemallaan kielellä ja pyytää sitten käännösohjelmistoa kääntämään sen toiselle kielelle, tunnistustyökalu voi arvioida sen väärin AIGC:ksi. Tällä voi olla erittäin kielteinen vaikutus tutkijoiden ja opiskelijoiden akateemiseen maineeseen.

3. Avustetun kirjoittamisen ja akateemisen väärinkäytöksen väliset rajat hämärtyvät, ja tekoälyn kirjoitustyökaluilla on myös arvonsa.

Generatiivisten tekoälytyökalujen käyttö tuo kuitenkin mukavuutta joillekin tutkijoille. Hend Al-Khalifa, tietotekniikan tutkija King Saud -yliopistosta Riadissa, kertoi, että ennen generatiivisten tekoälytyökalujen tuloa monet kollegat, jotka eivät osaaneet englantia, kohtasivat suuria vaikeuksia kirjoitusten kirjoittamisessa, ja nyt nämä tutkijat voivat keskittyä itse tutkimuksesta käyttämättä liikaa aikaa kirjoittamiseen.

Rajaa tekoälyn avustaman kirjoittamisen ja akateemisen väärinkäytöksen välille on vaikea vetää. Marylandin yliopiston tietojenkäsittelytieteilijä Soheil Feizi uskoo, että generatiivisen tekoälyn käyttäminen olemassa olevan julkaisun sisällön mukauttamiseen on selvästi plagiointia.

Mutta tekoälytyökalujen käytöstä mielipiteiden ilmaisemisessa ei pidä rangaista. Olettaen, että tutkijat paljastavat ennakoivasti tekoälytyökalujen käytön, voivat käyttää yksityiskohtaisia kehotteita tekstin luomiseen tai tekoälytyökalujen avulla luonnosten muokkaamiseen.

Monet lehdet ovat myös standardoineet tekoälytyökalujen käyttöä akateemisessa kirjoittamisessa ilman, että se on suoraan kielletty. Suosituin akateeminen aikakauslehti "Science" määrää, että tekoälyä ei voida listata mukana kirjoittajaksi, ja kirjoittajan tulee paljastaa tekoälyjärjestelmä ja käytetyt kehotussanat sekä olla vastuussa sisällön tarkkuudesta ja siitä, onko epäilty plagiointia.

▲ Tekoälyn käyttöä koskevat asiaankuuluvat määräykset akateemisessa lehdessä "Science" (Lähde: Tiede-lehden virallinen verkkosivusto)

Akateeminen aikakauslehti Nature määrää, että tutkijoiden tulee kirjata generatiivisten tekoälytyökalujen käyttö "Tutkimusmenetelmät"-osioon. Tilastot osoittavat, että lokakuussa 2023 87 sadasta parhaimmasta lehdestä on kehittänyt ohjeet generatiivisten tekoälytyökalujen käyttöön.

Johtopäätös: AI-työkalut eivät ole vitsaus, vain akateemisen suuntauksen muuttaminen voi parantaa perimmäisen syyn

Kuluneella yliopistojen valmistumiskaudella monet kotimaiset yliopistot ottivat myös AIGC-testaustyökalut käyttöön opinnäytetyön puolustamisessa ja arvosteluprosessissa. Tämän indikaattorin käyttöönotto ei kuitenkaan ole tehokkaasti hillinnyt tekoälytyökaluihin liittyviä akateemisia väärinkäytöksiä. Markkinoilla on myös erilaisia palveluita, jotka ovat erikoistuneet tekoälyn alentamiseen. Sen jälkeen kun monet opiskelijoiden paperit on arvioitu tekoälyn tuottamaksi, ne muuttuivat tunnistamattomaksi tekoälyn vähentämisen vuoksi.

Kilpaileva lähestymistapa generatiivisiin tekoälytyökaluihin akateemisessa tutkimuksessa ei ehkä paranna tätä ongelmaa. Myös Berliinin ammattikorkeakoulun tutkijat korostivat tutkimusta tiivistäessään, että tekoälyn väärinkäyttöongelmaa akateemisessa kirjoittamisessa on vaikea ratkaista pelkällä AIGC-tunnistuksella ratkaisemaan tämän ongelman.

Lähde: "Nature"

uutiset

ChatGPT:t saastuttavat akateemista piiriä

Johdanto

yhteystietoni