uutiset

Akateemisia papereita myydään korkeaan hintaan suurten mallien kouluttamiseksi, mutta kirjoittajat eivät saa tuloja

2024-08-16

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

·Yhä useammat akateemiset kustantajat myyvät tutkimuspapereita teknologiayrityksille kouluttaakseen tekoälymalleja, kun taas kirjoittajat saavat nollatuloa.

Suuret kielimallit (LLM) ovat jälleen aiheuttaneet kiistaa koulutusdata-ongelmien vuoksi. Äskettäin Elizabeth Gibney, kansainvälisesti tunnetun Nature-lehden toimittaja, julkaisi artikkelin "Onko paperiasi käytetty tekoälymallin kouluttamiseen?" Melkein varma" artikkeli. Artikkelin kirjoittaja totesi, että yhä useammat akateemiset kustantajat lisensoivat tällä hetkellä tutkimuspapereita teknologiayrityksille tekoälyn (AI) mallien kouluttamiseen. Yksi akateeminen kustantaja ansaitsi tästä 23 miljoonaa dollaria, kun taas kirjailija ansaitsi nollaa. Nämä liiketoimet, monissa tapauksissa ilman tekijöiden kuulemista, ovat herättäneet suurta tyytymättömyyttä joidenkin tutkijoiden keskuudessa.

"Jos paperiasi ei ole käytetty tekoälyn koulutusdatana, siitä tulee todennäköisesti pian osa koulutusta." Elizabeth Jipney huomautti artikkelissa, että tällä hetkellä akateemisten julkaisujen kirjoittajilla ei ole juurikaan valinnanvaraa, kun he kohtaavat kustantajia, jotka myyvät tekijänoikeudella suojattuja teoksiaan. häiriötä. Julkisesti julkaistuille artikkeleille ei ole olemassa mekanismia sen varmistamiseksi, käytetäänkö näitä sisältöä tekoälyn harjoitustietoina. Suurten kielimallien käytössä oikeudenmukaisempi mekanismi tekijöiden oikeuksien ja etujen suojaamiseksi ansaitsee laajaa keskustelua akateemisissa ja tekijänoikeuspiireissä.

Suuret kielimallit (LLM) käyttävät usein suuria tietomääriä, jotka on kerätty Internetistä koulutuksessa. Nämä tiedot sisältävät miljardeja kielellisiä tietoja (kutsutaan "tokeneiksi"), ja analysoimalla näiden merkkien välisiä kuvioita malli pystyy luomaan sujuvaa tekstiä. Runsaan sisältönsä ja suuren tietotiheytensä vuoksi akateemiset paperit ovat arvokkaampia kuin suuret määrät tavallista dataa ja ovat tärkeä tietolähde tekoälykoulutuksessa. Dataanalyytikko Stefan Baack maailmanlaajuisesta voittoa tavoittelemattomasta järjestöstä Mozilla Foundation analysoi, että tieteelliset artikkelit ovat erittäin hyödyllisiä suurten kielimallien koulutuksessa, erityisesti tieteellisten aiheiden päättelykyvyn kannalta. Juuri tiedon suuren arvon vuoksi suuret teknologiayritykset ovat käyttäneet valtavia summia tietokokonaisuuksien ostamiseen.

Artikkelissa huomautettiin, että Financial Times teki tänä vuonna sopimuksen OpenAI:n kanssa sisällön lisensoimisesta jälkimmäiselle Redditille, joka tunnetaan nimellä "American Post Bar", myös Googlen kanssa. Nämä sopimukset kuvastavat julkaisijoiden pyrkimyksiä välttää sen, että tekoälymallit indeksoivat sisältöään ilmaiseksi laillisen luvan avulla.

Artikkeli paljasti viime kuussa, että brittiläinen akateeminen kustantaja Taylor & Francis allekirjoitti 10 miljoonan dollarin sopimuksen Microsoftin kanssa, mikä antoi Microsoftille mahdollisuuden käyttää tietojaan tekoälyjärjestelmien parantamiseksi. Kesäkuussa amerikkalainen kustantaja Wiley ansaitsi jopa 23 miljoonaa dollaria tarjoamalla sisältöä yritykselle tekoälykoulutukseen. Eikä näillä valtavilla tuloilla ole mitään tekemistä lehtien tekijöiden kanssa.

Tällä hetkellä tutkijat yrittävät käyttää teknisiä keinoja auttaakseen kirjoittajia tunnistamaan, onko heidän töitään käytetty tekoälymallikoulutukseen. Lucy Lu Wang, tekoälyn tutkija Washingtonin yliopistosta Seattlessa, sanoi, että jos paperia on käytetty mallin koulutustietona, sitä ei voida poistaa mallikoulutuksen jälkeen.

Vaikka voidaankin todistaa, että paperia käytetään tekoälykoulutukseen, se on silti kiistanalainen oikeudellisella tasolla. Artikkelissa tuodaan esille, että julkaisija uskoo, että luvattoman tekijänoikeudella suojatun sisällön käyttäminen koulutukseen on loukkaus, toinen oikeudellinen näkemys on, että suuri kielimalli ei kopioi sisältöä suoraan, vaan luo uutta tekstiä oppimisen kautta.

On syytä huomata, että kaikki tutkijat eivät vastusta työnsä käyttämistä tekoälykoulutukseen. Stefan Back sanoi, että hän olisi iloinen, jos hänen tutkimustuloksiaan käytetään parantamaan tekoälyn tarkkuutta, eikä häntä haittaisi, jos tekoäly "matkii" hänen kirjoitustyyliään. Hän kuitenkin myönsi myös, että kaikki eivät pysty selviytymään tästä ongelmasta helposti, etenkään ammateissa, jotka kohtaavat tekoälyn aiheuttamaa kilpailupainetta, kuten taiteilijat ja kirjailijat.

Itse asiassa oikeudenkäynnit, jotka koskevat tekijänoikeudella suojattujen henkisten teosten käyttöä tekoälymallien kouluttamisessa, ovat herättäneet laajaa huomiota aiemmin.

Washington Post raportoi 14. elokuuta, että useiden yhdysvaltalaisten kuvataiteilijoiden ja kuvittajien nostama ryhmäkanne tekoälykuvan luontityökaluja vastaan ​​on tehnyt läpimurron. He ovat syyttäneet Midjourneyn ja Stability AI:n kaltaisia ​​startupeja teosten käyttämisestä tekoälymallien kouluttamiseen ilman lupaa. Tapaus sai keskeistä kehitystä tällä viikolla. Yhdysvaltain piirituomari William Orrick antoi asian keskeisten osien edetä, mikä tarkoittaa, että tuomioistuin on päättänyt, että tiettyjen syytteiden etenemiseen on riittävästi oikeudellisia todisteita, jotka saattavat paljastaa yrityksen sisäisen viestinnän edetessä AI-työkalut.