uutiset

Luonto paljastaa järkyttävää sisäpiiritietoa: Tekoälyn ruokkimiseen myytiin papereita taivaan korkeisiin hintoihin! Kustantajat tienaavat satoja miljoonia, kirjoittajat ansaitsevat nollaa

2024-08-15

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina



  Uusi viisausraportti

Toimittaja: Toimitusosasto
[Johdatus uuteen viisauteen]Nature-lehden artikkeli paljasti: Julkaisemasi paperia on saatettu käyttää mallin kouluttamiseen! Jotkut julkaisijat ovat ansainneet 23 miljoonaa dollaria myymällä tietoja. Kuitenkin kirjoittajat, jotka työskentelivät koodaakseen paperia, eivät voi saada penniäkään. Onko tämä järkevää?

Maailma on datakriisissä, mitä meidän pitäisi tehdä?
Paperit tulevat yhteen!
Äskettäin Nature-lehden artikkeli paljasti meille tosiasian, että jopa tieteellisiä tutkimuspapereita on käytetty tekoälyn kouluttamiseen...
On raportoitu, että monet akateemiset kustantajat ovat antaneet teknologiayrityksille luvan käyttää omia papereitaan AI-mallien kouluttamiseksi.
Paperi, ideasta viimeistelyyn, sisältää kirjoittajan kovaa työtä yötä päivää. Nyt on hyvin todennäköistä, että siitä tulee tietämättään tietoa tekoälyn harjoittamiseen.
Onko tämä järkevää?
Vielä ärsyttävämpää on, että kustantaja käytti hänen paperiaan tuottoa varten.
Nature-raportin mukaan brittiläinen akateeminen julkaisija Taylor & Francis allekirjoitti viime kuussa Microsoftin kanssa 10 miljoonan dollarin sopimuksen, joka antoi Microsoftille mahdollisuuden käyttää tietojaan tekoälyjärjestelmien parantamiseksi.
Sijoittajapäivitys kesäkuussa osoitti, että amerikkalainen kustantaja Wiley teki valtavan 23 miljoonan dollarin voiton, kun se antoi yrityksen käyttää sisältökoulutusmalliaan!
Mutta näillä rahoilla ei ole mitään tekemistä useimpien lehtien tekijöiden kanssa.
Lisäksi Washingtonin yliopiston tekoälytutkija Lucy Lu Wang sanoi myös, että vaikka se ei olisikaan avoimessa tietovarastossa, kaikki verkossa luettavissa oleva sisältö on todennäköisesti syötetty LLM:ään.
Vielä pelottavampaa on, että jos paperia on käytetty mallin koulutustietona, sitä ei voi poistaa mallikoulutuksen jälkeen.
Jos paperiasi ei ole vielä käytetty tekoälyn harjoittamiseen, älä huoli – sen pitäisi olla pian!

Tietojoukot ovat kuin kultaa, ja suuret yritykset kilpailevat niistä


Tiedämme kaikki, että LLM:ää on koulutettava massiiviseen dataan, ja nämä tiedot yleensä napataan Internetistä.
Näiden koulutustietojen miljardeista tunnuksista LLM johtaa kuvioita tekstin, kuvien ja koodin luomiseksi.
Akateemiset paperit ovat pitkiä ja niissä on korkea informaatiotiheys, joten ne ovat selvästikin yksi arvokkaimmista tiedoista, joita LLM:lle voidaan syöttää.
Lisäksi LLM:ien kouluttaminen suurella määrällä tieteellistä tietoa voi myös parantaa huomattavasti heidän päättelykykyään tieteellisistä aiheista.
Wang on mukana luomassa S2ORC-tietoaineistoa, joka perustuu 81,1 miljoonaan akateemiseen paperiin. Alun perin S2ORC-tietojoukko kehitettiin tekstinlouhintaan, mutta myöhemmin sitä käytettiin LLM:n kouluttamiseen.
Voittoa tavoittelemattoman Eleuther AI:n vuonna 2020 rakentama Pile on yksi NLP-tutkimuksen laajimmin käytetyistä laajamittaisista avoimen lähdekoodin tietokokonaisuuksista, jonka kokonaisvolyymi on 800 Gt. Se sisältää suuren määrän tekstejä akateemisista lähteistä, ja arXiv-paperien osuus on 8,96%. Se kattaa myös muut akateemiset verkkosivustot, kuten PubMed, FreeLaw ja NIH.
Jokin aika sitten avoimen lähdekoodin 1T token -tietojoukko MINT löysi myös aarteen arXiv, poimimalla yhteensä 870 000 dokumenttia ja 9B tokenia.
Alla olevasta tietojenkäsittelyn vuokaaviosta näemme, kuinka korkea paperin tietojen laatu on - suodatusta ja kopioinnin poistamista ei juuri tarvita, ja käyttöaste on erittäin korkea.
Nyt, vastauksena tekijänoikeuskiistoihin, suuret mallintamisyritykset ovat alkaneet tarjota oikeaa rahaa ostaakseen laadukkaita tietokokonaisuuksia.
Tänä vuonna Financial Times on myynyt sisältönsä OpenAI:lle huomattavaan hintaan. Myös Reddit on päässyt samanlaiseen sopimukseen Googlen kanssa.
Tulevaisuudessa tällaisista liiketoimista tulee väistämättömiä.

On erittäin vaikeaa todistaa, että LLM on käyttänyt paperia


Jotkut tekoälykehittäjät avaavat omia tietojoukkojaan, mutta monet tekoälymalleja kehittävät yritykset pitävät suurimman osan harjoitustiedoistaan ​​luottamuksellisina.
Stefan Baack, Mozilla Foundationin tekoälyn koulutusdata-analyytikko, sanoi, että kukaan ei tiedä, mitä koulutusdataa näillä yrityksillä on.
Alan sisäpiiriläisten suosituimpia tietolähteitä ovat epäilemättä tiivistelmät avoimen lähdekoodin arkistosta arXiv ja akateemisesta PubMed-tietokannasta.
Tällä hetkellä arXiv isännöi yli 2,5 miljoonan artikkelin koko tekstiä, ja PubMed sisältää hämmästyttävän määrän lainauksia, yli 37 miljoonaa.
Vaikka joidenkin PubMedin kaltaisten verkkosivustojen artikkelien koko tekstissä on maksumuuri, lehtien tiivistelmät ovat vapaasti selattavissa, ja suuret teknologiayritykset ovat saattaneet indeksoida tämän osan.
Onko siis olemassa mitään teknistä menetelmää sen tunnistamiseksi, onko paperia käytetty?
Toistaiseksi se on vielä vaikeaa.
Lontoon Imperial Collegen tietojenkäsittelytieteilijä Yves-Alexandre de Montjoye sanoi: On hyvin vaikeaa todistaa, että LLM käytti tiettyä paperia.
Yksi tapa on käyttää paperitekstissä erittäin harvinaisia ​​lauseita kysyäkseen mallia ja katsoakseen, onko sen tulos alkuperäisen tekstin seuraava sana.

Jotkut tutkijat kehottivat kerran GPT-3:a "Harry Potter ja viisasten kiven" kolmannen luvun alussa, ja malli sylki nopeasti ja oikein koko sivun kirjan sisällöstä.
Jos näin on, se on poissa – paperi on mallin harjoitussarjassa.
Mitä jos ei? Tämä ei välttämättä ole pätevä todiste siitä, että paperia ei ole käytetty.
Koska kehittäjät voivat koodata LLM:itä niin, että ne suodattavat vastaukset, jotta ne eivät täsmää liian tarkasti harjoitustietojen kanssa.
On mahdollista, että kaikista ponnisteluistamme huolimatta emme pysty todistamaan sitä yksiselitteisesti.
Toinen menetelmä on "jäsenen päättelyhyökkäys".
Tämän menetelmän periaate on, että kun malli näkee jotain, mitä se on nähnyt aiemmin, se luottaa tulokseen paremmin.
Tätä tarkoitusta varten De Montjoyen tiimi kehitti erityisesti "tekijänoikeusloukun".
Ansan asettamiseksi ryhmä generoi uskottavia, mutta merkityksettömiä lauseita ja piilotti ne työhön, kuten valkoista tekstiä valkoisella taustalla tai nollaleveä kenttä verkkosivulla.
Jos mallia hämmentää enemmän käyttämättömät kontrollilauseet kuin tekstiin piilotetut kontrollilauseet, tätä voidaan käyttää tilastollisena todisteena siitä, että ansa on nähty.

Tekijänoikeuskiista


Mutta vaikka voidaan todistaa, että LLM on koulutettu tietyllä paperilla, mitä voimme tehdä?
Tässä on pitkään jatkunut kiista.
Julkaisijan näkemyksen mukaan, jos kehittäjä käyttää tekijänoikeudella suojattua tekstiä koulutuksessa ilman lupaa, se on ehdottomasti loukkaus.
Mutta toinen osapuoli voi kumota sen näin: Isoa mallia ei ole plagioitu, joten miten voi olla mitään loukkausvaatimusta?
LLM ei todellakaan kopioi mitään, se yksinkertaisesti ottaa tietoa koulutustiedoista, purkaa ne ja käyttää niitä uuden tekstin luomiseen.
Monimutkaisempi kysymys on se, kuinka vetää raja kaupallisen ja akateemisen tutkimuskäytön välille.
ArXiv-verkkosivuston nykyisten käyttöehtojen mukaan kaikkien sähköisten esipainettujen papereiden ja verkkosivuston metatietojen kaappaus, tallennus ja käyttö ovat yhteensopivia ja tuettu henkilökohtaisiin tai tutkimustarkoituksiin.
ArXivin kaupallinen käyttö on kuitenkin ehdottomasti kielletty.
Joten kysymys kuuluu, jos kaupallinen yritys käyttää akateemisen laitoksen julkaisemaa avoimen lähdekoodin tietojoukkoa liiketoimintamallinsa kouluttamiseen ja tietolähteenä on arXiv tai vastaava akateeminen julkaisulaitos, miten tämä lasketaan?
Lisäksi julkaisijat eivät usein ilmoita selkeästi käyttäjien tilausehdoissa, voidaanko papereita käyttää mallien koulutustietoina.