Oxbridge ei onnistunut "myrkyttämään" tekoälyä ja esiintyi Nature-lehden kannessa yhdeksän kertaa, mikä herätti kiivasta keskustelua akateemisessa piirissä

Oxbridge ei onnistunut "myrkyttämään" tekoälyä ja esiintyi Nature-lehden kannessa 9 kertaa, mikä herätti kiivasta keskustelua akateemisissa piireissä

2024-07-27

Uusi viisausraportti

Toimittaja: Aeneas niin uninen

[Johdatus uuteen viisauteen] Oxfordin ja Cambridgen paperi yhdeksästä myrkytyksestä, jotka aiheuttivat mallin romahtamisen, on saanut paljon kritiikkiä: Voiko tämä sisällyttää myös luontoon? Tästä on keskusteltu edelleen akateemisissa piireissä, ja kaikilla on sama näkemys: monet pitävät synteettistä dataa ihmelääkkeenä, mutta ilmaista lounasta ei ole maailmassa.

AI-aikakaudella data on uutta öljyä. Onko synteettinen data tulevaisuutemme aikakaudella, jolloin globaali ihmisdata on vähitellen ehtymässä?

Nature-lehden kannessa olevan paperin viimeaikainen kiista on saanut meidät ymmärtämään: tärkeää ei ole "synteettinen data", vaan "synteettisen tiedon oikea käyttö".

Torstaina Nature-lehden kannessa ilmestyi paperi Oxfordista, Cambridgesta, Imperial Collegesta, Toronton yliopistosta ja muista oppilaitoksista.

Ihmiset eivät kuitenkaan odottaneet, että kun paperi julkaistiin, se herätti paljon keskustelua AI-yhteisössä.

Jotkut ihmiset uskovat, että ongelman ydin ei ole "synteettinen data" vaan "datan laatu".

Vaikka kaikki keinotekoiset tiedot käytettäisiin, jos laatu on liian huono, tuloksena on "roskat sisään, roskat ulos".

Jotkut jopa ajattelevat, että tutkijat ovat tietoisesti omaksuneet menetelmiä, jotka eivät vastaa todellista toimintaa ja ovat itse asiassa "ylellisiä".

Tässä suhteessa professori Ma Yi sanoi, että nyt olemme siirtyneet aikakauteen, josta puuttuu tieteellisiä ideoita ja menetelmiä...

Monet tutkimukset eivät ole muuta kuin tieteellisen maalaisjärjen uudelleen löytämistä.

Kuinka välttää mallin törmäys?

Joten kysymys kuuluu, kuinka voimme välttää mallin romahtamisen, kun käytämme tekoälyä tietojen syntetisoimiseen?

Hybrididata on tulevaisuutta

Scale AI:n toimitusjohtaja Alexandr Wang on syvästi samaa mieltä tästä Nature-lehden kannessa olevasta artikkelista.

Hän sanoi, että puhtaasti synteettisen datan käyttäminen mallien kouluttamiseen ei tuota tiedonsaantia.

Yleensä kun arviointimittari nousee itsetislauksen vuoksi, se johtuu todennäköisesti joistakin hienovaraisemmista kompromisseista:

Synteettiset tiedot voivat parantaa arvioita lyhyellä aikavälillä, mutta sitten maksat mallin romahtamisesta
Keräät näkymätöntä velkaa koulutuksen tai mallin hienosäädön aikana, jota on vaikea maksaa takaisin

Erityisesti synteettisen koulutuksen peräkkäisissä sukupolvissa virheet tulevat pääasiassa kolmesta näkökulmasta:

tilastollinen approksimaatiovirhe
toiminnallinen ilmeisyysvirhe
toiminnallinen approksimaatiovirhe

Toisin sanoen joka kerta kun koulutat uutta mallia käyttämällä edellisen mallin luomaa tietoa, menetät osan tiedoista ja tarkkuudesta, jolloin malli muuttuu yhä onttommaksi ja lopulta lakkaa toimimasta kunnolla.

Vaikka nämä kokeet suoritettiin pienimuotoisella mallilla (100 M parametria), havaitut perusvaikutukset näkyvät ajan myötä myös suuremmissa malleissa.

Esimerkiksi useimmat nykyiset mallit eivät pysty luomaan Slate Star Codex -tyylisiä blogiviestejä, mikä taas johtuu mallien kaatumisesta. Kun koulutamme malleja jatkuvasti, ne menettävät vähitellen kyvyn tehdä ennusteita laajalla jakelulla.

Wangin näkemyksen mukaan Hybrid Data on tulevaisuuden kehityssuunta, jolla voidaan välttää kaikki mallin romahtamiseen liittyvät hankalat ongelmat.

Toisin sanoen datan syntetisointiprosessissa se on luotava jonkin uuden tietolähteen kautta:

(1) Käytä reaalimaailman tietoja siemeninä

(2) Henkilöasiantuntijat osallistuvat

(3) Muodollinen logiikkamoottori

Sitä vastoin kehittäjät, jotka vahingossa kouluttavat malliaan synteettisellä datalla ilman tiedon saamista, huomaavat lopulta, että heidän mallinsa muuttuvat ajan myötä yhä oudoiksi ja typerimmiksi.

Vahvistusoppiminen on kaikki mitä tarvitset

Metan, New Yorkin yliopiston ja Pekingin yliopiston tutkijat ovat ehdottaneet "ranking-pruning feedback" -menetelmää ihmisten tai heikompien mallien avulla, jotka voivat palauttaa tai jopa ylittää mallin alkuperäisen suorituskyvyn.

Tämän tutkimuksen osalta LeCun välitti sen myös ilmaistakseen tukensa.

Kuten me kaikki tiedämme, ihmisten ja koneiden on paljon helpompi erottaa hyvät ja huonot esimerkit kuin tuottaa laadukkaita näytteitä tyhjästä.

Tämän perusteella kirjoittaja ehdottaa aivan uutta menetelmää mallin romahtamisen estämiseksi synteettisen datapalautteen avulla.

Tämän kysymyksen tutkimiseksi kirjoittajat tarjoavat ensin analyyttisiä tuloksia teoreettisessa ympäristössä.

Tässä kirjoittajat ehdottavat luokittajiksi Gaussin sekoitusmalleja ja lineaarisia malleja korkean ulottuvuuden rajalla ja antavat todentajan (esim. ihmisen tai oraakkelin) valita tai karsia luotuja tietoja.

Tulokset osoittavat, että kun synteettisten datapisteiden määrä lähestyy ääretöntä, valitulle datalle opetetuilla malleilla voidaan saavuttaa optimaaliset tulokset, jotka ovat verrattavissa raakadatalla harjoitettuihin.

Synteettisten tietojen simulaatiot osoittavat, että oraakkelin valvonta tuottaa johdonmukaisesti lähes optimaalisia tuloksia verrattuna raakamerkintöjen käyttöön.

Lisäksi, koska korkealaatuisten tietojen erottaminen ihmisen valvonnan avulla on yksinkertaisempaa ja halvempaa kuin suora ihmisen tekeminen, tämä on vahva näyttö ihmisen valvonnan tehokkuudesta.

Gaussin sekoitusmalli, jossa on lineaarinen generaattori ja lineaarinen leikkuri: leikkuri parantaa suorituskykyä vahvistamalla selektiivisesti synteettistä dataa

Seuraavaksi kirjoittajat suorittivat kaksi laajamittaista koetta:

1. Harjoittele muuntajaa aritmeettiseen tehtävään (matriisin ominaisarvon ennustus) ja käytä etäisyyttä todellisesta arvosta suurten synteettisten tietojen karsimiseen

2. Uutisten yhteenveto laajalla kielimallilla (Lama 2) ja rajoitetulla synteettisellä datalla

Tulokset osoittavat, että molemmissa tapauksissa pelkästään luotuun tietoon luottaminen johtaa suorituskyvyn heikkenemiseen ja mallien kaatumiseen, vaikka datamäärä kasvaa.

Lisäksi parhaan ratkaisun valitseminen sukupolvipoolista pelkän hämmennyksen perusteella ei paranna suorituskykyä, eli mallilta itsessään puuttuu kyky valita paras ennuste hämmennyksen perusteella.

Sitä vastoin oraakkelin valvonnassa voidaan saada palautetehostettu synteettinen tietojoukko, jonka suorituskyky ylittää alkuperäisen tietojoukon datamäärän kasvaessa.

Ihmisen ja mallin lisäys parantaa suorituskykyä ja estää mallien kaatumiset

Siksi, kun harjoitat uutta mallia synteettisillä tiedoilla, sinun ei pitäisi keskittyä vain generaattorin laatuun, vaan tarvitset myös korkealaatuisen todentajan tietojen valitsemiseen.

Yhteenvetona yhteen lauseeseen: vahvistus on kaikki mitä tarvitset!

Todellinen data + synteettinen data

Mitä tulee lukijoiden valituksiin tästä Nature-kansipaperista, Stanfordin yliopiston tohtoriopiskelija Rylan Schaeffer ilmaisi ymmärtävänsä.

Hän huomautti, että mallin romahtaminen tapahtuu usein, kun tutkijat omaksuvat tarkoituksella menetelmiä, jotka eivät vastaa todellista käytäntöä.

Tietojen kerääntyminen voi romahtaa tai ei, kaikki riippuu erityisistä toiminnallisista yksityiskohdista.

你们故意把它弄崩溃，它当然就会崩溃了。😂

Stanfordin, Marylandin ja MIT:n yhdessä kirjoittamassa artikkelissa Schaeffer tutkii, kuinka kerääntynyt data vaikuttaa mallin romahtamiseen.

Kokeiden jälkeen he vahvistivat, että alkuperäisen todellisen tiedon korvaaminen synteettisillä tiedoilla jokaisessa sukupolvessa todellakin aiheuttaisi mallin romahtamisen.

Mallin romahtaminen voidaan kuitenkin välttää, jos alkuperäisen todellisen datan rinnalle kerätään peräkkäisiä synteettisen tiedon sukupolvia.

Paperiosoite: https://arxiv.org/abs/2404.01413

Käytännössä LLM:n tulevia sukupolvia koulutetaan kasvaviin tietomääriin ajan myötä. Esimerkiksi Llama 1 vaatii 1,4 biljoonaa tokenia, Llama 2 vaatii 2 biljoonaa tokenia ja Llama 3 vaatii 15 biljoonaa tokenia.

Tietyssä mielessä tämä tiedonkeruuasetus on erittäin pessimistinen --

Tässä hypoteettisessa tulevaisuudessa synteettistä dataa syötetään hallitsemattomasti Internetiin käytettäväksi mallin seuraavan iteroinnin harjoittamiseen.

Kuten kuvan oikealla puolella näkyy, keräämällä tietoja voidaan välttää mallin romahtaminen

Tutkijat käyttivät kolmea erilaista kokeellista asetusta: kausaalimuuntajaa, diffuusiomallia ja autovariaatiokooderia, ja he harjoittelivat todellista tekstiä, molekyylirakennetta ja kuvatietosarjoja.

He havaitsivat, että tietojen korvaaminen aiheutti mallin romahtamisen kaikissa malleissa ja kaikissa tietojoukoissa, kun taas tietojen kerääntyminen esti mallin romahtamisen.

Kausaalisen kielen mallinnus perustuu Transformeriin

Ensin he kouluttivat kausaalimuuntajan tekstidataan.

Tarkemmin sanottuna yhden aikakauden 9M-parametri GPT-2 ja 12M, 42M ja 125M-parametrien Llama 2 -kielimalli oli esiopetettu TinyS-toreissa.

Edellinen on 470 miljoonan merkkinen novellitietojoukko, joka on luotu GPT-3.5/4:llä päiväkodin lukutasolla.

Jokaiselle mallisovitusiteraatiolle n ≥ 2 otamme näytteen uudesta tietojoukosta, joka on samankokoinen kuin TinvStories, edellisen iteraation kielityypeistä ja korvaamme tai ketjutamme sitten edellisen tietojoukon juuri luodun tietojoukon kanssa.

Jokaisessa mallinsovitusiteraatiossa ne esiopettavat uuden alustetun mallin edellisen iteroinnin korvaavalle tai ketjutetulle tietojoukolle.

Tulokset osoittavat, että kaikkien arkkitehtuurien, parametrien laskennan ja näytteenottolämpötilojen osalta tietojen korvaaminen johtaa testien ristientropiaan, kun mallinsovitusiteraatioiden määrä kasvaa (kuva 2 vasemmalla).

He havaitsivat myös, että kaikissa arkkitehtuureissa, parametrien laskennassa ja näytteenottolämpötiloissa, kun mallisovitusiteraatioiden lukumäärä kasvaa, kertyneet tiedot johtavat testien ristientropiaan, joka on yhtä suuri tai pienempi (Kuva 2, oikealla).

Kuva 3 on oppimiskäyrä jokaiselle mallisovitusiteraatiolle, kun dataa vaihdetaan toistuvasti (ylhäällä) ja tietoja kerätään (alhaalla).

Tulokset osoittavat, että tiedon kerääminen välttää mallin romahtamisen kielimallinnuksen yhteydessä.

Sekä 125M Llama2 että 9M GPT-2 osoittivat laadun heikkenemistä korvattaessa tietoja (R), mutta säilyttivät korkealaatuisen tekstin luomisen dataa kerättäessä (A).

Diffuusiomallit molekyylin konformaatiotiedolle

Seuraavaksi he kouluttivat sekvenssin diffuusiomalleja molekyylin konformaatiotiedoista.

Erityisesti tutkijat kouluttivat GeoDiffiä, geometrisen diffuusiomallin molekyylirakenteen muodostamiseen, GEOMDrugs-tietojoukossa.

He pienensivät näytteenottoa GEOM-Drugs-tietojoukon koulutusosuudesta 40 000 molekyylikonformaatioon, käyttivät sitä alustavana harjoitussarjana ja suorittivat 50 diffuusiovaihetta kullekin ennusteelle.

Tulokset Kahdeksan mallinsovitusiteroinnin jälkeen tutkijat havaitsivat, että testihäviö lisääntyi korvattaessa tietoja, jotka vastaavat kielimallikokeitamme, ja testihäviö pysyi suhteellisen vakiona dataa kerättäessä (kuva 4).

Toisin kuin kielimalleissa, he havaitsivat, että dataa korvattaessa suorituskyky heikkenee merkittävästi ensimmäisessä mallissa, joka sopii synteettiselle datalle harjoitettavan koulutuksen iteraatioon, eikä heikkene merkittävästi myöhemmissä iteraatioissa.

Automaattinen variaatiokooderi kuvadatalle

Kokeen lopussa tutkijat kouluttivat variaatiokooderin (VAE) sekvenssin CelebA:lla. Tietosarja sisältää 200 000 kasvokuvaa ja se on jaettu harjoitussarjaan ja testisarjaan.

Tämä valinta saavuttaa tasapainon realististen tietojoukkojen, joissa on useita näytteitä, värikuvia ja resoluutioita, ja laskennallisen toteutettavuuden välillä, jolla mallia voidaan harjoittaa useille kertyneen datan iteraatioille.

Tämän seurauksena he havaitsivat, että tietojen korvaaminen jokaisessa iteraatiossa osoitti mallin romahtamisen -

Testivirhe kasvaa nopeasti jokaisen lisäiteroinnin yhteydessä, ja jokainen iteraatio tuottaa heikompaa laatua ja vähemmän erilaisia kasvoja, kunnes koko mallisukupolvi edustaa yhtä mallia.

Sitä vastoin tietojen kerääminen jokaisessa iteraatiossa hidastaa mallin romahtamista merkittävästi.

Testivirhe kasvaa huomattavasti hitaammin jokaisen lisäiteroinnin myötä.

Vaikka sukupolvien monimuotoisuus pienenee verrattuna kuvan 6 keskimmäiseen ja oikeaan paneeliin, se edustaa silti aineiston tärkeimpiä vaihteluakseleita, kuten sukupuolta, mutta malli ei enää näytä luovan muita datan lyhyemmille akseleille. jakosarja yksityiskohdat, kuten lasit ja tarvikkeet.

Toinen mielenkiintoinen ilmiö on, että toisin kuin kielimallinnus, kertyneen datan testivirhe kasvaa iteraatioiden määrän myötä (tosin paljon hitaammin kuin korvaavassa datassa).

Miksi tämä ero on olemassa? Tämä tutkimussuunta on jätetty tulevaisuuteen.

Viitteet:

https://arxiv.org/abs/2406.07515

uutiset

Oxbridge ei onnistunut "myrkyttämään" tekoälyä ja esiintyi Nature-lehden kannessa 9 kertaa, mikä herätti kiivasta keskustelua akateemisissa piireissä

Uusi viisausraportti

Hybrididata on tulevaisuutta

Vahvistusoppiminen on kaikki mitä tarvitset

Todellinen data + synteettinen data

Johdanto

yhteystietoni