Nature cover: AI kouluttaa tekoälyä, mitä enemmän se harjoittelee, sitä typerämmäksi se tulee

Luontopeite: Tekoäly harjoittelee tekoälyä, mitä enemmän se harjoittelee, sitä typerimmäksi se tulee

2024-07-27

Baijiao tulee Aofein temppelistä
Qubits |. Julkinen tili QbitAI

Tekoälykoulutus AI voi tehdä tekoälystä tyhmän? !

Oxfordin, Cambridgen ja muiden instituutioiden tutkijat ovat hiljattain havainneet, että suuret mallit voivat romahtaa, kun niitä koulutetaan synteettisten tietojen avulla.Sen tutkimustulokset valittiin viimeisimmiksiLuontopeite。

Suora:ROSKAT POIS!

Tiedätkö, useimmat teknologiayritysten suuret mallit käyttävät nyt synteettistä dataa lievittääkseen "tietopulaa". Tämä on epäilemättä kylmän veden aalto, joka kaadetaan koko teollisuudelle.

Tutkimusryhmä antoi tällaisen esimerkin.

He testasivat Metan OPT-125m-mallia ja kysyivät tietoa keskiaikaisesta arkkitehtuurista.

Jokainen hienosäätö opetetaan viimeksi luotujen tietojen perusteella. Vastaukset ensimmäisillä kierroksilla osoittautuivat melko hyviksi. Tämän seurauksena yhdeksännellä kerralla aloin puhua hölynpölyä...

Mitä helvettiä tässä on kaneista? !

Johtava kirjoittaja sanoi, että he olivat ajatelleet, että synteettiset tiedot voivat aiheuttaa virheitä suuriin malleihin, mutta eivät olleet odottaneet mallien huonontuvan niin nopeasti.

Kolme virhettä aiheuttaa mallin romahtamisen

Ensin ryhmä määritteli, mikä mallin romahdus oli.

Mallin romahtaminen on huononemisprosessi, jossa mallin luoma sisältö saastuttaa seuraavan sukupolven harjoitustietojoukot. Saastuneiden tietojen koulutuksen jälkeen uuden sukupolven malli on altis todellisuuden väärinkäsityksille.

Tämä sykli jatkuu ja jatkuu, jokainen sukupolvi pahenee kuin seuraava.

Ajan kulumisen mukaan tilannetta on pääasiassa kaksi: varhainen mallin romahdus ja myöhäinen mallin romahdus.

Varhaisessa mallin romahtamisessa malli alkaa menettää joitakin häntätietoja. (Samanlainen kuin joissakin todennäköisyysjakauman pienen todennäköisyyden tapahtumissa) Ja myöhäisessä mallin romahtamisessa malli konvergoi niin, ettei sillä ole juuri mitään samankaltaisuutta alkuperäisen jakauman kanssa.

Tämän prosessin esiintyminen liittyy mallin suunnitteluun, oppimisprosessiin ja käytetyn tiedon laatuun.

Teoriakohtaisesti se sisältää pääasiassa näiden kolmen virheen aiheuttaman suuren mallin poikkeaman alkuperäisestä mallista.

tilastollinen approksimaatiovirhe . Tämä on pääasiallinen virhetyyppi, joka syntyy rajoitetun otoskoon vuoksi ja häviää, kun otoskoko nousee äärettömään. Tämä johtuu siitä, että tiedot voivat kadota jokaisessa uudelleennäytteenoton vaiheessa nollasta poikkeavalla todennäköisyydellä.
funktion ilmaisuvirhe . Tämä virhe johtuu funktion approksimaatioiden rajallisesta ilmaisukyvystä. Erityisesti hermoverkot ovat universaali approksimaatio vain, kun niiden koko saavuttaa äärettömän. Kuitenkin, jos kahta muuta virhettä ei olisi, tämä virhe tapahtuisi vain ensimmäisessä sukupolvessa.
funktion approksimaatiovirhe . Pääasiassa johtuvat oppimisprosessin rajoituksista, kuten rakenteellisista harhoista stokastisessa gradienttilaskeutumisessa tai tavoitteiden valinnassa. Tämä virhe voidaan nähdä virheenä, joka syntyy, kun kyseessä on ääretön data ja täydellinen ilmaisuvoima jokaisessa sukupolvessa.

Vaikutus kielimalleihin

Tämän jälkeen tutkijat arvioivat mallin romahtamisen vaikutusta kielimalliin. Koska suuren mallin opettaminen tyhjästä on erittäin kallista, he päättivät arvioida kielimallien yleisimmän asetuksen:Hienosäädä asetuksia。

Jokainen harjoitussykli alkaa esikoulutetulla mallilla, jossa on uusimmat tiedot. Harjoitustiedot tulevat toisesta hienosäädetystä esikoulutetusta mallista.

He käyttivät meta-kausaalikielimallia OPT-125m, joka oli hienosäädetty wikitekstissä2.

Tietojen tuottamiseksi koulutetusta mallista ryhmä käytti viisisuuntaista sädehakua. He asettivat harjoitusjakson pituudeksi 64 merkkiä, minkä jälkeen mallia pyydettiin ennustamaan seuraavat 64 merkkiä.

He käyvät läpi kaikki alkuperäiset harjoitustietojoukot ja luovat samankokoisen keinotekoisen tietojoukon.Jos mallin virhe on 0, se luo alkuperäisen wikiteksti2-tietojoukon.

Tunteakseen eron edelleen, he käyttivät kahta eri asetusta: yksi ryhmä alkuperäistä koulutusta lukuun ottamatta ei sisällä alkuperäistä harjoitustietoa myöhemmässä prosessissa, toinen ryhmä säilyttää 10% alkuperäisestä tiedosta.

Tulokset osoittivat, että mallin tuottamat virheet lisääntyivät ajan myötä. Se myös saa mallin unohtamaan pienen todennäköisyyden tapahtumat tietojoukossa ja niiden lähdöt muuttuvat homogeenisemmiksi ennen kuin malli hajoaa kokonaan. Lopulta ilmestyi alun ilmiö.

Lisäksi samanlaisia mallin romahtamisilmiöitä on havaittu VAE- ja GMM-malleissa.

Professori Emily Wenger Duken yliopistosta sanoi, että ongelman lieventäminen ei ole toistaiseksi ollut helppoa.

Johtavat teknologiayritykset ovat ottaneet käyttöön teknologiaa, joka upottaa "vesileimat" -

Ilmoita tekoälyn luomasta sisällöstä, joka jätetään pois harjoitustiedoista. Vaikeutena on, että tämä edellyttää teknologiayritysten välistä koordinointia ja on siksi vähemmän taloudellisesti kannattavaa.

Tällä tavalla Internetistä tietoa hankkivat yritykset voivat kouluttaa malleja, jotka edustavat paremmin todellista maailmaa. Siksi suurten mallien alkuperäisellä aallolla oli etulyöntiasema.

Mitä mieltä olet tästä näkökulmasta?

Viitelinkit:
[1]https://www.nature.com/articles/d41586-024-02420-7
[2]https://www.nature.com/articles/d41586-024-02355-z
[3]https://www.nature.com/articles/s41586-024-07566-y

uutiset

Luontopeite: Tekoäly harjoittelee tekoälyä, mitä enemmän se harjoittelee, sitä typerimmäksi se tulee

Kolme virhettä aiheuttaa mallin romahtamisen

Vaikutus kielimalleihin

Johdanto

yhteystietoni