Onko suurten mallien aika ohi? Isopomo Qi ennustaa: tekoälymalleja on ehkä pienennettävä ennen kuin niitä voidaan skaalata uudelleen

Onko suurten mallien aika ohi?Isopomo Qi ennustaa: AI-malleja on ehkä pienennettävä, ennen kuin niitä voidaan skaalata uudelleen

2024-07-22

Uusi viisausraportti

Toimittaja: korvat

[Johdatus uuteen viisauteen]Loppuuko "suurten mallien aikakausi" pienten mallien myötä?

"Small Model Week" on ohi, ja uusin pienten mallien taistelukenttä on juuri avattu.

Viime viikolla julkaistiin peräkkäin GPT-4o mini ja Mistral NeMo. Pienistä malleista, jotka ovat pieniä, mutta niissä on kaikki sisäelimet, on tullut uusi suunta, johon alan johtajat kiinnittävät erityistä huomiota.

Joten, ovatko suuret mallit menettämässä suosiota?

Entinen OpenAI:n ja Teslan tekoälytutkija Andrej Karpathy on juuri aloittanut tekoälykoulutuksen "Teacher K" julkaisi äskettäin alaa ohjaavan twiitin, joka paljastaa teknologiajättiläisten siirtymisen pienten mallien tutkimukseen ja kehitykseen: suurten tekoälymallien kilpailu. on kääntymässä taaksepäin.

Hän ennustaa, että tulevat mallit ovat pienempiä, mutta silti älykkäämpiä.

Tekoälyjättiläiset ja jotkut uudet yksisarviset ovat äskettäin julkaisseet tekoälymalleja, jotka ovat kompaktimpia, tehokkaampia ja edullisempia kuin heidän ikäisensä. Viimeisin esimerkki on OpenAI:n GPT-4o mini.

Karpathy ennustaa tämän suuntauksen jatkuvan. "Lyön vetoa, että tulemme näkemään monia malleja, jotka ajattelevat tehokkaasti ja luotettavasti ja erittäin pieninä kokoina", hän kirjoitti.

Pienet mallit: seisoo jättiläisten harteilla

LLM-kehityksen alkuvaiheessa on väistämätön trendi käsitellä enemmän dataa ja tehdä mallista suurempi. Tämä perustuu pääasiassa seuraaviin syihin:

Ensinnäkin datalähtöiset tarpeet.

Tietojen räjähdyksen aikakaudella suuri määrä rikasta ja monipuolista dataa vaatii tehokkaampia malleja käsitellä ja ymmärtää.

Suuret mallit pystyvät mukauttamaan ja käsittelemään valtavia tietomääriä Laajan datakoulutuksen avulla ne voivat löytää syviä malleja ja lakeja.

Toiseksi laskentatehon parantaminen.

Laitteistotekniikan jatkuva kehitys ja korkean suorituskyvyn laskentalaitteiden, kuten GPU:iden, kehittäminen tarjoavat tehokkaan laskentatehon tuen suurten mallien koulutukseen. Mahdollistaa suurten, monimutkaisten mallien kouluttamisen.

Lisäksi tavoittele parempaa suorituskykyä ja tarkkuutta.

Suuret mallit voivat yleensä osoittaa erinomaista suorituskykyä useilla aloilla, kuten kielen ymmärtämisessä, luomisessa ja kuvantunnistuksessa. Mitä enemmän ne ymmärtävät, sitä tarkempia ne tuottavat.

Lopuksi yleistyskyky on vahvempi.

Suuret mallit pystyvät paremmin käsittelemään uusia ongelmia ja tehtäviä, joita ei ole ennen nähty, osaavat tehdä järkeviä arvauksia ja vastauksia aiemmin opitun tiedon perusteella ja niillä on vahvempi yleistyskyky.

Yhdessä tekoälyn kireän kilpailun kanssa eri tutkimuslaitokset ja jättiläiset ovat sitoutuneet kehittämään suurempia ja vahvempia malleja osoittaakseen teknisen vahvuutensa ja johtavan asemansa Volyymimallin koosta on luonnollisesti tullut LLM:n yleinen kehityssuunta.

Karpathy katsoi myös, että nykyisten tehokkaimpien mallien mittakaava johtuu harjoitustietojen monimutkaisuudesta ja lisäsi, että suuret kielimallit ylittävät muistin ja ylittävät ihmisen muistikyvyn.

Vastaavasti, jos joudut tekemään suljetun kirjan kokeen loppuviikon aikana, kokeessa sinun on lausuttava tietty kappale kirjasta muutaman ensimmäisen sanan perusteella.

Tämä on nykypäivän suurten mallien esikoulutuksen tavoite. Karpathy sanoi, että nykypäivän suuret mallit ovat kuin ahneita käärmeitä, jotka haluavat vain niellä kaiken saatavilla olevan tiedon.

He eivät vain osaa lausua SHA-sarjan hajautusalgoritmeja yleisille numeroille, vaan voivat myös muistaa tiedon kaikista kentät, niin suuret kuin pienetkin.

Mutta tämä tapa oppia on kuin ulkoa kaiken koko kirjastosta ja Internetistä testiä varten.

On kiistatonta, että ne, jotka voivat saavuttaa tällaisen muistikyvyn, ovat neroja, mutta loppujen lopuksi kokeessa käytettiin vain yksi sivu!

Tällaisille lahjakkaille opiskelijoille LLM:n on vaikea pärjätä paremmin, koska koulutuksen aikana data, ajattelun esittely ja tieto "kietoutuvat" yhteen.

Lisäksi toisaalta käytännön sovellusten näkökulmasta suuret mallit kohtaavat korkeita kustannuksia ja resurssien kulutusta käyttöönoton ja käytön aikana, mukaan lukien laskentaresurssit, tallennusresurssit ja energiankulutus.

Pienet mallit on helpompi ottaa käyttöön erilaisissa laitteissa ja skenaarioissa, mikä täyttää käytön helppouden ja alhaisen virrankulutuksen vaatimukset.

Toisaalta teknisen kypsyyden näkökulmasta, kun ongelman luonne ja lait on täysin tutkittu ja ymmärretty suurten mallien avulla, näitä tietoja ja malleja voidaan jalostaa ja soveltaa pienten mallien suunnitteluun ja optimointiin.

Tämän ansiosta pienet mallit voivat pienentää mittakaavaa ja kustannuksia säilyttäen samalla saman tai jopa paremman suorituskyvyn kuin suuret mallit.

Vaikka suurten mallien kehitys on kohdannut pullonkaulan ja pienistä malleista on vähitellen tullut uusi trendi, Karpathy korosti, että suuria malleja tarvitaan edelleen, vaikka niitä ei tehokkaasti koulutettaisi, vaan pienet mallit tiivistetään isoista malleista.

Karpathy ennustaa, että jokainen malli paranee edelleen ja tuottaa harjoitustietoja seuraavaa mallia varten, kunnes on olemassa "täydellinen harjoitussarja".

Jopa valmiista mallista, kuten GPT-2, jossa on 1,5 miljardia parametria, kun harjoittelet GPT-2:ta tällä täydellisellä harjoitussarjalla, siitä voi tulla erittäin tehokas ja älykäs malli nykypäivän standardien mukaan.

Tämä GPT-2, joka on koulutettu täydellisellä harjoitussarjalla, voi saada hieman huonommat pisteet esimerkiksi Massive Multi-task Language Understanding (MMLU) -testissä, joka kattaa 57 tehtävää, mukaan lukien perusmatematiikan, Yhdysvaltain historian, tietojenkäsittelytieteen, oikeustieteen, jne., joita käytetään suurten mallien perustiedon kattavuuden ja ymmärtämiskyvyn arvioimiseen.

Mutta tulevaisuudessa älykkäät tekoälymallit eivät ole riippuvaisia volyymista, ne pystyvät hakemaan tietoa ja tarkistamaan tosiasiat luotettavammin.

Aivan kuten avoimen kirjan kokeen suorittava huippuopiskelija, vaikka kaikkea tietoa ei olekaan täysin ymmärretty, hän voi löytää oikean vastauksen tarkasti.

Raporttien mukaan OpenAI:n Strawberry-projekti keskittyy tämän ongelman ratkaisemiseen.

"Pöhnivän" suuren mallin "laihtuminen".

Kuten Karpathy sanoi, suurinta osaa erittäin suurista malleista (kuten GPT-4), jotka on koulutettu massiivisella datalla, käytetään itse asiassa muistamaan suuri määrä merkityksettömiä yksityiskohtia, toisin sanoen muistamaan tietoja muistiin.

Tämä liittyy mallin esikoulutuksen tarkoitukseen Esiharjoitteluvaiheessa mallin tulee lausua seuraava sisältö mahdollisimman tarkasti, mikä vastaa tekstin ulkoa ottamista mitä tarkempi se on pisteet.

Vaikka malli voi oppia toistuvaa tietoa, tiedoissa on joskus virheitä ja harhoja, ja mallin on ensin muistettava ne kaikki ennen niiden hienosäätöä.

Karpathy uskoo, että jos on olemassa laadukkaampi harjoitustietojoukko, voidaan kouluttaa pienempi, tehokkaampi ja tehokkaampi malli.

Erittäin suurten mallien avulla voidaan automaattisesti luoda ja puhdistaa korkealaatuisempia harjoitustietosarjoja.

Kuten GPT-4o mini, se on koulutettu GPT-4:n puhdistaman datan avulla.

Tee ensin mallista isompi ja sitten "pienennä" tällä perusteella. Tämä voi olla uusi trendi mallin kehityksessä.

Elävä metafora, se on kuin nykyisessä suuressa mallissa olisi liian monien tietojoukkojen ongelma ja se muuttuu tietojen puhdistamisen ja laajan harjoittelun jälkeen pieneksi malliksi, jossa on laiha lihakset.

Tämä prosessi on kuin vaiheittainen kehitys, ja jokainen mallien sukupolvi auttaa luomaan seuraavan sukupolven harjoitustietoja, kunnes saamme lopulta "täydellisen harjoitussarjan".

Myös OpenAI:n toimitusjohtaja Sam Altman esitti samanlaisia huomautuksia ja julisti suurten tekoälymallien "aikakauden lopuksi" jo huhtikuussa 2023.

Lisäksi tunnustetaan yhä enemmän, että tiedon laatu on keskeinen menestystekijä tekoälykoulutuksessa, olipa kyseessä sitten todellista tai synteettistä dataa.

Altman uskoo, että avainkysymys on, kuinka tekoälyjärjestelmät voivat oppia enemmän pienemmästä datasta.

Myös Microsoftin tutkijat tekivät saman arvion Phi-mallia kehittäessään.

Tämä tarkoittaa, että sokea laajentaminen ei ole enää teknologiajättien ainoa tekninen tavoite Jopa pienet, laadukkaat mallit voivat hyötyä enemmän, monipuolisempaa ja laadukkaampaa dataa.

Paluu pienempiin, tehokkaampiin malleihin voidaan nähdä seuraavan integraatiovaiheen tavoitteena, ja OpenAI:n mallijulkaisu osoittaa selkeästi tulevan kehityksen suunnan.

Kommenttialue: oikein, asiaankuuluvaa ja veristä

Karpathy mainitsi myös Teslan samanlaisen lähestymistavan autonomiseen ajoverkostoon.

Teslassa on jotain nimeltään "offline-seuranta", joka tuottaa puhtaampia harjoitustietoja suorittamalla aikaisempaa heikompaa mallia.

Heti kun hän kuuli, että Teslan teknologian sanotaan olevan ajan kärjessä, Musk ryntäsi nopeasti kommenttialueelle:

Kommenttialueen nettikäyttäjät ilmaisivat myös arvostuksensa Karpathyn kaukonäköisyydestä, ja olen samaa mieltä!

Tulevaisuuden yleistä tekoälyä varten pienemmät ja tehokkaammat tekoälymallit voivat määritellä "älyn" uudelleen tekoälyssä ja kyseenalaistaa oletuksen, että "isompi on parempi".

Sebastian Raschka, "Python Machine Learning" -kirjan kirjoittaja, uskoo, että tämä on kuin tiedon tislaus, jossa tislataan pieni malli, kuten Gemma-2, suuresta 27B-mallista.

Hän muistutti myös, että monivalintatestit, kuten MMLU, voivat testata tietoa, mutta ne eivät voi täysin heijastaa todellisia kykyjä.

Jotkut verkkokäyttäjät ovat myös erittäin mielikuvituksellisia. Jos pienet mallit toimivat hyvin, niin ala on erikoistunut, miksi ei voisi käyttää enemmän pieniä malleja vastausten luomiseen.

Kutsu 10 tekoälyassistenttia ja anna älykkäimmän tehdä lopullinen yhteenveto. Se on yksinkertaisesti ajatushautomon tekoälyversio.

Onko AGI siis yksi kaikkivoipa suuri malli vai syntyykö se monien pienten mallien yhteistyöstä?

Viitteet:

https://the-decoder.com/ai-models-might-need-to-scale-down-to-scale-up-again/

https://x.com/karpathy/status/1814038096218083497

uutiset

Onko suurten mallien aika ohi?Isopomo Qi ennustaa: AI-malleja on ehkä pienennettävä, ennen kuin niitä voidaan skaalata uudelleen

Johdanto

yhteystietoni