Jia Yangqing: Suuret mallikoot ovat palaamassa CNN:n vanhalle polulle: Sama pätee Tesla

Jia Yangqing: Suuret mallikoot ovat palaamassa CNN:n vanhalle polulle: Sama pätee Teslassa

2024-08-01

Talo on peräisin Aofein temppelistä
Qubits |. Julkinen tili QbitAI

Transformerin suuri mallikoko muuttuu, ja se palaa vanhalle CNN:n polulle!

LLaMA 3.1 houkuttelee kaikkia,Jia YangqingSellainen tunne.

Vertaamalla suurten mallikokojen kehitystä CNN:n kehitykseen, voimme löytää selvän trendin ja ilmiön:

ImageNet-aikakaudella tutkijat ja tekniset ammattilaiset havaitsivat parametrien koon nopeaa kasvua ja alkoivat sitten siirtyä pienempiin, tehokkaampiin malleihin.

Kuulostaako se samalta kuin GPT:n malliparametrien skaalaus Teollisuus on yleisesti samaa mieltä skaalauslain kanssa, ja sitten ilmestyvät GPT-4o mini, Apple DCLM-7B ja Google Gemma 2B?

Jia Yangqing sanoi hymyillen: "Tämä on mallia edeltävältä ajalta, ja monet ihmiset eivät ehkä muista sitä hyvin :)".

Lisäksi Jia Yangqing ei ole ainoa, joka huomaa tämän.Tekoälymestari Kapasi on myös sitä mieltä：

Kilpailu suurista mallikooista lisääntyy...mutta rullat tulevat vastakkaiseen suuntaan!
Mallin on ensin pyrittävä "isompaan" ennen "pienempää", koska tarvitsemme tämän prosessin auttamaan meitä rekonstruoimaan harjoitustiedot ihanteelliseen, synteettiseen muotoon.

Hän jopa vetoaa, että tulemme näkemään malleja, jotka ovat hyviä ja luotettavia ajatteluun.

Ja parametriasteikko on hyvin pieni.

Jopa Musk sanoi toistuvasti Kapasin kommenttialueella:

Yllä olevaa voidaan luultavasti kutsua "isot kaverit näkevät saman asian".

Laajenna ja puhu

Jia Yangqingin tunteet alkavat LLaMA 3.1:stä, joka pysyi vahvimmalla valtaistuimella vain lyhyen päivän.

Se oli ensimmäinen kerta, kun "vahvin avoimen lähdekoodin malli = vahvin malli" toteutettiin Ei yllättävää, että se herätti paljon huomiota.

Jia Yangqing esitti kuitenkin tässä vaiheessa seuraavan asian:

"Mutta minä ajattelen,Teollisuus menestyy todella pienissä pystymalleissa。”

Mitä tulee pieniin pystymalleihin, Jia Yangqing teki myös erittäin selväksi, kuten ne suuret pienet ja keskikokoiset mallit, joita edustaa Patrouns AI:n Iynx (yhtiön hallusinaatioiden havaitsemismalli, joka ohittaa GPT-4o:n hallusinaatiotehtävissä).

Jia Yangqing sanoi, että henkilökohtaisten mieltymysten kannalta hän henkilökohtaisesti pitää 100 miljardin parametrimallista erittäin paljon.

Mutta todellisuudessa hän havaitsi, että suuret mallit, joiden parametrialueet ovat 7B–70B, ovat kaikkien helpompia käyttää:

Niitä on helpompi isännöidä, eivätkä ne vaadi valtavaa liikennettä ollakseen kannattavia;
Niin kauan kuin esität selkeitä kysymyksiä, voit saada kunnollista laatua - toisin kuin jotkut aiemmat uskomukset.

Samaan aikaan hän kuuli, että myös OpenAI:n uusimmat, nopeammat mallit alkoivat olla pienempiä kuin "modernit" suuremmat mallit.

"Jos ymmärrykseni on oikea, niin tämä osoittaa ehdottomasti alan trendejä."

Siitä lähtien Jia Yangqing selvitti lyhyesti CNN:n kehityshistoriaa.

Ensinnäkin tämä on CNN:n nousun aikakautta.

AlexNetin (2012) lähtökohtana alkoi noin kolmen vuoden malliskaalan kasvukausi.

VGGNet, joka ilmestyi vuonna 2014, on malli, jolla on erittäin tehokas suorituskyky ja mittakaava.

Toiseksi on käynnissä supistamisen aika.

Vuonna 2015 GoogleNet pienensi mallin koon "GB" tasolle "MB", mikä on 100-kertainen lasku, mutta mallin suorituskyky ei heikentynyt jyrkästi tämän vuoksi, mutta säilytti hyvän suorituskyvyn.

Samanlaisia trendejä seuraa vuonna 2015 lanseerattu SqueezeNet-malli.

Kehityksen painopiste oli jonkin aikaa tasapainon tavoittelussa.

Myöhemmät tutkimukset, kuten ResNet (2015), ResNeXT (2016) jne., ovat säilyttäneet maltillisen mallikoon.

On syytä huomata, että mallin koon hallinta ei vähennä laskelmien määrää - itse asiassa jokainen on valmis investoimaan enemmän laskentaresursseja ja hakemaan tilaa "samat parametrit, mutta tehokkaampi".

Sitä seurasi CNN-tanssin jakso.

Esimerkiksi MobileNet on mielenkiintoinen yritys, jonka Google lanseerasi vuonna 2017.

Mielenkiintoista on, että se vie hyvin vähän resursseja, mutta sillä on erinomainen suorituskyky.

Juuri viime viikolla joku mainitsi Jia Yangqingille: "Vau~ käytämme edelleen MobileNetiä, koska se voi toimia laitteessa ja siinä on erinomaiset yleisominaisuudet."

Lopuksi Jia Yangqing lainasi kuvan Ghimiren et al.:n "A Survey on Efficient Convolutional Neural Networks and Hardware Acceleration":sta:

Ja vielä kerran kysyi hänen kysymyksensä:

Seuraavatko suuret mallikoot samaa trendiä kuin CNN:n aikakaudella?

Mitä mieltä netilaiset ovat?

Itse asiassa on monia esimerkkejä GPT-4o ministä, joka kulkee suurten mallien kehityspolulla, "ei iso mutta pieni".

Kun edellä mainitut ihmiset ilmaisivat tämän näkemyksen, jotkut ihmiset nyökkäsivät välittömästi ja keksivät muita vastaavia esimerkkejä todistaakseen näkevänsä saman suuntauksen.

Joku seurasi heti:

Minulla on tässä uusi positiivinen esimerkki! Gemma-2 tislaa mallitiedon parametrikoon 27B pienempään versioon.

Jotkut nettimiehet sanoivat, että suurempien mallien kehittäminen tarkoittaa "tehostaa" seuraavien sukupolvien pienempien ja vertikaalisempien mallien koulutusta.

Tämä iteratiivinen prosessi tuottaa lopulta niin sanotun "täydellisen harjoitussarjan".

Tällä tavalla pienemmät suuret mallit voivat olla yhtä älykkäitä tai jopa älykkäämpiä kuin nykypäivän suuret mallit, joilla on valtavat parametrit tietyillä aloilla.

Pähkinänkuoressa,Malli on ensin suurennettava ennen kuin sitä voidaan pienentää.

Useimmat ihmiset, jotka keskustelivat tästä näkökulmasta, ovat edelleen samaa mieltä tästä suuntauksesta. Jotkut ihmiset sanoivat suoraan: "Tämä on hyvä asia ja käytännöllisempi ja hyödyllisempi kuin "Minun mallini on suurempi kuin sinun mallisi" -parametrikilpailu.

Mutta tietenkin!

Selaamalla online-kommenttiosioita,Toiset pitivät erilaisia ääniä.

Esimerkiksi tämä ystävä jätti viestin Jia Yangqingin twiitin alle:

Mistral Large (sen takana oleva yritys, Mistral AI), LLaMA 3.1 (sen takana oleva yritys, Meta) ja OpenAI, yritykset, joilla on kilpailukykyisimpiä malleja, saattavat kaikki kouluttaa suurempia malleja tällä hetkellä.
En näe trendiä "teknologisiin läpimurtoihin pienemmillä malleilla".

Tämän kysymyksen edessä Jia Yangqing vastasi nopeasti.

Näin hän sanoi: "Se on oikein! Kun sanon, että suuret mallikoot saattavat seurata CNN:n vanhaa polkua, en todellakaan tarkoita, että kaikki lopettaisivat suurempien mallien kouluttamisen."

Hän selitti edelleen, että alkuperäinen tarkoitus on sanoa tämä, että kun teknologiaa (mukaan lukien CNN ja suuret mallit) otetaan käyttöön yhä laajemmin, kaikki ovat alkaneet kiinnittää yhä enemmän huomiota kustannustehokkaampiin malleihin. "

Siksi ehkä tehokkaammat pienet ja suuret mallit voivat määritellä uudelleen tekoälyn "älyn" ja kyseenalaistaa oletuksen, että "isompi on parempi".

Oletko samaa mieltä tästä näkemyksestä?

Viitelinkit:
[1]https://x.com/jiayq/status/1818703217263624385
[2]https://x.com/fun000001/status/1818791560697594310
[3]https://www.patronus.ai/
[4]https://twitter.com/karpathy/status/1814038096218083497

uutiset