Llama 8B etsii 100 kertaa ja ylittää GPT-4o:n! Päätelmähaku voi parantaa suorituskykyä, uusi "skaalauslaki"

2024-08-15

Uusi viisausraportti

Toimittaja: Qiao Yang

[Johdatus uuteen viisauteen]Viimeaikaiset paperit ovat osoittaneet, että generatiivisia malleja, kuten LLM, voidaan skaalata haun avulla ja saavuttaa erittäin merkittäviä suorituskyvyn parannuksia. Toisessa toistuvassa kokeessa havaittiin myös, että jos Llama 3.1 -mallia, jossa on vain 8B-parametria, etsitään 100 kertaa, se voi saavuttaa saman tason kuin GPT-4o Python-koodin luontitehtävässä.

Rich Sutton, vahvistusoppimisen pioneeri ja tietotekniikan professori Albertan yliopistossa Kanadassa, kirjoitti vuonna 2019 blogitekstin nimeltä "The Bitter Lesson", josta tuli yksi klassisista tekoälyn alan keskusteluista.

Itse asiassa Rich Suttonin rivien välistä heijastuva intuitio on melko samanlainen kuin skaalauslaki.

Alkuperäinen osoite: https://www.cs.utexas.edu/~eunsol/courses/data/bitter_lesson.pdf

Artikkelissa tarkastellaan lyhyesti tekoälyn kehityspolkua shakin, Go:n, puheentunnistuksen ja näön aloilla ja esitetään seuraava näkemys:

Yksi vaikeista opetuksista, jotka meidän pitäisi oppia, on ymmärtää universaalin lähestymistavan voima. Tämä lähestymistapa voi skaalautua edelleen, kun laskennan määrä kasvaa käytettävissä olevan laskentatehon nousun vuoksi. Kaksi menetelmää, jotka näyttävät skaalautuvan mielivaltaisesti tällä tavalla, ovat haku ja oppiminen.

Tämä näkemys ei kuitenkaan ole täsmälleen sama kuin skaalauslaki, emmekä voi käyttää sitä perustana uskoa, että pienten mallien on tarkoitus olla merkityksettömiä.

Kuten Sutton kuvailee, skaalaamisen tiellä on kaksi suurta haastetta: oppiminen ja haku.

OpenAI:n ehdottama skaalauslaki korostaa edellistä. Ceteris paribus, suuremmat mallit toimivat paremmin, koska koulutussarjasta voidaan oppia enemmän tietoa ja malleja.

Mutta se, minkä jätämme usein huomiotta, on jälkimmäinen. Hakumenetelmät voivat myös skaalata sujuvasti, kun laskentateho kasvaa päättelyvaiheen aikana tuottaakseen enemmän tai laadukkaampia ehdokasvastauksia.

Äskettäin Stanfordin, Oxfordin, DeepMindin ja muiden instituutioiden tutkijoiden julkaisema artikkeli keskittyi tähän asiaan.

Paperiosoite: https://arxiv.org/abs/2407.21787

Toistuvien näytteiden määrän kasvaessa johtopäätösvaiheessa mallin suorituskykyä (eli ongelman kattavuutta) matematiikan, päättelyn ja koodikenttien, kuten GSM8K, MATH, MiniF2F-Math ja SWE-bench Lite, osalta on parannettu. parantunut merkittävästi.

Jopa näiden kahden välillä näyttää olevan eksponentiaalinen lineaarinen suhde, ja se voidaan mallintaa eksponentiaalisella potenssilailla, joka näyttää selittävän skaalauslain olemassaolon päättelyvaiheessa.

Tämän artikkelin innoittamana kaksi insinööriä alkoivat yrittää toistaa sitä - tuloksena oli, että etsimällä 100 pienellä Llama-mallilla he pystyivät saavuttamaan GPT-4o:n tai jopa päihittämään sen Python-ohjelmointitehtävissä.

Kaksi kirjoittajaa käyttivät elävää metaforaa: ennen rajaominaisuuksien saavuttamiseen tarvittiin hevosen kokoinen ankka, mutta nyt voimme valita 100 ankankokoisen hevosen (tai tarkemmin sanottuna alpakan laaman).

Kokeessa käytetty lähdekoodi on ladattu GitHubiin, ja kopiointikustannukset ovat melko alhaiset.

https://gist.github.com/charlesfrye/27f25188dbbcfdf20a83c0230020fe05

Yrittääkseen parantaa suorituskykyä kirjoittaja käytti vLLM-kirjastoa eräpäätelmän toteuttamiseen ja laajensi laitteistoehdot 10 A100-40 Gt:n grafiikkasuorittimeen, jolloin tulostusnopeus oli 40 000 token/s.

Arviointimittarit ja tulokset

Kirjoittaja valitsi vertailutestin, jota ei käsitelty yllä mainitussa Large Language Monkeys -paperissa - HumanEval.

Tämän tietojoukon etuna on, että luotu koodi voidaan arvioida juoksevilla testeillä ilman LLM-as-Judgea tai ihmisen arviointia, mikä mahdollistaa objektiivisemman oikeellisuuden mittauksen.

Mallin suorituskykyä mitataan kahdella indikaattorilla: pass@k ja fail@k. PapersWithCoden raportin tulosten mukaan nollaotospäätelmässä GPT-4o:n pass@1-pistemäärä on 90,2 %.

https://paperswithcode.com/sota/code-generation-on-humaneval

Käyttämällä yllä olevassa asiakirjassa ehdotettua menetelmää sekä vähimmäismäärää nopeaa hienosäätöä (muiden hyperparametrien säätämättä) Llama 3.1 8B:n pass@k-pistemäärä on parantunut merkittävästi.

Kun toistettujen näytteiden lukumäärä k on 100, suorituskyky vastaa GPT-4o:ta (90,5 % vs. 90,2 %), kun k saavuttaa 1000, pistemäärä on 95,1 %, mikä on merkittävästi parempi kuin GPT-4o.

Jos käytät fail@k-indikaattoria (vastaa 1-pass@k) ja logaritmisesti muunnat kaksi koordinaattiakselia yllä olevassa kuvassa, näet alla olevassa kuvassa näkyvän käyrän, joka näyttää olevan täysin "skaalauslain" mukainen. ".

On syytä huomata, että tämä pieni kokeilu ei ole tiukka kopio paperista, vaan vain poimia ydinmenetelmän.

Nämä tulokset kuitenkin korostavat, että pienemmät mallit voivat ennustettavasti ylittää "isot Mac" -mallit, kuten GPT-4o, kun käytetään hakumenetelmiä päättelyvaiheen lisäykseen.

Haun tulevaisuus

Syy siihen, miksi hakumenetelmä on tehokas, on se, että se voi "läpinäkyvästi" laajentua laskennan määrän kasvaessa, ja se voi myös siirtää resurssien kulutusta muistista laskentaan resurssien tasapainon lisäämiseksi.

Tekoälyn viimeaikaiset suuret saavutukset matematiikassa, kuten tekoälyn ja tekoälyn taso, ovat erottamattomia siinä käytetystä hausta.

Haun toteuttaminen edellyttää kuitenkin ensin tulosten laadukasta arviointia. DeepMindin malli kääntää luonnollisella kielellä ilmaistut matemaattiset ongelmat muodollisiksi ilmauksiksi, jolloin se saa yksityiskohtaista valvontaa kääntäjältä/todentajalta, kuten Lean.

, mikä voi parantaa huomattavasti rinnakkaisuutta ja automaatioastetta.

Curry-Howard-Lambek-kirjeenvaihdon mukaan on suhteellisen helppoa käyttää tietokoneohjelmia tunnistamaan ja arvioimaan automaattisesti matemaattisia todisteita ja koodin generointituloksia.

Mutta samanlaiset lähestymistavat voivat epäonnistua muillakin aloilla kuin matematiikassa ja ohjelmoinnissa. Esimerkiksi avoimissa NLP-tehtävissä, kuten "sähköpostien yhteenveto", on vaikea suorittaa tehokkaita hakuja.

Tästä näkökulmasta haku on arvioinnin jälkeen. Karkeasti voidaan olettaa, että generatiivisten mallien suorituskyvyn parantaminen tietyillä aloilla on suoraan verrannollinen arviointi- ja hakukykyyn.

Tämän tavoitteen saavuttamiseksi agentit toistettavissa digitaalisissa ympäristöissä näyttävät olevan lupaava suunta.

Viitteet:

https://modal.com/blog/llama-human-eval

uutiset

Llama 8B etsii 100 kertaa ja ylittää GPT-4o:n! Päätelmähaku voi parantaa suorituskykyä, uusi "skaalauslaki"

Johdanto

Yhteystietoni