Kuinka tärkeää koulutuksen jälkeinen on? AI2-tutkijan pitkä artikkeli selittää yksityiskohtaisesti huippuluokan mallien koulutuksen jälkeiset salaisuudet

Kuinka tärkeää koulutuksen jälkeinen on? AI2-tutkija selittää yksityiskohtaisesti huippumallien koulutuksen jälkeisiä salaisuuksia pitkässä artikkelissa

2024-08-19

Uusi viisausraportti

Toimittaja: Qiao Yang

[Johdatus uuteen viisauteen]Yhä useammat tutkimukset ovat osoittaneet, että harjoituksen jälkeinen harjoittelu on yhtä tärkeää suorituskyvyn mallintamisessa. Nathan Lambert, Allen AI:n koneoppimisen tutkija, julkaisi äskettäin teknisen blogikirjoituksen, jossa on yhteenveto teknologiajättiläisten käyttämistä mallin jälkeisistä koulutusresepteistä.

LLM:n akateemisten ja teollisten piirien nopean kehityksen myötä ei vain esikoulutukseen käytetty laskentateho ja data rullata sisään, vaan myös jälkikoulutuksen kohdistus- ja hienosäätömenetelmät päivitetään jatkuvasti.

Aiemmat mallit, kuten InstructGPT ja WebGPT, käyttävät tavallisia RLHF-menetelmiä, ja niiden tiedonhallintatyyli ja mittakaava vaikuttavat vanhentuneelta.

Viime kuukausina tekoälyjättiläiset, kuten Meta, Google ja NVIDIA, ovat julkaisseet avoimen lähdekoodin malleja, joihin on liitetty yksityiskohtaisia papereita tai raportteja, mukaan lukien , , , ja Apple Intellegencen perusmalliraportti.

Näistä paljastetuista tiedoista voimme nähdä joitain huipputrendejä koulutuksen jälkeisissä menetelmissä. Allen AI -tutkija Nathan Lambert julkaisi äskettäin artikkelin tästä aiheesta.

Alkuperäinen osoite: https://www.interconnects.ai/p/frontier-model-post-training

Tri Nathan Lambert valmistui UC Berkeleystä, johti RLHF-tiimiä HuggingFacessa ja työskentelee tällä hetkellä koneoppimisen tutkijana Allen AI:ssa.

Artikkelissaan hän huomauttaa, että synteettinen data, iteratiivinen koulutus, ihmisten mieltymysmerkinnät ja laaja suodatus ovat näissä malleissa käytettyjen koulutuksen jälkeisten menetelmien yhteisiä piirteitä. Tarkemmin sanottuna uusi harjoituksen jälkeinen resepti perustuu seuraaviin esiasetuksiin:

-Synteettinen data voi olla laadukkaampaa kuin ihmisdata, etenkin haastavissa tehtävissä

- RLHF voi skaalata suurempiin asteikoihin kuin ohjeiden hienosäätö

- Parhaan mallin saamiseksi tarvitaan useita koulutus- ja sukupolvikierroksia

- Tietojen suodatus on tärkein osa harjoittelua

Nämä oletukset ovat suurelta osin kietoutuneet yhteen harjoitusohjelman muodostamiseksi, joka voidaan skaalata suuriin ryhmiin, mikä tekee siitä ihanteellisen teknologiajättiläisille. Artikkelin erityinen sisältö tarjoaa yksityiskohtaisen selvityksen edellä mainituista neljästä kohdasta.

Uusi standardi Pipeline

Jos ajatellaan, että ChatBot Arena -pistemäärä mittaa mallin harjoituksen jälkeistä suorituskykyä, joka liittyy pitkälti tyyliin ja kestävyyteen, lähes kaikki suuret laboratoriot ovat saavuttaneet merkittäviä voittoja iteratiivisen koulutuksen avulla.

Emme ole vielä nähneet Gemini 2:n tai GPT-5:n julkaisua, mikä saattaa nollata nykyisen harjoittelun jälkeisen paradigman ja mahdollisesti vapauttaa mallejamme syvemmän hallinnan.

Mutta nykyisestä näkökulmasta eri huippulaboratorioiden käyttämät menetelmät ovat selvästi lähentymässä, ja tämä suuntaus on paljon odotettua selkeämpi.

Ihmisten mieltymystiedot

Alkuperäinen RLHF-putki keskittyy ihmistietoihin, joita on kahdessa muodossa: 1) ihmistiedot erikoistehtävien hienosäätöä varten 2) ihmisten mieltymystiedot tehtävien suorittamisesta.

Tällaiset hienosäätötietojoukot ovat kalliita ja tiukasti suojattuja, tietääkseni ainoa julkinen on No Robots, jonka Lambert julkaisi ollessaan HuggingFace-tiimissä.

Varaston osoite: https://huggingface.co/datasets/HuggingFaceH4/no_robots

Ihmisten mieltymystiedot liittyvät suurelta osin tiettyjen mallien parannuksiin. Mutta vaikka tiedot voitaisiin tehdä avoimeksi, ei ole varmuutta siitä, että mieltymykset voidaan siirtää yhdestä mallista toiseen.

Lambert ja hänen tiiminsä tekivät samanlaisen yrityksen HuggingFacessa, mutta se epäonnistui pienellä maksetulla datasopimuksella.

Tällä hetkellä ainoa näkökohta, jossa ihmistietoja käytetään, on mieltymystiedot. Llama 2:n paljastamien tietojen ja muiden huhujen perusteella Meta on saattanut käyttää 10–20 miljoonaa dollaria preferenssitietoihin tai jopa enemmän. Tämä rajoittuu myös lopulliseen julkaistuun malliin, eikä se sisällä laajempia kokeiluja ja arviointeja.

Nemotron käyttää suuria määriä synteettistä dataa korvaamaan ihmisdataa, mutta suhteellisesti tämän mallin hienosäätö ei ole niin hyvä.

Avoimelle yhteisölle on kiireellinen haaste, mutta myös mahdollisuus: selvittää, missä määrin ihminen puuttuu tällaiseen dataan ja voidaanko se korvata menetelmillä, kuten LLM-as-a-Judge tai palkitsemismalleilla.

Laajennettu RLHF

Thomas Scialom, Llama 3:n linjauspäällikkö, sanoi podcastissa Latent Space:

RLHF on paljon skaalautuvampi. Se on halvempi, helpompi käyttää ja yleensä parantaa suorituskykyä.

Hän sanoi myös käyttävänsä "100 % kohdistustietobudjetista RL-vaiheessa tarvittaviin kohdistustietoihin sen sijaan, että käyttäisivät enemmän aikaa ohjeisiin."

Useimmat avoimen lähdekoodin kohdistuspyrkimykset keskittyvät laajennettuun ohjeiden hienosäätöön (IFT tai SFT). IFT on helppokäyttöinen, sopii monenlaisiin tehtäviin ja helppokäyttöinen synteettisten tietojen kanssa.

Mutta on selvää, että teollisuus käyttää IFT:tä vain lähtökohtana RLHF:n laajentamiseen. SFT-data keskittyy pääasiassa tiettyihin alueisiin, joita aiemmat mallit eivät kattaneet, ja laajentavat sitten RLHF:n tämän perusteella.

RLHF on iteratiivinen prosessi, ja mallin luontiprosessi mahdollistaa sen jatkuvan parantamisen. 5-kierroksen harjoittelu on kuvattu yksityiskohtaisesti Llama 2- ja Nemotron-papereissa, mutta emme tiedä, onko tälle määrälle ylärajaa.

Llama 3.1 harjoitteltiin 6 kierroksella etuustiedoilla, Llama 2 harjoitettiin 5 kierroksella, Nemotron 4 kierroksella, ja aiemmin oli useita opetuskierroksia hienosäätöä.

Ihmisten mieltymystietojen kohdalla useat iteraatiot voivat johtua ensisijaisesti toteutettavuusnäkökohdista:

1. Tiedot siirretään annotaatioyritykseltä laboratorioon erissä

2. Pienen mittakaavan koulutuksen useiden kierrosten suorittaminen voi vähentää lopputuotteen toimitusriskiä. Sen sijaan, että odotat, että kaikki tiedot ovat saatavilla ennen harjoittelun aloittamista, anna mallin vähitellen päästä raiteilleen

Tällaiset käytännön tekijät voivat tuntua merkityksettömiltä, mutta ne usein laukaisevat tietyt alan normit.

Alla oleva kuva on Llama 2 -paperista, joka tallentaa tiedot viidestä hylkäysnäytteenottokierroksesta ja PPO:sta.

Nemotron tekee myös 2-pyöräisen SFT-trimmityksen ja 4-pyörän kohdistuksen. Niistä RPO on DPO-optimoijalla painotettu palkkiomalli.

Samankaltaiset iteratiiviset RLHF-menetelmät voidaan jäljittää Anthropicin ehdottamaan "perustuslailliseen tekoälyyn", mutta avoimen lähdekoodin yhteisö ei näytä toistaneen tätä tulosta suuressa mittakaavassa.

Tällä hetkellä akateeminen yhteisö kiinnittää huomiota "online DPO-koulutukseen", joka on samansuuntainen, mutta ei kiinnitä yhtä paljon huomiota kierrosten väliseen dataan. Tämä lähestymistapa vaatii tällä hetkellä vielä paljon manuaalista työtä, mutta kun prosessi on automatisoitu, online-DPO on tulevaisuus.

Itse asiassa jokaisen joukkueen algoritmivalinnan harjoituksen jälkeistä vaihetta varten ei pitäisi olla niin jäykkää. DPO:lla ja PPO:lla on kummallakin omat etunsa ja haittansa. Ensin mainittu on helpompi skaalata, mutta PPO-vaikutteisilla menetelmillä (kuten online-RL) on korkeampi suorituskyvyn yläraja.

Näitä lähestymistapoja motivoi tällä hetkellä ensisijaisesti yksinkertaisuus, koska nämä tiimit ovat vielä suhteellisen uusia ja rakentavat modulaarisia järjestelmiä, ja Llama 3 -koulutuksen jälkeisen tiimin jäsen vahvisti tämän lähestymistavan suunnittelun yksinkertaisuuteen.

Llama 3:ssa on yksinkertainen harjoituksen jälkeinen silmukka: hylkäysnäytteenotto, SFT ja DPO. Tämä ei ainoastaan johda optimaaliseen suorituskykyyn empiirisellä tasolla, vaan mahdollistaa myös toistettavuuden. Lisäksi tiimit voivat tutkia monia erilaisia työnkulkuja (esim. koodaus, matematiikka) asynkronisesti ja yhdistää tiedot samaan yksinkertaiseen silmukkaan.

synteettistä dataa

Tärkeä osa tätä uutta RLHF-sykliä on synteettinen komentotieto, joka ylittää ihmisen kyvyt useimmissa tehtävissä.

Jos voit parantaa mallia hieman ja tuottaa parempia ohjeita, niin "aloita alusta" ja päivitä tarkistuspisteet.

Meta ilmoittaa lehdessä nimenomaisesti, että he "käyttävät 405B-mallia parantaakseen pienempien malliemme laatua harjoittelun jälkeen" Google tekee tämän tislaamalla Gemini Flashin, mutta itse asiassa useimmat huippumallit sisältävät joitain samanlaisia vaiheita.

Kuulin, että OpenAI käyttää 50 biljoonaa datatunnusta seuraavan sukupolven mallin kouluttamiseen, joista suurin osa on synteettistä dataa. Viime vuonna oli huhu, että Anthropicilla oli "valmiusasteikko Constitution AI -korpus", mikä nyt näyttää järkevältä.

Nämä tekoälyyritykset ymmärsivät synteettisen datan tärkeyden 12-18 kuukautta sitten, kun he eivät enää käyttäneet mallitulostusta itseiteraatiokoulutukseen. Mutta Meta on erilainen, koska se hyötyy muista paremmista avoimista malleista.

Tämän päivän jälkikoulutuksen tarkastelu tekee selväksi, että synteettisten tietojen mallin kaatumisongelma on suuresti liioiteltu. Mallin romahtaminen tapahtuu vain, kun alkuperäinen data hylätään ja vain luotu uusi data jätetään keinotekoisesti määritettyyn ympäristöön.

Tietojen laatu on kuningas

Suuri osa Llama 3.1 -raportista koskee tiedonhallinnan yksityiskohtia, ja jokainen asiaankuuluva osa-alue vaatii laajoja ja erityisiä hallintaohjeita.

Tämä on yhdenmukainen sen kanssa, mitä tiedän John Schulmanin johtamasta koulutuksen jälkeisestä työryhmästä OpenAI:ssa ja muista vastaavista ryhmistä – määritä tietty toimialue, hanki asiaankuuluvat tiedot ja malli paranee.

Mutta ilman laajaa tietojen suodatusta ja hallintaa mikään yllä olevista RLHF-menetelmistä ei toimi.

Allen AI:lla aloimme priorisoida dataa enemmän harjoittelun jälkeisessä prosessissa, ja voit heti tuntea muutoksen mallin parantamisen nopeudessa.

Tapaustutkimus – Nemotron ja Llama

Laman koulutuksen jälkeinen prosessi on seuraava:

Tämä Nemotronin kuva on suhteellisen yksinkertainen:

Yhdessä voimme nähdä, mikä useimmilla menetelmillä on yhteistä.

Mutta alla oleva kaavio ja useimmat alan tutkimuspaperit jättävät tiedot huomiotta.

Mallit, kuten Llama 3.1, ovat maininneet raportissa monia yksityiskohtia, kuten säännöstelyn, tappiofunktion säädön, mallin keskiarvon jne., mutta nämä ovat marginaalisia parannuksia mallin suorituskyvyssä ja jäävät suurelta osin hienosäätösyklin ulkopuolelle. .

Tietyssä vaiheessa näistä yksityiskohdista tulee merkityksettömiä.

Viitteet:

https://www.interconnects.ai/p/frontier-model-post-training

uutiset

Kuinka tärkeää koulutuksen jälkeinen on? AI2-tutkija selittää yksityiskohtaisesti huippumallien koulutuksen jälkeisiä salaisuuksia pitkässä artikkelissa

Johdanto

Yhteystietoni