llm-koulutusliikenne on 10 000 kertaa pienempi! uusi hajautettu optimoija, joka integroi maailman laskentatehon tehokkaan ai

llm-koulutusliikenne on 10 000 kertaa pienempi! uusi hajautettu optimoija, joka integroi maailman laskentatehon tehokkaan tekoälyn kouluttamiseen

2024-09-10

uusi viisausraportti

toimittaja: alan

[johdatus uuteen viisauteen]äskettäin nous research ilmoitti suuresta läpimurrosta käyttämällä arkkitehtuurista ja verkosta riippumatonta hajautettua optimointia, tutkijat onnistuivat onnistuneesti vähentämään gpu:iden välistä viestintää 1000-10 000 kertaa.

mitä jos koko maailman laskentateho voitaisiin käyttää tekoälymallien kouluttamiseen?

äskettäin nous research, joka on herättänyt laajaa huomiota avoimen lähdekoodin hermes 3:n julkaisulla (perustuu llama 3.1:een), ilmoitti jälleen suuresta läpimurrosta - distro:sta (distributed internet training).

käyttämällä arkkitehtuurista ja verkosta riippumatonta hajautettua optimoijaa tutkijat onnistuivat onnistuneesti vähentämään gpu:n välistä viestintää 1 000 - 10 000 kertaa koulutuksen aikana!

tällaisten liioiteltujen parannusten ansiosta suuren mallikoulutuksen tärkeä hinta ja pullonkaula - kaistanleveys - ei ole enää ongelma.

distro-menetelmällä voit jakaa harjoituskuorman internetiin ja koko verkkomaailmasta tulee valtava heterogeeninen ai-palvelinklusteri.

——mikä tahansa laite, jolla on asiaankuuluva laskentateho, voi osallistua koulutusprosessiin.

kokeet ovat osoittaneet, että tämän artikkelin menetelmä ei periaatteessa aiheuta mallin suorituskyvyn laskua. samalla distro-adamw vastaa standardin adamw+all-reducea konvergenssinopeuden suhteen.

jaettu internet-koulutus

yleisesti ottaen suuren mittakaavan neuroverkkojen koulutukseen liittyy merkittäviä viestintäkustannuksia.

esimerkiksi datan rinnakkaisuutta tehtäessä eri harjoitustiedot lasketaan eteenpäin ja taaksepäin eri laitteilla (grafiikkakortit jne. tämän jälkeen saman dataerän laskemat gradientit on synkronoitava näytönohjainkorttien välillä ennen syöttämistä). seuraava vaihe.

jos malli on rinnakkainen, välitiedot on yhdistettävä tai kerättävä all-reducen kautta.

jos näitä tiedonsiirtokuluja ei voida mennä päällekkäin, niistä tulee mallikoulutuksen pullonkaula.

laohuangin videomuisti ja kaistanleveys ovat erittäin kalliita, ja jopa useiden korttien asentamiseen tarvittava laitteisto on myös erittäin kallista.

tämän ongelman ratkaisemiseksi tutkijat kehittivät distro:n, joka vähentää gpu:n välisiä viestintävaatimuksia neljästä viiteen suuruusluokkaa luottamatta amortisoituun analyysiin, mikä mahdollistaa suurten hermoverkkojen alhaisen latenssin harjoittamisen hitaissa verkoissa.

distro on yleinen, skaalautuva ja kellosynkronoitu (samanlainen kuin sgd, adam jne., jokainen harjoitusvaihe käyttää samoja aritmeettisia operaatioita ja vie saman ajan).

lisäksi verrattuna aikaisempiin ad-hoc-alhaisiin tietoliikenteen optimoijiin, distro ei ole herkkä tietoliikenneverkkojen topologialle ja hermoverkkoarkkitehtuurille, ja se voi natiivisti tukea hajautettua datan rinnakkaiskoulutusta (ddp) minimaalisella ylikuormituksella.

llm esikoulutus

tutkijat käyttivät nanotronia esikoulutuskehyksenä ja toimivat vain ddp-strategian alla (jokainen gpu lataa koko mallin vram:iin).

llm valitsee llama 2:n koon 1.2b mallissa ja koulutuksessa käytetyt hyperparametrit ovat seuraavat:

harjoitustiedoissa käytetään dolma v1.7 -tietojoukkoa, ja 10 % edustavia näytteitä (ensimmäiset 105b tokenia) valitaan satunnaisesti.

optimoija käyttää adamw:tä, β1 = 0,9, β2 = 0,95, huippuoppimisnopeus on 4 × 10e-4, käytetään kosinin vaimenemiskaaviota ja painon vaimennuksen arvoksi on asetettu 0,1.

toisena vertailun kokeena adamw korvattiin distro-adamw:llä muuttamatta hyperparametreja ja poistamatta all-reduce-toimintoa nanotronissa.

toisin kuin aikaisemmissa hajautetuissa opetusmenetelmissä, distro ei synkronoi optimoijan tilaa (se voi jopa olla tilaton).

alla oleva kuva on harjoitushäviökäyrä kahdesta koesarjasta käyttäen 105b dataa 25 000 askelta varten. voidaan nähdä, että distro:n konvergenssikyky on sama kuin all-reducen.

tärkeää on, että distro pienensi suoraan viestintämäärää 74,4 gt:sta 86,8 mt:iin vaikuttamatta harjoitustehoon! tämä vastaa 857-kertaista kaistanleveyden paineen pienenemistä.

kirjoittaja totesi myös, että tämä 857 kertaa on vain alkutesti, eikä ole ongelma muuttaa hyperparametrejä myöhemmin ja pienentää sitä 1000 kertaa 3000 kertaa.

jos se on harjoituksen jälkeistä ja hienosäätöä, se voi jopa saavuttaa jopa 10 000-kertaisen viestinnän optimoinnin ilman, että se vaikuttaa käytännössä harjoitusvaikutukseen.

lopuksi, varmistaakseen harjoittelun vaikutuksen, kirjoittaja suoritti gpt4all zero-shot -benchmark-testin koulutetulle mallille ja vertasi sitä tinyllamaan (tarkistuspiste), joka oli koulutettu samalla määrällä tokeneita.

tulokset näkyvät yllä olevassa taulukossa. tinyllaman arkkitehtuuri ja koulutusprosessi ovat hyvin samankaltaisia kuin tämän artikkelin kokeet, ja niitä voidaan käyttää tulosten mielenterveyden tarkastuksessa.

tulevia sovelluksia

tiedonkulku

tämän kokeen skenaariossa 32 solmua käyttää yksinkertaisinta all-reduce (täysi yhteys), ja jokainen solmu lähettää keskimäärin 86,8 mt (2,8 mt × 31) ja vastaanottaa saman määrän dataa.

jos datan yhdistämiseen käytetään omistettua palvelinta, jokaisen solmun tarvitsee ladata vain 2,8 megatavua dataa (vastaanotettu data pysyy muuttumattomana), ja viestintämäärä pienenee entisestään.

lisäksi epäsymmetria on edullinen, koska useimpien kuluttajien internetin kaistanleveys on vinossa kohti suurempia latausnopeuksia.

olettaen, että verkon vakaa latausnopeus on 100 mbps ja latausnopeus 10 mbps, pahimman tapauksen viive on vain 6,94 sekuntia lataukselle ja 2,24 sekuntia lataukselle.

ps: yllä oleva tiedonsiirto on kaikki alkuperäinen vektori, ja se voi olla nopeampaa, jos käytetään pakkaustekniikkaa.

kaistanleveys

kirjoittajat totesivat, että nykyiset kokeet ja tutkimus ovat suhteellisen rajallisia, ja on mahdotonta päätellä, kasvaako, väheneekö vai pysyykö kaistanleveyden pienenemisnopeus samana mallin kasvaessa.

nykyinen 1.2b näyttää kuitenkin olevan vähimmäiskoko, jolla distro voi toimia hyvin (olipa se kuinka pieni tahansa, se ei konvergoi), joten voidaan olettaa, että mallin koon kasvaessa viestintä vähenee vaaditaan.

on kuitenkin myös mahdollista, että kommunikaatiomäärä ei liity mallin kokoon. tässä tapauksessa mallin kokoa voidaan kasvattaa lisäämättä viestintäkaistanleveyttä, jotta voidaan havaita, parantaako suurempi malli koulutus- ja oppimisvaikutuksia.

jos jälkimmäinen skenaario pitää paikkansa, tulevaisuuden gpu-suunnittelun ja -valmistuksen paradigma muuttuu (suurempi vram ja kapeampi kaistanleveys).

on vain niin, että pidämme myös enemmän laskenta-intensiivisiä työkuormia (toisin kuin i/o-intensiivisiä), koska kaistanleveys on nykyään paljon kalliimpaa kuin laskeminen.

liittoutunut oppiminen

mihin muuhun distro:ta voidaan käyttää llm-koulutuksen lisäksi?

hajautetun koulutuksen tekeminen internetissä saa ihmiset heti ajattelemaan yhdistelmäoppimista.

samalla kun sallitaan malliyhteistyö, jokaisen osallistujan tietojen yksityisyyden säilyttäminen ja hajauttaminen on yhä tärkeämpää nyt, kun llm on suurten yritysten hallinnassa.

tähän asti liittoutuneesta oppimisesta ei ole puuttunut tehokkaita menetelmiä suurten mallien kouluttamiseen rajoitetulla internetin kaistanleveydellä.

distro:lla ei ole vaatimuksia tietojen käsittelylle tai tietojen jakamiselle yksittäisille gpu-solmuille, ja se voi olla tilaton (samanlainen kuin liittokeskiarvon laskeminen), joten se soveltuu liittoutuneen oppimisen tulevaisuuteen.

virtuaalinen heterogeeninen gpu-klusteri

lisäksi distro voi luoda täysin hajautetun ja luvattoman verkon yhteistyötä ja resurssien jakamista varten.

kokeet osoittavat, että distro on merkittävästi joustava pienelle määrälle solmuja, jotka alennetaan tai pudotetaan koulutuksen aikana, ja se mukautuu helposti uusien solmujen lisäämiseen.

tämän ominaisuuden siunauksen ansiosta se voi toisaalta varmistaa koko järjestelmän turvallisuuden ja vähentää riskiä, että epäluotetut solmut käyttävät vastakkaisia hyökkäyksiä häiritäkseen toimintaa.

toisaalta instituutioita ja yksilöitä voidaan myös kannustaa lisäämään joustavasti omia laskentaresurssejaan ja vapauttamaan potentiaalista laskentatehoa.

jopa jotkut vanhat kortit, joilla on riittämätön muisti tai laskentateho, voivat liittyä ansaitakseen ylimääräistä rahaa käyttämällä strategioita, kuten fsdp ja swarm parallelism työskennelläkseen distro:n kanssa.

energiaa

distro:n laajamittainen käyttö edelleen voi lieventää suurten datakeskusten rakentamisen aiheuttamia energiankulutusta, infrastruktuurikustannuksia ja maankäyttöön liittyviä ongelmia.

llama 3.1 -projekti vaati kahden suuren monoliittisen superklusterin rakentamista, joista kumpikin sisälsi 24 000 h100 gpu:ta, ja pelkkä koulutusprosessi tuotti 11 000 tonnia co2-päästöjä.

nykypäivän llm:ssä malliparametrikoon kasvun lisäksi myös koulutusdatan määrä kasvaa, mikä saa tekoälyyn liittyvät datakeskukset saavuttamaan nykyaikaisten sähköverkkojen rajat.

distro:ta voidaan käyttää adaptiivisesti tasapainottamaan useita pieniä modulaarisia datakeskuksia käyttämällä ylikapasiteettia hyödyntäen olemassa olevaa infrastruktuuria dynaamisen tasapainotusharjoitustekniikan avulla koulutuksen kielteisten ympäristövaikutusten vähentämiseksi.

tällä hetkellä distro:n taustalla oleva teoria vaatii vielä lisäselvitystä, ja tulevaisuudessa julkaistaan entistä tarkempia ja yksityiskohtaisempia akateemisia papereita ja täydellisiä koodeja.

uutiset

llm-koulutusliikenne on 10 000 kertaa pienempi! uusi hajautettu optimoija, joka integroi maailman laskentatehon tehokkaan tekoälyn kouluttamiseen

uusi viisausraportti

[johdatus uuteen viisauteen]äskettäin nous research ilmoitti suuresta läpimurrosta käyttämällä arkkitehtuurista ja verkosta riippumatonta hajautettua optimointia, tutkijat onnistuivat onnistuneesti vähentämään gpu:iden välistä viestintää 1000-10 000 kertaa.

llm esikoulutus

johdanto

yhteystietoni