GPU-koulutus Llama 3.1 kaatuu hulluna. Onko olemassa suuri valmistaja, joka käyttää prosessoripalvelinta suuren mallin suorittamiseen, jossa on satoja miljardeja parametreja?

2024-08-01

Uusi viisausraportti

Toimittaja: Toimitusosasto

[Johdatus uuteen viisauteen]On aika käyttää CPU-yleistä palvelinta suurten mallien ajamiseen satojen miljardien parametrien kanssa!

Musk rakensi maailman suurimman supertietokoneen, joka koostuu 19 päivässä yhdistetystä 100 000 H100:sta, ja on omistautunut täysin Grok 3:n koulutukseen.

Samaan aikaan ulkomaiset tiedotusvälineet kertoivat, että seuraava OpenAI:n ja Microsoftin yhdessä rakentama superlaskentaklusteri koostuu 100 000 GB200:sta.

Tässä tekoälykilpailussa suuret teknologiayritykset tekevät kaikkensa lisätäkseen investointejaan GPU:ihin, mikä näyttää viittaavan siihen, että yhä tehokkaammat GPU:t tekevät niistä voittamattomia.

Tämä fanaattinen huippuluokan GPU:iden tavoittelu ei kuitenkaan ole virheetön ratkaisu kaikissa tilanteissa.

Pytorchin isä sanoi, että teknisessä raportissa on piilotettu monia mielenkiintoisia yksityiskohtia infrastruktuurista, mukaan lukien kuinka rinnakkaista, miten järjestelmästä saadaan luotettavampi jne.

Esimerkiksi vakauden aikana Llama 3.1 -koulutuksen 54 päivän aikana Metan 16 000 lohkon H100-klusteri kohtasi yhteensä 419 odottamatonta keskeytystä, mikä vastaa keskimäärin yhtä joka 3. tunti.

Näistä 148 kertaa (30,1 %) johtui erilaisista GPU-vioista.

Sitä vastoin suorittimen vioista johtuvia keskeytyksiä oli vain kaksi.

Toisaalta, jos haluat käyttää Llama 3.1 405B:tä, sinun on yhdistettävä se kahden 8×H100 DGX -työaseman kanssa – eli 1280 Gt videomuistia.

Eräs soturi yritti kerran ajaa 4090:tä, mutta odotettuaan 30 minuuttia malli sylki hitaasti ulos "The".

Täydellinen vastaus kesti 20 tuntia

Mallikoulutukseen ja päättelyyn perehtyneet ystävät tietävät, että nämä asiat eivät ole ollenkaan yllättäviä.

Klusterin rakentaminen (GPU-kokoonpano, verkon suunnittelu, radan optimointi jne.), klusterin hallinta (reaaliaikainen seuranta, vianetsintä jne.) ... kaikki ovat "kompastuskiviä".

Mikä on yritys, jolla ei ole asianmukaista kokemusta ja pääomaa?

Äskettäin Inspur Informationin T&K-insinöörit käyttivät vain neljää CPU:ta "Source 2.0":n suorittamiseen satojen miljardien parametrien kanssa yleiskäyttöisellä palvelimella!

"Source 2.0" antaa tuloksia erittäin nopeasti, kun koodaustehtävä on kirjoittaa ohjelma Java-kielellä.

Esitä toinen perustelukysymys - veneen kylkeen ripustetaan tikkaat, 2 metriä merenpinnan yläpuolelle. Jos merivesi nousee puoli metriä tunnissa, kuinka monta tuntia kestää, että merivesi upottaa tikkaat?

Samoin tekoäly tarjoaa yksityiskohtaisia ongelmanratkaisuvaiheita ja vastauksia lähes nollaviiveellä.

‍

On ennennäkemätöntä käyttää yleiskäyttöistä palvelinta suurten, satojen miljardien parametrien mallien ajamiseen. Tämän kentän kerääntyminen on täysin tyhjää, eikä siitä ole kokemusta.

Miten Inspur Information tekee sen?

Käytä 4 CPU:ta hyödyntääksesi suuria malleja, joissa on satoja miljardeja parametreja

Päätelmän tekeminen suuresta mallista, jossa on satoja miljardeja parametreja yhdellä palvelimella, on kaksi päävaihetta, jotka molemmat asettavat kovia vaatimuksia laskentateholle.

Ensinnäkin on esitäyttövaihe, jota kutsutaan myös eteenpäin etenemisvaiheeksi.

Tämä vaihe sisältää syöttötietojen käsittelyn ja malliparametrien ensimmäisen lukemisen.

Kun esimerkiksi kirjoitat kehotteen "Kirjoita minulle artikkeli tekoälystä", esipopulaatiovaihe syöttää laskentaan kerralla kaikki kysymyksen tokenit ja malliparametrit.

Joskus tämä syöttö voi olla muutama sana tai se voi olla tuhansia sanoja tai se voi olla kirja.

Ensimmäisen vaiheen laskennallinen vaativuus riippuu pääasiassa syötteemme pituudesta.

Ensimmäisen tunnuksen laskennan aikana, koska malli ladataan ensimmäistä kertaa, kaikki painoparametrit sekä KV-välimuisti ja muut tiedot tallennetaan muistiin.

Tämä on 2-3 kertaa itse malliparametrien käyttämä muistitila.

Satoja miljardeja parametrimalleja varten suuri määrä parametreja ja datasyötteitä on käsiteltävä tehokkaissa laskentayksiköissä. Tätä varten sen on tuettava vektorointikäskyjoukkoa ja matriisin laskennan käskyjoukkoa toteuttaakseen suuren määrän matriisin kertolasku- ja tensoritoimintoja.

Toiseksi on dekoodausvaihe, eli vaihe, jossa malli alkaa tuottaa tuloksia sen jälkeen, kun kaikki kysymykset on syötetty.

Tässä vaiheessa ainoa vaatimus suurille malleille on tuottaa mahdollisimman nopeasti. Samalla haaste ei ole enää laskentatehohaaste, vaan "tiedonsiirron" haaste.

Se sisältää kaksi "tiedonsiirron" osaa:

Esitäyttövaiheessa syntyvä suuri määrä KV-välimuistia on siirrettävä videomuistista/muistista laskentayksikköön (työkuorma on erittäin raskas)
Itse malliparametrien siirto

Näillä siirroilla on ratkaiseva rooli suurten mallien laskennassa ja päättelynopeudessa. Tiedonsiirto on erittäin nopeaa, ja myös LLM-ilmaisunopeus tulee olemaan nopea.

LLM-tulostus tuottaa pääosin tokeneita yksitellen KV Catchin kautta ja tallentaa uuden sanaosan avainarvovektorin jokaisen sukupolven jälkeen.

Siksi satojen miljardien suurten mallien reaaliaikaista päättelemistä varten palvelimella on oltava suuri laskentateho ja korkea tiedonsiirtotehokkuus tallennusyksiköstä laskentayksikköön.

Kaiken kaikkiaan suuren mallin päättelyn kahdella vaiheella on täysin erilaiset laskennalliset ominaisuudet, jotka vaativat yhteistoiminnallista optimointia ohjelmiston ja laitteiston osalta.

GPU ei ole kaikki kaikessa

Perinteisesti GPU:sta on tullut ensimmäinen valinta tekoälykoulutukseen ja johtopäätöksiin sen ylivoimaisten rinnakkaiskäsittelyominaisuuksien ansiosta.

kustannus

Huippuluokan GPU-palvelimista on kuitenkin usein pulaa markkinoilla, ja niitä on erittäin vaikea saada.

Vain hyvin rahoitetuilla teknologiajättiläisillä, kuten Microsoftilla ja Googlella, on varaa tähän hintaan.

Toisaalta se ei ole vain kohtuuton, vaan myös kohtuuton.

GPU-pohjaisen pilvipalvelun vuokraus on kallista päättelytehtävissä. Tieteellisten tutkijoiden ja sovellusten valmistajien on löydettävä toinen tapa, jos he haluavat saavuttaa korkeamman kustannustehokkuuden.

Videomuisti

Lisäksi yksi GPU:n suurimmista haitoista on, että videomuistin kapasiteetti on rajallinen.

Alan nykyinen LLM:n verkkoarkkitehtuuri on vähitellen siirtynyt GPT:stä MoE:hen. AGI:hen johtavien suurten mallien parametriskaala kasvaa vain eksponentiaalisesti.

Tämä tarkoittaa, että suljetun lähdekoodin/avoimen lähdekoodin valtavirran mallien koko vain kasvaa ja malleista, joissa on satoja miljardeja parametreja tai jopa biljoonia parametreja, tulee valtavirtaa.

Kymmeniin miljardeihin parametrimalleihin riittää 20-30 Gt videomuistia. Jos kuitenkin haluat käyttää 100 miljardia parametria, tarvitset noin 200-300 Gt videomuistia.

Nykyisillä valtavirran AI-siruilla on yleensä vain muutama tusina Gt videomuistia, johon ei tietenkään mahdu niin suurta mallia. (Tehokkain AI-siru ei tällä hetkellä ole saavuttanut 200 Gt)

Aliarvostettu yleispalvelin

Jos GPU ei toimi, aloita CPU:sta.

Vaikka mallien laajamittainen koulutus ei tällä hetkellä ole mahdollista, yleispalvelimilla on yllättäen huomattavia etuja päättelytehtävissä.

Tietyn käytännön prosessissa Inspur Informationin insinöörit aloittivat laitteistoresursseista ja algoritmitasoista voittaakseen jokaisen "kompastuskiven".

Erittäin suuri muisti + nopea kaistanleveys

Mitä tulee laskentatehoon,Tällä hetkellä johtavilla palvelinprosessoreilla on jo tekoälykiihdytysominaisuudet.

Kuten GPU:n Tensor-ydin, AMX:n edistynyt matriisilaajennus voi nopeuttaa matalan tarkkuuden laskelmia, koota käskyjoukon CPU-ytimeen ja käyttää kiihdytykseen omaa ydintä.

Mitä tulee algoritmeihin,Inspur Informationin universaali palvelin voi samanaikaisesti tukea valtavirran tekoälykehyksiä, kuten PyTorch ja TensorFlow, sekä suosittuja kehitystyökaluja, kuten DeepSpeed, jotka vastaavat käyttäjien tarpeita kypsemmälle, helpommin otettavalle ja kätevämmälle avoimelle ekosysteemille.

Viestinnän kannalta mm.Täyslinkin UPI (Ultra Path Interconnect) -väyläyhteyttäminen mahdollistaa tehokkaan tiedonsiirron suorittimien välillä:

Mahdollistaa suoran tiedonsiirron minkä tahansa kahden CPU:n välillä, mikä vähentää tiedonsiirtoviiveitä
Tarjoaa suuret siirtonopeudet, jopa 16 GT/s (gigasiirtoa sekunnissa)

Lisäksi Inspur Informationin tuotekehitysinsinöörit optimoivat myös johdotusreitit ja impedanssin jatkuvuuden prosessorien välillä sekä prosessorien ja muistin välillä.

Kolmiulotteisen simulaation tulosten perusteella he sääsivät läpivientijärjestelyä vähentämään signaalin ylikuulumista alle -60 dB:iin, mikä on 50 % vähemmän kuin edellisessä sukupolvessa.

Lisäksi DOE-matriisiaktiivisen simuloinnin avulla löydetään optimaalinen ratkaisu kanavan kaikkien kulmien yhdistämiseen, mikä mahdollistaa laskentatehon suorituskyvyn täysimääräisen hyödyntämisen.

Mitä tulee muistiin,Sen voidaan sanoa olevan yleiskäyttöisten palvelimien suurin etu.

kapasiteettia

4-kantaisessa palvelimessa sinun tarvitsee vain liittää 8 32 Gt:n muistitikkua kuhunkin suorittimeen, jotta saat helposti 1 Tt:n. Täysin asennettuna se voidaan jopa laajentaa 16 Tt:hen ja se tukee malleja, joissa on jopa biljoona parametria.

kaistanleveys

Yhdessä DDR5-muistin kanssa voidaan saavuttaa teoreettinen kaistanleveys 4800 MHz × 8 bittiä × 8 kanavaa × 4 ÷ 1024 = 1200 Gt/s.

Varsinaiset mittaustulokset osoittavat, että lukukaistanleveys on 995 Gt/s, kirjoituskaistanleveys 423 Gt/s ja luku- ja kirjoituskaistanleveys 437 Gt/s.

Nämä tiedot ovat verrattavissa joihinkin GDDR-muistilla varustettuihin GPU- tai kiihdytinkortteihin.

Mutta pelkkä laitteisto ei riitä

Pelkästään laitteistoinnovaatioon luottaminen ei riitä Prosessorin on vaikea suorittaa laajamittaisia rinnakkaisia laskelmia suurista mallialgoritmeista.

Kuten alussa mainittiin, suurilla malleilla on erittäin korkeat vaatimukset tiedonsiirron kaistanleveydelle, oli kyse sitten datalaskennasta, laskentayksiköiden välillä tai laskentayksiköiden ja muistin välillä.

Jos BF16-tarkkuudella laskettuna halutaan 100 miljardin suuren mallin ajoviiveen olevan alle 100ms, muistin ja laskentayksikön välisen tiedonsiirtokaistan on oltava vähintään 2TB/s.

Sen lisäksi, että yleiskäyttöiset palvelinprosessorit eivät sovellu suuriin tekoälymalleihin, jotka perustuvat kiihdytinkorttimalleihin, jotka ovat hyviä laajamittaisessa rinnakkaislaskennassa.

Syy on ilmeinen: vaikka jälkimmäisessä on erittäin monipuolinen ja suorituskykyinen laskentaydin, sillä ei ole rinnakkaista työympäristöä.

Yleisesti ottaen yleispalvelin siirtää ensin mallin painon CPU:lle ja antaa sen sitten muodostaa yhteyden muihin prosessoreihin sarjassa toteuttaakseen painotietojen siirron.

Koska suurten mallien on kuitenkin usein siirrettävä algoritmien painotuksia muistin ja CPU:n välillä toiminnan aikana, seurauksena tästä on, että CPU:n ja muistin välinen kaistanleveyden käyttöaste ei ole korkea ja tiedonsiirto on erittäin korkea.

Kuinka ratkaista ongelma?Innovoi algoritmien avulla

Vastauksena yllä oleviin ongelmiin Inspur Information ehdotti kahta teknologista innovaatiota, "Tensor Parallel" (Tensor Parallel) ja "NF4 Quantification", ja toteutti onnistuneesti reaaliaikaisen päättelyn satojen miljardien suuresta mallista Yuan2.0-102B.

Suorituskykyanalyysin tulosten mukaan mallin eri osien laskenta-aikajakauma on selvästi nähtävissä...

Lineaarisen kerroksen käyntiajan osuus on 50 %, konvoluution kulkuajan osuus on 20 %, aggregoinnin viestintäajan osuus on 20 % ja muiden laskelmien osuus 10 %.

Huomaa, että koko päättelyprosessin aikana laskenta-aika on 80 %!

Tämä on jyrkässä ristiriidassa useiden PCIe AI -kiihdytinkorttien käytölle – jälkimmäisen tiedonsiirtokuormitus voi olla jopa 50 %, mikä johtaa vakavaan laskentatehon hukkaan.

Yuan2.0-102B mallin päättely suorituskykyanalyysin tulosten kaavio

tensorin rinnakkaisuus

Ns. tensorin rinnakkaisuus jakaa ensin konvoluutio-operaattorin tensoreihin ja laskee sitten suuressa mallissa huomiokerroksen ja myötäkytkentäkerroksen matriisien painot ja syöttää ne useiden prosessorien muistiin.

Tällä tavalla yleisen palvelimen neljä CPU:ta voivat saada algoritmien painot samanaikaisesti laskelmien nopeuttamiseksi.

Tensorin rinnakkaisuus kuitenkin jakaa malliparametrit hienompiin tarkkoihin, mikä edellyttää CPU:n suorittavan tietojen synkronoinnin jokaisen tensorilaskelman jälkeen.

Tätä vaatimusta varten yllä mainittu täyden linkin UPI-väylän liitäntätekniikka voi täyttää tämän vaatimuksen täysin (viestintäkaistanleveys on jopa 16 GT/s).

Loppujen lopuksi tämä yhteistyössä tehty rinnakkaistyö lisäsi laskentatehoa suoraan neljä kertaa!

NF4:n kvantifiointi

Mitä tulee muistin riittämättömän kaistanleveyden ongelmaan, mallia on "pienennettävä" tarkkuuteen vaikuttamatta, eli kvantisoitava.

Etuna on, että toisaalta LLM-parametrit voidaan kvantisoida matalabittiseksi dataksi ja painot pienenevät. Toisaalta painon pudotuksen jälkeen myös laskennan aikana siirrettävän tiedon määrä pienenee.

Tässä Inspur Information ottaa käyttöön harvinaisen kvantiilikvantiilin menetelmän - NF4 (4-numeroinen NormalFloat).

NF4-kvantisointimenetelmä voi pakata Yuan2.0-102B koon 1/4 alkuperäisestä koosta.

Tarkemmin sanottuna NF4:n ydinajatus on varmistaa, että sisääntulotensorin arvojen määrä kvantisointivälissä on yhtä suuri.

Tämä ominaisuus sopii hyvin LLM-painojen esittämiseen suunnilleen normaalijakaumalla.

Koska standardipoikkeama voidaan säätää sopimaan kvantisoidun tietotyypin alueelle, NF4 voi saavuttaa suuremman tarkkuuden kuin perinteinen 4-bittinen kokonaisluku tai 4-bittinen liukuluku.

Tällä tavalla kvantisoitu malli ei ainoastaan täytä tarkkuusvaatimuksia, vaan myös vähentää merkittävästi muistin käyttötietojen määrää laajamittaisessa rinnakkaislaskennassa, mikä täyttää reaaliaikaisen päättelyn dekoodausvaatimukset.

Kokonaisluku- tai liukulukukvantisointimenetelmien datavälit ovat yleensä jakautuneet tasaisesti tai eksponentiaalisesti

Mallin painoparametrien tiivistämiseksi edelleen ryhmä käytti myös sisäkkäistä kvantisointitekniikkaa (Double Quant).

Tämä on toissijainen kvantisointi, joka perustuu NF4-kvantisointiin.

Koska NF4 luo suuren määrän skaalausparametreja kvantisoinnin jälkeen, jos 32-bittisiä liukulukuja (FP32) käytetään niiden tallentamiseen, suuri määrä muistia kuluu.

Jos LLM:ssä, jossa on satoja miljardeja parametreja, joka 64 parametria lasketaan kvantisointilohkoksi (lohkokoko = 64), vain mittakaavaparametrien tallentaminen vaatii 6 Gt lisämuistia: (100 B ÷ 64) × 4 = 6 Gt.

Tiimi vähensi merkittävästi tarvittavaa tallennustilaa kvantisoimalla nämä skaalausparametrit 8-bittisiksi liukulukuiksi (FP8).

Kun kvantisointilohkokokona käytetään arvoa 256 (lohkokoko = 256), kaikkien mittakaavaparametrien tallentamiseen tarvittava lisätila on vain 1,57 Gt: (100 B ÷ 64 ÷ 256) × 4 + (100 B ÷ 64) × 1 = 1,57 Gt.

Sisäkkäisen kvantisoinnin ansiosta mallin jokainen painoparametri vie vain 4 tavua muistitilaa, mikä säästää paljon muistitilaa kuin alkuperäinen FP32.

Samalla se parantaa tiedonsiirron tehokkuutta muistista suorittimeen 4 kertaa.

Tällainen optimointi helpottaa merkittävästi muistin kaistanleveyden rajoitusta Yuan2.0-102B-mallin päättely- ja dekoodaustehokkuudessa, mikä parantaa entisestään mallin päättelykykyä.

Niin sanottu universaali tarkoittaa, että kaikki voivat käyttää sitä.

Tässä vaiheessa Inspur-tiedot on lähetetty onnistuneesti!

Järjestelmän optimoinnin ansiosta Inspur Informationin NF8260G7 on alan ensimmäinen, joka tukee suurten mallien toimintaa, jossa on satoja miljardeja parametreja, jotka perustuvat pelkästään yleiskäyttöisiin prosessoreihin.

Tähän mennessä yleisen laskentatehon tukemien suurten tekoälymallien parametriasteikko on ylittänyt 100 miljardia, täyttäen täysin alan aukon ja muodostaen yrityksille uuden lähtökohdan tekoälyn omistamiselle.

Tekoälymallien, joissa on satoja miljardeja parametreja, käyttöönotto tarjoaa nyt valinnanvaraa paremman suorituskyvyn ja edullisempien kustannusten ansiosta.

Tieteellisen ja teknologisen kehityksen perimmäisenä tavoitteena on oltava putoaminen kuolevaisten maailmaan.

Nykyään katsottuna AIGC on tunkeutunut tuhansille toimialoille. Tekoäly on tunkeutunut kaikkiin tietokoneisiin hälyttävää vauhtia.

Tammi-huhtikuussa 2024 kotimaisten suurmallien voittaneiden tarjousten määrä on ylittänyt koko vuoden 2023 kokonaismäärän ja julkistettu määrä on noussut 77 %:iin koko vuoden 2023 tarjouksista.

Rahoitusalan ammattilaiset, sairaalaklinikat ja yritysten IT-osastot ovat kaikki havainneet tämän: perinteisten alojen laskentainfrastruktuuri ei enää riitä!

Nykyään suuret mallit, joissa on satoja miljardeja parametreja, ovat avain älykkyyden syntymiseen tuhansilla toimialoilla. Se, pystyykö yleinen laskentateho ajamaan suuria malleja, joissa on satoja miljardeja parametreja, on avain sen mittaamiseen, tukeeko se älykkyyden syntyä tuhansilla toimialoilla.

Inspur Informationin aloitteen avulla Internet-, rahoitus-, lääketieteen ja muiden alojen asiakkaat voivat saavuttaa tehokkaan käyttöönoton ja säästää yli 80 % rakennuskustannuksista ensimmäisellä sijoituksella.

Olipa kyse talouspetosten ehkäisystä, taloustietojen analysoinnista, yrityksen CRM-markkinoinnin oivalluksista, älykkäästä lääketieteellisestä diagnoosista, henkilökohtaisista diagnoosi- ja hoitosuunnitelmista, koulutuksesta jne., tulemme todistamaan tekoälyn laajaa käyttöä.

Tästä lähtien kaikki laskelmat ovat tekoälyä.

Viitteet:

https://mp.weixin.qq.com/s/1wYt7dfoVy2J1FFkOJjRTg

uutiset

GPU-koulutus Llama 3.1 kaatuu hulluna. Onko olemassa suuri valmistaja, joka käyttää prosessoripalvelinta suuren mallin suorittamiseen, jossa on satoja miljardeja parametreja?

Johdanto

yhteystietoni