uutiset

kohdata haaste? Meta koulutus Llama3 kohtaa epäonnistumisen

2024-07-29

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

IT House raportoi 28. heinäkuuta, että Metan julkaisema tutkimusraportti osoitti, että 16 384 NVIDIA H100 -näytönohjainklusteria, joita käytettiin 405 miljardin parametrimallin Llama 3:n kouluttamiseen, kokivat 419 odottamatonta vikaa 54 päivässä, keskimäärin kerran kolmessa tunnissa. Niistä yli puolet vioista johtuu näytönohjaimesta tai sen suuren kaistanleveyden muistista (HBM3).


Järjestelmän suuren mittakaavan ja tehtävien suuren synkronoinnin vuoksi yksi näytönohjain voi aiheuttaa koko harjoitustehtävän keskeytyksen ja sen on käynnistettävä uudelleen. tästä huolimatta,Meta-tiimi säilytti edelleen yli 90 % tehokkaasta harjoitteluajasta.

IT House havaitsi, että 54 päivää kestäneen esikoulutuksen aikana sattui yhteensä 466 työkeskeytystä, joista 47 oli suunniteltuja ja 419 odottamattomia keskeytyksiä. Suunnitellut käyttökatkot johtuvat automaattisesta huollosta, kun taas suunnittelemattomat seisokit johtuvat pääasiassa laitteisto-ongelmista.GPU-ongelmat ovat yleisin vikojen syy, ja niiden osuus on 58,7 % suunnittelemattomista katkoksista . Vain kolme tapauksista vaati merkittävää ihmisen väliintuloa, ja loput hoidettiin automaation avulla.


419 odottamattomasta keskeytyksestä 148 (30,1 %) johtui erilaisista GPU-vioista (mukaan lukien NVLink-virheet), kun taas 72 (17,2 %) johtui GPU:n HBM3-muistihäiriöistä. Mielenkiintoista on, että vain kaksi CPU:ta epäonnistui 54 päivässä. 41,3 % odottamattomista katkoksista johtuu useista tekijöistä, kuten ohjelmistovirheistä, verkkokaapeleista ja verkkosovittimista.

Tehokkuuden parantamiseksi Meta-tiimi on kehittänyt joukon työkaluja ja optimointistrategioita, mukaan lukien tehtävän käynnistys- ja tarkistuspisteiden lyhentäminen, PyTorchin NCCL-lennontallentimen käyttö suorituskykyongelmien diagnosoimiseen, viivästyneiden näytönohjainkorttien tunnistaminen jne. Lisäksi Meta kiinnitti huomiota myös ympäristötekijöiden vaikutuksiin, kuten keskipäivän lämpötilanvaihteluiden vähäiseen vaikutukseen GPU:n suorituskykyyn sekä suuren GPU-määrän samanaikaisesta toiminnasta konesalin sähköverkkoon kohdistuvaan valtavaan paineeseen.

Tekoälymallien parametrien määrän kasvaessa kuitenkin myös tarvittavat laskentaresurssit kasvavat. Kun otetaan esimerkkinä xAI-suunnitelman 100 000 H100-näytönohjainklusteri, epäonnistumisprosentti voi kasvaa eksponentiaalisesti, mikä asettaa suurempia haasteita tulevalle tekoälykoulutukselle.