notizia

affrontare la sfida? Il meta-addestramento Llama3 incontra un errore

2024-07-29

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

IT House ha riferito il 28 luglio che un rapporto di ricerca pubblicato da Meta ha mostrato che i 16.384 cluster di schede grafiche NVIDIA H100 utilizzati per addestrare il modello Llama 3 da 405 miliardi di parametri hanno subito 419 guasti imprevisti in 54 giorni, con una media di ogni tre ore una volta. Tra questi, più della metà dei guasti sono causati dalla scheda grafica o dalla sua memoria ad elevata larghezza di banda (HBM3).


A causa delle grandi dimensioni del sistema e dell'elevato grado di sincronizzazione delle attività, un singolo guasto della scheda grafica può causare l'interruzione dell'intera attività di formazione e la necessità di riavviarla. nonostante questo,Il team Meta ha comunque mantenuto più del 90% del tempo di allenamento effettivo.

IT House ha notato che durante i 54 giorni di pre-formazione si sono verificate complessivamente 466 interruzioni del lavoro, di cui 47 interruzioni pianificate e 419 interruzioni impreviste. Le interruzioni pianificate sono dovute alla manutenzione automatizzata, mentre le interruzioni non pianificate sono principalmente dovute a problemi hardware.I problemi della GPU sono la principale causa di guasti, rappresentando il 58,7% delle interruzioni non pianificate . Solo tre incidenti hanno richiesto un intervento umano significativo, mentre il resto è stato gestito dall’automazione.


Delle 419 interruzioni impreviste, 148 (30,1%) sono state causate da vari guasti della GPU (inclusi guasti NVLink), mentre 72 (17,2%) sono stati causati da guasti alla memoria HBM3 della GPU. È interessante notare che solo due CPU si sono guastate in 54 giorni. Il 41,3% delle interruzioni non pianificate è causato da una serie di fattori, tra cui errori software, cavi di rete e adattatori di rete.

Per migliorare l'efficienza, il team Meta ha sviluppato una serie di strumenti e strategie di ottimizzazione, tra cui la riduzione dei tempi di avvio della missione e dei checkpoint, utilizzando il registratore di volo NCCL di PyTorch per diagnosticare problemi di prestazioni, identificare schede grafiche in ritardo, ecc. Inoltre, Meta ha prestato attenzione anche all'impatto dei fattori ambientali, come il leggero impatto delle fluttuazioni della temperatura di mezzogiorno sulle prestazioni della GPU e l'enorme pressione sulla rete elettrica del data center causata dal funzionamento simultaneo di un gran numero di GPU.

Tuttavia, poiché il numero dei parametri dei modelli di intelligenza artificiale continua ad aumentare, si ampliano anche le risorse di calcolo necessarie. Prendendo come esempio il cluster di 100.000 schede grafiche H100 nel piano xAI, il tasso di guasto potrebbe aumentare in modo esponenziale, ponendo sfide maggiori alla futura formazione sull’intelligenza artificiale.