Nachricht

sich der Herausforderung stellen? Beim Metatraining von Llama3 ist ein Fehler aufgetreten

2024-07-29

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

IT House berichtete am 28. Juli, dass ein von Meta veröffentlichter Forschungsbericht zeigte, dass die 16.384 NVIDIA H100-Grafikkartencluster, die zum Trainieren des 405-Milliarden-Parameter-Modells Llama 3 verwendet wurden, innerhalb von 54 Tagen 419 unerwartete Ausfälle erlebten, durchschnittlich alle drei Stunden. Unter ihnen werden mehr als die Hälfte der Ausfälle durch die Grafikkarte oder ihren High-Bandwidth-Speicher (HBM3) verursacht.


Aufgrund des großen Umfangs des Systems und des hohen Synchronisierungsgrads der Aufgaben kann ein einzelner Ausfall der Grafikkarte dazu führen, dass die gesamte Trainingsaufgabe unterbrochen wird und neu gestartet werden muss. trotz dieses,Das Meta-Team hielt immer noch mehr als 90 % der effektiven Trainingszeit ein.

IT House stellte fest, dass es während der 54-tägigen Vorschulung zu insgesamt 466 Arbeitsunterbrechungen kam, davon 47 geplante Unterbrechungen und 419 unerwartete Unterbrechungen. Geplante Ausfälle sind auf automatisierte Wartung zurückzuführen, während ungeplante Ausfälle hauptsächlich auf Hardwareprobleme zurückzuführen sind.GPU-Probleme sind die Hauptursache für Ausfälle und machen 58,7 % der ungeplanten Ausfälle aus . Nur drei der Vorfälle erforderten ein erhebliches menschliches Eingreifen, der Rest wurde automatisiert bewältigt.


Von den 419 unerwarteten Interrupts wurden 148 (30,1 %) durch verschiedene GPU-Ausfälle (einschließlich NVLink-Ausfälle) verursacht, während 72 (17,2 %) durch HBM3-Speicherausfälle der GPU verursacht wurden. Interessanterweise fielen in 54 Tagen nur zwei CPUs aus. 41,3 % der ungeplanten Ausfälle werden durch verschiedene Faktoren verursacht, darunter Softwarefehler, Netzwerkkabel und Netzwerkadapter.

Um die Effizienz zu verbessern, hat das Meta-Team eine Reihe von Tools und Optimierungsstrategien entwickelt, darunter die Verkürzung der Missionsstart- und Checkpoint-Zeiten, die Verwendung des NCCL-Flugrekorders von PyTorch zur Diagnose von Leistungsproblemen, die Identifizierung nacheilender Grafikkarten usw. Darüber hinaus achtete Meta auch auf die Auswirkungen von Umweltfaktoren, wie z. B. den leichten Einfluss von Mittagstemperaturschwankungen auf die GPU-Leistung und den enormen Druck auf das Stromnetz des Rechenzentrums, der durch den gleichzeitigen Betrieb einer großen Anzahl von GPUs verursacht wird.

Da jedoch die Anzahl der Parameter von Modellen der künstlichen Intelligenz weiter zunimmt, nehmen auch die erforderlichen Rechenressourcen zu. Am Beispiel des 100.000 H100-Grafikkartenclusters im xAI-Plan könnte die Ausfallrate exponentiell ansteigen, was größere Herausforderungen für das zukünftige KI-Training mit sich bringen würde.