소식

도전에 직면 하시겠습니까? 메타 교육 Llama3에서 실패 발생

2024-07-29

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

IT House는 7월 28일 Meta가 발표한 연구 보고서에 따르면 4,050억 매개변수 모델 Llama 3을 훈련하는 데 사용된 16,384개의 NVIDIA H100 그래픽 카드 클러스터가 54일 동안 평균 3시간마다 1번씩 419번의 예상치 못한 오류를 경험했다고 밝혔습니다. 이 중 고장의 절반 이상이 그래픽 카드나 고대역폭 메모리(HBM3)로 인해 발생한다.


시스템 규모가 크고 작업 동기화 수준이 높기 때문에 단일 그래픽 카드 오류로 인해 전체 교육 작업이 중단되어 다시 시작해야 할 수 있습니다. 그럼에도 불구하고,메타팀은 여전히 ​​유효 훈련 시간의 90% 이상을 유지하고 있습니다.

IT House는 54일간의 사전 교육 동안 총 466건의 업무 중단이 발생했으며, 그 중 47건은 계획된 중단이고 419건은 예상치 못한 중단인 것으로 나타났습니다. 계획된 중단은 자동화된 유지 관리로 인해 발생하는 반면, 계획되지 않은 중단은 주로 하드웨어 문제로 인해 발생합니다.GPU 문제는 장애의 주요 원인으로, 계획되지 않은 중단의 58.7%를 차지합니다. . 그 중 3건의 사고에서만 사람의 개입이 많이 필요했고 나머지는 자동화로 관리되었습니다.


419개의 예상치 못한 인터럽트 중 148개(30.1%)는 다양한 GPU 오류(NVLink 오류 포함)로 인해 발생했고, 72개(17.2%)는 GPU의 HBM3 메모리 오류로 인해 발생했습니다. 흥미롭게도 54일 동안 단 2개의 CPU만이 실패했습니다. 계획되지 않은 중단의 41.3%는 소프트웨어 오류, 네트워크 케이블, 네트워크 어댑터를 포함한 다양한 요인으로 인해 발생합니다.

효율성을 높이기 위해 Meta 팀은 임무 시작 및 체크포인트 시간 단축, PyTorch의 NCCL 비행 기록 장치를 사용하여 성능 문제 진단, 지연되는 그래픽 카드 식별 등을 포함한 일련의 도구 및 최적화 전략을 개발했습니다. 또한, 메타는 한낮의 기온 변화가 GPU 성능에 미치는 미미한 영향, 다수의 GPU 동시 가동으로 인해 데이터센터 전력망에 큰 부담 등 환경적 요인이 미치는 영향에도 주목했다.

그러나 인공지능 모델의 매개변수 수가 계속 증가함에 따라 필요한 컴퓨팅 리소스도 확장됩니다. xAI 계획에서 100,000개의 H100 그래픽 카드 클러스터를 예로 들면 실패율이 기하급수적으로 증가하여 향후 AI 교육에 더 큰 어려움을 초래할 수 있습니다.