Новости

принять вызов? Мета-тренинг Llama3 терпит неудачу

2024-07-29

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

28 июля IT House сообщила, что отчет об исследовании, опубликованный Meta, показал, что 16 384 кластера видеокарт NVIDIA H100, использованных для обучения модели Llama 3 с 405 миллиардами параметров, испытали 419 неожиданных сбоев за 54 дня, в среднем каждые три часа. Среди них более половины сбоев вызваны видеокартой или ее высокоскоростной памятью (HBM3).


Из-за большого масштаба системы и высокой степени синхронизации задач выход из строя одной видеокарты может привести к прерыванию всей обучающей задачи и необходимости ее перезапуска. несмотря на это,Команда Мета по-прежнему сохраняла более 90% эффективного тренировочного времени.

IT House заметила, что за 54-дневное предварительное обучение произошло в общей сложности 466 перерывов в работе, из которых 47 были запланированными, а 419 — неожиданными. Плановые простои происходят из-за автоматизированного обслуживания, тогда как незапланированные простои происходят в первую очередь из-за проблем с оборудованием.Проблемы с графическим процессором являются основной причиной сбоев, на их долю приходится 58,7% незапланированных простоев. . Только три инцидента потребовали значительного вмешательства человека, а остальные удалось устранить с помощью автоматизации.


Из 419 неожиданных прерываний 148 (30,1%) были вызваны различными сбоями графического процессора (включая сбои NVLink), а 72 (17,2%) были вызваны сбоями памяти HBM3 графического процессора. Интересно, что за 54 дня вышли из строя только два процессора. 41,3% незапланированных простоев вызваны различными факторами, включая ошибки программного обеспечения, сетевых кабелей и сетевых адаптеров.

Для повышения эффективности команда Meta разработала ряд инструментов и стратегий оптимизации, включая сокращение времени запуска миссий и контрольных точек, использование бортового самописца PyTorch NCCL для диагностики проблем с производительностью, выявления тормозящих видеокарт и т. д. Кроме того, Meta также обратила внимание на влияние факторов окружающей среды, таких как незначительное влияние полуденных колебаний температуры на производительность графических процессоров, а также огромная нагрузка на электросеть центра обработки данных, вызванная одновременной работой большого количества графических процессоров.

Однако по мере того, как количество параметров моделей искусственного интеллекта продолжает увеличиваться, расширяются и необходимые вычислительные ресурсы. Если взять в качестве примера кластер видеокарт H100 из 100 000 в плане xAI, то частота отказов может возрасти в геометрической прогрессии, создавая более серьезные проблемы для будущего обучения ИИ.