enfrentar el desafío? Meta entrenamiento Llama3 encuentra fallas

enfrentar el desafío? El metaentrenamiento Llama3 encuentra fallas

2024-07-29

IT House informó el 28 de julio que un informe de investigación publicado por Meta mostró que los 16,384 grupos de tarjetas gráficas NVIDIA H100 utilizados para entrenar el modelo Llama 3 de 405 mil millones de parámetros experimentaron 419 fallas inesperadas en 54 días, con un promedio de cada tres horas. Entre ellos, más de la mitad de los fallos son provocados por la tarjeta gráfica o su memoria de gran ancho de banda (HBM3).

Debido a la gran escala del sistema y al alto grado de sincronización de las tareas, un solo fallo de la tarjeta gráfica puede provocar que se interrumpa toda la tarea de entrenamiento y sea necesario reiniciarla. a pesar de esto,El equipo Meta aún mantuvo más del 90% del tiempo de entrenamiento efectivo.

IT House notó que durante los 54 días de capacitación previa, se produjeron un total de 466 interrupciones laborales, de las cuales 47 fueron interrupciones planificadas y 419 fueron interrupciones inesperadas. Las interrupciones planificadas se deben al mantenimiento automatizado, mientras que las no planificadas se deben principalmente a problemas de hardware.Los problemas de GPU son la principal causa de fallos y representan el 58,7% de las interrupciones no planificadas. . Solo tres de los incidentes requirieron una intervención humana significativa, y el resto se gestionó mediante automatización.

De las 419 interrupciones inesperadas, 148 (30,1%) fueron causadas por varias fallas de la GPU (incluidas fallas de NVLink), mientras que 72 (17,2%) fueron causadas por fallas en la memoria HBM3 de la GPU. Curiosamente, sólo dos CPU fallaron en 54 días. El 41,3% de las interrupciones no planificadas se deben a diversos factores, incluidos errores de software, cables de red y adaptadores de red.

Para mejorar la eficiencia, el equipo de Meta ha desarrollado una serie de herramientas y estrategias de optimización, incluida la reducción de los tiempos de inicio de la misión y de los puntos de control, el uso de la grabadora de vuelo NCCL de PyTorch para diagnosticar problemas de rendimiento, la identificación de tarjetas gráficas retrasadas, etc. Además, Meta también prestó atención al impacto de los factores ambientales, como el ligero impacto de las fluctuaciones de temperatura del mediodía en el rendimiento de la GPU y la enorme presión sobre la red eléctrica del centro de datos causada por el funcionamiento simultáneo de una gran cantidad de GPU.

Sin embargo, a medida que aumenta el número de parámetros de los modelos de inteligencia artificial, también aumentan los recursos informáticos necesarios. Tomando como ejemplo el grupo de 100.000 tarjetas gráficas H100 en el plan xAI, la tasa de fallas puede aumentar exponencialmente, lo que plantea mayores desafíos para el futuro entrenamiento de IA.

noticias

enfrentar el desafío? El metaentrenamiento Llama3 encuentra fallas

Introducción

Mi informacion de contacto