nouvelles

relever le défi ? La méta-formation Llama3 rencontre un échec

2024-07-29

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

IT House a rapporté le 28 juillet qu'un rapport de recherche publié par Meta montrait que les 16 384 clusters de cartes graphiques NVIDIA H100 utilisés pour entraîner le modèle de 405 milliards de paramètres Llama 3 avaient connu 419 pannes inattendues en 54 jours, en moyenne une fois toutes les trois heures. Parmi elles, plus de la moitié des pannes sont provoquées par la carte graphique ou sa mémoire à haut débit (HBM3).


En raison de la grande échelle du système et du haut degré de synchronisation des tâches, une seule panne de carte graphique peut entraîner l'interruption de l'ensemble de la tâche de formation et nécessiter son redémarrage. malgré cela,L'équipe Meta a toujours maintenu un temps d'entraînement effectif de plus de 90 %.

IT House a remarqué qu'au cours de la pré-formation de 54 jours, un total de 466 interruptions de travail se sont produites, dont 47 étaient des interruptions planifiées et 419 étaient des interruptions inattendues. Les pannes planifiées sont dues à une maintenance automatisée, tandis que les pannes imprévues sont principalement dues à des problèmes matériels.Les problèmes de GPU sont la principale cause de pannes, représentant 58,7 % des pannes imprévues . Seuls trois des incidents ont nécessité une intervention humaine importante, le reste étant géré de manière automatisée.


Sur les 419 interruptions inattendues, 148 (30,1 %) étaient causées par diverses pannes du GPU (y compris des pannes NVLink), tandis que 72 (17,2 %) étaient causées par des pannes de mémoire HBM3 du GPU. Il est intéressant de noter que seuls deux processeurs sont tombés en panne en 54 jours. 41,3 % des pannes imprévues sont causées par divers facteurs, notamment des erreurs logicielles, des câbles réseau et des adaptateurs réseau.

Pour améliorer l'efficacité, l'équipe Meta a développé une série d'outils et de stratégies d'optimisation, notamment en raccourcissant les temps de démarrage et de point de contrôle des missions, en utilisant l'enregistreur de vol NCCL de PyTorch pour diagnostiquer les problèmes de performances, en identifiant les cartes graphiques en retard, etc. En outre, Meta a également prêté attention à l'impact des facteurs environnementaux, tels que le léger impact des fluctuations de température à midi sur les performances du GPU et l'énorme pression sur le réseau électrique du centre de données causée par le fonctionnement simultané d'un grand nombre de GPU.

Cependant, à mesure que le nombre de paramètres des modèles d’intelligence artificielle continue d’augmenter, les ressources informatiques requises augmentent également. En prenant comme exemple le cluster de 100 000 cartes graphiques H100 du plan xAI, le taux d'échec pourrait augmenter de façon exponentielle, posant de plus grands défis à la future formation en IA.