enfrentar o desafio? Meta treinamento Llama3 encontra falha

2024-07-29

A IT House informou em 28 de julho que um relatório de pesquisa divulgado pela Meta mostrou que os 16.384 clusters de placas gráficas NVIDIA H100 usados para treinar o modelo de 405 bilhões de parâmetros Llama 3 experimentaram 419 falhas inesperadas em 54 dias, em média a cada três horas. Entre eles, mais da metade das falhas são causadas pela placa gráfica ou pela sua memória de alta largura de banda (HBM3).

Devido à grande escala do sistema e ao alto grau de sincronização das tarefas, uma única falha na placa gráfica pode fazer com que toda a tarefa de treinamento seja interrompida e precise ser reiniciada. apesar disso,A equipe Meta ainda manteve mais de 90% do tempo efetivo de treinamento.

A IT House constatou que durante os 54 dias de pré-treinamento ocorreram um total de 466 interrupções de trabalho, das quais 47 foram interrupções planejadas e 419 foram interrupções inesperadas. As interrupções planejadas são devidas à manutenção automatizada, enquanto as interrupções não planejadas são devidas principalmente a problemas de hardware.Problemas de GPU são a principal causa de falhas, sendo responsáveis por 58,7% das interrupções não planejadas . Apenas três dos incidentes exigiram intervenção humana significativa, sendo os restantes geridos por automação.

Das 419 interrupções inesperadas, 148 (30,1%) foram causadas por diversas falhas de GPU (incluindo falhas de NVLink), enquanto 72 (17,2%) foram causadas por falhas de memória HBM3 da GPU. Curiosamente, apenas duas CPUs falharam em 54 dias. 41,3% das interrupções não planejadas são causadas por diversos fatores, incluindo erros de software, cabos de rede e adaptadores de rede.

Para melhorar a eficiência, a equipe Meta desenvolveu uma série de ferramentas e estratégias de otimização, incluindo redução do tempo de inicialização da missão e dos pontos de verificação, usando o gravador de voo NCCL da PyTorch para diagnosticar problemas de desempenho, identificar placas gráficas atrasadas, etc. Além disso, Meta também prestou atenção ao impacto de fatores ambientais, como o leve impacto das flutuações de temperatura do meio-dia no desempenho da GPU e a enorme pressão na rede elétrica do data center causada pela operação simultânea de um grande número de GPUs.

No entanto, à medida que o número de parâmetros dos modelos de inteligência artificial continua a aumentar, os recursos computacionais necessários também se expandem. Tomando como exemplo o cluster de 100.000 placas gráficas H100 no plano xAI, a taxa de falhas pode aumentar exponencialmente, representando desafios maiores para o treinamento futuro de IA.

notícias

enfrentar o desafio? Meta treinamento Llama3 encontra falha

Introdução

minhas informações de contato