notícias

Musk construiu o cluster de IA mais poderoso do mundo em 19 dias! O "monstro refrigerado a líquido" H100 de 100.000 yuans está prestes a despertar

2024-07-23

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


Novo Relatório de Sabedoria

Editor: Departamento Editorial

[Introdução à Nova Sabedoria]A construção do H100 com refrigeração líquida de 100.000 peças começou oficialmente e Musk construiu o cluster de treinamento de IA mais forte do mundo em 19 dias.

Às 4h20 da manhã, o maior cluster de treinamento de supercomputação do outro lado do oceano começou a rugir.


“420” também é o meme favorito de Musk, simbolizando liberdade, irrestrição e antitradição.

Musk frequentemente usa “420” nos preços de seus produtos, horários de reuniões da empresa e horários de lançamento de naves estelares, etc.

Os internautas também brincaram na área de comentários que Musk tem um grande senso de cerimônia e não começa a trabalhar antes das 4h20.


Na última entrevista, Musk revelou mais sobre o progresso dos novos supercomputadores e modelos xAI:

- Grok 2 completou o treinamento no mês passado, usando aproximadamente 15K H100

- Grok 2 será lançado no próximo mês, equivalente ao GPT-4 - Grok 3 está construindo 100.000 supercomputadores H100 com refrigeração líquida e iniciando o treinamento - Grok 3 deverá ser lançado em dezembro, "Ele se tornará o mais poderoso do mundo em então "Grande Inteligência Artificial"


100.000 peças de H100 refrigerado a líquido, concluídas em 19 dias

É importante notar que o maior cluster de supercomputação do mundo possui 100.000 H100s, que são refrigerados a líquido.


Qual é o conceito do H100 no valor de 100.000 yuans?

Em termos de preço, a GPU H100 é um componente chave da IA ​​e uma mercadoria importante no Vale do Silício. Estima-se que cada unidade custe entre 30.000 e 40.000 dólares americanos. 100.000 unidades de H100 são uma grande encomenda de 4 bilhões.

Um Ph.D. em aprendizado de máquina de uma das 5 melhores universidades dos Estados Unidos postou certa vez que o número de H100s no laboratório é 0 e as GPUs devem ser usadas com pressa.

Li Feifei também disse na entrevista que a equipe de processamento de linguagem natural de Stanford possui apenas 64 GPUs A100.

O preço de compra inicial de Musk foi de 100.000 yuans, um valor que fez salivar a seção de comentários.


Em termos de poder computacional, o poder computacional é cerca de 20 vezes maior que os 25.000 blocos A100 usados ​​pela OpenAI para treinar GPT4.

Em termos de consumo de energia, apenas para manter o funcionamento deste centro de supercomputação, a potência total necessária chega a 70MW, o que equivale à capacidade instalada de uma central eléctrica normal e pode satisfazer as necessidades energéticas de 200.000 pessoas.

Em maio deste ano, Musk afirmou que esperava construir uma “fábrica de supercomputadores” até o outono de 2025.

Parece agora que, para acelerar a construção do supercluster, ele optou por comprar a GPU H100 da geração atual em vez de esperar pela nova geração H200 ou outras GPUs B100 e B200 baseadas na Blackwell.

Embora o mercado espere que a nova GPU Blackwell para data center da Nvidia esteja disponível antes do final de 2024, Musk claramente não tem paciência para esperar.

A atual corrida armamentista de IA está se tornando cada vez mais acirrada, e a única coisa que importa é a velocidade. Quem conseguir lançar um produto mais rápido ocupará rapidamente o mercado.

Como empresa start-up, a xAI precisa assumir a liderança na batalha com outros gigantes.

Anteriormente, as dezenas de bilhões de pedidos de Musk e da Oracle desmoronaram. Musk não gostava da velocidade lenta da Oracle e acreditava que a outra parte não construía clusters de computação a uma velocidade viável.


A Oracle, por outro lado, sentiu que a seleção do local de supercomputação da xAI não poderia suportar a demanda de energia. À medida que as negociações para dezenas de bilhões de pedidos fracassaram, a xAI e a Oracle pararam de discutir a possibilidade de expandir a cooperação existente.

A xAI não teve escolha a não ser construir seu próprio data center de inteligência artificial em Memphis, Tennessee. O colapso da cooperação com a Oracle significou que a xAI teve que seguir sozinho e construir um data center independente com 100.000 H100s para se livrar das limitações do. capacidades de provedores de nuvem como a Oracle.

O próprio Musk disse que xAI tem o cluster de treinamento de IA mais forte do mundo, que está muito à frente.


O Grok-3 mais forte do mundo começa a treinar e será lançado até o final do ano

Na última entrevista de Musk, ele revelou alguns detalhes sobre a construção de um supercomputador.

De acordo com Ted Townsend, presidente da Câmara da Grande Memphis, Musk levou apenas cerca de uma semana para decidir construir o novo supercomputador da xAI em Memphis.

Após vários dias de negociações turbulentas em março, Musk e sua equipe escolheram a cidade do Tennessee por causa de seu poder abundante e capacidade de construção rápida, disse Townsend.

Além disso, foram necessários apenas 19 dias para construir o centro de supercomputação. Musk também elogiou o excelente trabalho da equipe em um tweet.


A Supermicro também fornece a maior parte do suporte de hardware para xAI, e seu CEO Charles Liang também comentou o tweet de Musk, elogiando as capacidades de execução da equipe.


O objetivo de um cluster de treinamento tão grande é treinar Grok 3.

No início deste mês, Musk anunciou o lançamento do Grok 2 no final de agosto. Embora o Grok-2 ainda não tenha sido lançado, Musk também revelou alguns detalhes do Grok-3 para dar impulso ao modelo mais poderoso, o Grok 3. .

Em entrevista a Nicolai Tangen, chefe do Fundo Soberano Norueguês, Musk disse em abril deste ano que o Grok 2 exigiria aproximadamente 20.000 H100s para treinamento.

Grok 3 será lançado no final do ano. É previsível que o desempenho do Grok 3 baseado em 100.000 treinamentos de GPU seja superior ao do Grok 2.

Um centro de supercomputação tão grande requer naturalmente o apoio de um grande número de talentos e tecnologia. Musk também continua a recrutar pessoas no Twitter para expandir ao extremo as vantagens dos dados, talentos e poder de computação.


Referências:

https://x.com/elonmusk/status/1815325410667749760

https://x.com/tsarnick/status/1815493761486708993