Musk pega 100.000 H100 para construir o supercomputador de IA mais poderoso do mundo, e o treinamento do modelo da próxima geração começa

2024-07-23

Mingmin vem do Templo Aofei
Qubits | Conta pública QbitAI

Musk construiu o cluster de IA mais poderoso do mundo!

A notícia explosiva foi anunciada oficialmente pelo próprio Lao Ma no Twitter.

Às 4h20, horário local, o superaglomerado de Memphis construído em conjunto por xAI, X e NVIDIA começou a treinar.
Isso consiste deComposto por 100.000 peças de H100, é atualmente o cluster de treinamento mais forte do mundo!

Esta escala ultrapassou em muito o Frontier, o supercomputador mais poderoso do mundo.

Os membros fundadores do xAI continuaram dizendo:

Quando fundamos esta empresa, há um ano, nosso objetivo era alcançar três vantagens: vantagem de dados, vantagem de talento e vantagem computacional.
A partir de hoje, temos os três!

Na postagem de Musk, a Supermicro, que tem laços estreitos com a Nvidia e é especializada em tecnologia de refrigeração líquida, também enviou parabéns. Seu fundador, Charles Liang, disse:

É ótimo estarmos fazendo história com Musk.

Ao mesmo tempo, Musk acrescentou que a conclusão do cluster proporcionará vantagens significativas para o treinamento do modelo mais forte do mundo neste ano.

De acordo com declarações anteriores, são necessários 100.000 H100s para treinar o Grok-3.

△ Foto aérea do cluster

Mais do que isso, em junho deste ano, ele mencionou que não valia a pena investir 1GW de potência no H100. No próximo verão, um cluster composto por 300.000 B200 poderá ser colocado em uso.

Clusters autoconstruídos são mais confiantes

Em maio deste ano, The Information informou que Musk construiria um cluster de supercomputação composto por 100.000 H100 até o outono de 2025 e cooperaria com a Oracle.

É relatado que a xAI investirá US$ 10 bilhões para alugar servidores Oracle.

Naquela época, algumas pessoas ainda questionavam por que seria construído no próximo ano, mas ainda utilizava a tecnologia da geração anterior?

A NVIDIA lançou o B100 e o B200 baseados na nova arquitetura Blackwell, que pode treinar modelos grandes com muito mais eficiência do que o H100.

Olhando agora, talvez a hora do noticiário esteja errada? Seria muito mais razoável se fosse concluído este ano.

Recentemente, Musk respondeu à notícia do encerramento da cooperação com a Oracle para construir clusters de supercomputação.

Ele disse que a xAI recebeu 24.000 recursos H100 da Oracle para treinar o Grok-2. Notícias relevantes provam que a cooperação de aluguel de servidores entre xAI e Oracle ainda continua.

Porém, na construção do cluster H100 de 100.000 placas, escolhemos o modelo autoconstruído e o promovemos o mais rápido possível. Diz-se que foram necessários apenas 19 dias para instalar 100.000 placas.

Temos que assumir o volante nós mesmos.

Notícias posteriores mostraram que Dell e Super Micro se tornaram os novos parceiros de Musk.

O CEO da Dell e o CEO da Supermicro twittaram recentemente que a cooperação está em andamento e incluíram fotos do data center.

Durante o processo de construção do cluster, Musk visitou pessoalmente o local.

Ao mesmo tempo, também foi revelado no Twitter que Grok está treinando em Memphis e que Grok-2 será lançado em agosto.

Vale ressaltar que a Oracle já havia levantado preocupações sobre o fornecimento de energia no local onde o cluster foi estabelecido.

Segundo estimativas, 100.000 unidades H100 requerem 150 megawatts de energia alocados na rede, mas Musk parece ter resolvido esse problema.

As últimas notícias mostram que o cluster atual obteve temporariamente 8 megawatts. Após a assinatura do acordo, em 1º de agosto, serão obtidos 50 MW. Existem agora 32.000 cartões online e estarão 100% online no quarto trimestre – o suficiente para apoiar operações de treinamento de modelos em escala GPT-5.

Resumindo, o que é certo é que todos os gigantes da IA acreditam que é mais confiável ter o poder da computação em suas próprias mãos, e vale a pena gastar muito dinheiro para isso.

De acordo com estimativas de custos, o preço de cada H100 é de cerca de US$ 30.000-40.000. O cluster de supercomputação de Musk valerá 4 mil milhões de dólares (equivalente a mais de 29 mil milhões de RMB).

Notícias anteriores diziam que a Microsoft e a OpenAI estão desenvolvendo um projeto de data center de US$ 100 bilhões chamado “Stargate”.

Segundo pessoas a par do assunto, está sendo fechado um acordo entre Oracle e Microsoft envolvendo 100 mil B200s. O cluster poderá estar pronto no próximo verão.

Além disso, a Meta também foi exposta a ter clusters de supercomputação de luxo, e fornecedores de nuvem como a AWS também investiram mais em data centers.

Referências:
[1]https://x.com/elonmusk/status/1810727394631950752
[2]https://x.com/elonmusk/status/1815325410667749760
[3]https://x.com/dylan522p/status/1815494840152662170
[4]https://x.com/MichaelDell/status/1803385185984974941

notícias

Musk pega 100.000 H100 para construir o supercomputador de IA mais poderoso do mundo, e o treinamento do modelo da próxima geração começa

Introdução

minhas informações de contato