notícias

A batalha da IA ​​pela hegemonia começa! OpenAI constrói urgentemente 100.000 supercomputadores GB200, 100.000 H100 de Musk começarão a treinar no final do mês

2024-07-16

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


Novo Relatório de Sabedoria

Editor: Taozi

[Introdução à Nova Sabedoria] Musk anunciou oficialmente que o maior cluster de supercomputação do mundo construído pela xAI é construído com 100.000 H100s e deve começar a treinar no final deste mês. Por outro lado, a OpenAI está novamente aumentando seu investimento e construirá um supercomputador composto de 100.000 GB200 para esmagar completamente o xAI.

Para alcançar a AGI, empresas ao redor do mundo estão se preparando para queimar todas as GPUs!

As informações relataram exclusivamente que o próximo cluster de supercomputação da OpenAI consistirá em 100.000 blocos GB200.

Isso usa o chip AI mais poderoso da Nvidia até o momento.


Por outro lado, a xAI também está a construir o que é conhecido como “o maior cluster de supercomputação do mundo”, composto por 100k H100, e será colocado em formação no final deste mês.

Na última postagem de Musk, ele respondeu imediatamente aos relatos de que xAI e Oracle haviam encerrado as negociações de acordo de servidor.


Ele disse que a xAI comprou 24.000 H100 da Oracle e treinou Grok 2 nesses chips.

Grok 2 está atualmente passando por ajustes e correções de bugs e deve estar pronto para lançamento no próximo mês. Ao mesmo tempo, a xAI também está construindo um cluster de 100.000 H100 por conta própria. O objetivo é atingir o tempo de conclusão de treinamento mais rápido e planeja iniciar modelos de treinamento ainda este mês. Este será o cluster de formação mais forte do mundo e as suas vantagens são evidentes. A razão pela qual decidimos construir nós próprios 100.000 sistemas de chips H100, bem como a próxima geração de sistemas importantes, é que a nossa principal competitividade depende de sermos mais rápidos do que outras empresas de IA. Esta é a única maneira de alcançar seus concorrentes. A Oracle é uma excelente empresa, e há outra empresa (aludindo à Microsoft) que também mostra grande potencial em participar no projeto de cluster GB200 da OpenAI. Mas quando o nosso destino depende de sermos a empresa mais rápida, temos de assumir o comando e não apenas sermos espectadores.


Em suma, nesta era em constante mudança, se quiser superar os seus concorrentes, deve garantir uma vantagem absoluta em velocidade.

xAI Oracle entra em colapso, dezenas de bilhões de dólares desperdiçados

Em maio deste ano, a Information informou que a xAI estava discutindo um acordo plurianual para alugar chips Nvidia AI da Oracle.

Esperava-se que o negócio valesse até US$ 10 bilhões, mas chegou a um impasse devido a alguns problemas.

Entre eles, Musk exige que a velocidade de construção de supercomputadores exceda completamente a imaginação da Oracle. A Oracle também está preocupada com o fato de o local preferido do xAI não ter energia suficiente.


Para mudar esta situação, só podemos confiar na autossuficiência.

Agora, a xAI está construindo seu próprio data center de IA em Memphis, Tennessee, que usa chips Nvidia fornecidos pela Dell e Supermicro.

A Oracle não está envolvida no projeto, segundo pessoas envolvidas nas negociações.

Na verdade, antes disso, a xAI havia alugado muitos chips Nvidia da Oracle e se tornou um dos maiores clientes deste fornecedor de GPU para computação em nuvem.

O acordo deverá prosseguir por enquanto, apesar do fracasso de negociações mais amplas.

Pela última resposta de Musk, pode-se ver que o número de chips Oracle aumentou de 16.000 em maio para 24.000.

100.000 peças de conexão da série H100

No entanto, Musk ainda espera construir um supercomputador equipado com 100 mil GPUs Nvidia, chamando-o de “Gigafábrica de Computação”.


Ele disse que o xAI precisa de mais chips para treinar o modelo de IA da próxima geração – Grok 3.0.

Lao Ma disse aos investidores em maio que espera ter o supercomputador operacional até o outono de 2025 e que será pessoalmente responsável pela entrega do supercomputador no prazo porque é crucial para o desenvolvimento do LLM.

Ele declarou publicamente diversas vezes que um cluster de treinamento refrigerado a líquido composto por 100.000 H100s estará online em alguns meses.


A razão pela qual a iteração do modelo Grok é importante é porque ele faz parte do pacote de assinatura do X Social App, que começa em US$ 8 por mês e inclui uma variedade de recursos.

Na semana passada, a xAI também divulgou uma foto de Musk e outros funcionários no data center. No fundo, atrás da foto, estão servidores.


Embora o local não tenha sido especificado no post. Mas em junho, o presidente da Câmara da Grande Memphis disse que a xAI estava construindo um supercomputador na fábrica da Electrolux em Memphis.


Layout de utilidade da nova instalação xAI em Memphis, Tennessee

O CEO da Dell, Micael Dell, disse que a Dell está ajudando a xAI a construir um data center.


Além disso, o CEO da Supermicro, Charles Liang, também postou uma foto sua e de Musk no data center, o que também confirmou a parceria da empresa com a xAI.


Vale ressaltar que no mês passado Musk anunciou que a xAI havia concluído impressionantes US$ 6 bilhões em financiamento da Série B, com a avaliação da empresa atingindo US$ 24 bilhões.

Os investidores no financiamento da Série B incluem 8 investidores, incluindo Andreessen Horowitz, Sequoia Capital, Valor Equity Partners, Vy Capital e Fidelity Management & Research.


Ele disse pessoalmente que na última rodada de financiamento, a maior parte dos fundos será investida na construção de energia computacional.


Obviamente, o projeto de supercomputação construído pela xAI faz parte de seus esforços para alcançar o OpenAI.

Supercomputador de 100.000 GB200, alugado por 5 bilhões de dólares por dois anos

Na verdade, por outro lado, a OpenAI também está acelerando ininterruptamente sua velocidade de pesquisa e desenvolvimento, sem ousar afrouxar.

Duas pessoas familiarizadas com o assunto revelaram que o acordo da Oracle com a Microsoft envolve um cluster de 100.000 chips GB200 da Nvidia.

Quando este supercomputador for construído, os 100.000 H100 de Musk não serão nada.


Alguns internautas exclamaram que o número de chips NVIDIA GB200 no cluster é aproximadamente equivalente ao número de transistores no processador Intel 80286. Estou surpreso ao ver essa cena durante minha vida.


Alguém analisou isso e disse: “O desempenho de treinamento do GB200 será 4 vezes maior que o do H100”.

O GPT-4 foi treinado usando 25.000 A100s (o antecessor do H100) em 90 dias. Então, em teoria, você poderia treinar o GPT-4 em menos de 2 dias com 100.000 GB200, embora isso esteja em condições ideais e possa não ser totalmente realista. Mas faz as pessoas imaginarem que tipo de modelos de IA podem treinar em 90 dias usando este cluster de supercomputadores, que deverá entrar em operação no segundo trimestre de 2025.


Na conferência GTC 2024, Lao Huang apresentou uma vez que o H100 é 4 vezes mais rápido que o A100 e o B200 é 3 vezes mais rápido que o H100.


Supondo que as duas empresas assinem um acordo plurianual, o custo de locação de tal cluster poderia chegar a cerca de US$ 5 bilhões em dois anos, de acordo com pessoas familiarizadas com os preços de nuvem de GPU.

Espera-se que este cluster esteja pronto no segundo trimestre de 2025.

A Oracle comprará chips da Nvidia e os alugará para a Microsoft, que então fornecerá os chips para a OpenAI. Afinal, esta se tornou uma prática consistente de benefício mútuo entre a Microsoft e a OpenAI.

A Microsoft investe dinheiro em OpenAI e em troca obtém acesso a novos modelos OpenAI.


A Oracle planeja colocar os chips em um data center em Abilene, Texas, segundo pessoas envolvidas no planejamento.

O acordo também mostra que a própria Microsoft não consegue chips Nvidia suficientes.

Além disso, não é comum que provedores de computação em nuvem aluguem servidores uns dos outros, mas a forte demanda por chips Nvidia levou a essa transação incomum.

No ano passado, a Microsoft chegou a um acordo semelhante de servidor alugado com a CoreWeave para aumentar a capacidade dos servidores Nvidia.

Referências:

https://x.com/elonmusk/status/181072739463195075

https://x.com/amir/status/1810722841106821623