minhas informações de contato
Correspondência[email protected]
2024-07-23
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
Novo Relatório de Sabedoria
Editor: Departamento Editorial
[Introdução à Nova Sabedoria]A construção do H100 com refrigeração líquida de 100.000 peças começou oficialmente e Musk construiu o cluster de treinamento de IA mais forte do mundo em 19 dias.
Às 4h20 da manhã, o maior cluster de treinamento de supercomputação do outro lado do oceano começou a rugir.
“420” também é o meme favorito de Musk, simbolizando liberdade, irrestrição e antitradição.
Musk frequentemente usa “420” nos preços de seus produtos, horários de reuniões da empresa e horários de lançamento de naves estelares, etc.
Os internautas também brincaram na área de comentários que Musk tem um grande senso de cerimônia e não começa a trabalhar antes das 4h20.
Na última entrevista, Musk revelou mais sobre o progresso dos novos supercomputadores e modelos xAI:
- Grok 2 completou o treinamento no mês passado, usando aproximadamente 15K H100
- Grok 2 será lançado no próximo mês, equivalente ao GPT-4 - Grok 3 está construindo 100.000 supercomputadores H100 com refrigeração líquida e iniciando o treinamento - Grok 3 deverá ser lançado em dezembro, "Ele se tornará o mais poderoso do mundo em então "Grande Inteligência Artificial"
100.000 peças de H100 refrigerado a líquido, concluídas em 19 dias
É importante notar que o maior cluster de supercomputação do mundo possui 100.000 H100s, que são refrigerados a líquido.
Qual é o conceito do H100 no valor de 100.000 yuans?
Em termos de preço, a GPU H100 é um componente chave da IA e uma mercadoria importante no Vale do Silício. Estima-se que cada unidade custe entre 30.000 e 40.000 dólares americanos. 100.000 unidades de H100 são uma grande encomenda de 4 bilhões.
Um Ph.D. em aprendizado de máquina de uma das 5 melhores universidades dos Estados Unidos postou certa vez que o número de H100s no laboratório é 0 e as GPUs devem ser usadas com pressa.
Li Feifei também disse na entrevista que a equipe de processamento de linguagem natural de Stanford possui apenas 64 GPUs A100.
O preço de compra inicial de Musk foi de 100.000 yuans, um valor que fez salivar a seção de comentários.
Em termos de poder computacional, o poder computacional é cerca de 20 vezes maior que os 25.000 blocos A100 usados pela OpenAI para treinar GPT4.
Em termos de consumo de energia, apenas para manter o funcionamento deste centro de supercomputação, a potência total necessária chega a 70MW, o que equivale à capacidade instalada de uma central eléctrica normal e pode satisfazer as necessidades energéticas de 200.000 pessoas.
Em maio deste ano, Musk afirmou que esperava construir uma “fábrica de supercomputadores” até o outono de 2025.
Parece agora que, para acelerar a construção do supercluster, ele optou por comprar a GPU H100 da geração atual em vez de esperar pela nova geração H200 ou outras GPUs B100 e B200 baseadas na Blackwell.
Embora o mercado espere que a nova GPU Blackwell para data center da Nvidia esteja disponível antes do final de 2024, Musk claramente não tem paciência para esperar.
A atual corrida armamentista de IA está se tornando cada vez mais acirrada, e a única coisa que importa é a velocidade. Quem conseguir lançar um produto mais rápido ocupará rapidamente o mercado.
Como empresa start-up, a xAI precisa assumir a liderança na batalha com outros gigantes.
Anteriormente, as dezenas de bilhões de pedidos de Musk e da Oracle desmoronaram. Musk não gostava da velocidade lenta da Oracle e acreditava que a outra parte não construía clusters de computação a uma velocidade viável.
A Oracle, por outro lado, sentiu que a seleção do local de supercomputação da xAI não poderia suportar a demanda de energia. À medida que as negociações para dezenas de bilhões de pedidos fracassaram, a xAI e a Oracle pararam de discutir a possibilidade de expandir a cooperação existente.
A xAI não teve escolha a não ser construir seu próprio data center de inteligência artificial em Memphis, Tennessee. O colapso da cooperação com a Oracle significou que a xAI teve que seguir sozinho e construir um data center independente com 100.000 H100s para se livrar das limitações do. capacidades de provedores de nuvem como a Oracle.
O próprio Musk disse que xAI tem o cluster de treinamento de IA mais forte do mundo, que está muito à frente.
O Grok-3 mais forte do mundo começa a treinar e será lançado até o final do ano
Na última entrevista de Musk, ele revelou alguns detalhes sobre a construção de um supercomputador.
De acordo com Ted Townsend, presidente da Câmara da Grande Memphis, Musk levou apenas cerca de uma semana para decidir construir o novo supercomputador da xAI em Memphis.
Após vários dias de negociações turbulentas em março, Musk e sua equipe escolheram a cidade do Tennessee por causa de seu poder abundante e capacidade de construção rápida, disse Townsend.
Além disso, foram necessários apenas 19 dias para construir o centro de supercomputação. Musk também elogiou o excelente trabalho da equipe em um tweet.
A Supermicro também fornece a maior parte do suporte de hardware para xAI, e seu CEO Charles Liang também comentou o tweet de Musk, elogiando as capacidades de execução da equipe.
O objetivo de um cluster de treinamento tão grande é treinar Grok 3.
No início deste mês, Musk anunciou o lançamento do Grok 2 no final de agosto. Embora o Grok-2 ainda não tenha sido lançado, Musk também revelou alguns detalhes do Grok-3 para dar impulso ao modelo mais poderoso, o Grok 3. .
Em entrevista a Nicolai Tangen, chefe do Fundo Soberano Norueguês, Musk disse em abril deste ano que o Grok 2 exigiria aproximadamente 20.000 H100s para treinamento.
Grok 3 será lançado no final do ano. É previsível que o desempenho do Grok 3 baseado em 100.000 treinamentos de GPU seja superior ao do Grok 2.
Um centro de supercomputação tão grande requer naturalmente o apoio de um grande número de talentos e tecnologia. Musk também continua a recrutar pessoas no Twitter para expandir ao extremo as vantagens dos dados, talentos e poder de computação.
Referências:
https://x.com/elonmusk/status/1815325410667749760
https://x.com/tsarnick/status/1815493761486708993