Musk si aggiudica 100.000 H100 per costruire il supercomputer IA più potente del mondo e inizia l'addestramento dei modelli di prossima generazione

Musk ottiene 100.000 H100 per costruire il supercomputer AI più potente del mondo e inizia l'addestramento dei modelli di prossima generazione

2024-07-23

Mingmin viene dal Tempio Aofei
Qubit |. Account pubblico QbitAI

Musk ha costruito il cluster AI più potente del mondo!

La notizia esplosiva è stata annunciata ufficialmente dallo stesso Lao Ma su Twitter.

Alle 4:20 ora locale, il supercluster di Memphis costruito congiuntamente da xAI, X e NVIDIA ha iniziato l'addestramento.
Esso consiste inComposto da 100.000 pezzi H100, è attualmente il cluster di formazione più forte al mondo!

Questa scala ha superato di gran lunga Frontier, il supercomputer più potente del mondo.

I membri fondatori di xAI hanno proseguito dicendo:

Quando abbiamo fondato questa azienda un anno fa, il nostro obiettivo era ottenere tre vantaggi: vantaggio dei dati, vantaggio del talento e vantaggio dell'informatica.
Da oggi li abbiamo tutti e tre!

Sotto il post di Musk, anche Supermicro, che ha stretti legami con Nvidia ed è specializzato nella tecnologia di raffreddamento a liquido, ha inviato congratulazioni. Il suo fondatore, Charles Liang, disse:

È fantastico che stiamo facendo la storia con Musk.

Allo stesso tempo, Musk ha aggiunto che il completamento del cluster fornirà vantaggi significativi per la formazione del modello più forte del mondo entro quest'anno.

Secondo le dichiarazioni precedenti, per addestrare Grok-3 sarebbero necessari 100.000 H100.

△Cluster di ripresa dall'alto

Inoltre, nel giugno di quest’anno, ha affermato che non valeva la pena investire 1 GW di energia per H100. La prossima estate potrebbe essere messo in funzione un cluster composto da 300.000 B200.

I cluster autocostruiti sono più sicuri

Nel maggio di quest'anno, The Information ha riferito che Musk avrebbe costruito un cluster di supercalcolo composto da 100.000 H100 entro l'autunno del 2025 e avrebbe collaborato con Oracle.

È stato riferito che xAI investirà 10 miliardi di dollari per affittare i server Oracle.

A quel tempo, alcune persone si chiedevano ancora perché sarebbe stato costruito l'anno prossimo ma utilizzasse ancora la tecnologia della generazione precedente?

NVIDIA ha lanciato B100 e B200 basati sulla nuova architettura Blackwell, che può addestrare modelli di grandi dimensioni in modo molto più efficiente rispetto all'H100.

Guardandolo ora, forse l'ora nelle notizie è sbagliata? Sarebbe molto più ragionevole se venisse completato quest’anno.

Proprio di recente, Musk ha risposto alla notizia della fine della cooperazione con Oracle per costruire cluster di supercalcolo.

Ha detto che xAI ha ricevuto 24.000 risorse H100 da Oracle per addestrare Grok-2. Notizie rilevanti dimostrano che la collaborazione per il noleggio di server tra xAI e Oracle continua ancora.

Tuttavia, nella costruzione del cluster H100 da 100.000 carte, abbiamo scelto il modello autocostruito e lo abbiamo promosso il più rapidamente possibile. Si dice che ci siano voluti solo 19 giorni per installare 100.000 carte.

Dobbiamo prendere noi stessi il volante.

Notizie successive hanno mostrato che Dell e Super Micro sono diventati i nuovi partner di Musk.

Il CEO di Dell e il CEO di Supermicro hanno entrambi recentemente twittato che la cooperazione è in corso e hanno incluso foto del data center.

Durante il processo di costruzione del cluster, Musk ha visitato personalmente il sito.

Allo stesso tempo, su Twitter è stato anche rivelato che Grok si sta allenando a Memphis e che Grok-2 verrà lanciato ad agosto.

Vale la pena ricordare che Oracle aveva precedentemente sollevato preoccupazioni circa l'alimentazione elettrica nel luogo in cui è stato stabilito il cluster.

Secondo le stime, 100.000 unità H100 richiedono 150 megawatt di potenza assegnata dalla rete, ma Musk sembra aver risolto questo problema.

Le ultime notizie mostrano che l'attuale cluster ha ottenuto temporaneamente 8 megawatt. Dopo la firma dell'accordo il 1° agosto si otterranno 50 MW. Ora ci sono 32.000 carte online e saranno online al 100% nel quarto trimestre, sufficienti per supportare le operazioni di formazione sul modello in scala GPT-5.

In breve, quello che è certo è che tutti i giganti dell’intelligenza artificiale credono che sia più affidabile tenere nelle proprie mani la potenza di calcolo, e vale la pena spendere soldi folli per questo.

Secondo le stime dei costi, il prezzo di ciascun H100 è di circa 30.000-40.000 dollari. Il cluster di supercalcolo di Musk varrà 4 miliardi di dollari (equivalenti a oltre 29 miliardi di RMB).

Notizie precedenti dicevano che Microsoft e OpenAI stavano sviluppando un progetto di data center da 100 miliardi di dollari chiamato "Stargate".

Secondo fonti informate sarebbe in fase di definizione un accordo tra Oracle e Microsoft per 100.000 B200. Il cluster potrebbe essere pronto entro la prossima estate.

Inoltre, è stato dimostrato che Meta possiede cluster di supercalcolo di lusso e anche i fornitori di cloud come AWS hanno investito di più nei data center.

Riferimenti:
[1]https://x.com/elonmusk/status/1810727394631950752
[2]https://x.com/elonmusk/status/1815325410667749760
[3]https://x.com/dylan522p/status/1815494840152662170
[4]https://x.com/MichaelDell/status/1803385185984974941

notizia

Musk ottiene 100.000 H100 per costruire il supercomputer AI più potente del mondo e inizia l'addestramento dei modelli di prossima generazione

introduzione

le mie informazioni di contatto