Musk ha costruito il cluster IA più potente del mondo in 19 giorni! Il "mostro raffreddato a liquido" H100 da 100.000 yuan sta per risvegliarsi

2024-07-23

Nuovo rapporto sulla saggezza

Redattore: Dipartimento editoriale

[Introduzione alla Nuova Saggezza]La costruzione dell'H100 raffreddato a liquido da 100.000 pezzi è iniziata ufficialmente e Musk ha costruito il cluster di addestramento IA più potente al mondo in 19 giorni.

Alle 4:20 del mattino, il più grande cluster di supercalcolo dall'altra parte dell'oceano cominciò a ruggire.

"420" è anche il meme preferito di Musk, che simboleggia la libertà, la sfrenatezza e l'anti-tradizione.

Musk usa spesso "420" nei prezzi dei suoi prodotti, negli orari delle riunioni aziendali e degli orari di lancio delle astronavi, ecc.

I netizen hanno anche scherzato nell'area commenti dicendo che Musk ha un grande senso della cerimonia e non inizia a lavorare prima delle 4:20.

Nell'ultima intervista, Musk ha rivelato di più sui progressi dei nuovi supercomputer e dei modelli xAI:

- Grok 2 ha completato la formazione il mese scorso, utilizzando circa 15K H100

- Grok 2 sarà rilasciato il mese prossimo, equivalente a GPT-4 - Grok 3 sta costruendo 100.000 supercomputer H100 raffreddati a liquido e sta iniziando l'addestramento - Grok 3 dovrebbe essere rilasciato a dicembre, "Diventerà il più potente al mondo entro poi "Grande Intelligenza Artificiale"

100.000 pezzi di H100 raffreddato a liquido, completati in 19 giorni

Vale la pena notare che il cluster di supercalcolo più grande del mondo conta 100.000 H100 raffreddati a liquido.

Qual è il concetto di H100 del valore di 100.000 yuan?

In termini di prezzo, la GPU H100 è un componente chiave dell'intelligenza artificiale e una merce di tendenza nella Silicon Valley. Si stima che ogni unità costi tra i 30.000 e i 40.000 dollari USA. 100.000 unità di H100 rappresentano un grosso ordine di 4 miliardi.

Un dottorato in machine learning di una delle 5 migliori università degli Stati Uniti una volta ha affermato che il numero di H100 in laboratorio è 0 e che le GPU devono essere utilizzate in fretta.

Li Feifei ha anche affermato nell'intervista che il team di elaborazione del linguaggio naturale di Stanford ha solo 64 GPU A100.

Il prezzo di acquisto iniziale di Musk era di 100.000 yuan, una cifra che ha fatto venire l’acquolina in bocca alla sezione commenti.

In termini di potenza di calcolo, la potenza di calcolo è circa 20 volte quella dei 25.000 blocchi A100 utilizzati da OpenAI per addestrare GPT4.

In termini di consumo energetico, solo per mantenere il funzionamento di questo centro di supercalcolo, la potenza totale richiesta raggiunge i 70 MW, che equivale alla capacità installata di una normale centrale elettrica e può soddisfare il fabbisogno energetico di 200.000 persone.

Nel maggio di quest’anno, Musk ha dichiarato di sperare di costruire una “fabbrica di supercalcoli” entro l’autunno del 2025.

Sembra ora che, per accelerare la costruzione del super cluster, abbia scelto di acquistare l'attuale generazione di GPU H100 invece di aspettare la nuova generazione H200 o altre prossime GPU B100 e B200 basate su Blackwell.

Sebbene il mercato si aspetti che la nuova GPU per data center Blackwell di Nvidia sia disponibile prima della fine del 2024, Musk chiaramente non ha la pazienza di aspettare.

L’attuale corsa agli armamenti dell’intelligenza artificiale sta diventando sempre più feroce e l’unica cosa che conta è la velocità Chi riesce a lanciare un prodotto più velocemente occuperà rapidamente il mercato.

In quanto azienda start-up, xAI deve assumere un ruolo guida nella battaglia con altri giganti.

In precedenza, le decine di miliardi di ordini di Musk e Oracle andavano in pezzi. Musk non apprezzava la lentezza di Oracle e credeva che l'altra parte non costruisse cluster informatici a una velocità fattibile.

Oracle, d'altra parte, ha ritenuto che la scelta del sito di supercalcolo di xAI non potesse sostenere la domanda di energia. Quando le trattative per decine di miliardi di ordini si sono interrotte, xAI e Oracle hanno smesso di discutere la possibilità di espandere la cooperazione esistente.

xAI non ha avuto altra scelta che costruire il proprio data center di intelligenza artificiale a Memphis, nel Tennessee. La rottura della collaborazione con Oracle ha significato che xAI ha dovuto fare da sola e costruire un data center indipendente con 100.000 H100 per eliminare le limitazioni del sistema. capacità dei fornitori di servizi cloud come Oracle.

Lo stesso Musk ha affermato che xAI ha il cluster di addestramento AI più potente al mondo, che è molto più avanti.

Il Grok-3 più forte del mondo inizia l’allenamento e verrà rilasciato entro la fine dell’anno

Nell’ultima intervista di Musk, ha rivelato alcuni dettagli sulla costruzione di un supercomputer.

Secondo Ted Townsend, presidente della Greater Memphis Chamber, Musk ha impiegato solo circa una settimana per decidere di costruire il nuovo supercomputer di xAI a Memphis.

Dopo diversi giorni di frenetiche trattative a marzo, Musk e il suo team hanno scelto la città del Tennessee per la sua grande potenza e la capacità di costruire rapidamente, ha detto Townsend.

Inoltre, ci sono voluti solo 19 giorni per costruire il centro di supercalcolo. Musk ha anche elogiato l'eccellente lavoro del team in un tweet.

Supermicro fornisce anche la maggior parte del supporto hardware per xAI, e anche il suo CEO Charles Liang ha commentato il tweet di Musk, elogiando le capacità di esecuzione del team.

Lo scopo di un cluster di addestramento così ampio è addestrare Grok 3.

All'inizio di questo mese, Musk ha annunciato il lancio di Grok 2 alla fine di agosto. Mentre Grok-2 non è ancora stato rilasciato, Musk ha anche rivelato alcuni dettagli di Grok-3 per dare slancio al modello più potente, Grok 3. .

In un'intervista con Nicolai Tangen, capo del Fondo sovrano norvegese, Musk ha dichiarato nell'aprile di quest'anno che Grok 2 richiederebbe circa 20.000 H100 per l'addestramento.

Grok 3 uscirà alla fine dell'anno. È prevedibile che le prestazioni di Grok 3 basate su un training di 100.000 GPU saranno superiori a quelle di Grok 2.

Un centro di supercalcolo così enorme richiede naturalmente il supporto di un gran numero di talenti e di tecnologia. Musk continua inoltre a reclutare persone su Twitter per espandere all’estremo i vantaggi dei dati, del talento e della potenza di calcolo.

Riferimenti:

https://x.com/elonmusk/status/1815325410667749760

https://x.com/tsarnick/status/1815493761486708993

notizia

Musk ha costruito il cluster IA più potente del mondo in 19 giorni! Il "mostro raffreddato a liquido" H100 da 100.000 yuan sta per risvegliarsi

introduzione

le mie informazioni di contatto