notizia

Inizia la battaglia dell'IA per l'egemonia! OpenAI costruisce urgentemente 100.000 supercomputer GB200, i 100.000 H100 di Musk inizieranno l'addestramento alla fine del mese

2024-07-16

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


Nuovo rapporto sulla saggezza

Editore: Taozi

[Introduzione alla Nuova Saggezza] Musk ha annunciato ufficialmente che il più grande cluster di supercalcolo al mondo costruito da xAI è composto da 100.000 H100 e si prevede che inizierà la formazione alla fine di questo mese. D’altro canto, OpenAI aumenta nuovamente i suoi investimenti e costruirà un supercomputer composto da 100.000 GB200 per annientare completamente xAI.

Per raggiungere l'AGI, le aziende di tutto il mondo si stanno preparando a bruciare tutte le GPU!

Le informazioni riportano esclusivamente che il prossimo cluster di supercalcolo di OpenAI sarà composto da 100.000 blocchi GB200.

Questo utilizza il chip AI più potente di Nvidia fino ad oggi.


D'altra parte, xAI sta anche costruendo quello che è noto come "il più grande cluster di supercalcolo del mondo", composto da 100k H100, e sarà messo in formazione alla fine di questo mese.

Nell'ultimo post di Musk, ha immediatamente risposto alle notizie secondo cui xAI e Oracle avevano interrotto le trattative per l'accordo sui server.


Ha detto che xAI ha acquistato 24.000 H100 da Oracle e ha addestrato Grok 2 su questi chip.

Grok 2 è attualmente in fase di messa a punto e correzione di bug e dovrebbe essere pronto per il rilascio il mese prossimo. Allo stesso tempo, xAI sta anche costruendo un cluster di 100.000 H100. L'obiettivo è raggiungere il tempo di completamento della formazione più rapido e prevede di avviare i modelli di formazione entro la fine del mese. Questo diventerà il cluster di formazione più forte al mondo e i suoi vantaggi sono evidenti. Il motivo per cui abbiamo deciso di costruire noi stessi 100.000 sistemi di chip H100, così come la prossima generazione di sistemi principali, è che la nostra competitività principale dipende dall’essere più veloci di altre società di intelligenza artificiale. Questo è l’unico modo per raggiungere i tuoi concorrenti. Oracle è un'azienda eccellente e c'è anche un'altra azienda (che allude a Microsoft) che mostra un grande potenziale partecipando al progetto cluster GB200 di OpenAI. Ma quando il nostro destino dipende dall’essere l’azienda più veloce, dobbiamo assumerci la responsabilità, non limitarci a restare spettatori.


Insomma, in quest’era in continua evoluzione, se vuoi superare i tuoi concorrenti, devi assicurarti un vantaggio assoluto in termini di velocità.

xAI Oracle crolla, decine di miliardi di dollari sprecati

Nel maggio di quest'anno, Information ha riferito che xAI stava discutendo un accordo pluriennale per noleggiare i chip AI Nvidia da Oracle.

Si prevedeva che l'accordo valesse fino a 10 miliardi di dollari, ma si è bloccato a causa di alcuni problemi.

Tra questi, Musk richiede che la velocità di costruzione del supercomputer superi completamente l'immaginazione di Oracle. Oracle teme inoltre che la posizione preferita di xAI non disponga di energia sufficiente.


Per cambiare questa situazione, possiamo fare affidamento solo sulla fiducia in noi stessi.

Ora, xAI sta costruendo il proprio data center AI a Memphis, nel Tennessee, che utilizza chip Nvidia forniti da Dell e Supermicro.

Oracle non è coinvolta nel progetto, secondo le persone coinvolte nelle trattative.

In effetti, prima di allora, xAI aveva noleggiato molti chip Nvidia da Oracle ed era diventato uno dei maggiori clienti di questo fornitore di GPU per cloud computing.

Per ora l’accordo dovrebbe andare avanti nonostante il fallimento di negoziati più ampi.

Dall'ultima risposta di Musk si evince che il numero di chip Oracle è aumentato da 16.000 di maggio a 24.000.

100.000 pezzi di connessione serie H100

Tuttavia, Musk spera ancora di costruire un supercomputer dotato di 100.000 GPU Nvidia, definendolo la "Gigafactory of Compute".


Ha detto che xAI ha bisogno di più chip per addestrare il modello AI di prossima generazione: Grok 3.0.

Lao Ma ha detto agli investitori a maggio che spera di rendere operativo il supercomputer entro l’autunno del 2025 e che sarà personalmente responsabile della consegna del supercomputer in tempo perché è fondamentale per lo sviluppo del LLM.

Ha dichiarato pubblicamente più volte che tra pochi mesi sarà online un cluster di formazione raffreddato a liquido composto da 100.000 H100.


Il motivo per cui l'iterazione del modello Grok è importante è perché fa parte del pacchetto di abbonamento dell'app X Social, che parte da $ 8 al mese e include una varietà di funzionalità.

Proprio la scorsa settimana, xAI ha anche pubblicato una foto di Musk e altri dipendenti nel data center. Sullo sfondo dietro la foto ci sono dei server.


Anche se la località non è stata specificata nel post. Ma a giugno, il presidente della Greater Memphis Chamber ha affermato che xAI stava costruendo un supercomputer nello stabilimento Electrolux di Memphis.


Layout di utilità della nuova struttura xAI a Memphis, Tennessee

Il CEO di Dell, Micael Dell, ha affermato che Dell sta aiutando xAI a costruire un data center.


Inoltre, il CEO di Supermicro Charles Liang ha anche pubblicato una foto di se stesso e Musk nel data center, che ha confermato anche la partnership dell'azienda con xAI.


Vale la pena ricordare che il mese scorso Musk ha annunciato che xAI aveva completato l’incredibile somma di 6 miliardi di dollari in finanziamenti di serie B, con una valutazione della società che raggiungeva i 24 miliardi di dollari.

Gli investitori nei finanziamenti di serie B includono 8 investitori tra cui Andreessen Horowitz, Sequoia Capital, Valor Equity Partners, Vy Capital e Fidelity Management & Research.


Lui stesso ha affermato che nell'ultima tornata di finanziamenti la maggior parte dei fondi sarà investita nella costruzione di potenza di calcolo.


Ovviamente, il progetto di supercalcolo realizzato da xAI fa parte dei suoi sforzi per raggiungere OpenAI.

Supercomputer da 100.000 GB200, affittati per 5 miliardi di dollari per due anni

D’altro canto, anche OpenAI sta accelerando incessantemente la velocità di ricerca e sviluppo, senza osare rallentare.

Due persone a conoscenza della questione hanno rivelato che l'accordo di Oracle con Microsoft riguarda un cluster di 100.000 futuri chip GB200 di Nvidia.

Quando questo supercomputer sarà costruito, i 100.000 H100 di Musk non varranno nulla.


Alcuni netizen hanno affermato che il numero di chip Nvidia GB200 nel cluster è più o meno equivalente al numero di transistor nel processore Intel 80286. Sono sorpreso di vedere questa scena nella mia vita.


Qualcun altro lo ha analizzato e ha detto: "Le prestazioni di allenamento del GB200 saranno 4 volte quelle dell'H100".

GPT-4 è stato addestrato utilizzando 25.000 A100 (il predecessore di H100) in 90 giorni. Quindi in teoria potresti addestrare GPT-4 in meno di 2 giorni con 100.000 GB200, anche se questo è in condizioni ideali e potrebbe non essere del tutto realistico. Ma fa immaginare alle persone che tipo di modelli di intelligenza artificiale possono addestrare in 90 giorni utilizzando questo cluster di supercomputer, che dovrebbe essere messo in funzione nel secondo trimestre del 2025.


Alla conferenza GTC 2024, Lao Huang una volta ha introdotto che H100 è 4 volte più veloce di A100 e B200 è 3 volte più veloce di H100.


Supponendo che le due società firmino un accordo pluriennale, il costo del noleggio di un tale cluster potrebbe raggiungere circa 5 miliardi di dollari in due anni, secondo persone che hanno familiarità con i prezzi del cloud GPU.

Si prevede che questo cluster sarà pronto nel secondo trimestre del 2025.

Oracle acquisterà i chip da Nvidia e li affitterà a Microsoft, che poi li fornirà a OpenAI. Dopotutto, questa è diventata una pratica coerente di reciproco vantaggio tra Microsoft e OpenAI.

Microsoft investe denaro in OpenAI e in cambio ottiene l'accesso a nuovi modelli OpenAI.


Secondo le persone coinvolte nella pianificazione, Oracle prevede di collocare i chip in un data center ad Abilene, in Texas.

L'accordo dimostra anche che la stessa Microsoft non riesce ad ottenere abbastanza chip Nvidia.

Inoltre, non è comune che i fornitori di cloud computing affittino server gli uni dagli altri, ma la forte domanda di chip Nvidia ha portato a questa transazione insolita.

L'anno scorso, Microsoft ha raggiunto un accordo simile per i server in leasing con CoreWeave per aumentare la capacità dei server Nvidia.

Riferimenti:

Italiano: https://x.com/elonmusk/status/181072739463195075

Italiano: https://x.com/amir/status/1810722841106821623