notizia

Dojo dei mostri dell'IA!Il supercalcolo autosviluppato sfida NVIDIA

2024-08-05

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


L'articolo è ristampato su Xinzhiyuan

Per addestrare il Grok 3 più forte, xAI ha impiegato 19 giorni per costruire il cluster di supercalcolo più grande del mondo composto da 100.000 H100.


Anche in termini di addestramento dei robot FSD e Optimus Prime, Musk non ha badato a spese e ha investito molte risorse informatiche.

Il supercomputing Dojo è la pietra angolare dell'intelligenza artificiale di Tesla ed è appositamente costruito per l'addestramento delle reti neurali FSD.

Proprio oggi ha visitato il cluster di supercomputer di Tesla presso la Texas Super Factory (Cortex).

Musk ha dichiarato: "Si tratterà di un sistema con circa 100.000 GPU H100/H200 e dotato di spazio di archiviazione su larga scala per l'addestramento video della guida completamente autonoma (FSD) e dei robot Optimus".


Non solo, oltre alle GPU NVIDIA, questo cluster di supercalcolo è dotato anche di sistemi Tesla HW4, AI5 e Dojo.

Saranno alimentati e raffreddati da un grande sistema fino a 500 megawatt.



Al Tesla AI Day nel 2021, Musk ha annunciato per la prima volta Dojo.

Ormai sono passati tre anni, come procede la costruzione del Dojo?


1

8.000 H100 di potenza di calcolo equivalente, raddoppia la tua scommessa

Mezzo mese fa, gli utenti della rete affermavano che Tesla avrebbe avuto una potenza di calcolo per l'addestramento all'intelligenza artificiale entro la fine del 2024, equivalente alle prestazioni di un H100 del valore di 90.000 yuan.


Musk ha aggiunto qualcosa a questo:

Non utilizziamo solo GPU NVIDIA ma anche il nostro computer AI - Tesla HW4 AI (rinominato AI4) nel sistema di allenamento AI, con un rapporto di circa 1:2. Ciò significa che ci sono circa 90.000 H100, più circa 40.000 computer AI4.


Ha anche detto che entro la fine di quest'anno, Dojo 1 avrà una potenza di calcolo H100 equivalente a circa 8.000. Questa scala non è enorme, ma non è nemmeno piccola.


Cluster di supercalcolo Dojo D1

Infatti, nel giugno dello scorso anno, Musk rivelò che Dojo era online e svolgeva attività utili da diversi mesi.


Ciò implica già che Dojo sia stato coinvolto nella formazione per alcuni compiti.

Recentemente, alla conferenza sugli utili di Tesla, Musk ha affermato che Tesla si sta preparando a lanciare taxi a guida autonoma in ottobre e che il team AI "raddoppierà gli investimenti" nel Dojo.


Si prevede che la potenza di calcolo totale di Dojo raggiungerà i 100 exaflop nell'ottobre 2024.

Supponendo che un chip D1 possa raggiungere 362 teraflop, per raggiungere 100 exaflop, Tesla avrebbe bisogno di più di 276.000 chip D1 o più di 320.000 GPU Nvidia A100.


1

50 miliardi di transistor, D1 è stato messo in produzione

Al Tesla AI Day del 2021, è stato presentato per la prima volta il chip D1. Ha 50 miliardi di transistor ed è grande solo come un palmo.

Ha prestazioni potenti ed efficienti e può gestire rapidamente varie attività complesse.


Nel maggio di quest'anno, il chip D1 ha iniziato la produzione, utilizzando il nodo di processo a 7 nm di TSMC.

Ganesh Venkataramanan, ex direttore senior dell'hardware presso Autopilot, una volta disse: "D1 può eseguire calcoli e trasmettere dati allo stesso tempo, adotta un'architettura di set di istruzioni ISA personalizzata ed è completamente ottimizzato per i carichi di lavoro di apprendimento automatico".

Questo è un chip di puro apprendimento automatico.


Nonostante ciò, il D1 non è ancora potente come la Nvidia A100, anch'essa prodotta utilizzando il processo a 7 nm di TSMC.

D1 colloca 50 miliardi di transistor su un chip da 645 millimetri quadrati, mentre l'A100 contiene 54 miliardi di transistor, ha una dimensione del chip di 826 millimetri quadrati ed è superiore a D1 in termini di prestazioni.

Per ottenere una maggiore larghezza di banda e potenza di calcolo, il team AI di Tesla ha integrato 25 chip D1 in un unico riquadro e lo ha gestito come un sistema informatico unificato.

Ogni riquadro ha 9 petaflop di potenza di calcolo, 36 terabyte al secondo di larghezza di banda e include hardware di alimentazione, raffreddamento e trasferimento dati.

Possiamo pensare ad una singola tessera come ad un computer autosufficiente composto da 25 minicomputer.


Utilizzando la tecnologia di interconnessione a livello di wafer InFO_SoW (Integrated Fan-Out, System-on-Wafer), 25 chip D1 sullo stesso wafer possono ottenere connessioni ad alte prestazioni e funzionare come un singolo processore.

Sei di queste tessere formano una rastrelliera e due rastrelliere formano un armadietto.

Dieci armadi costituiscono un ExaPOD.

All'AI Day 2022, Tesla ha affermato che Dojo si espanderà distribuendo più ExaPOD. Tutto questo combinato costituisce un supercomputer.


I processori su scala wafer, come Dojo di Tesla e Wafer-Scale Engine WSE di Cerebras, sono molto più efficienti in termini di prestazioni rispetto ai multiprocessori.

I principali vantaggi del primo includono la comunicazione a larghezza di banda elevata e bassa latenza tra i core, una minore impedenza di rete e una maggiore efficienza energetica.

Attualmente, solo Tesla e Cerebras hanno progetti system-on-wafer.

Tuttavia, mettere insieme 25 chip pone problemi di tensione e sistemi di raffreddamento.


Gli utenti della rete hanno fotografato Tesla mentre costruiva un gigantesco sistema di raffreddamento in Texas

Una sfida intrinseca dei chip a livello wafer è che devono utilizzare la memoria su chip, che non è sufficientemente flessibile e potrebbe non essere adatta a tutti i tipi di applicazioni.

Tom's Hardware prevede che la tecnologia di prossima generazione potrebbe essere CoW_SoW (Chip-on-Wafer), che esegue l'impilamento 3D su piastrelle e integra la memoria HBM4.

Inoltre, Tesla sta anche sviluppando il chip D2 di prossima generazione per risolvere il problema del flusso di informazioni.

Invece di collegare i singoli chip, D2 posiziona l’intera tessera Dojo su un singolo wafer di silicio.

Entro il 2027, si prevede che TSMC fornirà sistemi a livello di wafer più complessi e si prevede che la potenza di calcolo aumenterà di oltre 40 volte.

Dal rilascio di D1, Tesla non ha rivelato lo stato dell'ordine dei chip D1 che ha ordinato o si aspetta di ricevere, né il programma specifico di implementazione del supercomputer Dojo.

Tuttavia, nel giugno di quest’anno, Musk ha affermato che nei prossimi 18 mesi, metà dell’hardware AI di Tesla verrà implementato e l’altra metà sarà Nvidia/altro hardware.

Altro hardware, possibilmente AMD.


1

Perché è necessario il Dojo

La guida autonoma consuma potenza di calcolo

A nostro avviso, l'attività principale di Tesla è limitata alla produzione di veicoli elettrici, con l'aggiunta di alcuni pannelli solari e sistemi di accumulo dell'energia.

Ma Musk si aspetta molto di più da Tesla.

La maggior parte dei sistemi di guida autonoma, come Waymo, una filiale della società madre di Google Alphabet, si basano ancora su sensori tradizionali come input, come radar, lidar e telecamere.

Ma Tesla segue un percorso di “visione completa”. Si affida solo alle telecamere per acquisire dati visivi, integrarli con mappe ad alta definizione per il posizionamento e quindi utilizzare le reti neurali per elaborare i dati per prendere decisioni rapide sulla guida autonoma.


Intuitivamente è ovvio che il primo sia il percorso più semplice e veloce, e in effetti è così.

Waymo ha commercializzato la guida autonoma L4, ovvero un sistema in grado di guidare da solo senza intervento umano in determinate condizioni definite da SAE. Ma la rete neurale FSD (Full Self-Driving) di Tesla non può ancora essere separata dal funzionamento umano.

Andrej Karpathy, che un tempo era capo dell'intelligenza artificiale presso Tesla, ha affermato che l'implementazione della FSD equivale fondamentalmente a "costruire un animale artificiale da zero".

Possiamo pensarlo come una replica digitale della corteccia visiva umana e delle funzioni cerebrali. L’FSD non solo deve raccogliere ed elaborare continuamente dati visivi, identificare e classificare gli oggetti attorno al veicolo, ma deve anche avere una velocità decisionale paragonabile a quella umana.



Si può vedere che Musk vuole qualcosa di più di un semplice sistema di guida autonoma redditizio. Il suo obiettivo è creare una nuova intelligenza.

Ma fortunatamente non deve preoccuparsi dell’insufficienza dei dati. Circa 1,8 milioni di persone attualmente pagano la quota di abbonamento di 8.000 dollari per FSD (in precedenza poteva essere di 15.000 dollari), il che significa che Tesla può raccogliere milioni di miglia di video di guida per l’addestramento.

In termini di potenza di calcolo, il supercomputer Dojo è il campo di addestramento per FSD. Il suo nome cinese può essere tradotto come "dojo", un riferimento allo spazio di pratica delle arti marziali.

NVIDIA non è abbastanza buona

Quanto sono popolari le GPU NVIDIA? Basta vedere quanto gli amministratori delegati dei grandi colossi tecnologici vogliono avvicinarsi ai vecchi gangster.

Anche se ricco come Musk, ha ammesso durante la conferenza sugli utili di luglio di essere “molto preoccupato” che Tesla potrebbe non essere in grado di utilizzare abbastanza GPU Nvidia.

"Quello che stiamo vedendo è che la domanda di hardware Nvidia è così alta che spesso è difficile ottenere GPU."


Al momento, Tesla sembra utilizzare ancora l'hardware di Nvidia per fornire potenza di calcolo a Dojo, ma Musk sembra non voler mettere tutte le sue uova nello stesso paniere.

Soprattutto considerando che il premio dei chip Nvidia è così alto e le prestazioni non sono del tutto soddisfacenti per Musk.

In termini di sinergia hardware e software, Tesla e Apple hanno opinioni simili, vale a dire che dovrebbe essere raggiunto un alto grado di sinergia tra i due, soprattutto per un sistema altamente specializzato come FSD, che dovrebbe eliminare GPU altamente standardizzate e utilizzare hardware personalizzato.

Il fulcro di questa visione è il chip D1 proprietario di Tesla, che sarà rilasciato nel 2021 e sarà prodotto da TSMC nel maggio di quest’anno.


Inoltre, Tesla sta anche sviluppando il chip D2 di prossima generazione, sperando di mettere l’intero blocco Dojo su un singolo chip di silicio per risolvere il collo di bottiglia del flusso di informazioni.

Nel rapporto sugli utili del secondo trimestre, Musk ha osservato di aver visto "un altro modo per competere con Nvidia attraverso Dojo".

1

Il Dojo può avere successo?

Anche se è fiducioso come Musk, quando parla di Dojo esiterà a dire che Tesla potrebbe non avere successo.

A lungo termine, lo sviluppo di un proprio hardware di supercalcolo potrebbe aprire nuovi modelli di business per il settore dell’intelligenza artificiale.

Musk ha affermato che la prima versione di Dojo sarà personalizzata per l'annotazione e l'addestramento dei dati visivi di Tesla, che sarà molto utile per l'FSD e per l'addestramento del robot umanoide Optimus di Tesla.

Le versioni future saranno più adatte per la formazione generale sull'intelligenza artificiale, ma ciò coinvolgerà inevitabilmente il software fossato di Nvidia.


Quasi tutto il software AI è progettato per funzionare con le GPU NVIDIA e utilizzare Dojo significa riscrivere l'intero ecosistema AI, inclusi CUDA e PyTorch.

Ciò significa che Dojo ha quasi una sola via d'uscita: affittare la potenza di calcolo e costruire una piattaforma di cloud computing simile ad AWS e Azure.

Morgan Stanley aveva previsto in un rapporto dello scorso settembre che Dojo avrebbe potuto sbloccare nuovi flussi di entrate sotto forma di robotaxi e servizi software, aggiungendo 500 miliardi di dollari al valore di mercato di Tesla.

In breve, a giudicare dall'attuale attenta allocazione dell'hardware da parte di Musk, Dojo non è una "mossa disperata" ma più simile a una doppia assicurazione. Ma una volta ottenuto il successo, si possono ottenere anche enormi dividendi.

Riferimenti:

https://techcrunch.com/2024/08/03/tesla-dojo-elon-musks-big-plan-to-build-an-ai-supercomputer-explained/

https://www.tomshardware.com/tech-industry/teslas-dojo-system-on-wafer-is-in-production-a-serious-processor-for-serious-ai-workloads


Fare clic su "" e andiamo