Dojo monstre IA ! Les défis du supercalcul auto-développé NVIDIA

Dojo monstre IA !Le supercalcul auto-développé défie NVIDIA

2024-08-05

L'article est réimprimé dans Xinzhiyuan

Afin de former le Grok 3 le plus puissant, xAI a passé 19 jours à construire le plus grand cluster de calcul intensif au monde composé de 100 000 H100.

En termes de formation des robots FSD et Optimus Prime, Musk n'a également épargné aucune dépense et a investi beaucoup de ressources informatiques.

Supercomputing Dojo est la pierre angulaire de Tesla AI et est spécialement conçu pour la formation des réseaux neuronaux FSD.

Aujourd’hui encore, il a visité le cluster de supercalculateurs Tesla à la Texas Super Factory (Cortex).

Musk a déclaré : « Il s'agira d'un système doté d'environ 100 000 GPU H100/H200 et équipé d'un stockage à grande échelle pour la formation vidéo de la conduite entièrement autonome (FSD) et des robots Optimus. »

De plus, en plus des GPU NVIDIA, ce cluster de supercalcul est également équipé des systèmes Tesla HW4, AI5 et Dojo.

Ils seront alimentés et refroidis par un vaste système pouvant atteindre 500 mégawatts.

Lors du Tesla AI Day en 2021, Musk a annoncé Dojo pour la première fois.

Maintenant que trois ans se sont écoulés, comment se passe la construction du Dojo ?

Puissance de calcul équivalente à 8 000 H100, doublez votre mise

Il y a un demi-mois, les internautes affirmaient que Tesla disposerait d'une puissance de calcul pour la formation en IA d'ici la fin de 2024, équivalente aux performances d'un H100 d'une valeur de 90 000 yuans.

Musk a ajouté quelque chose à ceci :

Nous utilisons non seulement des GPU NVIDIA, mais également notre propre ordinateur IA - Tesla HW4 AI (renommé AI4) dans le système de formation IA, avec un rapport d'environ 1:2. Cela signifie qu’il existe environ 90 000 H100, plus environ 40 000 ordinateurs AI4.

Il a également mentionné que d'ici la fin de cette année, Dojo 1 disposera d'une puissance de calcul d'environ 8 000 équivalents H100. Cette échelle n’est pas énorme, mais elle n’est pas non plus petite.

Cluster de supercalcul Dojo D1

En fait, en juin de l’année dernière, Musk a révélé que Dojo était en ligne et exécutait des tâches utiles depuis plusieurs mois.

Cela implique déjà que Dojo a été impliqué dans la formation pour certaines tâches.

Récemment, lors de la conférence sur les résultats de Tesla, Musk a déclaré que Tesla se préparait à lancer des taxis autonomes en octobre et que l'équipe d'IA « doublerait son investissement » dans Dojo.

La puissance de calcul totale de Dojo devrait atteindre 100 exaflops en octobre 2024.

En supposant qu’une puce D1 puisse atteindre 362 téraflops, pour atteindre 100 exaflops, Tesla aurait besoin de plus de 276 000 puces D1, soit plus de 320 000 GPU Nvidia A100.

50 milliards de transistors, le D1 a été mis en production

Lors du Tesla AI Day en 2021, la puce D1 a été dévoilée pour la première fois. Elle contient 50 milliards de transistors et n’a que la taille d’une paume.

Il offre des performances puissantes et efficaces et peut gérer rapidement diverses tâches complexes.

En mai de cette année, la production de la puce D1 a commencé, en utilisant le nœud de processus 7 nm de TSMC.

Ganesh Venkataramanan, ancien directeur principal du matériel chez Autopilot, a déclaré un jour : « D1 peut effectuer des calculs et transmettre des données en même temps, adopte une architecture de jeu d'instructions ISA personnalisée et est entièrement optimisé pour les charges de travail d'apprentissage automatique. »

Il s’agit d’une pure puce d’apprentissage automatique.

Malgré cela, le D1 n'est toujours pas aussi puissant que le Nvidia A100, qui est également fabriqué selon le procédé 7 nm de TSMC.

Le D1 place 50 milliards de transistors sur une puce de 645 millimètres carrés, tandis que l'A100 contient 54 milliards de transistors, a une taille de puce de 826 millimètres carrés et est en avance sur le D1 en termes de performances.

Afin d'obtenir une bande passante et une puissance de calcul plus élevées, l'équipe Tesla AI a intégré 25 puces D1 dans une seule tuile et l'a exploitée comme un système informatique unifié.

Chaque tuile dispose de 9 pétaflops de puissance de calcul, de 36 téraoctets par seconde de bande passante et comprend du matériel d'alimentation, de refroidissement et de transfert de données.

On peut considérer une seule tuile comme un ordinateur autonome composé de 25 mini-ordinateurs.

En utilisant la technologie d'interconnexion au niveau de la tranche InFO_SoW (Integrated Fan-Out, System-on-Wafer), 25 puces D1 sur la même tranche peuvent réaliser des connexions hautes performances et fonctionner comme un seul processeur.

Six de ces tuiles forment un support et deux supports forment une armoire.

Dix armoires constituent un ExaPOD.

Lors de l'AI Day 2022, Tesla a déclaré que Dojo évoluerait en déployant plusieurs ExaPOD. Tout cela combiné constitue un supercalculateur.

Les processeurs à l'échelle d'une tranche, tels que le Dojo de Tesla et le Wafer-Scale Engine WSE de Cerebras, sont bien plus efficaces en termes de performances que les multiprocesseurs.

Les principaux avantages du premier incluent une communication à large bande passante et à faible latence entre les cœurs, une impédance de réseau plus faible et une plus grande efficacité énergétique.

Actuellement, seuls Tesla et Cerebras proposent des systèmes sur plaquette.

Cependant, assembler 25 puces pose des problèmes de tension et de systèmes de refroidissement.

Les internautes ont photographié Tesla en train de construire un système de refroidissement géant au Texas

Un défi inhérent aux puces sur tranche est qu’elles doivent utiliser une mémoire intégrée, qui n’est pas assez flexible et peut ne pas convenir à tous les types d’applications.

Tom's Hardware prédit que la technologie de nouvelle génération pourrait être CoW_SoW (Chip-on-Wafer), qui effectue un empilement 3D sur des tuiles et intègre la mémoire HBM4.

De plus, Tesla développe également la puce D2 de nouvelle génération afin de résoudre le problème du flux d'informations.

Plutôt que de connecter des puces individuelles, D2 place l’intégralité de la tuile Dojo sur une seule plaquette de silicium.

D’ici 2027, TSMC devrait fournir des systèmes au niveau tranche plus complexes, et la puissance de calcul devrait être multipliée par plus de 40.

Depuis la sortie du D1, Tesla n'a ni divulgué l'état des commandes des puces D1 qu'elle a commandées ou s'attend à recevoir, ni le calendrier de déploiement spécifique du supercalculateur Dojo.

Cependant, en juin de cette année, Musk a déclaré qu'au cours des 18 prochains mois, la moitié du matériel Tesla AI serait déployée et l'autre moitié serait du matériel Nvidia/autre.

Autre matériel, éventuellement AMD.

Pourquoi Dojo est nécessaire

La conduite autonome consomme de la puissance de calcul

Selon nous, l'activité principale de Tesla se limite à la production de véhicules électriques, avec quelques panneaux solaires et systèmes de stockage d'énergie supplémentaires.

Mais Musk attend bien plus de Tesla.

La plupart des systèmes de conduite autonome, tels que Waymo, une filiale de la société mère de Google, Alphabet, s'appuient toujours sur des capteurs traditionnels comme capteurs, tels que le radar, le lidar et les caméras.

Mais Tesla emprunte une voie de « vision complète ». Ils s'appuient uniquement sur des caméras pour capturer des données visuelles, les complètent avec des cartes haute définition pour le positionnement, puis utilisent des réseaux neuronaux pour traiter les données afin de prendre des décisions rapides en matière de conduite autonome.

Intuitivement, il est évident que la première solution est plus simple et plus rapide, et c’est effectivement le cas.

Waymo a commercialisé la conduite autonome L4, un système capable de se conduire tout seul sans intervention humaine dans certaines conditions définies par la SAE. Mais le réseau neuronal FSD (Full Self-Driving) de Tesla ne peut toujours pas être séparé du fonctionnement humain.

Andrej Karpathy, qui a déjà été responsable de l'IA chez Tesla, a déclaré que la mise en œuvre du FSD consiste essentiellement à « construire un animal artificiel à partir de zéro ».

Nous pouvons le considérer comme une réplique numérique du cortex visuel humain et des fonctions cérébrales. FSD doit non seulement collecter et traiter en continu des données visuelles, identifier et classer les objets autour du véhicule, mais doit également avoir une vitesse de prise de décision comparable à celle des humains.

On voit que Musk veut plus qu’un simple système de conduite autonome rentable. Son objectif est de créer une nouvelle intelligence.

Mais heureusement, il n’a pas à s’inquiéter du manque de données. Environ 1,8 million de personnes paient actuellement les frais d'abonnement de 8 000 dollars pour FSD (auparavant, ils pouvaient s'élever à 15 000 dollars), ce qui signifie que Tesla peut collecter des millions de kilomètres de vidéos de conduite à des fins de formation.

En termes de puissance de calcul, le supercalculateur Dojo est le terrain d'entraînement pour FSD. Son nom chinois peut se traduire par « dojo », un clin d'œil à l'espace de pratique des arts martiaux.

NVIDIA n'est pas assez bon

Quelle est la popularité des GPU NVIDIA ? Il suffit de voir à quel point les PDG des grands géants de la technologie souhaitent se rapprocher des vieux gangsters.

Même aussi riche que Musk, il a admis lors de la conférence téléphonique sur les résultats de juillet qu'il était "très inquiet" que Tesla ne soit pas en mesure d'utiliser suffisamment de GPU Nvidia.

"Ce que nous constatons, c'est que la demande pour le matériel Nvidia est si élevée qu'il est souvent difficile d'obtenir des GPU."

À l'heure actuelle, Tesla semble toujours utiliser le matériel de Nvidia pour fournir de la puissance de calcul au Dojo, mais Musk ne semble pas vouloir mettre tous ses œufs dans le même panier.

D’autant plus que la prime des puces Nvidia est si élevée et que les performances ne satisfont pas entièrement Musk.

En termes de synergie matérielle et logicielle, Tesla et Apple ont des points de vue similaires, c'est-à-dire qu'un haut degré de synergie entre les deux devrait être atteint, en particulier pour un système hautement spécialisé tel que FSD, qui devrait se débarrasser des GPU hautement standardisés et utiliser matériel personnalisé.

Le cœur de cette vision est la puce propriétaire D1 de Tesla, qui sortira en 2021 et sera produite par TSMC en mai de cette année.

En outre, Tesla développe également la puce D2 de nouvelle génération, dans l'espoir de placer l'ensemble du bloc Dojo sur une seule puce de silicium pour résoudre le goulot d'étranglement du flux d'informations.

Dans le rapport sur les résultats du deuxième trimestre, Musk a noté qu'il voyait "une autre façon de rivaliser avec Nvidia via Dojo".

Dojo peut-il réussir ?

Même s'il est aussi confiant que Musk, lorsqu'il parle du Dojo, il hésitera à dire que Tesla pourrait ne pas réussir.

À long terme, développer son propre matériel de calcul intensif pourrait ouvrir la voie à de nouveaux modèles économiques pour le secteur de l’IA.

Musk a déclaré que la première version de Dojo serait adaptée à l'annotation et à la formation des données visuelles de Tesla, ce qui serait très utile pour le FSD et la formation du robot humanoïde de Tesla, Optimus.

Les futures versions seront plus adaptées à la formation générale en IA, mais cela impliquera inévitablement le logiciel de Nvidia.

Presque tous les logiciels d'IA sont conçus pour fonctionner avec les GPU NVIDIA, et utiliser Dojo signifie réécrire l'intégralité de l'écosystème d'IA, y compris CUDA et PyTorch.

Cela signifie que Dojo n'a presque qu'une seule issue : louer de la puissance de calcul et créer une plate-forme de cloud computing similaire à AWS et Azure.

Morgan Stanley a prédit dans un rapport de septembre dernier que Dojo pourrait débloquer de nouvelles sources de revenus sous la forme de services de robotaxi et de logiciels, ajoutant ainsi 500 milliards de dollars à la valeur marchande de Tesla.

En bref, à en juger par l’allocation prudente actuelle du matériel par Musk, Dojo n’est pas un « mouvement désespéré » mais plutôt une double assurance. Mais une fois le projet réussi, d’énormes dividendes peuvent également être libérés.

Les références:

https://techcrunch.com/2024/08/03/tesla-dojo-elon-musks-big-plan-to-build-an-ai-supercomputer-explained/

https://www.tomshardware.com/tech-industry/teslas-dojo-system-on-wafer-is-in-production-a-serious-processor-for-serious-ai-workloads

Cliquez sur "" et c'est parti

nouvelles

Dojo monstre IA !Le supercalcul auto-développé défie NVIDIA

Introduction

mes coordonnées