Musk a construit le cluster d'IA le plus puissant au monde en 19 jours ! Le « monstre refroidi par liquide » H100 de 100 000 yuans est sur le point de se réveiller

2024-07-23

Nouveau rapport de sagesse

Editeur : Service éditorial

[Introduction à la nouvelle sagesse]La construction du H100 refroidi par liquide de 100 000 pièces a officiellement commencé et Musk a construit le cluster de formation en IA le plus puissant au monde en 19 jours.

A 4h20 du matin, le plus grand cluster de formation en supercalcul de l'autre côté de l'océan s'est mis à rugir.

"420" est également le mème préféré de Musk, symbolisant la liberté, la débridée et l'anti-tradition.

Musk utilise fréquemment « 420 » dans la tarification de ses produits, les heures de réunion de l'entreprise et les heures de lancement des vaisseaux spatiaux, etc.

Les internautes ont également plaisanté dans la zone de commentaires en disant que Musk avait un grand sens du cérémonial et qu'il ne commençait pas à travailler avant 16h20.

Dans la dernière interview, Musk a révélé davantage sur les progrès des nouveaux supercalculateurs et des modèles xAI :

- Grok 2 a terminé sa formation le mois dernier, en utilisant environ 15 000 H100

- Grok 2 sortira le mois prochain, ce qui équivaut à GPT-4 - Grok 3 construit un nouveau supercalculateur H100 refroidi par liquide de 100 000 et commence la formation - Grok 3 devrait sortir en décembre, "il deviendra alors le plus puissant dans le monde "Big Intelligence Artificielle"

100 000 pièces de H100 refroidies par liquide, réalisées en 19 jours

Il convient de noter que le plus grand cluster de calcul intensif au monde compte 100 000 H100 refroidis par liquide.

Quel est le concept du H100 valant 100 000 yuans ?

En termes de prix, le GPU H100 est un élément clé de l'IA et un produit très prisé dans la Silicon Valley. On estime que chaque unité coûte entre 30 000 et 40 000 dollars américains, soit une grosse commande de 4 milliards.

Un docteur en apprentissage automatique de l'une des cinq meilleures universités des États-Unis a un jour déclaré que le nombre de H100 dans le laboratoire est de 0 et que les GPU doivent être utilisés en toute hâte.

Li Feifei a également déclaré dans l'interview que l'équipe de traitement du langage naturel de Stanford ne dispose que de 64 GPU A100.

Le prix d’achat initial de Musk était de 100 000 yuans, un chiffre qui a fait saliver la section des commentaires.

En termes de puissance de calcul, la puissance de calcul est environ 20 fois supérieure à celle des 25 000 blocs A100 utilisés par OpenAI pour entraîner GPT4.

En termes de consommation électrique, rien que pour maintenir le fonctionnement de ce centre de calcul intensif, la puissance totale requise atteint 70 MW, ce qui équivaut à la capacité installée d'une centrale électrique ordinaire et peut répondre aux besoins énergétiques de 200 000 personnes.

En mai de cette année, Musk a déclaré qu'il espérait construire une « usine de calcul intensif » d'ici l'automne 2025.

Il semble maintenant que afin d'accélérer la construction du super cluster, il ait choisi d'acheter la génération actuelle de GPU H100 au lieu d'attendre la nouvelle génération H200 ou d'autres GPU B100 et B200 basés sur Blackwell.

Même si le marché s'attend à ce que le nouveau GPU Blackwell pour centres de données de Nvidia soit disponible avant la fin de 2024, Musk n'a clairement pas la patience d'attendre.

La course aux armements actuelle en matière d’IA devient de plus en plus féroce, et la seule chose qui compte est la rapidité. Celui qui pourra lancer un produit le plus rapidement occupera rapidement le marché.

En tant que start-up, xAI doit prendre la tête de la bataille contre les autres géants.

Auparavant, les dizaines de milliards de commandes de Musk et d'Oracle s'étaient effondrées. Musk n'aimait pas la lenteur d'Oracle et pensait que l'autre partie ne construisait pas de clusters informatiques à une vitesse réalisable.

Oracle, de son côté, a estimé que l'emplacement de supercalculateur de xAI ne pouvait pas supporter la demande d'énergie. Alors que les négociations pour des dizaines de milliards de commandes échouaient, xAI et Oracle ont cessé de discuter de la possibilité d'étendre la coopération existante.

xAI n'a eu d'autre choix que de construire son propre centre de données d'intelligence artificielle à Memphis, Tennessee. La rupture de la coopération avec Oracle a obligé xAI à faire cavalier seul et à construire un centre de données indépendant avec 100 000 H100 pour se débarrasser des limitations du système. capacités des fournisseurs de cloud tels qu’Oracle.

Musk lui-même a déclaré que xAI possède le pôle de formation en IA le plus puissant au monde, ce qui est loin devant.

Le Grok-3 le plus puissant du monde commence son entraînement et sortira d'ici la fin de l'année

Dans la dernière interview de Musk, il a révélé quelques détails sur la construction d’un supercalculateur.

Selon Ted Townsend, président de la Greater Memphis Chamber, il n’a fallu qu’une semaine environ à Musk pour décider de construire le nouveau supercalculateur de xAI à Memphis.

Après plusieurs jours de négociations éclair en mars, Musk et son équipe ont choisi la ville du Tennessee en raison de son pouvoir abondant et de sa capacité à construire rapidement, a déclaré Townsend.

De plus, il n'a fallu que 19 jours pour construire le centre de calcul intensif. Musk a également salué l'excellent travail de l'équipe dans un tweet.

Supermicro fournit également l’essentiel du support matériel pour xAI, et son PDG Charles Liang a également commenté le tweet de Musk, louant les capacités d’exécution de l’équipe.

Le but d'un si grand cluster de formation est de former Grok 3.

Au début de ce mois, Musk a annoncé le lancement de Grok 2 fin août. Bien que Grok-2 n'ait pas encore été publié, Musk a également révélé certains détails de Grok-3 afin de donner une impulsion au modèle le plus puissant, Grok 3. .

Dans une interview avec Nicolai Tangen, directeur du Fonds souverain norvégien, Musk a déclaré en avril de cette année que Grok 2 nécessiterait environ 20 000 H100 pour la formation.

Grok 3 sortira à la fin de l'année. Il est prévisible que les performances de Grok 3 basées sur 100 000 entraînements GPU seront supérieures à celles de Grok 2.

Un centre de calcul aussi énorme nécessite naturellement le soutien d'un grand nombre de talents et de technologies. Musk continue également de recruter des personnes sur Twitter pour étendre à l'extrême les avantages des données, des talents et de la puissance de calcul.

Les références:

https://x.com/elonmusk/status/1815325410667749760

https://x.com/tsarnick/status/1815493761486708993

nouvelles

Musk a construit le cluster d'IA le plus puissant au monde en 19 jours ! Le « monstre refroidi par liquide » H100 de 100 000 yuans est sur le point de se réveiller

Introduction

mes coordonnées