Musk s'empare de 100 000 H100 pour construire le supercalculateur d'IA le plus puissant au monde et la formation sur les modèles de nouvelle génération commence

Musk s'empare de 100 000 H100 pour construire le supercalculateur d'IA le plus puissant au monde et la formation des modèles de nouvelle génération commence

2024-07-23

Mingmin vient du temple Aofei
Qubits | Compte public QbitAI

Musk a construit le cluster d'IA le plus puissant au monde !

La nouvelle explosive a été officiellement annoncée par Lao Ma lui-même sur Twitter.

À 4 h 20, heure locale, le supercluster Memphis construit conjointement par xAI, X et NVIDIA a commencé sa formation.
Cela consiste enComposé de 100 000 pièces de H100, est actuellement le cluster de formation le plus puissant au monde !

Cette échelle dépasse de loin Frontier, le supercalculateur le plus puissant au monde.

Les membres fondateurs de xAI ont poursuivi en disant :

Lorsque nous avons fondé cette entreprise il y a un an, notre objectif était d'obtenir trois avantages : l'avantage des données, l'avantage des talents et l'avantage informatique.
A partir d'aujourd'hui, nous avons les trois !

Sous le poste de Musk, Supermicro, qui entretient des liens étroits avec Nvidia et se spécialise dans la technologie de refroidissement liquide, a également envoyé ses félicitations. Son fondateur, Charles Liang, a déclaré :

C'est formidable que nous écrivions l'histoire avec Musk.

Dans le même temps, Musk a ajouté que l'achèvement du cluster offrirait des avantages significatifs pour la formation du modèle le plus puissant du monde au cours de cette année.

Selon des déclarations précédentes, 100 000 H100 seraient nécessaires pour entraîner Grok-3.

△Prise de vue aérienne du cluster

De plus, en juin de cette année, il a mentionné qu’investir 1 GW d’énergie pour le H100 n’en valait pas la peine. L'été prochain, un cluster composé de 300 000 B200 pourrait être mis en service.

Les clusters auto-construits sont plus confiants

En mai de cette année, The Information a rapporté que Musk construirait un cluster de calcul intensif composé de 100 000 H100 d’ici l’automne 2025 et coopérerait avec Oracle.

Il est rapporté que xAI investira 10 milliards de dollars pour louer des serveurs Oracle.

À cette époque, certaines personnes se demandaient encore pourquoi il serait construit l'année prochaine tout en utilisant toujours la technologie de la génération précédente ?

NVIDIA a lancé les B100 et B200 basés sur la nouvelle architecture Blackwell, qui permet de former de grands modèles bien plus efficacement que le H100.

En y regardant maintenant, peut-être que l'heure dans les informations n'est pas la bonne ? Il serait beaucoup plus raisonnable qu'il soit achevé cette année.

Tout récemment, Musk a réagi à l'annonce de la fin de sa coopération avec Oracle pour construire des clusters de calcul intensif.

Il a déclaré que xAI avait reçu 24 000 ressources H100 d'Oracle pour former Grok-2. Des nouvelles pertinentes prouvent que la coopération en matière de location de serveurs entre xAI et Oracle se poursuit.

Cependant, lors de la construction du cluster H100 de 100 000 cartes, nous avons choisi le modèle auto-construit et l'avons promu le plus rapidement possible. On dit qu'il n'a fallu que 19 jours pour installer 100 000 cartes.

Nous devons prendre le volant nous-mêmes.

Des informations ultérieures ont montré que Dell et Super Micro étaient devenus les nouveaux partenaires de Musk.

Le PDG de Dell et le PDG de Supermicro ont tous deux récemment tweeté que la coopération était en cours et ont inclus des photos du centre de données.

Pendant le processus de construction du cluster, Musk a personnellement visité le site.

Dans le même temps, il a également été révélé sur Twitter que Grok s'entraînait à Memphis et que Grok-2 serait lancé en août.

Il convient de mentionner qu'Oracle avait déjà fait part de ses inquiétudes concernant l'alimentation électrique à l'endroit où le cluster a été établi.

Selon les estimations, 100 000 unités H100 nécessitent 150 mégawatts d’énergie provenant du réseau, mais Musk semble avoir résolu ce problème.

Les dernières nouvelles montrent que le cluster actuel a obtenu temporairement 8 mégawatts. Après la signature de l'accord le 1er août, 50 MW seront obtenus. Il y a désormais 32 000 cartes en ligne et le seront à 100 % au quatrième trimestre – suffisamment pour prendre en charge les opérations de formation des modèles réduits GPT-5.

En bref, ce qui est sûr, c’est que les géants de l’IA pensent tous qu’il est plus fiable de détenir la puissance de calcul entre leurs propres mains, et que cela vaut la peine de dépenser des sommes folles pour cela.

Selon les estimations de coûts, le prix de chaque H100 est d'environ 30 000 à 40 000 dollars américains. Le cluster de calcul intensif de Musk vaudra 4 milliards de dollars (soit plus de 29 milliards de RMB).

Des informations antérieures indiquaient que Microsoft et OpenAI développaient un projet de centre de données de 100 milliards de dollars appelé « Stargate ».

Selon des sources proches du dossier, un accord serait en cours entre Oracle et Microsoft pour 100 000 B200. Le cluster pourrait être prêt d’ici l’été prochain.

En outre, Meta a également été exposé à disposer de clusters de calcul intensif de luxe, et les fournisseurs de cloud tels qu'AWS ont également investi davantage dans les centres de données.

Les références:
[1]https://x.com/elonmusk/status/1810727394631950752
[2]https://x.com/elonmusk/status/1815325410667749760
[3]https://x.com/dylan522p/status/1815494840152662170
[4]https://x.com/MichaelDell/status/1803385185984974941

nouvelles

Musk s'empare de 100 000 H100 pour construire le supercalculateur d'IA le plus puissant au monde et la formation des modèles de nouvelle génération commence

Introduction

mes coordonnées