La bataille de l'IA pour l'hégémonie commence ! OpenAI construit en urgence 100 000 supercalculateurs GB200, les 100 000 H100 de Musk commenceront leur formation à la fin du mois

2024-07-16

Nouveau rapport de sagesse

Editeur : Taozi

[Introduction à la nouvelle sagesse] Musk a officiellement annoncé que le plus grand cluster de calcul intensif au monde construit par xAI est construit avec 100 000 H100 et devrait commencer la formation à la fin de ce mois. De l'autre côté, OpenAI augmente encore ses investissements et construira un supercalculateur composé de 100 000 Go200 pour écraser complètement xAI.

Afin d’atteindre l’AGI, les entreprises du monde entier se préparent à graver tous les GPU !

Des informations rapportent en exclusivité que le prochain cluster de calcul intensif d'OpenAI sera composé de 100 000 blocs GB200.

Celui-ci utilise la puce IA la plus puissante de Nvidia à ce jour.

D'autre part, xAI construit également ce qui est connu comme « le plus grand cluster de calcul intensif au monde », composé de 100 000 H100, et sera mis en formation à la fin de ce mois.

Dans le dernier message de Musk, il a immédiatement répondu aux informations selon lesquelles xAI et Oracle avaient mis fin aux négociations sur les serveurs.

Il a déclaré que xAI avait acheté 24 000 H100 auprès d'Oracle et formé Grok 2 sur ces puces.

Grok 2 est actuellement en cours de mise au point et de correction de bugs, et devrait être prêt à être publié le mois prochain. Dans le même temps, xAI construit également un cluster de 100 000 H100. L'objectif est d'atteindre le délai de formation le plus rapide et prévoit de démarrer des modèles de formation plus tard ce mois-ci. Cela deviendra le cluster de formation le plus puissant au monde et ses avantages sont évidents. La raison pour laquelle nous avons décidé de construire nous-mêmes 100 000 systèmes de puces H100, ainsi que la prochaine génération de systèmes majeurs, est que notre principale compétitivité dépend de notre rapidité par rapport aux autres sociétés d’IA. C'est le seul moyen de rattraper vos concurrents. Oracle est une excellente entreprise, et il existe une autre entreprise (faisant allusion à Microsoft) qui montre également un grand potentiel en participant au projet de cluster GB200 d'OpenAI. Mais lorsque notre destin dépend de notre capacité à devenir l’entreprise la plus rapide, nous devons prendre les choses en main et ne pas nous contenter de rester spectateurs.

Bref, dans cette époque en constante évolution, si vous voulez surpasser vos concurrents, vous devez vous assurer un avantage absolu en termes de vitesse.

xAI Oracle s'effondre, des dizaines de milliards de dollars gaspillés

En mai de cette année, Information a rapporté que xAI avait discuté d'un accord pluriannuel pour louer des puces Nvidia AI à Oracle.

L'accord devait valoir jusqu'à 10 milliards de dollars, mais il s'est retrouvé dans une impasse en raison de certains problèmes.

Parmi eux, Musk exige que la vitesse de construction des supercalculateurs dépasse complètement l'imagination d'Oracle. Oracle craint également que l'emplacement préféré de xAI ne dispose pas de suffisamment de puissance.

Pour changer cette situation, nous ne pouvons compter que sur notre autonomie.

Actuellement, xAI construit son propre centre de données d'IA à Memphis, Tennessee, qui utilise des puces Nvidia expédiées par Dell et Supermicro.

Oracle n'est pas impliqué dans le projet, selon les personnes impliquées dans les négociations.

En fait, avant cela, xAI avait loué de nombreuses puces Nvidia à Oracle et est devenu l'un des plus gros clients de ce fournisseur de GPU de cloud computing.

L’accord devrait se poursuivre pour l’instant malgré l’échec de négociations plus larges.

D'après la dernière réponse d'Elon Musk, on peut voir que le nombre de puces Oracle est passé de 16 000 en mai à 24 000.

100 000 pièces de connexion série H100

Cependant, Musk espère toujours construire un supercalculateur équipé de 100 000 GPU Nvidia, le qualifiant de « Gigafactory of Compute ».

Il a déclaré que xAI avait besoin de plus de puces pour former le modèle d'IA de nouvelle génération, Grok 3.0.

Lao Ma a déclaré aux investisseurs en mai qu'il espérait que le supercalculateur soit opérationnel d'ici l'automne 2025 et qu'il serait personnellement responsable de la livraison du supercalculateur à temps, car cela est crucial pour le développement de LLM.

Il a déclaré publiquement à plusieurs reprises qu'un cluster de formation refroidi par liquide composé de 100 000 H100 serait en ligne dans quelques mois.

La raison pour laquelle l'itération du modèle Grok est importante est qu'elle fait partie du forfait d'abonnement X Social App, qui commence à 8 $ par mois et comprend une variété de fonctionnalités.

La semaine dernière, xAI a également publié une photo de Musk et d'autres employés du centre de données. En arrière-plan derrière la photo, il y a des serveurs.

Bien que l'emplacement n'ait pas été précisé dans le message. Mais en juin, le président de la Chambre du Grand Memphis a déclaré que xAI construisait un supercalculateur à l'usine Electrolux de Memphis.

Aménagement des services publics de la nouvelle installation xAI à Memphis, Tennessee

Le PDG de Dell, Micael Dell, a déclaré que Dell aidait xAI à construire un centre de données.

En outre, le PDG de Supermicro, Charles Liang, a également publié une photo de lui et Musk dans le centre de données, confirmant également le partenariat de l'entreprise avec xAI.

Il convient de mentionner que le mois dernier, Musk a annoncé que xAI avait finalisé un financement de série B de 6 milliards de dollars, la valorisation de la société atteignant 24 milliards de dollars.

Les investisseurs dans le financement de série B comprennent 8 investisseurs, dont Andreessen Horowitz, Sequoia Capital, Valor Equity Partners, Vy Capital et Fidelity Management & Research.

Il a personnellement déclaré que lors du dernier cycle de financement, la plupart des fonds seraient investis dans la construction de puissance de calcul.

De toute évidence, le projet de calcul intensif construit par xAI fait partie de ses efforts pour rattraper OpenAI.

Supercalculateur de 100 000 GB200, loué pour 5 milliards de dollars américains pour deux ans

En fait, d’un autre côté, OpenAI accélère également sans arrêt sa vitesse de recherche et de développement, sans oser se relâcher.

Deux personnes proches du dossier ont révélé que l'accord entre Oracle et Microsoft concernait un cluster de 100 000 prochaines puces GB200 de Nvidia.

Lorsque ce supercalculateur sera construit, les 100 000 H100 de Musk ne seront plus rien.

Certains internautes se sont exclamés que le nombre de puces NVIDIA GB200 dans le cluster est à peu près équivalent au nombre de transistors dans le processeur Intel 80286. Je suis surpris de voir cette scène de mon vivant.

Quelqu'un d'autre a analysé cela et a déclaré : « Les performances d'entraînement du GB200 seront 4 fois supérieures à celles du H100. »

GPT-4 a été formé à l'aide de 25 000 A100 (le prédécesseur du H100) en 90 jours. Donc, en théorie, vous pourriez entraîner GPT-4 en moins de 2 jours avec 100 000 Go200, même si cela se fait dans des conditions idéales et n'est peut-être pas tout à fait réaliste. Mais cela laisse imaginer aux gens quel type de modèles d’IA ils peuvent entraîner en 90 jours à l’aide de ce cluster de supercalculateurs, qui devrait être mis en service au deuxième trimestre 2025.

Lors de la conférence GTC 2024, Lao Huang a un jour présenté que le H100 est 4 fois plus rapide que l'A100 et que le B200 est 3 fois plus rapide que le H100.

En supposant que les deux sociétés signent un accord pluriannuel, le coût de location d'un tel cluster pourrait atteindre environ 5 milliards de dollars sur deux ans, selon des personnes familiarisées avec la tarification du cloud GPU.

Ce cluster devrait être prêt au deuxième trimestre 2025.

Oracle achètera des puces à Nvidia et les louera à Microsoft, qui fournira ensuite les puces à OpenAI. Après tout, cela est devenu une pratique cohérente et mutuellement bénéfique entre Microsoft et OpenAI.

Microsoft investit de l'argent dans OpenAI et a en retour accès à de nouveaux modèles OpenAI.

Oracle prévoit de placer les puces dans un centre de données à Abilene, au Texas, selon les personnes impliquées dans la planification.

L'accord montre également que Microsoft lui-même ne peut pas obtenir suffisamment de puces Nvidia.

De plus, il n'est pas courant que les fournisseurs de cloud computing se louent des serveurs entre eux, mais la forte demande pour les puces Nvidia a conduit à cette transaction inhabituelle.

L'année dernière, Microsoft a conclu un accord de location de serveur similaire avec CoreWeave pour augmenter la capacité des serveurs Nvidia.

Les références:

https://x.com/elonmusk/status/181072739463195075

https://x.com/amir/status/1810722841106821623

nouvelles

La bataille de l'IA pour l'hégémonie commence ! OpenAI construit en urgence 100 000 supercalculateurs GB200, les 100 000 H100 de Musk commenceront leur formation à la fin du mois

Introduction

mes coordonnées