Musk schnappt sich 100.000 H100, um den leistungsstärksten KI-Supercomputer der Welt zu bauen, und das Modelltraining der nächsten Generation beginnt

2024-07-23

Mingmin stammt aus dem Aofei-Tempel
Qubits |. Öffentliches Konto QbitAI

Musk hat den weltweit leistungsstärksten KI-Cluster aufgebaut!

Die brisante Nachricht wurde von Lao Ma selbst offiziell auf Twitter bekannt gegeben.

Um 4:20 Uhr Ortszeit hat der von xAI, X und NVIDIA gemeinsam errichtete Memphis-Supercluster mit dem Training begonnen.
es besteht ausBestehend aus 100.000 Stück H100, ist derzeit der stärkste Ausbildungscluster der Welt!

Diese Größenordnung hat Frontier, den leistungsstärksten Supercomputer der Welt, bei weitem übertroffen.

Die Gründungsmitglieder von xAI fügten hinzu:

Als wir dieses Unternehmen vor einem Jahr gründeten, war es unser Ziel, drei Vorteile zu erreichen: Datenvorteil, Talentvorteil und Computervorteil.
Ab heute haben wir alle drei!

Unter Musks Post schickte auch Supermicro, das enge Beziehungen zu Nvidia unterhält und auf Flüssigkeitskühlungstechnologie spezialisiert ist, Glückwünsche. Sein Gründer, Charles Liang, sagte:

Es ist großartig, dass wir mit Musk Geschichte schreiben.

Gleichzeitig fügte Musk hinzu, dass die Fertigstellung des Clusters erhebliche Vorteile für die Ausbildung des weltweit stärksten Modells in diesem Jahr bringen werde.

Für die Ausbildung von Grok-3 werden nach bisherigen Angaben 100.000 H100 benötigt.

△Cluster-Overhead-Aufnahme

Darüber hinaus erwähnte er im Juni dieses Jahres, dass sich die Investition von 1 GW Strom für H100 nicht lohne. Im nächsten Sommer könnte ein Cluster aus 300.000 B200 in Betrieb genommen werden.

Selbstgebaute Cluster sind sicherer

Im Mai dieses Jahres berichtete The Information, dass Musk bis Herbst 2025 einen Supercomputing-Cluster bestehend aus 100.000 H100 aufbauen und mit Oracle zusammenarbeiten werde.

Berichten zufolge wird xAI 10 Milliarden US-Dollar in die Anmietung von Oracle-Servern investieren.

Damals fragten sich einige Leute noch, warum es nächstes Jahr gebaut werden sollte, aber immer noch die Technologie der vorherigen Generation verwenden würde?

NVIDIA hat den B100 und den B200 auf Basis der neuen Blackwell-Architektur auf den Markt gebracht, mit denen große Modelle weitaus effizienter trainiert werden können als mit dem H100.

Wenn man es jetzt betrachtet, ist die Zeit in den Nachrichten vielleicht falsch? Es wäre viel vernünftiger, wenn es dieses Jahr abgeschlossen würde.

Erst kürzlich reagierte Musk auf die Nachricht, die Zusammenarbeit mit Oracle zum Aufbau von Supercomputing-Clustern zu beenden.

Er sagte, dass xAI 24.000 H100-Ressourcen von Oracle erhalten habe, um Grok-2 zu trainieren. Relevante Nachrichten belegen, dass die Servermietkooperation zwischen xAI und Oracle weiterhin besteht.

Beim Bau des 100.000-Karten-H100-Clusters haben wir uns jedoch für das selbstgebaute Modell entschieden und es so schnell wie möglich beworben. Die Installation von 100.000 Karten soll nur 19 Tage gedauert haben.

Wir müssen selbst das Steuer in die Hand nehmen.

Spätere Nachrichten zeigten, dass Dell und Super Micro Musks neue Partner wurden.

Sowohl der CEO von Dell als auch der CEO von Supermicro twitterten kürzlich, dass die Zusammenarbeit im Gange sei, und fügten Fotos des Rechenzentrums hinzu.

Während des Clusterbauprozesses besuchte Musk den Standort persönlich.

Gleichzeitig wurde auf Twitter bekannt gegeben, dass Grok in Memphis trainiert und Grok-2 im August gestartet wird.

Erwähnenswert ist, dass Oracle zuvor Bedenken hinsichtlich der Stromversorgung am Standort des Clusters geäußert hatte.

Schätzungen zufolge benötigen 100.000 H100-Einheiten 150 Megawatt Leistung aus dem Netz, doch Musk scheint dieses Problem gelöst zu haben.

Die neuesten Nachrichten zeigen, dass der aktuelle Cluster vorübergehend 8 Megawatt erhalten hat. Nach Unterzeichnung der Vereinbarung am 1. August werden 50 MW erworben. Mittlerweile sind 32.000 Karten online und werden im vierten Quartal zu 100 % online sein – genug, um den Trainingsbetrieb für GPT-5-Modelle zu unterstützen.

Kurz gesagt: Sicher ist, dass alle KI-Giganten glauben, dass es zuverlässiger ist, die Rechenleistung selbst in der Hand zu halten, und dass es sich lohnt, dafür wahnsinnig viel Geld auszugeben.

Kostenschätzungen zufolge liegt der Preis für jeden H100 bei etwa 30.000 bis 40.000 US-Dollar. Musks Supercomputing-Cluster wird einen Wert von 4 Milliarden US-Dollar haben (das entspricht über 29 Milliarden RMB).

Frühere Nachrichten besagten, dass Microsoft und OpenAI ein 100-Milliarden-US-Dollar-Rechenzentrumsprojekt namens „Stargate“ entwickeln.

Nach Angaben von mit der Angelegenheit vertrauten Personen wird zwischen Oracle und Microsoft ein Deal über 100.000 B200 abgeschlossen. Der Cluster könnte im nächsten Sommer fertig sein.

Darüber hinaus wurde festgestellt, dass Meta auch über Luxus-Supercomputing-Cluster verfügt, und Cloud-Anbieter wie AWS haben ebenfalls mehr in Rechenzentren investiert.

Verweise:
[1]https://x.com/elonmusk/status/1810727394631950752
[2]https://x.com/elonmusk/status/1815325410667749760
[3]https://x.com/dylan522p/status/1815494840152662170
[4]https://x.com/MichaelDell/status/1803385185984974941

Belegung

Musk schnappt sich 100.000 H100, um den leistungsstärksten KI-Supercomputer der Welt zu bauen, und das Modelltraining der nächsten Generation beginnt

Einführung

meine Kontaktdaten