Nachricht

Musk hat in 19 Tagen den leistungsstärksten KI-Cluster der Welt aufgebaut! Das 100.000 Yuan teure „flüssigkeitsgekühlte Monster“ H100 steht kurz vor dem Erwachen

2024-07-23

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


Neuer Weisheitsbericht

Herausgeber: Redaktion

[Einführung in die neue Weisheit]Der Bau des 100.000-teiligen flüssigkeitsgekühlten H100 hat offiziell begonnen und Musk baute innerhalb von 19 Tagen den weltweit stärksten KI-Trainingscluster.

Um 4:20 Uhr morgens begann der größte Supercomputing-Trainingscluster auf der anderen Seite des Ozeans zu brüllen.


„420“ ist auch Musks Lieblingsmeme und symbolisiert Freiheit, Zügellosigkeit und Anti-Tradition.

Musk verwendet häufig „420“ bei der Preisgestaltung seiner Produkte, den Zeiten von Unternehmensbesprechungen und den Startzeiten von Raumschiffen usw.

Netizens scherzten im Kommentarbereich auch, dass Musk einen großen Sinn für Zeremonien habe und nicht vor 16:20 Uhr mit der Arbeit beginne.


Im neuesten Interview verriet Musk mehr über die Fortschritte neuer Supercomputer und xAI-Modelle:

- Grok 2 hat letzten Monat das Training mit etwa 15.000 H100 abgeschlossen

- Grok 2 wird nächsten Monat veröffentlicht, entspricht GPT-4. - Grok 3 baut 100.000 flüssigkeitsgekühlte H100-Supercomputer und beginnt mit dem Training. - Grok 3 wird voraussichtlich im Dezember veröffentlicht. „Er wird der leistungsstärkste der Welt sein.“ dann „Große Künstliche Intelligenz“


100.000 Stück flüssigkeitsgekühlter H100, fertiggestellt in 19 Tagen

Es ist erwähnenswert, dass der weltweit größte Supercomputing-Cluster über 100.000 H100 verfügt, die flüssigkeitsgekühlt sind.


Was ist das Konzept von H100 im Wert von 100.000 Yuan?

Preislich gesehen ist die H100-GPU eine Schlüsselkomponente der KI und ein heißes Gut im Silicon Valley. Schätzungen zufolge kostet jede Einheit zwischen 30.000 und 40.000 US-Dollar. 100.000 Einheiten H100 sind eine Großbestellung.

Ein Doktorand für maschinelles Lernen von einer der fünf besten Universitäten in den Vereinigten Staaten gab einmal bekannt, dass die Anzahl der H100 im Labor 0 ist und GPUs in Eile verwendet werden müssen.

Li Feifei sagte in dem Interview auch, dass das Team für die Verarbeitung natürlicher Sprache in Stanford nur über 64 A100-GPUs verfügt.

Musks ursprünglicher Kaufpreis betrug 100.000 Yuan, eine Zahl, die den Kommentarbereich zum Glucksen brachte.


In Bezug auf die Rechenleistung beträgt die Rechenleistung etwa das 20-fache der 25.000 A100-Blöcke, die OpenAI zum Trainieren von GPT4 verwendet.

Was den Stromverbrauch betrifft, so beträgt der Gesamtleistungsbedarf allein zur Aufrechterhaltung des Betriebs dieses Superrechenzentrums 70 MW, was der installierten Leistung eines gewöhnlichen Kraftwerks entspricht und den Energiebedarf von 200.000 Menschen decken kann.

Im Mai dieses Jahres erklärte Musk, er hoffe, bis Herbst 2025 eine „Supercomputing-Fabrik“ bauen zu können.

Es scheint nun, dass er sich, um den Aufbau des Superclusters zu beschleunigen, für den Kauf der H100-GPU der aktuellen Generation entschieden hat, anstatt auf die H200 der neuen Generation oder andere kommende Blackwell-basierte B100- und B200-GPUs zu warten.

Obwohl der Markt davon ausgeht, dass Nvidias neue Blackwell-Rechenzentrums-GPU noch vor Ende 2024 verfügbar sein wird, hat Musk offensichtlich keine Geduld zum Warten.

Das aktuelle KI-Wettrüsten wird immer härter und es zählt nur noch die Geschwindigkeit: Wer am schnellsten ein Produkt auf den Markt bringt, wird den Markt schnell erobern.

Als Start-up-Unternehmen muss xAI im Kampf mit anderen Giganten die Führung übernehmen.

Zuvor scheiterten die zig Milliarden Aufträge von Musk und Oracle. Musk gefiel die langsame Geschwindigkeit von Oracle nicht und er glaubte, dass die Gegenpartei keine Rechencluster mit einer machbaren Geschwindigkeit aufbaute.


Oracle hingegen war der Ansicht, dass die Auswahl des Supercomputing-Standorts von xAI den Strombedarf nicht decken konnte. Als die Verhandlungen über zig Milliarden Aufträge scheiterten, hörten xAI und Oracle auf, über die Möglichkeit einer Ausweitung der bestehenden Zusammenarbeit zu diskutieren.

xAI hatte keine andere Wahl, als ein eigenes Rechenzentrum für künstliche Intelligenz in Memphis, Tennessee, zu errichten. Der Zusammenbruch der Zusammenarbeit mit Oracle bedeutete, dass xAI einen Alleingang antreten und ein unabhängiges Rechenzentrum mit 100.000 H100 bauen musste, um die Einschränkungen zu beseitigen Funktionen von Cloud-Anbietern wie Oracle.

Musk selbst sagte, dass xAI über den weltweit stärksten KI-Trainingscluster verfügt, der weit vorne liegt.


Der stärkste Grok-3 der Welt beginnt mit dem Training und wird bis Ende des Jahres entlassen

In Musks jüngstem Interview verriet er einige Details zum Bau eines Supercomputers.

Laut Ted Townsend, Präsident der Greater Memphis Chamber, brauchte Musk nur etwa eine Woche, um sich für den Bau des neuen Supercomputers von xAI in Memphis zu entscheiden.

Nach mehreren Tagen stürmischer Verhandlungen im März entschieden sich Musk und sein Team für die Stadt Tennessee, weil sie über reichlich Energie verfügt und schnell bauen kann, sagte Townsend.

Darüber hinaus dauerte der Bau des Supercomputing-Zentrums nur 19 Tage. Auch Musk lobte in einem Tweet die hervorragende Arbeit des Teams.


Supermicro stellt auch den Großteil der Hardwareunterstützung für xAI bereit, und sein CEO Charles Liang äußerte sich ebenfalls zu Musks Tweet und lobte die Ausführungsfähigkeiten des Teams.


Der Zweck eines so großen Trainingsclusters besteht darin, Grok 3 zu trainieren.

Anfang dieses Monats kündigte Musk die Einführung von Grok 2 Ende August an. Während Grok-2 noch nicht veröffentlicht wurde, enthüllte Musk auch einige Details von Grok-3, um den Schwung für das leistungsstärkste Modell, Grok 3, zu steigern .

In einem Interview mit Nicolai Tangen, Chef des norwegischen Staatsfonds, sagte Musk im April dieses Jahres, dass Grok 2 etwa 20.000 H100 für die Ausbildung benötigen würde.

Grok 3 wird Ende des Jahres veröffentlicht. Es ist absehbar, dass die Leistung von Grok 3 basierend auf 100.000 GPU-Training höher sein wird als die von Grok 2.

Ein solch riesiges Supercomputing-Zentrum erfordert natürlich die Unterstützung einer großen Anzahl von Talenten und Technologie. Musk rekrutiert auch weiterhin Leute auf Twitter, um die Vorteile von Daten, Talenten und Rechenleistung auf das Äußerste zu erweitern.


Verweise:

https://x.com/elonmusk/status/1815325410667749760

https://x.com/tsarnick/status/1815493761486708993