Der KI-Kampf um die Hegemonie beginnt! OpenAI baut dringend 100.000 GB200-Supercomputer, Musks 100.000 H100 werden Ende des Monats mit dem Training beginnen

2024-07-16

Neuer Weisheitsbericht

Herausgeber: Taozi

[Einführung in die neue Weisheit] Musk gab offiziell bekannt, dass der weltweit größte von xAI gebaute Supercomputing-Cluster aus 100.000 H100 besteht und voraussichtlich Ende dieses Monats mit dem Training beginnen wird. Auf der anderen Seite erhöht OpenAI seine Investitionen erneut und wird einen Supercomputer mit 100.000 GB200 bauen, um xAI vollständig zu vernichten.

Um AGI zu erreichen, bereiten sich Unternehmen auf der ganzen Welt darauf vor, alle GPUs zu brennen!

Informationen berichteten ausschließlich, dass der nächste Supercomputing-Cluster von OpenAI aus 100.000 GB200-Blöcken bestehen wird.

Dabei kommt der bisher leistungsstärkste KI-Chip von Nvidia zum Einsatz.

Andererseits baut xAI auch den sogenannten „größten Supercomputing-Cluster der Welt“ auf, der aus 100.000 H100 besteht und Ende dieses Monats in die Ausbildung gehen wird.

In Musks neuestem Beitrag reagierte er sofort auf Berichte, dass xAI und Oracle die Verhandlungen über einen Server-Deal abgebrochen hätten.

Er sagte, dass xAI 24.000 H100 von Oracle gekauft und Grok 2 auf diesen Chips trainiert habe.

Grok 2 wird derzeit verfeinert und Fehler behoben und wird voraussichtlich nächsten Monat zur Veröffentlichung bereit sein. Gleichzeitig baut xAI auch selbst einen Cluster von 100.000 H100 auf, mit dem Ziel, die schnellste Trainingsabschlusszeit zu erreichen. Es ist geplant, noch in diesem Monat mit dem Training von Modellen zu beginnen. Dies wird der stärkste Ausbildungscluster der Welt werden, und seine Vorteile liegen auf der Hand. Der Grund, warum wir uns entschieden haben, 100.000 H100-Chipsysteme sowie die nächste Generation großer Systeme selbst zu bauen, liegt darin, dass unsere Wettbewerbsfähigkeit im Wesentlichen davon abhängt, schneller als andere KI-Unternehmen zu sein. Nur so können Sie mit Ihren Mitbewerbern mithalten. Oracle ist ein hervorragendes Unternehmen, und es gibt ein weiteres Unternehmen (in Anspielung auf Microsoft), das ebenfalls großes Potenzial für die Teilnahme am GB200-Clusterprojekt von OpenAI zeigt. Aber wenn unser Schicksal davon abhängt, das schnellste Unternehmen zu sein, müssen wir die Verantwortung übernehmen und dürfen nicht nur Zuschauer sein.

Kurz gesagt: Wenn Sie in dieser sich ständig verändernden Zeit Ihre Konkurrenten übertreffen wollen, müssen Sie sich einen absoluten Geschwindigkeitsvorteil sichern.

xAI Oracle bricht zusammen, Dutzende Milliarden Dollar werden verschwendet

Im Mai dieses Jahres berichtete Information, dass xAI über einen mehrjährigen Vertrag zur Vermietung von Nvidia-KI-Chips von Oracle gesprochen habe.

Der Deal sollte einen Wert von bis zu 10 Milliarden US-Dollar haben, geriet jedoch aufgrund einiger Probleme in eine Sackgasse.

Unter anderem verlangt Musk, dass die Geschwindigkeit des Supercomputerbaus die Vorstellungskraft von Oracle völlig übersteigt. Oracle befürchtet außerdem, dass der bevorzugte Standort von xAI nicht über genügend Strom verfügt.

Um diese Situation zu ändern, können wir uns nur auf Eigenständigkeit verlassen.

Jetzt baut xAI in Memphis, Tennessee, ein eigenes KI-Rechenzentrum, das Nvidia-Chips von Dell und Supermicro verwendet.

Nach Angaben von Verhandlungsteilnehmern ist Oracle nicht an dem Projekt beteiligt.

Tatsächlich hatte xAI zuvor viele Nvidia-Chips von Oracle gemietet und wurde einer der größten Kunden dieses Cloud-Computing-GPU-Anbieters.

Der Deal soll trotz des Scheiterns umfassenderer Verhandlungen vorerst zustande kommen.

Aus Musks jüngster Antwort geht hervor, dass die Zahl der Oracle-Chips von 16.000 im Mai auf 24.000 gestiegen ist.

100.000 Stück H100-Serienverbindung

Allerdings hofft Musk immer noch, einen Supercomputer mit 100.000 Nvidia-GPUs bauen zu können, den er als „Gigafactory of Compute“ bezeichnet.

Er sagte, dass xAI mehr Chips benötige, um das KI-Modell der nächsten Generation – Grok 3.0 – zu trainieren.

Lao Ma teilte den Investoren im Mai mit, dass er hoffe, den Supercomputer bis Herbst 2025 betriebsbereit zu haben, und dass er persönlich für die pünktliche Lieferung des Supercomputers verantwortlich sein werde, da dies für die Entwicklung von LLM von entscheidender Bedeutung sei.

Er hat mehrfach öffentlich erklärt, dass in wenigen Monaten ein flüssigkeitsgekühlter Trainingscluster bestehend aus 100.000 H100 online gehen wird.

Der Grund, warum die Iteration des Grok-Modells wichtig ist, liegt darin, dass es Teil des X Social App-Abonnementpakets ist, das bei 8 US-Dollar pro Monat beginnt und eine Vielzahl von Funktionen umfasst.

Erst letzte Woche veröffentlichte xAI außerdem ein Foto von Musk und anderen Mitarbeitern im Rechenzentrum. Im Hintergrund hinter dem Foto sind Server zu sehen.

Obwohl der Ort im Beitrag nicht angegeben wurde. Doch im Juni sagte der Präsident der Greater Memphis Chamber, dass xAI in der Electrolux-Fabrik in Memphis einen Supercomputer baue.

Versorgungslayout der neuen xAI-Anlage in Memphis, Tennessee

Micael Dell, CEO von Dell, sagte, dass Dell xAI beim Aufbau eines Rechenzentrums unterstützt.

Darüber hinaus veröffentlichte Supermicro-CEO Charles Liang auch ein Foto von sich und Musk im Rechenzentrum, das ebenfalls die Partnerschaft des Unternehmens mit xAI bestätigte.

Erwähnenswert ist, dass Musk letzten Monat bekannt gab, dass xAI eine unglaubliche Serie-B-Finanzierung in Höhe von 6 Milliarden US-Dollar abgeschlossen hat, wobei die Unternehmensbewertung 24 Milliarden US-Dollar erreicht hat.

Zu den Investoren der Serie-B-Finanzierung gehören acht Investoren, darunter Andreessen Horowitz, Sequoia Capital, Valor Equity Partners, Vy Capital und Fidelity Management & Research.

Er sagte persönlich, dass in der jüngsten Finanzierungsrunde der Großteil der Mittel in den Bau von Rechenleistung fließen werde.

Offensichtlich ist das von xAI aufgebaute Supercomputing-Projekt Teil seiner Bemühungen, mit OpenAI gleichzuziehen.

100.000 GB200-Supercomputer, für 5 Milliarden US-Dollar für zwei Jahre gemietet

Tatsächlich beschleunigt OpenAI auf der anderen Seite auch ununterbrochen seine Forschungs- und Entwicklungsgeschwindigkeit und wagt es nicht, nachzulassen.

Zwei mit der Angelegenheit vertraute Personen gaben bekannt, dass Oracles Deal mit Microsoft ein Cluster von 100.000 kommenden GB200-Chips von Nvidia umfasst.

Wenn dieser Supercomputer gebaut ist, werden Musks 100.000 H100 nichts sein.

Einige Internetnutzer behaupteten, dass die Anzahl der NVIDIA GB200-Chips im Cluster in etwa der Anzahl der Transistoren im Intel 80286-Prozessor entspricht. Ich bin überrascht, diese Szene in meinem Leben zu sehen.

Jemand anderes hat dies analysiert und gesagt: „Die Trainingsleistung von GB200 wird viermal so hoch sein wie die von H100.“

GPT-4 wurde mit 25.000 A100 (dem Vorgänger von H100) in 90 Tagen trainiert. Theoretisch könnten Sie GPT-4 also in weniger als 2 Tagen mit 100.000 GB200 trainieren, obwohl dies unter idealen Bedingungen geschieht und möglicherweise nicht ganz realistisch ist. Aber es lässt die Menschen sich vorstellen, welche Art von KI-Modellen sie mit diesem Supercomputer-Cluster, der voraussichtlich im zweiten Quartal 2025 in Betrieb genommen wird, in 90 Tagen trainieren können.

Auf der GTC 2024-Konferenz stellte Lao Huang einmal vor, dass H100 viermal schneller als A100 und B200 dreimal schneller als H100 sei.

Unter der Annahme, dass die beiden Unternehmen einen mehrjährigen Vertrag unterzeichnen, könnten sich die Kosten für die Anmietung eines solchen Clusters innerhalb von zwei Jahren auf etwa 5 Milliarden US-Dollar belaufen, sagen Personen, die mit GPU-Cloud-Preisen vertraut sind.

Dieser Cluster wird voraussichtlich im zweiten Quartal 2025 fertig sein.

Oracle kauft Chips von Nvidia und vermietet sie an Microsoft, das die Chips dann an OpenAI liefert. Schließlich ist dies zu einer konsequenten Praxis zum gegenseitigen Nutzen zwischen Microsoft und OpenAI geworden.

Microsoft investiert Geld in OpenAI und erhält im Gegenzug Zugang zu neuen OpenAI-Modellen.

Nach Angaben der an der Planung beteiligten Personen plant Oracle, die Chips in einem Rechenzentrum in Abilene, Texas, unterzubringen.

Der Deal zeigt auch, dass Microsoft selbst nicht genug Nvidia-Chips bekommen kann.

Darüber hinaus ist es für Cloud-Computing-Anbieter nicht üblich, Server voneinander zu mieten, aber die starke Nachfrage nach Nvidia-Chips führte zu dieser ungewöhnlichen Transaktion.

Im vergangenen Jahr hat Microsoft mit CoreWeave eine ähnliche Servermietvereinbarung getroffen, um die Kapazität von Nvidia-Servern zu erhöhen.

Verweise:

https://x.com/elonmusk/status/181072739463195075

https://x.com/amir/status/1810722841106821623

Nachricht

Der KI-Kampf um die Hegemonie beginnt! OpenAI baut dringend 100.000 GB200-Supercomputer, Musks 100.000 H100 werden Ende des Monats mit dem Training beginnen

Einführung

meine Kontaktdaten