KI-Monster-Dojo! Selbstentwickeltes Supercomputing stellt NVIDIA

KI-Monster-Dojo!Selbst entwickeltes Supercomputing fordert NVIDIA heraus

2024-08-05

Der Artikel ist in Xinzhiyuan abgedruckt

Um den stärksten Grok 3 zu trainieren, hat xAI 19 Tage damit verbracht, den weltweit größten Supercomputing-Cluster bestehend aus 100.000 H100 aufzubauen.

Auch beim Training der FSD- und Optimus-Prime-Roboter hat Musk keine Kosten gescheut und viel Rechenressourcen investiert.

Supercomputing Dojo ist der Grundstein der Tesla-KI und wurde speziell für das Training neuronaler FSD-Netze entwickelt.

Erst heute besuchte er Teslas Supercomputer-Cluster in der Texas Super Factory (Cortex).

Musk sagte: „Dies wird ein System mit etwa 100.000 H100/H200-GPUs sein und mit großem Speicher für Videotraining von vollständig autonomem Fahren (FSD) und Optimus-Robotern ausgestattet sein.“

Darüber hinaus ist dieser Supercomputing-Cluster neben NVIDIA-GPUs auch mit Tesla HW4-, AI5- und Dojo-Systemen ausgestattet.

Sie werden von einer Großanlage mit bis zu 500 Megawatt versorgt und gekühlt.

Beim Tesla AI Day 2021 kündigte Musk Dojo erstmals an.

Nun sind drei Jahre vergangen. Wie läuft der Bau des Dojos?

8.000 H100-äquivalente Rechenleistung, verdoppeln Sie Ihren Einsatz

Vor einem halben Monat behaupteten Internetnutzer, dass Tesla bis Ende 2024 über Rechenleistung für das KI-Training verfügen würde, was der Leistung eines H100 im Wert von 90.000 Yuan entspricht.

Musk hat dem noch etwas hinzugefügt:

Wir verwenden im KI-Trainingssystem nicht nur NVIDIA-GPUs, sondern auch unseren eigenen KI-Computer – Tesla HW4 AI (umbenannt in AI4), mit einem Verhältnis von etwa 1:2. Das bedeutet, dass es ungefähr 90.000 H100 plus ungefähr 40.000 AI4-Computer gibt.

Er erwähnte auch, dass Dojo 1 bis Ende dieses Jahres über etwa 8.000 äquivalente H100-Rechenleistung verfügen wird. Dieser Maßstab ist nicht riesig, aber auch nicht klein.

Supercomputing-Cluster Dojo D1

Tatsächlich gab Musk im Juni letzten Jahres bekannt, dass Dojo seit mehreren Monaten online war und nützliche Aufgaben ausführte.

Dies deutet bereits darauf hin, dass Dojo für einige Aufgaben an der Schulung beteiligt war.

Kürzlich sagte Musk auf der Gewinnkonferenz von Tesla, dass Tesla die Einführung selbstfahrender Taxis im Oktober vorbereite und das KI-Team die Investitionen in Dojo „verdoppeln“ werde.

Die gesamte Rechenleistung von Dojo wird voraussichtlich im Oktober 2024 100 Exaflops erreichen.

Unter der Annahme, dass ein D1-Chip 362 Teraflops erreichen kann, würde Tesla mehr als 276.000 D1-Chips oder mehr als 320.000 Nvidia A100-GPUs benötigen, um 100 Exaflops zu erreichen.

50 Milliarden Transistoren, D1 wurden in Produktion genommen

Beim Tesla AI Day 2021 wurde erstmals der D1-Chip vorgestellt. Er verfügt über 50 Milliarden Transistoren und ist nur so groß wie eine Handfläche.

Es verfügt über eine leistungsstarke und effiziente Leistung und kann verschiedene komplexe Aufgaben schnell bewältigen.

Im Mai dieses Jahres begann die Produktion des D1-Chips unter Verwendung des 7-nm-Prozessknotens von TSMC.

Ganesh Venkataramanan, ehemaliger Senior Director für Hardware bei Autopilot, sagte einmal: „D1 kann Berechnungen und Datenübertragung gleichzeitig durchführen, übernimmt eine angepasste ISA-Befehlssatzarchitektur und ist vollständig für Arbeitslasten des maschinellen Lernens optimiert.“

Dies ist ein reiner maschineller Lernchip.

Trotzdem ist der D1 immer noch nicht so leistungsstark wie der Nvidia A100, der ebenfalls im 7-nm-Verfahren von TSMC hergestellt wird.

D1 platziert 50 Milliarden Transistoren auf einem 645 Quadratmillimeter großen Chip, während der A100 54 Milliarden Transistoren enthält, eine Chipgröße von 826 Quadratmillimetern hat und in der Leistung vor D1 liegt.

Um eine höhere Bandbreite und Rechenleistung zu erhalten, integrierte das Tesla-KI-Team 25 D1-Chips in eine Kachel und betrieb diese als einheitliches Computersystem.

Jede Kachel verfügt über 9 Petaflops Rechenleistung, 36 Terabyte pro Sekunde Bandbreite und umfasst Stromversorgung, Kühlung und Datenübertragungshardware.

Wir können uns eine einzelne Kachel als einen autarken Computer vorstellen, der aus 25 Minicomputern besteht.

Durch den Einsatz der Wafer-Level-Verbindungstechnologie InFO_SoW (Integrated Fan-Out, System-on-Wafer) können 25 D1-Chips auf demselben Wafer Hochleistungsverbindungen erreichen und wie ein einzelner Prozessor arbeiten.

Sechs solcher Kacheln bilden ein Regal und zwei Regale bilden einen Schrank.

Zehn Schränke bilden einen ExaPOD.

Auf dem AI Day 2022 sagte Tesla, dass Dojo durch den Einsatz mehrerer ExaPODs skalieren wird. All dies zusammen ergibt einen Supercomputer.

Wafer-Scale-Prozessoren wie Teslas Dojo und Cerebras Wafer-Scale Engine WSE sind wesentlich leistungseffizienter als Multiprozessoren.

Zu den Hauptvorteilen des ersteren zählen die Kommunikation zwischen Kernen mit hoher Bandbreite und geringer Latenz, eine geringere Netzimpedanz und eine höhere Energieeffizienz.

Derzeit verfügen nur Tesla und Cerebras über System-on-Wafer-Designs.

Der Zusammenbau von 25 Chips stellt jedoch Spannungsprobleme und Kühlsysteme dar.

Internetnutzer fotografierten Tesla beim Bau eines riesigen Kühlsystems in Texas

Eine inhärente Herausforderung bei Wafer-Level-Chips besteht darin, dass sie On-Chip-Speicher verwenden müssen, der nicht flexibel genug ist und möglicherweise nicht für alle Arten von Anwendungen geeignet ist.

Tom's Hardware prognostiziert, dass die Technologie der nächsten Generation CoW_SoW (Chip-on-Wafer) sein könnte, das 3D-Stacking auf Kacheln durchführt und HBM4-Speicher integriert.

Darüber hinaus entwickelt Tesla auch den D2-Chip der nächsten Generation, um das Problem des Informationsflusses zu lösen.

Anstatt einzelne Chips zu verbinden, platziert D2 die gesamte Dojo-Kachel auf einem einzigen Siliziumwafer.

Bis 2027 wird TSMC voraussichtlich komplexere Wafer-Level-Systeme bereitstellen und die Rechenleistung soll um mehr als das 40-fache steigen.

Seit der Veröffentlichung von D1 hat Tesla weder den Bestellstatus der bestellten oder erwarteten D1-Chips noch den konkreten Bereitstellungsplan des Dojo-Supercomputers bekannt gegeben.

Im Juni dieses Jahres sagte Musk jedoch, dass in den nächsten 18 Monaten die Hälfte der Tesla-KI-Hardware eingesetzt wird und die andere Hälfte Nvidia-/andere Hardware sein wird.

Andere Hardware, möglicherweise AMD.

Warum Dojo benötigt wird

Autonomes Fahren verbraucht Rechenleistung

Nach unserem Eindruck beschränkt sich Teslas Hauptgeschäft auf die Produktion von Elektrofahrzeugen, hinzu kommen einige Solarpaneele und Energiespeichersysteme.

Doch Musk erwartet noch viel mehr von Tesla.

Die meisten selbstfahrenden Systeme, wie etwa Waymo, eine Tochtergesellschaft des Google-Mutterkonzerns Alphabet, verlassen sich immer noch auf traditionelle Sensoren als Eingabe, etwa Radar, Lidar und Kameras.

Aber Tesla geht einen „Full Vision“-Weg. Sie verlassen sich lediglich auf Kameras, um visuelle Daten zu erfassen, diese mit hochauflösenden Karten für die Positionierung zu ergänzen und dann neuronale Netze zu verwenden, um die Daten zu verarbeiten, um schnelle Entscheidungen zum autonomen Fahren zu treffen.

Intuitiv ist es offensichtlich, dass Ersteres ein einfacherer und schnellerer Weg ist, und das ist auch tatsächlich der Fall.

Waymo hat das autonome Fahren L4 kommerzialisiert, ein System, das unter bestimmten, von SAE definierten Bedingungen ohne menschliches Eingreifen selbst fahren kann. Aber Teslas FSD (Full Self-Driving) neuronales Netzwerk kann immer noch nicht vom menschlichen Betrieb getrennt werden.

Andrej Karpathy, der einst Leiter der KI-Abteilung bei Tesla war, sagte, dass die Implementierung von FSD im Grunde „der Bau eines künstlichen Tieres von Grund auf“ sei.

Wir können es uns als eine digitale Nachbildung des menschlichen visuellen Kortex und der Gehirnfunktionen vorstellen. FSD muss nicht nur kontinuierlich visuelle Daten sammeln und verarbeiten sowie Objekte rund um das Fahrzeug identifizieren und klassifizieren, sondern auch eine Entscheidungsgeschwindigkeit haben, die mit der von Menschen vergleichbar ist.

Man erkennt, dass Musk mehr will als nur ein profitables autonomes Fahrsystem. Sein Ziel ist es, eine neue Intelligenz zu schaffen.

Doch über unzureichende Daten muss er sich zum Glück kaum Sorgen machen. Etwa 1,8 Millionen Menschen zahlen derzeit die Abonnementgebühr von 8.000 US-Dollar für FSD (früher konnten es 15.000 US-Dollar sein), was bedeutet, dass Tesla Millionen von Kilometern an Fahrvideos für das Training sammeln kann.

Was die Rechenleistung angeht, ist der Dojo-Supercomputer das Trainingsgelände für FSD. Sein chinesischer Name kann mit „Dojo“ übersetzt werden, eine Anspielung auf den Kampfsport-Übungsraum.

NVIDIA ist nicht gut genug

Wie beliebt sind NVIDIA-GPUs? Schauen Sie sich nur an, wie sehr sich die CEOs der großen Technologiegiganten den alten Gangstern nähern wollen.

Selbst so wohlhabend wie Musk, gab er während der Gewinnmitteilung im Juli zu, dass er „sehr besorgt“ sei, dass Tesla möglicherweise nicht genügend Nvidia-GPUs verwenden könne.

„Wir sehen, dass die Nachfrage nach Nvidia-Hardware so hoch ist, dass es oft schwierig ist, GPUs zu bekommen.“

Derzeit scheint Tesla noch Nvidias Hardware zu nutzen, um Dojo mit Rechenleistung zu versorgen, doch Musk scheint nicht alles auf eine Karte setzen zu wollen.

Vor allem, wenn man bedenkt, dass die Prämie der Nvidia-Chips so hoch ist und die Leistung für Musk nicht ganz zufriedenstellend ist.

In Bezug auf Hardware- und Software-Synergien vertreten Tesla und Apple ähnliche Ansichten, d maßgeschneiderte Hardware.

Der Kern dieser Vision ist Teslas proprietärer D1-Chip, der 2021 auf den Markt kommen und im Mai dieses Jahres von TSMC produziert werden soll.

Darüber hinaus entwickelt Tesla auch den D2-Chip der nächsten Generation und hofft, den gesamten Dojo-Block auf einem einzigen Siliziumchip unterzubringen, um den Engpass im Informationsfluss zu lösen.

Im Ergebnisbericht für das zweite Quartal stellte Musk fest, dass er „eine andere Möglichkeit sah, durch Dojo mit Nvidia zu konkurrieren“.

Kann Dojo erfolgreich sein?

Auch wenn er genauso zuversichtlich ist wie Musk, wenn er über Dojo spricht, wird er zögern zu sagen, dass Tesla möglicherweise keinen Erfolg haben wird.

Langfristig könnte die Entwicklung eigener Supercomputing-Hardware neue Geschäftsmodelle für den KI-Bereich eröffnen.

Musk sagte, dass die erste Version von Dojo auf die visuelle Datenanmerkung und das Training von Tesla zugeschnitten sein wird, was für FSD und das Training von Teslas humanoidem Roboter Optimus sehr nützlich sein wird.

Zukünftige Versionen werden besser für das allgemeine KI-Training geeignet sein, allerdings wird dies unweigerlich die Burggrabensoftware von Nvidia mit sich bringen.

Fast alle KI-Software ist für die Zusammenarbeit mit NVIDIA-GPUs konzipiert, und die Verwendung von Dojo bedeutet, das gesamte KI-Ökosystem, einschließlich CUDA und PyTorch, neu zu schreiben.

Das bedeutet, dass Dojo fast nur einen Ausweg hat: Rechenleistung mieten und eine Cloud-Computing-Plattform aufbauen, die AWS und Azure ähnelt.

Morgan Stanley prognostizierte in einem Bericht vom vergangenen September, dass Dojo neue Einnahmequellen in Form von Robotaxi- und Softwarediensten erschließen und den Marktwert von Tesla um 500 Milliarden US-Dollar steigern könnte.

Kurz gesagt, gemessen an Musks aktuell sorgfältiger Hardwareverteilung ist Dojo kein „verzweifelter Schachzug“, sondern eher eine doppelte Versicherung. Aber wenn es gelingt, können auch riesige Dividenden ausgeschüttet werden.

Verweise:

https://techcrunch.com/2024/08/03/tesla-dojo-elon-musks-big-plan-to-build-an-ai-supercomputer-explained/

https://www.tomshardware.com/tech-industry/teslas-dojo-system-on-wafer-is-in-produktion-a-serious-processor-for-serious-ai-workloads

Klicken Sie auf „“ und los geht’s

Nachricht

KI-Monster-Dojo!Selbst entwickeltes Supercomputing fordert NVIDIA heraus

Einführung

meine Kontaktdaten