Nachricht

TPU-Chips, die GPUs angreifen, werden über Nacht populär

2024-08-17

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

​SeitdemChatGPTNach der Explosion begann die Forschung und Entwicklung großer KI-Modelle nacheinander. Während dieser „100-Moden-Krieg“ in vollem Gange war, verdiente der amerikanische Chipkonzern NVIDIA viel Geld mit der herausragenden Leistung seiner GPU bei Berechnungen großer Modelle .

Allerdings hat ein jüngster Schritt von Apple die Begeisterung von Nvidia etwas gedämpft.

01

Beim KI-Modelltraining wählt Apple TPU statt GPU

NVIDIA war schon immer führend im Bereich der KI-Computing-Infrastruktur. Auf dem KI-Hardwaremarkt, insbesondere im Bereich der KI-Schulung, liegt der Marktanteil von NVIDIA GPU seit jeher an der Spitze von Amazon und Microsoft , Meta,OpenAI Für viele Technologiegiganten im Bereich KI und maschinelles Lernen ist es die bevorzugte Rechenleistungslösung.

Daher sieht sich Nvidia weiterhin mit vielfältigen Herausforderungen in der Branche konfrontiert. Unter seinen Konkurrenten gibt es viele starke Akteure in der unabhängigen Forschung und Entwicklung von GPUs sowie Pioniere bei der Erforschung innovativer Architekturen. Auch Googles TPU ist zu einem mächtigen Gegner geworden, den Nvidia aufgrund seiner einzigartigen Vorteile nicht ignorieren kann.

Am 30. Juli veröffentlichte Apple ein Forschungspapier. In dem Artikel stellte Apple zwei Modelle vor, die Apple Intelligence-AFM-on-Device (AFM ist die Abkürzung für Apple Basic Model) und AFM-Server (ein großes serverbasiertes Sprachmodell) unterstützen. Das letztgenannte ist ein serverbasiertes Sprachmodell mit 100 Millionen Parametern.

Apple erklärte in dem Papier, dass es zum Trainieren seines KI-Modells zwei Arten von Tensorprozessoren (TPUs) von Google verwendet habe und diese Einheiten in großen Chip-Clustern organisiert seien. Um AFM-on-Device zu entwickeln, ein KI-Modell, das auf iPhones und anderen Geräten ausgeführt werden kann, verwendet Apple 2048 TPUv5p-Chips. Für sein Server-KI-Modell AFM-Server setzte Apple 8192 TPUv4-Prozessoren ein.

Apples strategische Entscheidung, Nvidia-GPUs aufzugeben und auf Google-TPUs umzusteigen, löste in der Technologiewelt eine Schockbombe aus. Der Aktienkurs von Nvidia fiel an diesem Tag um mehr als 7 %, der stärkste Rückgang seit drei Monaten, und sein Marktwert schrumpfte um 193 Milliarden US-Dollar.

Brancheninsider sagten, die Entscheidung von Apple zeige, dass einige große Technologieunternehmen möglicherweise nach Alternativen zu Nvidias Grafikprozessoren suchen, wenn es um die Ausbildung im Bereich der künstlichen Intelligenz geht.

02

TPU vs. GPU, welches ist besser für große Modelle geeignet?

Bevor wir diskutieren, ob TPU oder GPU besser für große Modelle geeignet sind, müssen wir ein vorläufiges Verständnis der beiden haben.

Vergleich zwischen TPU und GPU

TPU, der vollständige Name von Tensor Processing Unit, ist ein spezieller Chip, der von Google entwickelt wurde, um Arbeitslasten beim maschinellen Lernen zu beschleunigen. Er wird hauptsächlich für das Training und die Argumentation von Deep-Learning-Modellen verwendet. Es ist erwähnenswert, dass TPU ebenfalls zu einer Kategorie von ASIC-Chips gehört und ASIC ein Chip ist, der speziell auf bestimmte Anforderungen zugeschnitten ist.

Jeder kennt die GPU, einen Prozessor, der ursprünglich für das Rendern von Grafiken entwickelt wurde und später häufig für paralleles Rechnen und Deep Learning verwendet wird. Es verfügt über leistungsstarke Parallelverarbeitungsfunktionen und die optimierte GPU eignet sich auch sehr gut für parallele Aufgaben wie Deep Learning und wissenschaftliches Rechnen.

Es ist ersichtlich, dass diese beiden unterschiedlichen Chips in ihrem ursprünglichen Design unterschiedliche Ziele verfolgen.

Im Vergleich zu herkömmlichen CPUs eignen sich GPUs aufgrund ihrer parallelen Rechenfähigkeiten besonders für die Verarbeitung großer Datensätze und komplexer Rechenaufgaben. Daher wurden GPUs mit der Explosion großer KI-Modelle in den letzten Jahren zur ersten Wahl für Rechenhardware KI-Training.

Mit der kontinuierlichen Entwicklung großer KI-Modelle werden Rechenaufgaben jedoch exponentiell größer und komplexer, was neue Anforderungen an Rechenleistung und Rechenressourcen stellt. Wenn GPU für KI-Berechnungen verwendet wird, ist die Rechenleistungsauslastung niedrig Der hohe Energieeffizienzengpass beim Energieverbrauch sowie der hohe Preis und das knappe Angebot an NVIDIA-GPU-Produkten haben mehr Aufmerksamkeit auf die TPU-Architektur gelenkt, die ursprünglich für Deep Learning und maschinelles Lernen entwickelt wurde. Die Dominanz der GPU in diesem Bereich steht vor Herausforderungen.

Berichten zufolge begann Google bereits 2013 mit der internen Entwicklung von Chips für KI-Algorithmen für maschinelles Lernen. Erst 2016 wurde dieser selbst entwickelte Chip namens TPU offiziell veröffentlicht. Besiegte Lee Sedol im März 2016 und Ke Jie im Mai 2017 AlphaGo, das mit den Chips der TPU-Serie von Google trainiert wird.

Wenn behauptet wird, dass TPU besser für das Training großer KI-Modelle geeignet ist, kann es schwierig sein, alle zu überzeugen, ohne seine „Fähigkeiten“ im Detail zu erläutern.

Wie eignet sich TPU für das Training großer Modelle?

Erstens verfügt TPU über mehrdimensionale Recheneinheiten, um die Recheneffizienz zu verbessern.Im Vergleich zur Skalar-Recheneinheit in der CPU und der Vektor-Recheneinheit in der GPU verwendet die TPU zweidimensionale oder sogar höherdimensionale Recheneinheiten zur Erledigung von Rechenaufgaben und erweitert die Faltungsoperationsschleife, um eine maximale Datenwiederverwendung zu erreichen und Daten zu reduzieren Senkung der Übertragungskosten und Verbesserung der Beschleunigungseffizienz.

Zweitens verfügt TPU über eine zeitsparendere Datenübertragung und eine hocheffiziente Steuereinheit.Das durch die von Neumann-Architektur verursachte Speicherwandproblem tritt besonders bei Deep-Learning-Aufgaben auf, und TPU verfolgt eine radikalere Strategie zur Gestaltung der Datenübertragung, und die Steuereinheit ist kleiner, sodass mehr Platz für On-Chip-Speicher und Recheneinheiten bleibt.

Schließlich soll TPU die KI beschleunigen und die KI/ML-Rechnerfähigkeiten verbessern.Mit genauer Positionierung, einfacher Architektur, Single-Thread-Steuerung und benutzerdefiniertem Befehlssatz ist die TPU-Architektur bei Deep-Learning-Vorgängen äußerst effizient und leicht zu erweitern, wodurch sie sich besser für KI-Trainingsberechnungen in sehr großem Maßstab eignet.

Es wird berichtet, dass Google TPUv4 einen 1,3-1,9-mal geringeren Stromverbrauch hat als NVIDIA A100. In verschiedenen Arbeitsmodellen wie Bert und ResNet ist die Effizienz 1,2-1,9-mal höher als bei A100. Gleichzeitig sind seine TPUv5/TPU-Trillium-Produkte kann einen 1,3- bis 1,9-mal geringeren Stromverbrauch als NVIDIA A100 erzielen und die Rechenleistung um das Zweifache bzw. fast das Zehnfache verbessern. Es ist ersichtlich, dass Google TPU-Produkte hinsichtlich Kosten und Stromverbrauch mehr Vorteile bieten als NVIDIA-Produkte.

Auf der Entwicklerkonferenz I/O 2024 im Mai dieses Jahres kündigte Alphabet-CEO Sundar Pichai den Rechenzentrums-KI-Chip Tensor Processor Unit (TPU)-Trillium der sechsten Generation an und sagte, dass das Produkt fast fünfmal schneller sei als sein Vorgänger Es heißt, dass Lieferungen später in diesem Jahr verfügbar sein werden.

Google gab an, dass die Rechenleistung des Trillium-Chips der sechsten Generation 4,7-mal höher ist als die des TPU v5e-Chips und die Energieeffizienz 67 % höher ist als bei v5e. Der Chip soll eine Technologie antreiben, die Text und andere Inhalte aus großen Modellen generiert. Google gab außerdem bekannt, dass seinen Cloud-Kunden bis Ende des Jahres Trillium-Chips der sechsten Generation zur Verfügung stehen werden.

Die Google-Ingenieure erzielten zusätzliche Leistungssteigerungen, indem sie die Speicherkapazität für hohe Bandbreiten und die Gesamtbandbreite erhöhten. KI-Modelle erfordern große Mengen an erweitertem Speicher, was ein Engpass bei der weiteren Leistungsverbesserung darstellt.

Es ist erwähnenswert, dass Google seine eigenen TPU-Chips nicht separat als eigenständige Produkte verkaufen wird, sondern über die Google Cloud Platform (GCP) TPU-basierte Computerdienste für externe Kunden bereitstellen wird.

Auch in diesem Plan zeigt sich die Cleverness von Google: Der Direktverkauf von Hardware ist mit hohen Kosten und einem aufwändigen Supply Chain Management verbunden. Durch die Bereitstellung von TPU über Cloud-Dienste kann Google den Installations-, Bereitstellungs- und Verwaltungsprozess vereinfachen und so Unsicherheiten und zusätzlichen Aufwand reduzieren. Dieses Modell vereinfacht auch den Verkaufsprozess und macht den Aufbau eines zusätzlichen Hardware-Verkaufsteams überflüssig. Darüber hinaus steht Google in einem harten Wettbewerb mit OpenAI um generative KI. Wenn Google mit dem Verkauf von TPUs beginnt, konkurriert es gleichzeitig mit zwei mächtigen Konkurrenten: Nvidia und OpenAI, was derzeit möglicherweise nicht die intelligenteste Strategie ist.

An dieser Stelle des Artikels fragen sich einige vielleicht: Wird TPU in naher Zukunft die GPU ersetzen, da sie so hervorragende Leistungsvorteile bietet?

03

Sprechen Sie jetzt über den Austausch der GPU? Vielleicht ist es zu früh

Dieses Problem ist nicht so einfach.

Allein über die Vorteile von TPU zu sprechen, ohne über die Vorteile von GPU zu sprechen, ist eine blinde Augenmaßnahme. Als nächstes müssen wir auch verstehen, wie GPU im Vergleich zu TPU für das aktuelle KI-Training großer Modelle geeignet ist.

Wir sehen, dass die Vorteile von TPU in seinem hervorragenden Energieeffizienzverhältnis und seinen Stückkosten-Rechenleistungsindikatoren liegen. Da es sich um einen ASIC-Chip handelt, ist jedoch auch der Nachteil der hohen Versuch-und-Irrtum-Kosten relativ klar.

Auch im Hinblick auf die Reife des Ökosystems. Nach Jahren der Entwicklung verfügt GPU über ein großes und ausgereiftes Ökosystem an Software und Entwicklungstools. Viele Entwickler und Forschungseinrichtungen entwickeln und optimieren seit langem auf GPU-Basis und haben eine Fülle von Bibliotheken, Frameworks und Algorithmen angesammelt. Das TPU-Ökosystem ist relativ neu und die verfügbaren Ressourcen und Tools sind möglicherweise nicht so umfangreich wie die von GPUs, was die Anpassung und Optimierung für Entwickler möglicherweise schwieriger macht.

In Sachen Vielseitigkeit. GPUs wurden ursprünglich für die Grafikwiedergabe entwickelt, ihre Architektur ist jedoch äußerst flexibel und kann an viele verschiedene Arten von Rechenaufgaben angepasst werden, nicht nur an Deep Learning. Dies macht die GPU anpassungsfähiger für verschiedene Anwendungsszenarien. Im Gegensatz dazu sind TPUs speziell für Arbeitslasten des maschinellen Lernens konzipiert und können andere nicht mit maschinellem Lernen zusammenhängende Rechenaufgaben möglicherweise nicht so effizient bewältigen wie GPUs.

Schließlich ist der Wettbewerb auf dem GPU-Markt hart. Verschiedene Hersteller fördern weiterhin technologische Innovationen und Produktaktualisierungen, und es kommt immer häufiger zu neuen Architekturen und Leistungsverbesserungen. Die Entwicklung von TPU wird hauptsächlich von Google geleitet und sein Aktualisierungs- und Entwicklungstempo kann relativ langsam sein.

Insgesamt verfolgen NVIDIA und Google unterschiedliche Strategien für KI-Chips: NVIDIA verschiebt die Leistungsgrenzen von KI-Modellen durch die Bereitstellung leistungsstarker Rechenleistung und umfassender Entwicklerunterstützung, während Google die Leistung von KI-Chips durch eine effiziente verteilte Rechenarchitektur verbessert . Diese beiden unterschiedlichen Wegwahlen ermöglichen es ihnen, einzigartige Vorteile in ihren jeweiligen Anwendungsfeldern zu zeigen.

Der Grund, warum Apple sich für Google TPU entschieden hat, kann auf folgende Punkte zurückzuführen sein: Erstens bietet TPU eine gute Leistung bei der Verarbeitung umfangreicher verteilter Trainingsaufgaben und bietet effiziente Rechenfunktionen mit geringer Latenz. Zweitens kann Apple mithilfe der Google Cloud-Plattform die Hardware reduzieren Kosten und Flexibilität bei der Anpassung der Rechenressourcen, um die Gesamtkosten der KI-Entwicklung zu optimieren. Darüber hinaus bietet das KI-Entwicklungsökosystem von Google auch eine Fülle von Tools und Support, die es Apple ermöglichen, seine KI-Modelle effizienter zu entwickeln und bereitzustellen.

Das Beispiel von Apple beweist die Leistungsfähigkeit von TPU beim Training großer Modelle. Im Vergleich zu NVIDIA wird TPU jedoch immer noch selten im Bereich großer Modelle eingesetzt. Dahinter stehen Giganten wie OpenAI, Tesla und ByteDance. Die wichtigsten KI-Rechenzentren verwenden immer noch NVIDIA-GPUs.

Daher ist es vielleicht noch zu früh zu sagen, dass Googles TPU Nvidias GPU schlagen kann, aber TPU muss ein sehr herausfordernder Spieler sein.

04

Der Herausforderer der GPU ist nicht nur TPU

Auch in China setzt ein Unternehmen auf TPU-Chips: Zhonghao Xinying. Yang Gongyifan, Gründer von Zhonghao Xinying, arbeitete einst als zentraler Chip-Forschungs- und Entwicklungsmitarbeiter bei Google und war maßgeblich am Design und der Forschung und Entwicklung von Google TPU 2/3/4 beteiligt. Seiner Ansicht nach ist TPU eine vorteilhafte Architektur für große KI-Modelle .

Im Jahr 2023 wurde der „Snap“-Chip von Zhonghao Xinying offiziell geboren. Mit seinen einzigartigen Hochgeschwindigkeits-Inter-Chip-Verbindungsfähigkeiten von 1.024 Chips hat der „Snap“-Chip einen großen intelligenten Computercluster namens „Taize“ aufgebaut. Seine Systemclusterleistung ist Dutzende Male höher als die herkömmlicher GPUs Es handelt sich um einen AIGC mit über 100 Milliarden Parametern. Das Training und die Inferenz großer Modelle bieten eine beispiellose Rechenleistungsgarantie. Dieser Erfolg demonstriert nicht nur Zhonghao Xinyings tiefgreifende Fortschritte auf dem Gebiet der KI-Rechenleistungstechnologie, sondern sichert auch heimischen Chips einen wertvollen Platz auf der internationalen Bühne.

Im heutigen Goldrausch der künstlichen Intelligenz sind NVIDIA H100-Chips jedoch knapp und teuer. Große und kleine Unternehmen versuchen, die KI-Chipprodukte von NVIDIA zu ersetzen, darunter Unternehmen, die den traditionellen GPU-Weg wählen, und erforschen auch neue Architekturen.

Die Herausforderungen, vor denen die GPU steht, gehen weit über die der TPU hinaus.

In der GPU-Pfadforschung und -entwicklung ist Nvidia der größte RivaleAMDIm Januar dieses Jahres nutzten Forscher etwa 8 % der GPUs im Frontier-Supercomputing-Cluster, um ein großes Modell auf GPT 3.5-Ebene zu trainieren. Der Frontier-Supercomputing-Cluster basiert vollständig auf AMD-Hardware und besteht aus 37.888 MI250X-GPUs und 9.472 Epyc 7A53-CPUs. Diese Forschung hat auch die Schwierigkeiten fortgeschrittener verteilter Trainingsmodelle auf AMD-Hardware durchbrochen und eine große Trainingsplattform für AMD-Plattformen bereitgestellt die Machbarkeit.

Gleichzeitig wird das CUDA-Ökosystem schrittweise aufgelöst. Im Juli dieses Jahres brachte das britische Unternehmen Spectral Compute eine Lösung auf den Markt, die CUDA-Quellcode für AMD-GPUs nativ kompilieren kann, was die Kompatibilitätseffizienz von AMD-GPUs mit CUDA erheblich verbessert.

IntelGaudi 3 hat bei seiner Veröffentlichung auch einen direkten Benchmarking-Test für Nvidia H100 durchgeführt. Im April dieses Jahres brachte Intel Gaudi 3 für Deep Learning und groß angelegte generative KI-Modelle auf den Markt. Intel gab an, dass Gaudi 3 im Vergleich zur Vorgängergeneration die vierfache KI-Rechenleistung des Gleitkommaformats BF16 bieten und die Speicherbandbreite um das 1,5 erhöhen kann Zeiten und Service Die Netzwerkbandbreite für groß angelegte Anlagenerweiterungen wird verdoppelt. Im Vergleich zum NVIDIA-Chip H100 wird Gaudi 3 bei Anwendung auf das Meta Llama2-Modell mit 7B- und 13B-Parametern und das OpenAI GPT-3-Modell mit 175B-Parametern voraussichtlich die Trainingszeit dieser Modelle um durchschnittlich 50 % verkürzen.

Darüber hinaus wird bei Anwendung auf Llama mit 7B- und 70B-Parametern und dem Open-Source-Falcon-Modell mit 180B-Parametern erwartet, dass der Inferenzdurchsatz von Gaudi 3 im Durchschnitt 50 % höher ist als der von H100 und die Inferenzeffizienz im Durchschnitt 40 % höher ist. Darüber hinaus bietet Gaudi 3 einen größeren Leistungsvorteil bei der Inferenz bei längeren Eingabe- und Ausgabesequenzen.

Bei Anwendung auf Llama mit 7B- und 70B-Parametern und Falcon-Modell mit 180B-Parametern wird die Inferenzgeschwindigkeit von Gaudi 3 im Vergleich zu NVIDIA H200 um 30 % erhöht.

Laut Intel wird Gaudi 3 im dritten Quartal dieses Jahres für Kunden und im zweiten Quartal für OEMs wie Dell, HPE, Lenovo und Supermicro verfügbar sein, die Preisspanne von Gaudi 3 wurde jedoch nicht bekannt gegeben.

Letzten November,MicrosoftAuf der Ignite Technology Conference stellte das Unternehmen seinen ersten selbst entwickelten KI-Chip Azure Maia 100 sowie Azure Cobalt vor, einen Chip, der in Cloud-Softwarediensten verwendet wird. Die beiden Chips werden von TSMC hergestellt und nutzen die 5-nm-Prozesstechnologie.

Es wird berichtet, dass Nvidias High-End-Produkte manchmal für 30.000 bis 40.000 US-Dollar pro Stück verkauft werden können. Es wird angenommen, dass die für ChatGPT verwendeten Chips etwa 10.000 US-Dollar erfordern, was für KI-Unternehmen enorme Kosten darstellt. Große Technologieunternehmen mit großer Nachfrage nach KI-Chips suchen verzweifelt nach alternativen Bezugsquellen. Microsoft hat sich für die Entwicklung eigener Produkte entschieden, in der Hoffnung, die Leistung generativer KI-Produkte wie ChatGPT zu verbessern und gleichzeitig die Kosten zu senken.

Cobalt ist ein Allzweck-Chip, der auf der Arm-Architektur mit 128 Kernen basiert. Maia 100 ist ein ASIC-Chip, der speziell für Azure-Cloud-Dienste und KI-Workloads entwickelt wurde. Er wird für Cloud-Training und Argumentation verwendet und die Anzahl der Transistoren erreicht. Diese beiden Chips werden in das Microsoft Azure-Rechenzentrum importiert und unterstützen Dienste wie OpenAI und Copilot.

Rani Borkar, Vizepräsident der Azure-Chip-Abteilung, sagte, dass Microsoft mit dem Testen des Maia 100-Chips mit Bing begonnen habe und Microsofts wichtigster KI-Partner, der ChatGPT-Entwickler OpenAI, ebenfalls Tests durchführe. Einige Marktkommentare gehen davon aus, dass der Zeitpunkt des KI-Chip-Projekts von Microsoft zufällig ist, gerade als die groß angelegten Sprachmodelle von Microsoft, OpenAI und anderen Unternehmen begonnen haben, sich durchzusetzen.

Allerdings glaubt Microsoft nicht, dass seine KI-Chips die Produkte von Nvidia weitgehend ersetzen können. Einige Analysten sind davon überzeugt, dass Microsofts Bemühungen, wenn sie erfolgreich sind, auch dazu beitragen könnten, sich in künftigen Verhandlungen mit Nvidia einen Vorteil zu verschaffen.

Neben Chipgiganten mangelt es auch nicht an Einfluss von Start-up-Unternehmen. Zum Beispiel LPU von Groq, Wafer Scale Engine 3 von Cerebras, Sohu von Etched usw.

Derzeit kontrolliert Nvidia etwa 80 % des Marktes für Rechenzentrumschips für künstliche Intelligenz, während die meisten der restlichen 20 % von verschiedenen Versionen von Google TPU kontrolliert werden. Wird der Marktanteil von TPU in Zukunft weiter steigen? Wie stark wird es wachsen? Wird es andere Architekturen von KI-Chips geben, die die bestehende Marktstruktur in drei Teile aufteilen? Es ist zu erwarten, dass sich diese Spannung in den nächsten Jahren nach und nach entfaltet.