2024-08-14
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
Vor der Geburt von ChatGPT hatte Google im Alleingang eine wichtige Welle in der Entwicklung künstlicher Intelligenz in der Welt ausgelöst. Was weltweit für Aufsehen sorgte, war, dass Google AlphaGo den koreanischen Go-Spieler Lee Sedol im „Mensch-Maschine-Krieg“ besiegte. im Jahr 2016. Dahinter steht der TPU-Chip, der den Betrieb des „leistungsstärksten Gehirns“ von AlphaGo unterstützt und der immer noch iterativ verbessert wird.
Obwohl TPU ursprünglich für interne Workloads entwickelt wurde, ist es aufgrund seiner vielfältigen Vorteile nicht nur bei Google weit verbreitet und zum Rückgrat der KI geworden, sondern wurde auch von Technologiegiganten wie Apple und vielen großen Modellen bevorzugt und im Wettbewerb eingesetzt Startups. Rückblickend haben sich TPU-Chips zehn Jahre nach ihrer Geburt allmählich vom Rand der KI-Industrie ins Zentrum der Bühne gerückt. Da die TPU-Infrastruktur jedoch hauptsächlich auf TensorFlow und JAX basiert, sieht sich Google in gewissem Maße auch Herausforderungen wie „technischen Inseln“ gegenüber.
Zehn Jahre „Schritt halten“ mit Innovationen im Bereich der künstlichen Intelligenz
Mit der tiefgreifenden Entwicklung von Algorithmen für maschinelles Lernen und Deep Learning wächst die Nachfrage der Branche nach leistungsstarken, dedizierten KI-Computing-Chips mit geringem Stromverbrauch schnell. Allerdings können herkömmliche Allzweck-CPUs und GPUs, die auf komplexe Aufgaben wie Grafikbeschleunigung und Videowiedergabe spezialisiert sind, die enormen Anforderungen von Deep-Learning-Workloads nicht erfüllen. Gleichzeitig gibt es Probleme wie geringe Effizienz und begrenztes dediziertes Computing.
Jeff Dean, Chefwissenschaftler von Google, sagte: „Wir haben einige grobe Berechnungen durchgeführt, wie viel Rechenleistung erforderlich wäre, wenn Hunderte Millionen Menschen jeden Tag ein dreiminütiges Gespräch mit Google führen würden. Wir haben damals schnell erkannt, dass dies erforderlich wäre.“ Es verbraucht im Grunde alle von Google bereitgestellten Computer. Mit anderen Worten: Die Anzahl der Computer in den Rechenzentren von Google muss verdoppelt werden, um diese neuen Funktionen zu unterstützen.
Infolgedessen verpflichtete sich Google zur Erforschung kostengünstigerer und energiesparenderer Lösungen für maschinelles Lernen, startete sofort das TPU-Projekt und gab 2015 bekannt, dass der TPU-Chip der ersten Generation (TPU v1) intern online sei. Eine TPU ist ein anwendungsspezifischer integrierter Schaltkreis (ASIC), der für einen bestimmten Zweck entwickelt wurde, einschließlich der Ausführung der einzigartigen Matrix- und vektorbasierten mathematischen Operationen, die zum Erstellen von KI-Modellen erforderlich sind. Im Gegensatz zu den Matrixoperationen der GPU ist das ikonische Merkmal der PU ihre Matrixmultiplikationseinheit (MXU).
Laut Google-Vizepräsident und Ingenieur-Akademiker Norm Jouppi konnte Google durch das Aufkommen von TPU 15 Rechenzentren einsparen. Ein wichtiger Grund, warum TPU kostengünstiger ist, ist, dass der Software-Stack von Google vertikaler integriert ist als der GPU. Google verfügt über ein engagiertes Ingenieurteam, das seinen gesamten Software-Stack aufbaut, von der Modellimplementierung (Vertex Model Garden) über Deep-Learning-Frameworks (Keras, JAX und TensorFlow) bis hin zu für TPUs optimierten Compilern (XLA).
In Bezug auf die Leistung verfügt TPU v1 über 65536 8-Bit-MAC (Matrix Multiplication Unit), eine Spitzenleistung von 92 TOPS und 28 MiB On-Chip-Speicherplatz. Im Vergleich zu CPU und GPU schneidet TPU v1 hinsichtlich Reaktionszeit und Energieeffizienz gut ab und kann die Inferenzgeschwindigkeit neuronaler Netze erheblich verbessern. Durch den Erfolg von TPU v1 wurde Google klar, dass Machine-Learning-Chips weitreichende Entwicklungsaussichten haben. Daher führt das Unternehmen weiterhin iterative Upgrades durch und bringt Produkte mit fortschrittlicherer Leistung und höherer Effizienz auf Basis von TPU v1 auf den Markt.
Beispielsweise sind TPU v2 und TPU v3 als serverseitige KI-Inferenz- und Trainingschips zur Unterstützung komplexerer KI-Aufgaben konzipiert. TPU v4 verbessert die Skalierbarkeit und Flexibilität weiter und unterstützt den Aufbau großer KI-Computing-Cluster. Unter anderem erweitert TPU v2 das Single-Chip-Design erstmals auf ein größeres Supercomputersystem und baut einen TPU-Pod auf, der aus 256 TPU-Chips besteht. Darüber hinaus verfügt TPU v3 über eine Flüssigkeitskühlungstechnologie und TPU v4 führt optische Schaltkreisschalter ein, um Leistung und Effizienz weiter zu verbessern.
Angesichts der „übertriebenen“ Zweifel und Kontroversen, mit denen der TPU v5-Chip konfrontiert war, sprang Google im Jahr 2023 direkt auf die TPU v5e-Version um. TPU v5e wurde in der Architektur angepasst und verwendet eine einzelne TensorCore-Architektur. Die Spitzenrechenleistung von INT8 erreicht 393 TFLOPS, was die 275 TFLOPS von v4 übersteigt. Die Spitzenrechenleistung von BF16 liegt jedoch nur bei 197 TFLOPS das Niveau der vorherigen Generation v4. Dies zeigt, dass TPU v5e besser für Argumentationsaufgaben geeignet ist und auch Googles strategische Entscheidung für den Markt für KI-Rechenleistungsdienste widerspiegeln kann.
Auf der I/O Developer Conference im Mai dieses Jahres stellte Google das TPU Trillium der sechsten Generation vor. Amin Vadhat, Vizepräsident und General Manager von Google Cloud Machine Learning, Systems und Cloud AI, sagte, dass die Spitzenrechenleistung von Trillium TPU mehr als 4,7-mal höher ist als die der vorherigen Generation von TPU v5e und die Energieeffizienz mehr als 67 % beträgt höher als TPU v5e. Gleichzeitig werden Kapazität und Bandbreite des Speichers verdoppelt, und die Inter-Chip-Verbindungsbandbreite wird ebenfalls verdoppelt, um den Anforderungen fortschrittlicherer KI-Systeme gerecht zu werden.
Erwähnenswert ist, dass Trillium auf bis zu 256 TPUs in einem einzigen Pod mit hoher Bandbreite und geringer Latenz skaliert werden kann. Durch die Nutzung der Fortschritte von Google bei der Skalierbarkeit auf Pod-Ebene, der Multi-Slice-Technologie und den intelligenten Verarbeitungseinheiten von Titanium können Benutzer Hunderte einzelner Pods von Trillium-TPUs verbinden, um Supercomputer- und Rechenzentrumsnetzwerke im Petabyte-Bereich aufzubauen.
Insgesamt liegt der Vorteil der TPU-Technologielösung in ihrem zentralisierten Architekturdesign. Im Gegensatz zu mehreren GPUs, die mit derselben Platine verbunden sind, sind TPUs in Würfelform organisiert, was eine schnellere Kommunikation zwischen den Chips ermöglicht, und die intensive Zusammenarbeit mit Broadcom hat die Kommunikationsübertragungsrate erheblich verbessert. Darüber hinaus kann es bei speziellen Szenarien und Anwendungsfallanforderungen die Produktoptimierung und -iteration schneller vorantreiben. Da die TPU-Infrastruktur jedoch hauptsächlich auf TensorFlow und JAX basiert und die Branche eher das HuggingFace-Modell und PyTorch für Innovationen verwendet, steht Google in gewissem Maße auch vor dem Problem einer „technischen Insel“.
Von Apple und einer großen Anzahl von KI-Startups übernommen
Was die Anwendungen anbelangt, wurde das Google TPU-Projekt ursprünglich für spezifische interne Anforderungen entwickelt und fand schnell breite Anwendung in verschiedenen Abteilungen und hat sich zu einem der ausgereiftesten und fortschrittlichsten benutzerdefinierten Chips im KI-Bereich entwickelt. Laut Andy Swing, Chefingenieur des maschinellen Lernhardwaresystems von Google, hatten sie ursprünglich damit gerechnet, weniger als 10.000 TPU v1 herzustellen, aber schließlich wurden mehr als 100.000 produziert, mit Anwendungen für Werbung, Suche, Sprache, AlphaGo und sogar autonomes Fahren und vieles mehr andere Bereiche.
Da sich Leistung und Effizienz weiter verbessern, sind TPU-Chips nach und nach zur KI-Infrastruktur von Google und zum KI-Rückgrat fast aller Produkte geworden. Beispielsweise verwendet die Google Cloud Platform in großem Umfang TPU-Chips zur Unterstützung ihrer KI-Infrastruktur. Diese Chips werden verwendet, um den Trainings- und Inferenzprozess von Modellen für maschinelles Lernen zu beschleunigen und leistungsstarke und effiziente Rechenfunktionen bereitzustellen. Über die Google Cloud Platform können Benutzer auf virtuelle Maschineninstanzen (VM) zugreifen, die auf TPU-Chips basieren, um ihre eigenen Modelle für maschinelles Lernen zu trainieren und bereitzustellen.
Obwohl Google eine gute Nutzerbasis für Cloud-Dienste gewonnen hat, verkauft Google Hardware nicht direkt an Nutzer. Branchenanalysten weisen darauf hin, dass Google in einem harten Wettbewerb mit OpenAI um generative KI steht und Nvidia direkt herausfordern wird. „Von beiden Seiten kämpfen“ ist derzeit möglicherweise nicht die klügste Strategie. Gleichzeitig ist der Direktverkauf von Hardware mit einem hohen Overhead und einem komplexen Supply-Chain-Management verbunden, während die Bereitstellung von TPU über Cloud-Dienste den Installations-, Bereitstellungs- und Verwaltungsprozess vereinfachen und so Unsicherheiten und zusätzlichen Overhead reduzieren kann.
Andererseits ist auch die enge Zusammenarbeit zwischen Google Cloud und Nvidia zu berücksichtigen. Google verwendet NVIDIA-GPUs nicht nur intern, sondern bietet auf seiner Cloud-Service-Plattform auch NVIDIA-GPU-basierte Dienste an, um die Kundenbedürfnisse nach Hochleistungsrechnen und KI-Anwendungen zu erfüllen.
Zwar sind die KI-Chips von Nvidia zu einem „Must-Wettbewerb“ für Technologiegiganten geworden, aber die Branche prüft auch vielfältigere Optionen. Während es intern weit verbreitet ist, versucht Google auch, TPU zu nutzen, um mit Innovationen im Bereich der künstlichen Intelligenz Schritt zu halten und mehr Kunden KI-Dienste anzubieten. Andy Swing sagte: „Unsere TPU- und Pod-Einrichtung befindet sich an einem Standort, der den aktuellen Rechenzentrumskapazitäten am besten entspricht, aber wir ändern das Rechenzentrumsdesign, um den Anforderungen besser gerecht zu werden. Daher wird sich die heute vorbereitete Lösung stark von der Lösung unterscheiden.“ Morgen bauen wir ein globales Rechenzentrumsnetzwerk voller TPUs auf.“
Derzeit verwenden viele Technologieunternehmen auf der ganzen Welt die TPU-Chips von Google. Apple gab beispielsweise zu, dass es Google TPU verwendet, um sein Modell für künstliche Intelligenz zu trainieren, und sagte, dass „dieses System es uns ermöglicht, AFM-Modelle, einschließlich AFM-Geräte, AFM-Server und größere Modelle, effizient und skalierbar zu trainieren“. Das Server-AFM wurde von Grund auf auf 8192 TPUv4-Chips trainiert, wobei eine Sequenzlänge von 4096 und eine Stapelgröße von 4096 Sequenzen verwendet wurden, um ein 6,3 Billionen Token-Training durchzuführen. Darüber hinaus ist das geräteseitige AFM auf 2048 Google TPUv5p-Chips trainiert.
Andere Daten zeigen, dass mehr als 60 % der generativen KI-Startups, die eine Finanzierung erhalten haben, und fast 90 % der generativen KI-Einhörner die KI-Infrastruktur und Cloud TPU-Dienste von Google Cloud nutzen und in verschiedenen sozioökonomischen Bereichen weit verbreitet sind.
Beispielsweise nutzen bekannte KI-Startups wie Anthropic, Midjourney, Salesforce, Hugging Face und AssemblyAI in großem Umfang Cloud TPU. Unter anderem verwendet Anthropic als „OpenAI-Rivale“ den Google Cloud TPU v5e-Chip, um Hardwareunterstützung für sein großes Sprachmodell Claude bereitzustellen und den Modelltrainings- und Inferenzprozess zu beschleunigen. Darüber hinaus nutzen auch viele wissenschaftliche Forschungs- und Bildungseinrichtungen Google TPU-Chips, um ihre KI-bezogenen Forschungsprojekte zu unterstützen. Diese Einrichtungen können die Hochleistungsrechenleistung von TPU-Chips nutzen, um experimentelle Prozesse zu beschleunigen und so den Fortschritt in der wissenschaftlichen Forschung und Lehre voranzutreiben.
Es ist erwähnenswert, dass die Betriebskosten der neuesten TPU nach offiziellen Angaben von Google weniger als 2 US-Dollar pro Stunde betragen, Kunden sie jedoch drei Jahre im Voraus reservieren müssen, um die Nutzung sicherzustellen. Dies kann große Modellunternehmen in einer sich schnell verändernden Branche vor große Herausforderungen stellen.
Auf jeden Fall hat die zehnjährige Reise von TPU erfolgreich bewiesen, dass die Branche neben CPU und GPU auch einen neuen Weg einschlägt, um die für KI erforderliche Rechenleistung zu erreichen. Es ist auch zum Kern der KI-Funktionen in fast allen Google-Produkten geworden Unterstützt die schnelle Entwicklung grundlegender Modelle und sogar der gesamten großen Modellindustrie von Google DeepMind. Da sich die KI-Technologie in Zukunft weiterentwickelt und der Markt weiter wächst, entscheiden sich möglicherweise mehr Unternehmen für den Einsatz von Google-TPU-Chips, um ihre KI-Computing-Anforderungen zu erfüllen. Aber auch die KI-Hardware wird möglicherweise stärker spezialisiert, wodurch die Hardware und die Modelle enger integriert werden und es schwierig wird, außerhalb des Rahmens nach neuen Innovationsmöglichkeiten zu suchen.