Nachricht

Google ist der größte Gewinner!Um KI in Apple-Handys einzusetzen, beugte sich Cook tatsächlich seinen Gegnern

2024-07-31

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


In den letzten zwei Tagen hat sich die Einführung von Apple Intelligence zu einer der größten Technologienachrichten entwickelt.

Obwohl im Vergleich zur Vollversion von Apple Intelligence, die vor mehr als einem Monat angekündigt wurde, die in Apple iOS 18.1 Beta 1 eingeführten Apple Intelligence-Funktionen nicht vollständig sind, Genmoji, Prioritätsbenachrichtigungen, Siri mit Bildschirmerkennung und ChatGPT-Integration ... diese Gar nicht.

Aber im Allgemeinen bringt Apple immer noch Writing Tools (Schreibwerkzeuge), Anrufaufzeichnung (einschließlich Transkription) und ein neu gestaltetes Siri mit.

Unter anderem unterstützen Writing Tools Umschreiben, Spezialisierung, Abkürzung und andere Funktionen und können in Szenarien wie Chatten, Posten in Moments, Xiaohongshu-Notizen und Textanrufaufzeichnung verwendet werden, um Anrufe nicht nur aufzuzeichnen, sondern auch automatisch zu transkribieren Text, der für Benutzer praktisch ist.

Darüber hinaus wurde auch Siri „aktualisiert“, leider beschränkt es sich derzeit jedoch auf das Design, einschließlich neuer „Marquee“-Spezialeffekte und Unterstützung für Tastatureingaben.

Auffällig ist jedoch, dass Apple dies in einem Papier mit dem Titel „Apple Intelligence Foundation Language Models“ offengelegt hatApple nutzte nicht die übliche NVIDIA H100 und andere GPUs, sondern wählte die TPU seines „alten Rivalen“ Google, um das Basismodell von Apple Intelligence zu trainieren.


Bild/Apfel

Verwenden Sie Google TPU, um Apple Intelligence zu erstellen

Wie wir alle wissen, ist Apple Intelligence in drei Schichten unterteilt: Die eine ist On-Device-KI, die lokal auf Apple-Geräten läuft, und die andere ist Cloud-KI, die in Apples eigenen Rechenzentren auf Basis der „Private Cloud Computing“-Technologie läuft. Laut Nachrichten aus der Lieferkette wird Apple durch die Massenfertigung des M2 Ultra ein eigenes Rechenzentrum aufbauen.

Darüber hinaus gibt es eine weitere Ebene, die eine Verbindung zu großen Cloud-Modellen von Drittanbietern wie GPT-4o usw. herstellt.

Aber das ist die Schlussfolgerungsseite. Wie Apple sein eigenes KI-Modell trainiert, war schon immer einer der Schwerpunkte der Branche. Dem offiziellen Papier von Apple zufolge hat Apple zwei grundlegende Modelle auf der Hardware von TPUv4- und TPUv5p-Clustern trainiert:

Das eine ist das geräteseitige Modell AFM-on-Device mit einer Parameterskala von 300 Millionen, das mit 2048 Blöcken von TPU v5p trainiert wird und lokal auf Apple-Geräten läuft, das andere ist ein serverseitiges Modell AFM-Server mit einem größeren Die Parameterskala mit 8192 Blöcken wird letztendlich im Apple-eigenen Rechenzentrum durchgeführt.


Bild/Apfel

Das ist seltsam, schließlich wissen wir alle, dass GPUs wie Nvidia H100 derzeit die gängige Wahl für das KI-Training sind. Es gibt sogar ein Sprichwort, dass „nur Nvidia-GPUs für das KI-Training verwendet werden“.

Im Gegensatz dazu scheint Googles TPU eher „unbekannt“ zu sein.

Tatsächlich handelt es sich bei Googles TPU um einen speziell für maschinelles Lernen und Deep-Learning-Aufgaben entwickelten Beschleuniger, der hervorragende Leistungsvorteile bieten kann. Mit seiner effizienten Rechenleistung und den Netzwerkverbindungen mit geringer Latenz bietet Googles TPU eine gute Leistung bei der Bewältigung großer Modelltrainingsaufgaben.

Beispielsweise kann TPU v4 eine Spitzenrechenleistung von bis zu 275 TFLOPS pro Chip bereitstellen und 4096 TPUv4-Chips über Ultrahochgeschwindigkeitsverbindungen zu einem großen TPU-Supercomputer verbinden, wodurch sich die Rechenleistung verdoppelt.

Und nicht nur Apple, sondern auch andere große Modellunternehmen haben die TPU von Google übernommen, um ihre großen Modelle zu trainieren.Claude von Anthropic ist ein typisches Beispiel.


Chatbot-Arena-Rangliste, Foto/LMSYS

Man kann jetzt sagen, dass Claude der stärkste Konkurrent des OpenAI-GPT-Modells ist. In der LMSYS-Chat-Roboter-Arena waren Claude 3.5 Sonnet und GPT-4o schon immer „hockende Drachen und Phönixküken“ (Lob). Enthüllungen zufolge hat Anthropic nie Nvidia-GPUs gekauft, um Supercomputing aufzubauen, sondern nutzt stattdessen TPU-Cluster in Google Cloud für Training und Inferenz.

Ende letzten Jahres gab Anthropic außerdem offiziell bekannt, dass es das erste Unternehmen sein wird, das TPU v5e-Cluster in Google Cloud zur Schulung von Claude verwenden wird.

Der langfristige Einsatz von Anthropic und die von Claude erzielten Ergebnisse belegen voll und ganz die Effizienz und Zuverlässigkeit von Google TPU beim KI-Training.

Darüber hinaus setzt Googles Gemini auch beim Training komplett auf selbst entwickelte TPU-Chips. Das Gemini-Modell zielt darauf ab, die Grenzen der Technologie zur Verarbeitung und Generierung natürlicher Sprache voranzutreiben, und sein Trainingsprozess erfordert die Verarbeitung großer Textdatenmengen und die Durchführung komplexer Modellberechnungen.

Die leistungsstarke Rechenleistung der TPU und die effiziente verteilte Trainingsarchitektur ermöglichen es Gemini, das Training in relativ kurzer Zeit abzuschließen und erhebliche Leistungsdurchbrüche zu erzielen.

Aber wenn Gemini verständlich ist, warum entscheiden sich dann Leute von Anthropic bis Apple für Google TPU anstelle der Nvidia GPU?

TPU und GPU, der geheime Kampf zwischen Google und Nvidia

Auf der SIGGRAPH 2024, der führenden Konferenz für Computergrafik, die am Montag stattfand, gab NVIDIA-Gründer und CEO Jensen Huang bekannt, dass NVIDIA diese Woche Muster der Blackwell-Architektur, der GPU-Architektur der neuesten Generation von NVIDIA, versenden wird.

Am 18. März 2024 veröffentlichte NVIDIA auf der GTC-Konferenz seine GPU-Architektur der neuesten Generation – Blackwell – und die B200-GPU der neuesten Generation. In Bezug auf die Leistung kann die B200-GPU auf FP8 und dem neuen FP6 eine Rechenleistung von 20 Petaflops (eine Billiarde Gleitkommaoperationen pro Sekunde) erreichen, wodurch sie sich hervorragend für die Verarbeitung komplexer KI-Modelle eignet.

Zwei Monate nach der Veröffentlichung von Blackwell veröffentlichte Google auch sein TPU der sechsten Generation (Trillium TPU).Jeder Chip kann unter BF16 eine Spitzenrechenleistung von fast 1.000 TFLOPS (Billionen pro Sekunde) bereitstellen, und Google bewertete ihn außerdem als „die bisher leistungsstärkste und energiesparendste TPU“.


Bild/Google

Im Vergleich zu Googles Trillium TPU bietet die NVIDIA Blackwell GPU durch die Unterstützung von High-Bandwidth-Speicher (HBM3) und dem CUDA-Ökosystem immer noch gewisse Vorteile beim Hochleistungsrechnen. In einem einzigen System kann Blackwell bis zu 576 GPUs parallel verbinden, um eine leistungsstarke Rechenleistung und flexible Skalierbarkeit zu erreichen.

Im Gegensatz dazu konzentriert sich Googles Trillium TPU auf Effizienz und geringe Latenz bei groß angelegten verteilten Schulungen. Die TPU ist darauf ausgelegt, beim groß angelegten Modelltraining effizient zu bleiben und die Gesamteffizienz der Datenverarbeitung zu verbessern, indem die Kommunikationslatenz durch Ultrahochgeschwindigkeits-Netzwerkverbindungen reduziert wird.

Und das nicht nur auf der neuesten Generation von KI-Chips,Der „geheime Krieg“ zwischen Google und Nvidia existiert tatsächlich schon seit acht Jahren, beginnend im Jahr 2016, als Google seinen eigenen KI-Chip TPU entwickelte.

Bis heute ist die H100-GPU von NVIDIA derzeit der beliebteste KI-Chip auf dem Mainstream-Markt. Sie bietet nicht nur Speicher mit hoher Bandbreite von bis zu 80 GB, sondern unterstützt auch HBM3-Speicher und realisiert eine effiziente Kommunikation mehrerer GPUs durch NVLink-Verbindung. Basierend auf der Tensor-Core-Technologie verfügt die H100-GPU über eine extrem hohe Recheneffizienz bei Deep-Learning- und Inferenzaufgaben.

Gleichzeitig bietet TPUv5e jedoch erhebliche Kosten-Leistungs-Vorteile und eignet sich besonders für das Training kleiner und mittlerer Modelle. Der Vorteil von TPUv5e liegt in seiner leistungsstarken verteilten Rechenleistung und dem optimierten Energieverbrauchsverhältnis, wodurch es bei der Verarbeitung großer Datenmengen eine gute Leistung erbringt. Darüber hinaus ist TPUv5e auch über die Google Cloud Platform verfügbar, sodass Benutzer flexible Schulungen und Bereitstellungen in der Cloud durchführen können.


Google-Rechenzentrum, Foto/Google

Insgesamt verfolgen NVIDIA und Google unterschiedliche Strategien für KI-Chips: NVIDIA verschiebt die Leistungsgrenzen von KI-Modellen durch die Bereitstellung leistungsstarker Rechenleistung und umfassender Entwicklerunterstützung, während Google die Leistung von KI-Chips durch eine effiziente verteilte Rechenarchitektur verbessert . Diese beiden unterschiedlichen Wegwahlen ermöglichen es ihnen, einzigartige Vorteile in ihren jeweiligen Anwendungsfeldern zu zeigen.

Aber was noch wichtiger ist: Die einzigen, die Nvidia besiegen können, sind diejenigen, die Co-Design-Strategien für Software und Hardware übernehmen und über starke Chip- und Softwarefähigkeiten verfügen.

Google ist ein solcher Gegner.

Der stärkste Herausforderer der Hegemonie von Nvidia

Blackwell ist nach Hopper ein weiteres wichtiges Upgrade von NVIDIA. Es verfügt über leistungsstarke Rechenfunktionen und ist für groß angelegte Sprachmodelle (LLM) und generative KI konzipiert.

Berichten zufolge wird die B200-GPU im N4P-Prozess von TSMC hergestellt, verfügt über bis zu 208 Milliarden Transistoren, ist mithilfe von Verbindungstechnologie aus zwei GPU-Chips „zusammengesetzt“ und mit bis zu 192 GB HBM3e (Speicher mit hoher Bandbreite) ausgestattet eine Bandbreite von bis zu 8 TB/s.

In Bezug auf die Leistung hat sich Googles Trillium TPU unter BF16 im Vergleich zur TPU v5e der vorherigen Generation um das 4,7-fache verbessert, und auch die HBM-Kapazität und -Bandbreite sowie die Chip-Interconnect-Bandbreite haben sich verdoppelt. Darüber hinaus ist Trillium TPU auch mit dem SparseCore der dritten Generation ausgestattet, der das Training einer neuen Generation von Basismodellen mit geringerer Latenz und geringeren Kosten beschleunigen kann.

Trillium TPU eignet sich besonders für das Training großer Sprachmodelle und Empfehlungssysteme. Es kann auf Hunderte von Sätzen erweitert werden und über die Netzwerkverbindungstechnologie auf PB-Ebene pro Sekunde eine Verbindung zu Zehntausenden von Chips herstellen, wodurch eine weitere Ebene von Super-Computern realisiert wird " , wodurch die Recheneffizienz erheblich verbessert und die Netzwerklatenz reduziert wird.


Bild/Google

Ab der zweiten Hälfte dieses Jahres werden Google Cloud-Nutzer die ersten sein, die diesen Chip nutzen.

Im Allgemeinen liegt der Hardwarevorteil von Google TPU in seiner effizienten Rechenleistung und der verteilten Trainingsarchitektur mit geringer Latenz. Dies führt dazu, dass TPU beim Training umfangreicher Sprachmodelle und Empfehlungssysteme eine gute Leistung erbringt. Der Vorteil von Google TPU liegt jedoch in einem weiteren vollständigen Ökosystem unabhängig von CUDA und einer tieferen vertikalen Integration.

Über die Google Cloud-Plattform können Benutzer flexibel in der Cloud trainieren und bereitstellen. Dieses Cloud-Service-Modell reduziert nicht nur die Investitionen von Unternehmen in Hardware, sondern verbessert auch die Trainingseffizienz von KI-Modellen. Google und Cloud bieten außerdem eine Reihe von Tools und Diensten an, die die KI-Entwicklung unterstützen, wie etwa TensorFlow und Jupyter Notebook, wodurch es für Entwickler einfacher wird, Modelle zu trainieren und zu testen.


Google TPU v5p verwendet von Apple, Foto/Google

Das KI-Ökosystem von Google umfasst auch eine Vielzahl von Entwicklungstools und Frameworks, wie z. B. TensorFlow, ein weit verbreitetes Open-Source-Framework für maschinelles Lernen, das die Hardwarebeschleunigungsfunktionen von TPUs vollständig nutzen kann. Google bietet auch andere Tools zur Unterstützung der KI-Entwicklung an, beispielsweise TPU Estimator und Keras. Die nahtlose Integration dieser Tools vereinfacht den Entwicklungsprozess erheblich.

Darüber hinaus besteht der Vorteil von Google darin, dass Google selbst der Kunde mit der größten Nachfrage nach TPU-Rechenleistung ist. Von der Verarbeitung der riesigen Videoinhalte von YouTube bis hin zu allen Schulungen und Schlussfolgerungen von Gemini ist TPU seit langem in das Geschäftssystem von Google integriert und hat auch den enormen Rechenleistungsbedarf von Google gedeckt.

Man kann sagen, dass die vertikale Integration von Google weitaus gründlicher ist als die von Nvidia und die Schlüsselknoten vom Modelltraining über die Anwendung bis hin zur Benutzererfahrung fast vollständig beherrscht. Dies gibt Google tatsächlich größere Möglichkeiten, je nach Technologie und von unten anzufangen Markttrends. Beginnen Sie mit der Optimierung der Effizienz.

Obwohl Trillium TPU in Bezug auf Chip-Leistungsindikatoren immer noch schwer mit der Blackwell-GPU konkurrieren kann, kann Google beim Training großer Modelle dennoch die Effizienz systematisch optimieren, um mit dem CUDA-Ökosystem von NVIDIA mitzuhalten oder es sogar zu übertreffen.

Die Verwendung von TPU in Google Cloud ist Apples beste Wahl

Kurz gesagt: Die Leistung, die Kosten und die ökologischen Vorteile des TPU-Clusters von Google machen ihn zur idealen Wahl für das Training groß angelegter KI-Modelle. Im Gegenzug ist die Verwendung von TPU in Google Cloud derzeit auch die beste Wahl von Apple.


Super Computing auf Basis von TPU v4 wird auch von Apple eingesetzt.Bild/Google

Auf der einen Seite stehen Leistung und Kosten. TPU eignet sich gut für die Bewältigung umfangreicher verteilter Trainingsaufgaben und bietet effiziente Rechenfunktionen mit geringer Latenz, um Apples Anforderungen an das Training von KI-Modellen zu erfüllen. Durch den Einsatz der Google Cloud-Plattform kann Apple die Hardwarekosten senken, Rechenressourcen flexibel anpassen und die Gesamtkosten der KI-Entwicklung optimieren.

Der andere Aspekt ist die Ökologie.Das KI-Entwicklungsökosystem von Google bietet außerdem eine Fülle von Tools und Support, die es Apple ermöglichen, seine KI-Modelle effizienter zu entwickeln und bereitzustellen. In Verbindung mit der leistungsstarken Infrastruktur und dem technischen Support von Google Cloud bietet es auch eine solide Grundlage für Apples KI-Projekte.

Im März dieses Jahres wechselte Sumit Gupta, der für Nvidia, IBM und Google gearbeitet hatte, zu Apple, um die Cloud-Infrastruktur zu leiten. Berichten zufolge trat Sumit Gupta 2021 dem KI-Infrastrukturteam von Google bei und wurde schließlich Produktmanager für Googles TPU, die selbst entwickelte Arm-CPU und andere Infrastruktur.

Sumit Gupta versteht die Vorteile von Googles TPU besser als die meisten Leute bei Apple.

Im ersten Halbjahr 2024 geht es im Technologiekreis turbulent zu.
Die Implementierung großer Modelle beschleunigt sich, KI-Mobiltelefone, KI-PCs, KI-Haushaltsgeräte, KI-Suche, KI-E-Commerce ... KI-Anwendungen tauchen in endlosem Tempo auf;
Vision Pro kommt in den Handel und landet auf dem chinesischen Markt, was eine weitere Welle von XR Spatial Computing auslöst;
HarmonyOS NEXT wird offiziell veröffentlicht und verändert das mobile Betriebssystem-Ökosystem.
Autos sind vollständig in der „zweiten Hälfte“ angekommen und Intelligenz hat höchste Priorität;
Der Wettbewerb im E-Commerce wird immer härter, mit niedrigeren Preisen und besseren Dienstleistungen;
Die Welle der Expansion ins Ausland nimmt zu und chinesische Marken begeben sich auf den Weg der Globalisierung;

Im Juli wird das Thema „Lei Technology·Halbjahresrückblick“ eingeführt, das die Marken, Technologien und Produkte zusammenfasst, die es wert sind, im ersten Halbjahr 2024 in der Technologiebranche aufgezeichnet zu werden, die Vergangenheit aufzuzeichnen und einen Blick in die Zukunft zu werfen, also bleiben Sie dran.