nouvelles

Dix ans de travail acharné : pourquoi la puce TPU de Google peut-elle « manger » Apple ?

2024-08-14

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Avant la naissance de ChatGPT, Google avait déclenché à lui seul une vague importante dans le développement de l'intelligence artificielle dans le monde. Ce qui a retenti dans le monde entier, c'est que Google AlphaGo a vaincu le joueur de Go coréen Lee Sedol dans la « guerre homme-machine ». en 2016. Derrière cela, la puce TPU qui prend en charge le fonctionnement du « cerveau le plus puissant » d’AlphaGo est cruciale, et elle continue d’être améliorée de manière itérative.

Bien que le TPU ait été créé à l'origine pour les charges de travail internes, en raison de ses multiples avantages, il a non seulement été largement utilisé au sein de Google et est devenu l'épine dorsale de l'IA, mais a également été favorisé et appliqué de manière compétitive par des géants de la technologie tels qu'Apple et de nombreux grands modèles. startups. Avec le recul, au cours des dix années qui ont suivi leur naissance, les puces TPU sont progressivement passées du bord de l'industrie de l'IA au centre de la scène. Cependant, comme l'infrastructure TPU est principalement construite autour de TensorFlow et JAX, Google est également confronté dans une certaine mesure à des défis tels que les « îlots techniques ».



Dix ans à « suivre » l’innovation en matière d’intelligence artificielle

Avec le développement approfondi des algorithmes d’apprentissage automatique et d’apprentissage profond, la demande du secteur en puces informatiques dédiées à l’IA hautes performances et faible consommation augmente rapidement. Cependant, les processeurs et GPU traditionnels à usage général spécialisés dans des tâches complexes telles que l'accélération graphique et le rendu vidéo ne peuvent pas répondre aux énormes demandes des charges de travail d'apprentissage profond. Dans le même temps, il existe des problèmes tels qu'une faible efficacité et un calcul dédié limité.

Jeff Dean, scientifique en chef de Google, a déclaré : « Nous avons effectué quelques calculs approximatifs sur la puissance de calcul qui serait nécessaire si des centaines de millions de personnes avaient une conversation de trois minutes avec Google chaque jour. consommant essentiellement tous les ordinateurs déployés par Google. En d’autres termes, le nombre d’ordinateurs dans les centres de données de Google devra être doublé pour prendre en charge ces nouvelles capacités. »

En conséquence, Google s'est engagé à explorer des solutions d'apprentissage automatique plus rentables et économes en énergie, et a immédiatement lancé le projet TPU et a annoncé en 2015 que la puce TPU de première génération (TPU v1) était en ligne en interne. Un TPU est un circuit intégré spécifique à une application (ASIC) conçu dans un seul but spécifique, notamment l'exécution des opérations mathématiques matricielles et vectorielles uniques nécessaires à la création de modèles d'IA. Différente des opérations matricielles du GPU, la caractéristique emblématique du PU est son unité de multiplication matricielle (MXU).

Selon Norm Jouppi, vice-président de Google et académicien en ingénierie, l'émergence du TPU a permis à Google de sauver 15 centres de données. Quant à l'une des raisons importantes pour lesquelles le TPU est plus rentable, c'est que la pile logicielle de Google est plus intégrée verticalement que le GPU. Google dispose d'une équipe d'ingénierie dédiée qui construit l'intégralité de sa pile logicielle, de la mise en œuvre du modèle (Vertex Model Garden) aux frameworks d'apprentissage en profondeur (Keras, JAX et TensorFlow) en passant par les compilateurs optimisés pour les TPU (XLA).

En termes de performances, TPU v1 dispose de 65 536 MAC (Matrix Multiplication Unit) 8 bits, d'une performance maximale de 92 TOPS et de 28 Mo d'espace mémoire sur puce. Comparé au CPU et au GPU, le TPU v1 fonctionne bien en termes de temps de réponse et de rapport d'efficacité énergétique, et peut améliorer considérablement la vitesse d'inférence des réseaux neuronaux. Le succès de TPU v1 a fait comprendre à Google que les puces d'apprentissage automatique avaient de larges perspectives de développement. Il continue donc de mettre à niveau et de lancer de manière itérative des produits offrant des performances plus avancées et une efficacité plus élevée, basés sur TPU v1.

Par exemple, TPU v2 et TPU v3 sont conçus comme des puces d’inférence et de formation d’IA côté serveur pour prendre en charge des tâches d’IA plus complexes. TPU v4 améliore encore l'évolutivité et la flexibilité et prend en charge la construction de clusters informatiques d'IA à grande échelle. Parmi eux, TPU v2 étend pour la première fois la conception à puce unique à un système de calcul intensif plus grand, en créant un pod TPU composé de 256 puces TPU. De plus, le TPU v3 ajoute une technologie de refroidissement liquide et le TPU v4 introduit des commutateurs de circuits optiques pour améliorer encore les performances et l'efficacité.

En 2023, face aux doutes et controverses « exagérés » auxquels est confrontée la puce TPU v5, Google est passé directement à la version TPU v5e. L'architecture du TPU v5e a été ajustée en utilisant une seule architecture TensorCore. La puissance de calcul maximale de l'INT8 atteint 393 TFLOPS, ce qui dépasse les 275 TFLOPS de la v4. Cependant, la puissance de calcul maximale du BF16 n'est que de 197 TFLOPS, ce qui est inférieur à celui de la v4. le niveau de la génération précédente v4. Cela montre que le TPU v5e est plus adapté aux tâches de raisonnement et peut également refléter le choix stratégique de Google pour le marché des services de puissance de calcul de l’IA.

Lors de la conférence des développeurs I/O en mai de cette année, Google a lancé le TPU Trillium de sixième génération. Amin Vadhat, vice-président et directeur général de Google Cloud Machine Learning, Systems and Cloud AI, a déclaré que les performances informatiques maximales de Trillium TPU sont plus de 4,7 fois supérieures à celles de la génération précédente de TPU v5e et que l'efficacité énergétique est supérieure à 67 %. plus élevé que le TPU v5e. Dans le même temps, la mémoire à large bande passante La capacité et la bande passante sont doublées, et la bande passante d'interconnexion inter-puces est également doublée pour répondre aux besoins des systèmes d'IA plus avancés.



Il convient de mentionner que Trillium peut évoluer jusqu'à 256 TPU dans un seul pod à large bande passante et à faible latence. En tirant parti des avancées de Google en matière d'évolutivité au niveau des pods, de technologie multi-slice et d'unités de traitement intelligentes Titanium, les utilisateurs pourront relier des centaines de pods individuels de TPU Trillium pour créer des réseaux de superordinateurs et de centres de données à l'échelle du pétaoctet.

Globalement, l’avantage de la solution technologique TPU réside dans sa conception d’architecture plus centralisée. Contrairement à plusieurs GPU connectés à la même carte, les TPU sont organisés sous forme de cube, permettant une communication inter-puces plus rapide, et une coopération approfondie avec Broadcom a considérablement amélioré le taux de transmission des communications. De plus, dans le cadre de scénarios dédiés et d’exigences de cas d’utilisation, il peut promouvoir plus rapidement l’optimisation et l’itération du produit. Cependant, étant donné que l'infrastructure TPU est principalement construite autour de TensorFlow et JAX et que l'industrie utilise davantage le modèle HuggingFace et PyTorch pour l'innovation, Google est également confronté dans une certaine mesure au problème de « l'îlot technique ».

Adopté par Apple et un grand nombre de startups d'IA

En termes d'applications, le projet Google TPU a été créé à l'origine pour des besoins internes spécifiques et est rapidement devenu largement utilisé dans divers départements, et est devenu l'une des puces personnalisées les plus matures et avancées dans le domaine de l'IA. Selon Andy Swing, ingénieur en chef du système matériel d'apprentissage automatique de Google, ils s'attendaient initialement à fabriquer moins de 10 000 TPU v1, mais ils en ont finalement produit plus de 100 000, avec des applications couvrant la publicité, la recherche, la voix, AlphaGo et même la conduite autonome et bien d'autres encore. d'autres domaines.

À mesure que les performances et l'efficacité continuent de s'améliorer, les puces TPU sont progressivement devenues l'infrastructure d'IA de Google et l'épine dorsale de l'IA de presque tous les produits. Par exemple, Google Cloud Platform utilise largement des puces TPU pour prendre en charge son infrastructure d'IA. Ces puces sont utilisées pour accélérer le processus de formation et d'inférence des modèles d'apprentissage automatique et fournir des capacités informatiques hautes performances et efficaces. Grâce à Google Cloud Platform, les utilisateurs peuvent accéder à des instances de machines virtuelles (VM) basées sur des puces TPU pour former et déployer leurs propres modèles d'apprentissage automatique.

Bien qu’il ait acquis une bonne base d’utilisateurs pour les services cloud, Google ne vend pas de matériel directement aux utilisateurs. Les analystes du secteur soulignent que Google est en concurrence féroce avec OpenAI pour l'IA générative. S'il vend du TPU, il défiera directement Nvidia. « Se battre des deux côtés » n'est peut-être pas la stratégie la plus judicieuse pour le moment. Dans le même temps, la vente de matériel implique directement des frais généraux élevés et une gestion complexe de la chaîne d'approvisionnement, tandis que la fourniture de TPU via des services cloud peut simplifier le processus d'installation, de déploiement et de gestion, réduisant ainsi l'incertitude et les frais supplémentaires.

D'un autre côté, il faut également tenir compte de la coopération étroite entre Google Cloud et Nvidia. Google utilise non seulement les GPU NVIDIA en interne, mais fournit également des services basés sur les GPU NVIDIA sur sa plate-forme de services cloud pour répondre aux besoins des clients en matière de calcul haute performance et d'applications d'IA.

Il est vrai que les puces IA de Nvidia sont devenues un « incontournable » pour les géants de la technologie, mais l’industrie explore également des options plus diversifiées. Bien qu'il ait été largement utilisé en interne, Google essaie également d'utiliser le TPU pour suivre l'innovation en matière d'intelligence artificielle afin de fournir des services d'IA à davantage de clients. Andy Swing a déclaré : « Notre configuration TPU et pod se trouve à l'emplacement qui correspond le mieux aux capacités actuelles du centre de données, mais nous modifions la conception du centre de données pour mieux répondre aux besoins. Par conséquent, la solution préparée aujourd'hui sera très différente de la solution. demain différemment, nous construisons un réseau mondial de centres de données rempli de TPU.



Actuellement, de nombreuses entreprises technologiques à travers le monde utilisent les puces TPU de Google. Par exemple, Apple a admis utiliser Google TPU pour former son modèle d'intelligence artificielle, affirmant que "ce système nous permet de former des modèles AFM de manière efficace et évolutive, y compris les appareils AFM, les serveurs AFM et les modèles plus grands". a formé l'AFM du serveur à partir de zéro sur 8 192 puces TPUv4, en utilisant une longueur de séquence de 4 096 et une taille de lot de 4 096 séquences pour effectuer une formation de 6 300 milliards de jetons. De plus, l’AFM final est formé sur 2 048 puces Google TPUv5p.

D’autres données montrent que plus de 60 % des startups d’IA générative ayant reçu un financement et près de 90 % des licornes d’IA générative utilisent l’infrastructure d’IA et les services Cloud TPU de Google Cloud, et sont largement utilisés dans divers domaines socio-économiques.

Par exemple, des startups d'IA bien connues telles qu'Anthropic, Midjourney, Salesforce, Hugging Face et AssemblyAI utilisent largement Cloud TPU. Parmi eux, en tant que « rival OpenAI », Anthropic utilise la puce Google Cloud TPU v5e pour fournir une prise en charge matérielle de son grand modèle de langage Claude afin d'accélérer le processus de formation et d'inférence du modèle. En outre, de nombreux établissements de recherche scientifique et d’enseignement utilisent également les puces Google TPU pour soutenir leurs projets de recherche liés à l’IA. Ces institutions peuvent utiliser la puissance de calcul haute performance des puces TPU pour accélérer les processus expérimentaux, favorisant ainsi la recherche scientifique de pointe et les progrès en matière d'éducation.

Il convient de noter que selon les informations officielles de Google, le coût d’exploitation de son dernier TPU est inférieur à 2 dollars de l’heure, mais les clients doivent le réserver trois ans à l’avance pour garantir son utilisation. Cela peut poser des défis importants aux grandes entreprises modèles dans un secteur en évolution rapide.

Quoi qu'il en soit, le parcours de dix ans de TPU a prouvé avec succès qu'en plus du CPU et du GPU, l'industrie a une nouvelle voie pour atteindre la puissance de calcul requise pour l'IA. Elle est également devenue le cœur des fonctions d'IA dans presque tous les produits et Google. prend en charge les avancées avancées de Google DeepMind. Le développement rapide des modèles de base et même de l'ensemble de l'industrie du grand modèle. À l’avenir, à mesure que la technologie de l’IA continue de se développer et que le marché continue de s’étendre, de plus en plus d’entreprises pourraient choisir d’utiliser les puces Google TPU pour répondre à leurs besoins informatiques en matière d’IA. Mais le matériel d’IA pourrait également devenir plus spécialisé, ce qui rendrait le matériel et les modèles plus étroitement intégrés, ce qui rendrait difficile la recherche de nouvelles possibilités d’innovation en dehors du cadre.