2024-08-17
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
DepuisChatGPTAprès l'explosion, la recherche et le développement de grands modèles d'IA ont émergé les uns après les autres. Alors que cette « guerre des 100 modes » battait son plein, la société américaine de puces NVIDIA a gagné beaucoup d'argent grâce aux performances exceptionnelles de son GPU dans les calculs de grands modèles. .
Cependant, une décision récente d'Apple a légèrement refroidi l'enthousiasme de Nvidia.
Formation sur les modèles d'IA, Apple choisit le TPU au lieu du GPU
NVIDIA a toujours été le leader dans le domaine de l'infrastructure informatique de l'IA. Sur le marché du matériel d'IA, en particulier dans le domaine de la formation à l'IA, sa part de marché est supérieure à 80 %. Le GPU NVIDIA a toujours été le leader d'Amazon et de Microsoft. , Méta,OpenAI Il s’agit de la solution de puissance de calcul préférée de nombreux géants de la technologie dans le domaine de l’IA et de l’apprentissage automatique.
Par conséquent, Nvidia continue de faire face à divers défis dans le secteur. Parmi ses concurrents, on compte de nombreux acteurs puissants dans la recherche et le développement indépendants de GPU, ainsi que des pionniers dans l'exploration d'architectures innovantes. Le TPU de Google est également devenu un adversaire puissant que Nvidia ne peut ignorer en raison de ses avantages uniques.
Le 30 juillet, Apple a publié un document de recherche. Dans le document, Apple a présenté deux modèles prenant en charge Apple Intelligence-AFM-on-device (AFM est l'abréviation d'Apple Basic Model) et AFM-server (un grand modèle de langage basé sur un serveur). Modèle de langage vieux de 100 millions de paramètres, ce dernier est un modèle de langage basé sur un serveur.
Apple a déclaré dans le document que pour entraîner son modèle d'IA, il utilisait deux types de processeurs tenseurs (TPU) de Google, et ces unités étaient organisées en grands clusters de puces. Pour créer l'AFM-on-device, un modèle d'IA pouvant fonctionner sur les iPhones et autres appareils, Apple utilise 2048 puces TPUv5p. Pour son modèle d'IA de serveur AFM-server, Apple a déployé 8 192 processeurs TPUv4.
Le choix stratégique d'Apple d'abandonner les GPU Nvidia et de passer aux TPU Google a provoqué un choc dans le monde de la technologie. Le cours de l'action Nvidia a chuté de plus de 7 % ce jour-là, la plus forte baisse en trois mois, et sa valeur marchande s'est évaporée de 193 milliards de dollars.
Les initiés du secteur ont déclaré que la décision d'Apple indique que certaines grandes entreprises technologiques pourraient rechercher des alternatives aux unités de traitement graphique de Nvidia en matière de formation à l'intelligence artificielle.
TPU VS GPU, lequel est le plus adapté aux grands modèles ?
Avant de discuter si le TPU ou le GPU sont plus adaptés aux grands modèles, nous devons avoir une première compréhension des deux.
Comparaison entre TPU et GPU
TPU, nom complet de Tensor Processing Unit, est une puce spéciale conçue par Google pour accélérer les charges de travail d'apprentissage automatique. Elle est principalement utilisée pour la formation et le raisonnement de modèles d'apprentissage profond. Il convient de noter que le TPU appartient également à une catégorie de puces ASIC et que l'ASIC est une puce spécialement personnalisée pour certains besoins spécifiques.
Tout le monde connaît le GPU, qui est un processeur conçu à l’origine pour le rendu graphique et ensuite largement utilisé dans le calcul parallèle et l’apprentissage profond. Il dispose de puissantes capacités de traitement parallèle et le GPU optimisé est également très adapté aux tâches parallèles telles que l'apprentissage en profondeur et le calcul scientifique.
On peut voir que ces deux puces différentes ont des objectifs différents dans leur conception initiale.
Par rapport aux processeurs traditionnels, les capacités de calcul parallèle des GPU les rendent particulièrement adaptés au traitement d'ensembles de données à grande échelle et aux tâches informatiques complexes. Par conséquent, avec l'explosion des grands modèles d'IA ces dernières années, les GPU sont devenus le premier choix de matériel informatique. Formation en IA.
Cependant, avec le développement continu de grands modèles d'IA, les tâches informatiques deviennent exponentiellement plus grandes et plus complexes, ce qui impose de nouvelles exigences en matière de puissance de calcul et de ressources informatiques. Lorsque le GPU est utilisé pour le calcul de l'IA, le taux d'utilisation de la puissance de calcul est faible. Le goulot d'étranglement à haute efficacité énergétique de la consommation d'énergie, ainsi que le prix élevé et l'offre restreinte de produits GPU NVIDIA, ont attiré davantage l'attention sur l'architecture TPU, conçue à l'origine pour l'apprentissage profond et l'apprentissage automatique. La domination du GPU dans ce domaine commence à être confrontée à des défis.
Il est rapporté que Google a commencé à développer en interne des puces dédiées aux algorithmes d'apprentissage automatique de l'IA dès 2013, et ce n'est qu'en 2016 que cette puce auto-développée appelée TPU a été officiellement rendue publique. A battu Lee Sedol en mars 2016 et Ke Jie en mai 2017. AlphaGo, qui est formé à l'aide des puces de la série TPU de Google.
Si l'on dit que le TPU est plus adapté à la formation de grands modèles d'IA, il peut être difficile de convaincre tout le monde sans expliquer ses « compétences » en détail.
En quoi le TPU est-il adapté à la formation de grands modèles ?
Premièrement, TPU dispose d’unités de calcul multidimensionnelles pour améliorer l’efficacité informatique.Par rapport à l'unité de calcul scalaire du CPU et à l'unité de calcul vectorielle du GPU, le TPU utilise des unités de calcul bidimensionnelles ou même de dimension supérieure pour effectuer des tâches informatiques, et étend la boucle d'opération de convolution pour obtenir une réutilisation maximale des données et réduire les données. Coûts de transmission et améliorer l'efficacité de l'accélération.
Deuxièmement, le TPU dispose d'une transmission de données plus rapide et d'une unité de contrôle à haut rendement.Le problème du mur de mémoire causé par l'architecture de von Neumann est particulièrement important dans les tâches d'apprentissage en profondeur, et le TPU adopte une stratégie plus radicale pour concevoir la transmission de données, et l'unité de contrôle est plus petite, laissant plus d'espace pour la mémoire sur puce et les unités de calcul.
Enfin, TPU est conçu pour accélérer l’IA et améliorer les capacités informatiques AI/ML.Avec un positionnement précis, une architecture simple, un contrôle monothread et un jeu d'instructions personnalisé, l'architecture TPU est extrêmement efficace dans les opérations d'apprentissage en profondeur et facile à étendre, ce qui la rend plus adaptée aux calculs d'entraînement d'IA à très grande échelle.
Il est rapporté que Google TPUv4 a une consommation d'énergie 1,3 à 1,9 fois inférieure à celle du NVIDIA A100. Dans divers modèles de travail tels que Bert et ResNet, l'efficacité est 1,2 à 1,9 fois supérieure à celle du A100. Dans le même temps, ses produits TPUv5/TPU Trillium. peut atteindre une consommation d'énergie 1,3 à 1,9 fois inférieure à celle du NVIDIA A100. Améliorer encore les performances informatiques de 2 fois/près de 10 fois. On peut constater que les produits Google TPU présentent plus d'avantages en termes de coût et de consommation d'énergie que les produits NVIDIA.
Lors de la conférence des développeurs I/O 2024 en mai de cette année, le PDG d'Alphabet, Sundar Pichai, a annoncé l'unité de processeur Tensor (TPU)-Trillium de puce d'IA de centre de données de sixième génération, affirmant que le produit est près de cinq fois plus rapide que son prédécesseur, et il indique que les livraisons seront disponibles plus tard cette année.
Google a déclaré que les performances informatiques de la puce Trillium de sixième génération sont 4,7 fois supérieures à celles de la puce TPU v5e et que l'efficacité énergétique est 67 % supérieure à celle du v5e. La puce est conçue pour alimenter la technologie qui génère du texte et d’autres contenus à partir de grands modèles. Google a également déclaré que les puces Trillium de sixième génération seraient disponibles pour ses clients cloud d'ici la fin de l'année.
Les ingénieurs de Google ont obtenu des gains de performances supplémentaires en augmentant la capacité de mémoire à large bande passante et la bande passante globale. Les modèles d’IA nécessitent de grandes quantités de mémoire avancée, ce qui constitue un goulot d’étranglement pour améliorer encore les performances.
Il convient de noter que Google ne vendra pas ses propres puces TPU séparément en tant que produits indépendants, mais fournira des services informatiques basés sur TPU à des clients externes via Google Cloud Platform (GCP).
L'intelligence de Google se reflète également dans ce plan : vendre directement du matériel implique des dépenses élevées et une gestion complexe de la chaîne d'approvisionnement. En fournissant le TPU via des services cloud, Google peut simplifier le processus d'installation, de déploiement et de gestion, réduisant ainsi l'incertitude et les frais supplémentaires. Ce modèle simplifie également le processus de vente, éliminant le besoin de constituer une équipe de vente de matériel supplémentaire. De plus, Google est en concurrence féroce avec OpenAI pour l’IA générative. Si Google commence à vendre des TPU, il sera en même temps en concurrence avec deux puissants adversaires : Nvidia et OpenAI, ce qui n’est peut-être pas la stratégie la plus intelligente pour le moment.
À ce stade de l’article, certaines personnes pourraient se demander : étant donné que le TPU présente d’excellents avantages en termes de performances, remplacera-t-il le GPU dans un avenir proche ?
Vous parlez maintenant de remplacer le GPU ? C'est peut-être trop tôt
Ce problème n'est pas si simple.
Parler des avantages du TPU sans parler des avantages du GPU est un œil aveugle. Ensuite, nous devons également comprendre en quoi le GPU est adapté à la formation actuelle de grands modèles d’IA par rapport au TPU.
Nous voyons que les avantages du TPU résident dans son excellent rapport d'efficacité énergétique et dans ses indicateurs de coût unitaire de puissance de calcul. Cependant, en tant que puce ASIC, son inconvénient en termes de coûts d'essais et d'erreurs élevés est également relativement clair.
Aussi, en termes de maturité de l’écosystème. Après des années de développement, GPU dispose d’un écosystème vaste et mature de logiciels et d’outils de développement. De nombreux développeurs et instituts de recherche développent et optimisent depuis longtemps des applications basées sur le GPU et ont accumulé une multitude de bibliothèques, de frameworks et d'algorithmes. L'écosystème TPU est relativement nouveau et les ressources et outils disponibles ne sont peut-être pas aussi riches que ceux des GPU, ce qui peut rendre l'adaptation et l'optimisation plus difficiles pour les développeurs.
En termes de polyvalence. Les GPU ont été initialement conçus pour le rendu graphique, mais leur architecture est très flexible et peut s'adapter à de nombreux types de tâches informatiques, pas seulement au deep learning. Cela rend le GPU plus adaptable face à divers scénarios d'application. En revanche, les TPU sont conçus sur mesure pour les charges de travail d’apprentissage automatique et peuvent ne pas être en mesure de gérer d’autres tâches informatiques non liées à l’apprentissage automatique aussi efficacement que les GPU.
Enfin, la concurrence sur le marché des GPU est féroce. Différents fabricants continuent de promouvoir l'innovation technologique et les mises à jour de produits, et les nouvelles architectures et améliorations de performances sont plus fréquentes. Le développement du TPU est principalement dirigé par Google, et son rythme de mise à jour et d'évolution peut être relativement lent.
Dans l'ensemble, NVIDIA et Google ont des stratégies différentes pour les puces IA : NVIDIA repousse les limites de performances des modèles d'IA en fournissant une puissance de calcul puissante et un support étendu aux développeurs ; tandis que Google améliore les performances des puces IA grâce à une architecture informatique distribuée efficace pour la formation de modèles d'IA à grande échelle. . Ces deux choix de voies différents leur permettent de montrer des avantages uniques dans leurs domaines d'application respectifs.
La raison pour laquelle Apple a choisi Google TPU peut être due aux points suivants : premièrement, TPU fonctionne bien lors du traitement de tâches de formation distribuées à grande échelle, offrant des capacités informatiques efficaces et à faible latence ; deuxièmement, en utilisant la plate-forme Google Cloud, Apple peut réduire le matériel ; coûts et soyez flexible. Ajustez les ressources informatiques pour optimiser le coût global du développement de l’IA. En outre, l'écosystème de développement de l'IA de Google fournit également une multitude d'outils et de support, permettant à Apple de développer et de déployer ses modèles d'IA plus efficacement.
L'exemple d'Apple prouve la capacité du TPU dans la formation de grands modèles. Cependant, par rapport à NVIDIA, le TPU est encore rarement utilisé dans le domaine des grands modèles. Il existe davantage de grandes sociétés modèles, notamment des géants tels que OpenAI, Tesla et ByteDance. Les principaux centres de données d'IA utilisent encore généralement des GPU NVIDIA.
Par conséquent, il est peut-être trop tôt pour dire que le TPU de Google peut battre le GPU de Nvidia, mais le TPU doit être un acteur très exigeant.
Le challenger du GPU n’est pas seulement le TPU
La Chine compte également une société qui parie sur les puces TPU : Zhonghao Xinying. Yang Gongyifan, fondateur de Zhonghao Xinying, a déjà travaillé comme membre principal de l'équipe de R&D sur les puces chez Google et a été profondément impliqué dans la conception et la R&D de Google TPU 2/3/4. Selon lui, le TPU est une architecture avantageuse pour les grands modèles d'IA. .
En 2023, la puce « Snap » de Zhonghao Xinying est officiellement née. Grâce à ses capacités uniques d'interconnexion inter-puces à haut débit de 1 024 puces, la puce « Snap » a construit un cluster informatique intelligent à grande échelle appelé « Taize ». Ses performances de cluster système sont des dizaines de fois supérieures à celles des GPU traditionnels, et il s'agit d'un AIGC avec plus de 100 milliards de paramètres. La formation et l'inférence de grands modèles offrent une garantie de puissance de calcul sans précédent. Cette réalisation démontre non seulement la profonde accumulation de Zhonghao Xinying dans le domaine de la technologie de puissance de calcul de l'IA, mais donne également aux puces nationales une place précieuse sur la scène internationale.
Cependant, dans la ruée vers l'or de l'intelligence artificielle d'aujourd'hui, les puces NVIDIA H100 sont rares et coûteuses. Les entreprises, grandes et petites, cherchent à remplacer les produits de puces d'IA de NVIDIA, y compris les entreprises empruntant la voie GPU traditionnelle, ainsi qu'à explorer de nouvelles architectures d'entreprise.
Les défis auxquels sont confrontés les GPU vont bien au-delà du TPU.
En matière de recherche et développement sur la voie des GPU, le plus grand rival de Nvidia estDMLA, en janvier de cette année, les chercheurs ont utilisé environ 8 % des GPU du cluster de supercalcul Frontier pour entraîner un grand modèle au niveau GPT 3.5. Le cluster de supercalcul Frontier est entièrement basé sur le matériel AMD, composé de 37 888 GPU MI250X et de 9 472 processeurs Epyc 7A53. Cette recherche a également surmonté les difficultés des modèles de formation distribués avancés sur le matériel AMD, fournissant une vaste plate-forme de formation pour les plates-formes AMD. la faisabilité.
Dans le même temps, l'écosystème CUDA se décompose progressivement. En juillet de cette année, la société britannique Spectral Compute a lancé une solution capable de compiler nativement le code source CUDA pour les GPU AMD, ce qui a considérablement amélioré l'efficacité de la compatibilité des GPU AMD avec CUDA.
IntelGaudi 3 a également directement comparé le Nvidia H100 lors de sa sortie. En avril de cette année, Intel a lancé Gaudi 3 pour l'apprentissage profond et les modèles d'IA générative à grande échelle. Intel a déclaré que par rapport à la génération précédente, Gaudi 3 peut fournir quatre fois la puissance de calcul de l'IA au format BF16 à virgule flottante, avec une bande passante mémoire augmentée de 1,5. temps et service La bande passante du réseau pour l'expansion du système à grande échelle est doublée. Par rapport à la puce H100 de NVIDIA, s'il est appliqué au modèle Meta Llama2 avec des paramètres 7B et 13B et au modèle OpenAI GPT-3 avec des paramètres 175B, Gaudi 3 devrait réduire le temps de formation de ces modèles de 50 % en moyenne.
De plus, lorsqu'il est appliqué à Llama avec les paramètres 7B et 70B et au modèle open source Falcon avec les paramètres 180B, le débit d'inférence de Gaudi 3 devrait être 50 % plus élevé en moyenne que celui de H100, et l'efficacité de l'inférence est 40 % plus élevée en moyenne. De plus, Gaudi 3 présente un plus grand avantage en termes de performances d'inférence sur des séquences d'entrée et de sortie plus longues.
Lorsqu'elle est appliquée au Llama avec les paramètres 7B et 70B et au modèle Falcon avec les paramètres 180B, la vitesse d'inférence de Gaudi 3 est augmentée de 30 % par rapport à NVIDIA H200.
Intel a déclaré que Gaudi 3 serait disponible pour les clients au troisième trimestre de cette année et pour les équipementiers tels que Dell, HPE, Lenovo et Supermicro au deuxième trimestre, mais la fourchette de prix de Gaudi 3 n'a pas été annoncée.
En novembre dernier,MicrosoftLors de la conférence Ignite Technology, la société a dévoilé sa première puce d'IA auto-développée, Azure Maia 100, ainsi qu'Azure Cobalt, une puce utilisée dans les services logiciels cloud. Les deux puces seront fabriquées par TSMC et utiliseront une technologie de processus 5 nm.
Il est rapporté que les produits haut de gamme de Nvidia peuvent parfois se vendre entre 30 000 et 40 000 dollars chacun. Les puces utilisées pour ChatGPT en nécessiteraient environ 10 000, ce qui représente un coût énorme pour les entreprises d'IA. Les grandes entreprises technologiques ayant une forte demande de puces d'IA recherchent désespérément des sources d'approvisionnement alternatives. Microsoft a choisi de développer ses propres produits dans l'espoir d'améliorer les performances des produits d'IA générative tels que ChatGPT tout en réduisant les coûts.
Cobalt est une puce à usage général basée sur l'architecture Arm avec 128 cœurs. Maia 100 est une puce ASIC spécialement conçue pour les services cloud Azure et les charges de travail d'IA. Elle est utilisée pour la formation et le raisonnement cloud, et le nombre de transistors atteint 105 milliards. Ces deux puces seront importées dans le centre de données Microsoft Azure et prendront en charge des services tels que OpenAI et Copilot.
Rani Borkar, vice-président en charge du département des puces Azure, a déclaré que Microsoft avait commencé à tester la puce Maia 100 avec les produits Bing et Office AI, le principal partenaire d'IA de Microsoft, le développeur ChatGPT OpenAI, était également en cours de test. Certains commentaires du marché estiment que le moment choisi pour le projet de puce IA de Microsoft est une coïncidence, tout comme les modèles de langage à grande échelle cultivés par Microsoft, OpenAI et d'autres sociétés ont commencé à décoller.
Cependant, Microsoft ne pense pas que ses puces IA puissent remplacer largement les produits de Nvidia. Certains analystes estiment que si les efforts de Microsoft aboutissent, cela pourrait également lui permettre d'obtenir un avantage dans les futures négociations avec Nvidia.
Outre les géants des puces électroniques, l’impact des start-ups ne manque pas non plus. Par exemple, LPU lancé par Groq, Wafer Scale Engine 3 lancé par Cerebras, Sohu lancé par Etched, etc.
Actuellement, Nvidia contrôle environ 80 % du marché des puces pour centres de données d’intelligence artificielle, tandis que la majeure partie des 20 % restants est contrôlée par différentes versions de Google TPU. La part de marché de TPU continuera-t-elle à augmenter à l’avenir ? De combien va-t-il grandir ? Y aura-t-il d’autres architectures de puces IA qui diviseront la structure de marché existante en trois ? Ce suspense devrait se révéler progressivement au cours des prochaines années.