nouvelles

Google est le grand gagnant !Afin d'utiliser l'IA dans les téléphones mobiles Apple, Cook s'est incliné devant ses adversaires

2024-07-31

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


Au cours des deux derniers jours, le lancement d’Apple Intelligence est devenu l’une des plus grandes nouveautés technologiques.

Bien que par rapport à la version complète d'Apple Intelligence annoncée il y a plus d'un mois, les fonctionnalités Apple Intelligence introduites dans Apple iOS 18.1 beta 1 ne sont pas complètes, Image Playground, Genmoji, notifications prioritaires, Siri avec reconnaissance d'écran et intégration ChatGPT... celles-ci. Pas du tout.

Mais en général, Apple propose toujours des outils d'écriture (outils d'écriture), l'enregistrement des appels (y compris la transcription) et un Siri nouvellement conçu.

Parmi eux, les outils d'écriture prennent en charge la réécriture, la spécialisation, l'abréviation et d'autres fonctions, et peuvent être utilisés dans des scénarios tels que le chat, la publication sur Moments, les notes Xiaohongshu et l'enregistrement d'appels de texte peuvent non seulement enregistrer les appels, mais également les transcrire automatiquement ; texte, ce qui est pratique pour les utilisateurs.

De plus, Siri a également été « mis à niveau », mais malheureusement, il est actuellement limité à la conception, y compris de nouveaux effets spéciaux « de renom » et la prise en charge de la saisie au clavier.

Mais ce qui est frappant, c'est qu'Apple a révélé dans un article intitulé "Apple Intelligence Foundation Language Models" queApple n'a pas utilisé le NVIDIA H100 commun et d'autres GPU, mais a choisi le TPU de son "ancien rival" Google pour former le modèle de base d'Apple Intelligence.


Image/Pomme

Utilisez Google TPU pour créer Apple Intelligence

Comme nous le savons tous, Apple Intelligence est divisée en trois couches : l'une est l'IA sur appareil exécutée localement sur les appareils Apple, et l'autre est l'IA cloud exécutée sur les propres centres de données d'Apple, basée sur la technologie de « cloud computing privé ». Selon les nouvelles de la chaîne d'approvisionnement, Apple construira son propre centre de données en fabriquant en masse le M2 Ultra.

De plus, il existe une autre couche qui se connecte aux grands modèles cloud tiers, tels que GPT-4o, etc.

Mais c’est le côté inférence. La façon dont Apple forme son propre modèle d’IA a toujours été l’un des centres d’intérêt de l’industrie. À en juger par le document officiel d’Apple, Apple a formé deux modèles de base sur le matériel des clusters TPUv4 et TPUv5p :

L'un est le modèle AFM sur appareil côté appareil avec une échelle de paramètres de 300 millions, qui est formé à l'aide de 2 048 blocs de TPU v5p et s'exécute localement sur les appareils Apple, l'autre est un modèle de serveur AFM côté serveur avec un plus grand format ; échelle de paramètres, utilisant 8 192 blocs, la formation sur la puce TPU v4 est finalement exécutée dans le propre centre de données d’Apple.


Image/Pomme

C'est étrange. Après tout, nous savons tous que les GPU tels que le Nvidia H100 sont actuellement le choix le plus répandu pour la formation de l'IA. Il existe même un dicton selon lequel « seuls les GPU Nvidia sont utilisés pour la formation de l'IA ».

En revanche, le TPU de Google semble quelque peu « inconnu ».

Mais en fait, le TPU de Google est un accélérateur spécialement conçu pour les tâches d'apprentissage automatique et d'apprentissage profond, qui peut offrir d'excellents avantages en termes de performances. Grâce à sa puissance de calcul efficace et à ses connexions réseau à faible latence, le TPU de Google fonctionne bien lors de la gestion de tâches de formation de modèles volumineux.

Par exemple, TPU v4 peut fournir une puissance de calcul maximale allant jusqu'à 275 TFLOPS par puce et connecter 4 096 puces TPUv4 à un supercalculateur TPU à grande échelle via une interconnexion ultra-rapide, doublant ainsi l'échelle de la puissance de calcul.

Et non seulement Apple, mais d'autres grandes entreprises de mannequins ont également adopté le TPU de Google pour former leurs grands modèles.Claude d'Anthropic en est un exemple typique.


Classement Chatbot Arena, Photo/LMSYS

Claude peut désormais être considéré comme le concurrent le plus puissant du modèle OpenAI GPT. Dans l'arène des robots de discussion LMSYS, Claude 3.5 Sonnet et GPT-4o ont toujours été des « dragons accroupis et des poussins phénix » (éloges). Selon les révélations, Anthropic n'a jamais acheté de GPU Nvidia pour créer du supercalcul, mais utilise plutôt des clusters TPU sur Google Cloud pour la formation et l'inférence.

À la fin de l'année dernière, Anthropic a officiellement annoncé qu'elle serait la première à utiliser des clusters TPU v5e sur Google Cloud pour former Claude.

L'utilisation à long terme d'Anthropic et les résultats obtenus par Claude démontrent pleinement l'efficacité et la fiabilité de Google TPU dans la formation en IA.

De plus, Gemini de Google s'appuie également entièrement sur des puces TPU auto-développées pour la formation. Le modèle Gemini vise à repousser les frontières de la technologie de traitement et de génération du langage naturel, et son processus de formation nécessite le traitement de grandes quantités de données textuelles et l'exécution de calculs de modèle complexes.

La puissante puissance de calcul du TPU et l'architecture de formation distribuée efficace permettent à Gemini de terminer la formation dans un laps de temps relativement court et de réaliser des avancées significatives en termes de performances.

Mais si Gemini est compréhensible, alors pourquoi les gens d'Anthropic à Apple choisissent-ils Google TPU au lieu du GPU Nvidia ?

TPU et GPU, la bataille secrète entre Google et Nvidia

Lors du SIGGRAPH 2024, la plus grande conférence d'infographie qui s'est tenue lundi, le fondateur et PDG de NVIDIA, Jensen Huang, a révélé que NVIDIA enverrait cette semaine des échantillons de l'architecture Blackwell, qui est l'architecture GPU de dernière génération de NVIDIA.

Le 18 mars 2024, NVIDIA a dévoilé son architecture GPU de dernière génération - Blackwell, et le GPU B200 de dernière génération lors de la conférence GTC. En termes de performances, le GPU B200 peut atteindre 20 pétaflops (un quadrillion d'opérations en virgule flottante par seconde) de puissance de calcul sur le FP8 et le nouveau FP6, ce qui le rend excellent dans le traitement de modèles d'IA complexes.

Deux mois après la sortie de Blackwell, Google a également sorti son TPU de sixième génération (Trillium TPU), chaque puce peut fournir une puissance de calcul maximale de près de 1 000 TFLOPS (billions par seconde) sous BF16, et Google l'a également évalué comme « le TPU le plus performant et le plus économe en énergie à ce jour ».


Image/Google

Par rapport au Trillium TPU de Google, le GPU NVIDIA Blackwell présente toujours certains avantages en matière de calcul haute performance avec la prise en charge de la mémoire à large bande passante (HBM3) et de l'écosystème CUDA. Dans un seul système, Blackwell peut connecter jusqu'à 576 GPU en parallèle pour obtenir une puissance de calcul puissante et une évolutivité flexible.

En revanche, Trillium TPU de Google se concentre sur l'efficacité et la faible latence dans la formation distribuée à grande échelle. Le TPU est conçu pour rester efficace dans la formation de modèles à grande échelle et améliorer l’efficacité informatique globale en réduisant la latence de communication grâce à des interconnexions réseau ultra-rapides.

Et pas seulement sur la dernière génération de puces IA,La « guerre secrète » entre Google et Nvidia existe en réalité depuis huit ans, commençant en 2016 lorsque Google a développé sa propre puce IA TPU.

À ce jour, le GPU H100 de NVIDIA est actuellement la puce IA la plus populaire sur le marché grand public. Il fournit non seulement une mémoire à large bande passante jusqu'à 80 Go, mais prend également en charge la mémoire HBM3 et réalise une communication efficace de plusieurs GPU via l'interconnexion NVLink. Basé sur la technologie Tensor Core, le GPU H100 présente une efficacité de calcul extrêmement élevée dans les tâches d'apprentissage profond et d'inférence.

Mais en même temps, TPUv5e présente des avantages significatifs en termes de rapport coût-performance et est particulièrement adapté à la formation de modèles de petite et moyenne taille. L'avantage du TPUv5e réside dans sa puissante puissance de calcul distribuée et son taux de consommation d'énergie optimisé, ce qui le rend performant lors du traitement de données à grande échelle. De plus, TPUv5e est également disponible via Google Cloud Platform, permettant aux utilisateurs d'effectuer une formation et un déploiement cloud flexibles.


Centre de données Google, photo/Google

Dans l'ensemble, NVIDIA et Google ont des stratégies différentes pour les puces IA : NVIDIA repousse les limites de performances des modèles d'IA en fournissant une puissance de calcul puissante et un support étendu aux développeurs ; tandis que Google améliore les performances des puces IA grâce à une architecture informatique distribuée efficace pour la formation de modèles d'IA à grande échelle. . Ces deux choix de voies différents leur permettent de montrer des avantages uniques dans leurs domaines d'application respectifs.

Mais plus important encore, les seuls qui peuvent vaincre Nvidia sont ceux qui adoptent des stratégies de co-conception de logiciels et de matériel et qui disposent de solides capacités de puces et de capacités logicielles.

Google est l'un de ces opposants.

Le plus grand challenger de l’hégémonie de Nvidia

Blackwell est une autre mise à niveau majeure de NVIDIA après Hopper. Il possède de puissantes capacités informatiques et est conçu pour les modèles de langage à grande échelle (LLM) et l'IA générative.

Selon les rapports, le GPU B200 est fabriqué à l'aide du processus N4P de TSMC, compte jusqu'à 208 milliards de transistors, est « composé » de deux puces GPU utilisant la technologie d'interconnexion et est équipé de jusqu'à 192 Go de HBM3e (mémoire à large bande passante), avec une bande passante allant jusqu'à 8 To/s.

En termes de performances, le Trillium TPU de Google s'est amélioré de 4,7 fois sous BF16 par rapport à la génération précédente de TPU v5e, et la capacité et la bande passante du HBM, ainsi que la bande passante d'interconnexion des puces, ont également doublé. De plus, Trillium TPU est également équipé du SparseCore de troisième génération, qui peut accélérer la formation d'une nouvelle génération de modèles de base, avec une latence et un coût inférieurs.

Trillium TPU est particulièrement adapté à la formation de modèles linguistiques et de systèmes de recommandation à grande échelle. Il peut être étendu à des centaines d'ensembles et connecter des dizaines de milliers de puces via une technologie d'interconnexion réseau de niveau PB par seconde, réalisant ainsi un autre niveau de super-ordinateur. " , améliorant considérablement l'efficacité informatique et réduisant la latence du réseau.


Image/Google

À partir du second semestre de cette année, les utilisateurs de Google Cloud seront les premiers à adopter cette puce.

De manière générale, l'avantage matériel de Google TPU réside dans sa puissance de calcul efficace et son architecture de formation distribuée à faible latence. Cela rend TPU excellent dans la formation de modèles linguistiques et de systèmes de recommandation à grande échelle. Cependant, l’avantage de Google TPU réside dans un autre écosystème complet indépendant de CUDA et dans une intégration verticale plus profonde.

Grâce à la plate-forme Google Cloud, les utilisateurs peuvent se former et se déployer en toute flexibilité dans le cloud. Ce modèle de service cloud réduit non seulement les investissements des entreprises en matériel, mais améliore également l'efficacité de la formation des modèles d'IA. Google et Cloud fournissent également une série d'outils et de services prenant en charge le développement de l'IA, tels que TensorFlow et Jupyter Notebook, permettant aux développeurs de former et de tester plus facilement des modèles.


Google TPU v5p utilisé par Apple, photo/Google

L'écosystème d'IA de Google comprend également une variété d'outils et de frameworks de développement, tels que TensorFlow, un framework d'apprentissage automatique open source largement utilisé qui peut utiliser pleinement les capacités d'accélération matérielle des TPU. Google propose également d'autres outils pour prendre en charge le développement de l'IA, tels que TPU Estimator et Keras. L'intégration transparente de ces outils simplifie grandement le processus de développement.

De plus, l’avantage de Google est que Google lui-même est le client qui demande le plus de puissance de calcul TPU. Du traitement du contenu vidéo massif de YouTube à chaque formation et inférence de Gemini, TPU est intégré depuis longtemps au système commercial de Google et a également répondu aux énormes besoins de puissance de calcul de Google.

On peut dire que l'intégration verticale de Google est bien plus approfondie que celle de Nvidia, et qu'il maîtrise presque complètement les nœuds clés de la formation du modèle à l'application en passant par l'expérience utilisateur. Cela donne en fait à Google de plus grandes possibilités de repartir de zéro en fonction de la technologie et de l'expérience utilisateur. tendances du marché. Commencez à optimiser l’efficacité.

Par conséquent, bien que Trillium TPU soit encore difficile à rivaliser avec le GPU Blackwell en termes d'indicateurs de performances des puces, lorsqu'il s'agit de former de grands modèles, Google peut toujours systématiquement optimiser l'efficacité pour rivaliser ou même surpasser l'écosystème CUDA de NVIDIA.

Utiliser TPU dans Google Cloud est le meilleur choix d’Apple

En bref, les performances, le coût et les avantages écologiques du cluster TPU de Google en font un choix idéal pour la formation de modèles d'IA à grande échelle. À son tour, l'utilisation du TPU dans Google Cloud est également le meilleur choix d'Apple à ce stade.


Le super calcul basé sur TPU v4 est également utilisé par Apple.Image/Google

D’une part, il y a les performances et les coûts. TPU fonctionne bien dans la gestion des tâches de formation distribuées à grande échelle, offrant des capacités informatiques efficaces et à faible latence pour répondre aux besoins d'Apple en matière de formation de modèles d'IA. En utilisant la plateforme Google Cloud, Apple peut réduire les coûts matériels, ajuster de manière flexible les ressources informatiques et optimiser le coût global du développement de l'IA.

L’autre aspect est l’écologie.L'écosystème de développement d'IA de Google fournit également une multitude d'outils et de support, permettant à Apple de développer et de déployer ses modèles d'IA plus efficacement. Associé à la puissante infrastructure et au support technique de Google Cloud, il constitue également une base solide pour les projets d'IA d'Apple.

En mars de cette année, Sumit Gupta, qui avait travaillé pour Nvidia, IBM et Google, a rejoint Apple pour diriger l'infrastructure cloud. Selon certaines informations, Sumit Gupta a rejoint l'équipe d'infrastructure d'IA de Google en 2021 et est finalement devenu chef de produit du TPU de Google, du processeur Arm auto-développé et d'autres infrastructures.

Sumit Gupta comprend mieux les avantages du TPU de Google que la plupart des gens chez Apple.

Au premier semestre 2024, le cercle technologique est mouvementé.
La mise en œuvre de grands modèles s'accélère, les téléphones mobiles IA, les PC IA, les appareils électroménagers IA, la recherche IA, le commerce électronique IA... Les applications IA émergent sans cesse ;
Vision Pro est mis en vente et atterrit sur le marché chinois, déclenchant une autre vague d'informatique spatiale XR ;
HarmonyOS NEXT est officiellement publié, modifiant l'écosystème du système d'exploitation mobile ;
Les voitures sont pleinement entrées dans la « seconde moitié » et le renseignement est devenu une priorité absolue ;
La concurrence dans le commerce électronique devient de plus en plus féroce, avec des prix plus bas et de meilleurs services ;
La vague d'expansion à l'étranger déferle et les marques chinoises se lancent dans le voyage de la mondialisation ;

En juillet, le sujet de la revue de mi-année de Lei Technology est en ligne, résumant les marques, les technologies et les produits qui méritent d'être enregistrés au premier semestre 2024 dans l'industrie technologique, enregistrant le passé et regardant vers l'avenir, alors restez à l'écoute.