qui peut remplacer nvidia ?

2024-09-23

auteur 丨barry

editeur 丨guan ju

source de l'image : midjourney

dans le domaine des gpu pour centres de données, les livraisons de nvidia atteindront 3,76 millions d'unités en 2023, représentant près de 98 % de la part de marché mondiale, ce qui peut être considéré comme inégalé.

les puces ia, également connues sous le nom d'accélérateurs ia ou de cartes informatiques, sont des modules spécifiquement utilisés pour gérer un grand nombre de tâches informatiques dans les applications d'intelligence artificielle. elles comprennent principalement des processeurs graphiques (gpu), des réseaux de portes programmables sur site (fpga) et des applications spécifiques. circuits intégrés (asic) etc.

selon gartner, le marché des puces d'ia atteindra 53,4 milliards de dollars en 2023, soit une augmentation de 20,9 % par rapport à 2022, et augmentera de 25,6 % pour atteindre 67,1 milliards de dollars en 2024. d’ici 2027, les revenus des puces d’ia devraient plus que doubler par rapport à la taille du marché de 2023, pour atteindre 119,4 milliards de dollars.

la course aux armements en matière de puissance de calcul organisée par les grandes entreprises géantes est sans aucun doute devenue un puissant moteur pour le marché des puces ia.

à partir de 2024, presque tous les grands modèles grand public auront plus de 100 milliards de paramètres, llama3 en aura 400 milliards et gpt4 en aura 1,8 billion. un grand modèle avec des milliards de paramètres correspond à un très grand cluster de puissance de calcul d'une échelle de plus de 10 000 kilo-octets.

openai possède au moins 50 000 gpu nvidia haut de gamme, meta a construit son propre cluster de super 10 000 cartes composé de 24 576 h100 et google possède un supercalculateur a3 composé de 26 000 h100... plus de 40 000 entreprises ont acheté des gpu nvidia, les entreprises comme meta, microsoft, amazon et google ont contribué au total à 40 % de ses revenus.

le rapport financier montre que la marge bénéficiaire brute de nvidia a atteint 71 %, dont la marge bénéficiaire brute des séries a100 et h100 atteignait 90 %. en tant qu'entreprise de matériel informatique, nvidia a une marge bénéficiaire brute plus élevée que les sociétés internet.

il semblerait que les puces ia de nvidia destinées aux centres de données coûtent entre 25 000 et 40 000 dollars par pièce, soit 7 à 8 fois plus que les produits traditionnels. kazuhiro sugiyama, directeur consultant du cabinet de recherche omdia, a déclaré que les prix élevés des produits nvidia constituent un fardeau pour les entreprises qui souhaitent investir dans l'ia.

le prix de vente élevé a également incité de nombreux gros clients à rechercher des alternatives. le 30 juillet, apple a annoncé que son modèle d'ia avait été entraîné à l'aide de 8 000 google tpu. la première puce d'openai a également été dévoilée aujourd'hui. elle utilisera le processus de niveau angström a16 le plus avancé de tsmc et est spécialement conçue pour les applications vidéo sora.

partout dans le monde, des startups stars des puces ia et des licornes ont émergé les unes après les autres, essayant de voler de la nourriture à nvidia. parmi eux, il y a les licornes soutenues par la chine, sambanova et la nouvelle société etched, ainsi que cerebras systems, une licorne investie par le pdg d'openai, altman, qui se lance dans une introduction en bourse du président du groupe softbank, masayoshi son, après avoir réussi à introduire arm l'année dernière. en juillet de cette année, elle a acquis la société britannique de puces ia graphcore dans le but de construire le prochain nvidia.

sambanova, une licorne à puce ia construite par des chinois à stanford

le 27 août, la start-up américaine de puces ia sambanova a présenté en détail pour la première fois son tout nouveau système de puce ia au monde pour des modèles d'intelligence artificielle (ia) à l'échelle de plusieurs milliards de paramètres - basé sur la puce ia sn40l de l'unité de flux de données reconfigurable (rdu). .

selon les rapports, le système à 8 puces basé sur le sn40l de sambanova peut prendre en charge plus de 5 000 milliards de modèles de paramètres, et la longueur de séquence sur un seul nœud du système peut atteindre plus de 256 000. par rapport à la puce h100 de yingwei, le sn40l atteint non seulement 3,1 fois les performances d'inférence du h100, mais double également les performances de formation, et le coût total de possession n'est que de 1/10.

rodrigo liang, pdg de sambanova

les trois cofondateurs de l'entreprise ont tous une formation à stanford. parmi eux, le pdg rodrigo liang est l'ancien vice-président de l'ingénierie de sun/oracle. les deux autres cofondateurs sont tous deux professeurs à stanford. l'équipe compte également de nombreux ingénieurs chinois.

sambanova est actuellement évalué à 5 milliards de dollars américains (environ 36,5 milliards de yuans) et a réalisé 6 cycles de financement totalisant 1,1 milliard de dollars américains. parmi les investisseurs figurent intel, softbank, samsung, google venture, etc.

non seulement ils défient nvidia sur les puces, mais ils vont aussi plus loin que nvidia en termes de modèle économique : ils participent directement à aider les entreprises à former de grands modèles privés. et les puces ne sont pas vendues seules, mais leurs piles technologiques personnalisées, des puces aux systèmes serveurs, en passant par le déploiement de grands modèles.

ses ambitions auprès des clients cibles sont encore plus grandes : elles visent les 2 000 plus grandes entreprises mondiales. à l'heure actuelle, les puces et les systèmes de sambanova ont conquis de nombreux clients importants, notamment les plus grands laboratoires de calcul intensif au monde, le japonais fugaku, les états-unis argonne national laboratory, lawrence national laboratory et la société de conseil accenture.

rodrigo liang estime que le prochain champ de bataille pour la commercialisation des grands modèles et de l'ia générative réside dans les données privées des entreprises, en particulier des grandes entreprises. en fin de compte, au lieu d'exécuter un très grand modèle comme gpt-4 ou google gemini, l'entreprise créera 150 modèles uniques basés sur différents sous-ensembles de données, avec plus d'un billion de paramètres agrégés.

cette stratégie contraste fortement avec des approches telles que gpt-4 et google gemini, où la plupart des géants espèrent créer un modèle géant pouvant se généraliser à des millions de tâches.

etched, une société de puces ia fondée par deux décrocheurs de harvard nés dans les années 2000

les fondateurs d'etched sont deux décrocheurs de harvard nés en 2000. gavin uberti a occupé des postes de direction chez octoml et xnor.ai, tandis que chris zhu est chinois. en plus d'être enseignant-chercheur en informatique à l'université harvard, il a également une expérience de stage dans des entreprises telles qu'amazon.

ils étaient optimistes quant à l'orientation des grands modèles avant la sortie de chatgpt, ils ont donc abandonné l'université de harvard en 2022 et ont fondé etched conjointement avec robert wachen et l'ancien directeur de la technologie de cypress semiconductor, mark ross, pour créer de grands modèles de puces dédiés à l'ia.

gavin uberti (à gauche) et chris zhu (à droite)

ils ont emprunté une voie unique : ils ne pouvaient exécuter que la puce ai de transformer et ont adopté une conception asic. à l'heure actuelle, presque toutes les solutions du marché prennent largement en charge les modèles d'ia et ont déterminé que le modèle transformer dominera l'ensemble du marché à partir de fin 2022. ils estiment que les mises à niveau des performances du gpu sont trop lentes et que le seul moyen est d'utiliser puces asic spécialisées. ce n'est qu'ainsi que nous pourrons réaliser un bond en avant en termes de performances.

après deux ans, le 27 juin de cette année, etched a lancé sa première puce ia sohu, devenant ainsi la première puce au monde dédiée à l'informatique transformer.

il exécute les grands modèles 20 fois plus rapidement que le nvidia h100 et plus de 10 fois plus rapide que la puce haut de gamme b200, lancée en mars de cette année. un serveur équipé de huit puces sohu peut remplacer 160 gpu nvidia h100. tout en réduisant considérablement les coûts, il n’y aura aucune perte de performances.

étant donné que sohu ne prend en charge qu'un seul algorithme, la plupart des modules de flux de contrôle peuvent être éliminés. la puce peut intégrer davantage d'unités de calcul mathématique et l'utilisation de la puissance de calcul peut atteindre plus de 90 %, tandis que le gpu ne peut en faire que 30 %. pour une petite équipe de conception, maintenir une pile logicielle à architecture unique est évidemment moins stressant.

parallèlement au lancement de la puce sohu, etched a également annoncé avoir finalisé un financement de série a de 120 millions de dollars américains, codirigé par primary venture partners et positive sum ventures.

les principaux investisseurs de cette ronde de financement comprennent l'investisseur bien connu de la silicon valley peter thiel, l'ancien cto de la plateforme de trading de crypto-monnaie coinbase et l'ancien partenaire général d'a16z balaji srinivasan, le pdg de github thomas dohmke, le co-fondateur de cruise kyle vogt et le co-fondateur de quora charlie cheever et plus.

cerebras systems, la licorne des puces ia investie par ultraman, envisage de se précipiter pour son introduction en bourse

la particularité de cerebras systems, fondée en 2015, est que leurs puces sont très différentes des gpu nvidia traditionnels. dans le passé, les puces sont devenues de plus en plus petites sous la direction de la loi de moore. en prenant comme exemple le nvidia h100, il possède 80 milliards de transistors sur une zone centrale de 814 millimètres carrés.

la puce ia de cerebras choisit de rendre la puce entière de plus en plus grande, affirmant avoir « créé la plus grande puce au monde ». selon certaines informations, la puce wse 3 développée par cerebras est découpée dans une plaquette entière, plus grande qu'une plaque et nécessite qu'une personne la tienne avec les deux mains. une puce wse 3 possède 4 000 milliards de transistors (50 fois celui du h100) sur une zone centrale de plus de 46 000 millimètres carrés.

les chips plus grosses que l’assiette doivent être tenues à deux mains. source : ars technica

cerebras affirme que la taille du grand modèle d'ia que sa puce peut entraîner est 10 fois plus grande que les principaux grands modèles de l'industrie actuelle (tels que le gpt-4 d'openai ou le gemini de google).

le 27 août de cette année, cerebras systems a annoncé le lancement du service d'inférence d'ia cerebras inference, présenté comme « le plus rapide au monde ». selon le site officiel, ce service d'inférence est 20 fois plus rapide que le service de nvidia tout en garantissant une précision ; la bande passante de la mémoire de son processeur est 7 000 fois supérieure à celle de nvidia, alors que le prix n'est que de 1/5 du gpu et que le rapport prix/performance est élevé. augmenté de 100 fois. cerebras inference propose également plusieurs niveaux de service, notamment les niveaux gratuit, développeur et entreprise, pour répondre à différents besoins, du développement à petite échelle au déploiement en entreprise à grande échelle.

le co-fondateur et pdg andrew feldman est titulaire d'un mba de l'université de stanford et le directeur de la technologie, gary lauterbach, est reconnu comme l'un des meilleurs architectes informatiques du secteur. en 2007, les deux hommes ont cofondé la société de micro-serveurs seamicro, rachetée par amd pour 334 millions de dollars en 2012, et ils ont ensuite rejoint amd.

selon les médias étrangers, cerebras systems a secrètement demandé une introduction en bourse aux états-unis et sera cotée dès octobre 2024. actuellement, la société a levé 720 millions de dollars et est évaluée entre 4,2 et 5 milliards de dollars. l'un des plus grands investisseurs individuels est le pdg d'openai, sam altman. altman aurait participé au financement de série d de 81 millions de dollars de cerebras.

tenstorrent, rejoint par le légendaire chip master, deviendra le "remplacement" de nvidia

avant 2021, tenstorrent était encore une entreprise inconnue. cependant, l'entreprise est devenue célèbre pendant un certain temps lorsque jim keller, une grande figure de l'industrie des semi-conducteurs connue sous le nom de « silicon immortal », a annoncé qu'il rejoindrait l'entreprise en tant que directeur de la technologie et président.

la carrière de jim keller peut être qualifiée d'histoire de l'industrie informatique. de 1998 à 1999, jim keller a travaillé sur l'architecture k7/k8 qui supportait athlon chez amd ; de 2008 à 2012, il a dirigé le développement des processeurs a4 et a5 chez apple ; de 2012 à 2015, il a présidé l'arm k12 ; projet chez amd, projet d'architecture zen ; de 2016 à 2018, il a développé des puces de pilote automatique fsd chez tesla, et de 2018 à 2020, il a participé à des projets mystérieux chez intel.

jim keller rejoint tenstorrent, dans l'espoir de remplacer les coûteux gpu de nvidia. il estime que nvidia ne dessert pas bien certains marchés, et ces marchés sont exactement ce que tenstorrent tente de conquérir.

tenstorrent affirme que son système galaxy est trois fois plus efficace et 33 % moins cher que nvidia dgx, le serveur d'ia le plus populaire au monde.

selon certaines informations, tenstorrent devrait lancer son processeur d'ia polyvalent de deuxième génération avant la fin de cette année. selon la dernière feuille de route de tenstorrent l'automne dernier, la société a l'intention de lancer son processeur d'ia autonome black hole et ses chipsets quasar à faible consommation et à faible coût pour les solutions d'ia multi-puces.

la société affirme que ses prochains processeurs offrent des performances comparables à celles des gpu ai de nvidia. dans le même temps, tenstorrent affirme que son architecture consomme moins de bande passante mémoire que ses concurrents, ce qui est l'une des principales raisons de sa plus grande efficacité et de ses coûts inférieurs.

la principale caractéristique de la puce tentorrent est que chacun de ses plus de 100 cœurs possède un petit processeur, un « cerveau dans le cerveau ». les cœurs seront capables de « penser » par eux-mêmes, décidant quelles données traiter en premier, ou s'il faut supprimer certaines données considérées comme indésirables pour les tâches nécessaires, augmentant ainsi l'efficacité globale.

à l'heure actuelle, tentorrent a réalisé au moins 6 tours de financement. auparavant, les investisseurs de tentorrent étaient principalement du capital-risque, c'est-à-dire qu'après l'arrivée de jim keller, la société a finalisé une nouvelle ronde de financement de 100 millions de dollars américains en août 2023 et le capital industriel a commencé à apparaître parmi les investisseurs - hyundai automotive group et samsung catalyst fund. , une branche de capital-risque de samsung.

softbank acquiert graphcore à prix réduit pour créer un concurrent de nvidia

graphcore a été fondée en 2016 par le cto simon knowles et le pdg nigel toon. la société s'engage à développer l'intelligence processing unit (ipu), un processeur spécialement conçu pour l'intelligence artificielle et l'apprentissage automatique, avec une architecture et des avantages uniques, tels qu'une architecture mimd massivement parallèle, une bande passante mémoire élevée et une sram distribuée locale étroitement couplée, etc.

graphcore a successivement lancé un certain nombre de produits basés sur ipu, tels que le processeur gc200 ipu, bow ipu, etc., et continue d'effectuer des mises à niveau et des améliorations techniques.

cependant, en juillet de cette année, cette société britannique de puces d’ia en difficulté a été rachetée par softbank.

aux termes de l'accord, graphcore deviendra une filiale en propriété exclusive de softbank et continuera à opérer sous son nom actuel. selon les rapports, la valeur totale de la transaction pourrait atteindre environ 400 millions de livres (environ 500 millions de dollars américains, 3,56 milliards de yuans), soit environ 82 % de moins que la valorisation du dernier cycle de financement de graphcore de 2,8 milliards de dollars américains. softbank ne l'a acheté qu'avec une réduction de 20 %.

graphcore était autrefois considéré comme la « version britannique de nvidia ». cependant, depuis 2020, l'entreprise n'a pas reçu de nouveaux investissements et a également perdu d'importantes commandes de microsoft, ce qui l'a rendue financièrement difficile et opérationnellement difficile, et n'a pas réussi à suivre la tendance générale dans le domaine des puces d'ia. dans le même temps, les états-unis continuent de renforcer les contrôles à l'exportation des semi-conducteurs chinois pour l'ia, ce qui affecte également le développement de graphcore en chine. au final, ils ont dû choisir de se retirer du marché chinois et de perdre un quart de leur chiffre d'affaires total.

cette acquisition de graphcore consolide non seulement la position de softbank dans le domaine des puces ia, mais constitue également une étape importante dans la stratégie ia de son.

d'anciens ingénieurs de google ont fondé groq pour créer une nouvelle espèce de lpu

en août de cette année, groq a annoncé la finalisation d'un financement de série d de 640 millions de dollars. les investisseurs comprennent blackrock, cisco investments, samsung catalyst fund, etc., avec une valorisation de 2,8 milliards de dollars.

la société, fondée en 2016 par l'ancien ingénieur de google jonathan ross, affirme que son unité matérielle de traitement de langage lpu peut exécuter les modèles genai existants, tels que gpt-4, dix fois plus rapidement tout en consommant seulement un dixième de l'énergie. la société a établi un nouveau record de performances de modèle de langage étendu (llm) en utilisant meta's llama 2, à 300 jetons par seconde et par utilisateur.

comparé à la polyvalence du gpu, bien que le lpu soit performant en matière de traitement du langage, sa gamme d'applications est étroite. cela limite leur généralisabilité à un plus large éventail de tâches d’ia. de plus, en tant que technologie émergente, le lpu n’a pas encore reçu un large soutien de la part de la communauté, et sa convivialité est également confrontée à des défis.

groq prévoit de déployer plus de 108 000 lpu d’ici la fin du premier trimestre 2025, ce qui constitue le plus grand déploiement d’inférence d’intelligence artificielle en dehors des grands géants de la technologie.

nouvelles

qui peut remplacer nvidia ?

introduction

mes coordonnées