2024-10-03
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
le « gpu festival » de nvidia va-t-il prendre fin ?
depuis la sortie de chatgpt par open ai aux états-unis le 30 novembre 2022, l’ia générative (intelligence artificielle) est devenue un engouement majeur, et les gpu de nvidia sont devenus populaires en tant que semi-conducteurs d’ia. cependant, dans la production de gpu, il existe deux goulots d'étranglement : le processus de milieu de gamme de tsmc et la mémoire à large bande passante (hbm) empilée avec de la dram, conduisant à une pénurie mondiale de gpu. « le goulot d'étranglement est le processus de milieu de gamme entre hbm et hbm. tsmc ?
parmi ces gpu, le "h100" était particulièrement demandé, avec son prix grimpant à 40 000 dollars, déclenchant le soi-disant "gpu festival" de nvidia.
dans ces circonstances, tsmc a doublé sa capacité de production d'interposeurs à mi-processus et les fabricants de dram tels que sk hynix ont augmenté la production de hbm, ce qui a permis de raccourcir le délai de livraison du « h100 » de 52 semaines à 20 semaines.
alors, le « gpu festival » de nvidia va-t-il prendre fin ?
ainsi, dans cet article, nous verrons si le « gpu day » de nvidia touche à sa fin. parlons d'abord de la conclusion. on s'attend à ce que même d'ici 2024, seuls 3,9 % des serveurs d'ia haut de gamme (la définition sera expliquée plus tard) requis pour le développement et l'exploitation de l'ia de niveau chatgpt soient livrés. il semble donc que les besoins des fournisseurs de services cloud (csp) tels que google, amazon et microsoft ne puissent pas du tout être satisfaits. en bref, jusqu'à présent, le « gpu festival » de nvidia n'est qu'un début, et un boom complet de l'ia générative est à venir.
ensuite, passons brièvement en revue les deux principaux goulots d’étranglement du gpu nvidia.
deux goulots d'étranglement du gpu nvidia
dans la production des gpu nvidia, la fonderie tsmc est responsable de tous les processus front, middle et back. ici, le processus intermédiaire fait référence au processus de production séparée de gpu, cpu, hbm et autres puces et de leur placement sur un substrat carré découpé dans une plaquette de silicium de 12 pouces. ce substrat est appelé interposeur en silicium (figure 1).
figure 1 processus intermédiaires émergeant du 2,5d à la 3d, tels que le gpu nvidia (source : tadashi kamewada)
de plus, le package gpu nvidia développé par tsmc s'appelle cowos (chip on wafer on substrate), mais les deux goulots d'étranglement sont la capacité de l'interposeur en silicium et le hbm (figure 2). la situation est la suivante.
figure 2 structure cowos et deux goulots d'étranglement sur le gpu nvidia (source : wikichip)
cowos a été développé en 2011, mais depuis lors, à mesure que les performances du gpu se sont améliorées, la taille des puces du gpu a continué d'augmenter et le nombre de hbm installés dans le gpu a également augmenté (figure 3).. en conséquence, les interposeurs de silicium augmentent chaque année, tandis que le nombre d’interposeurs disponibles sur une seule plaquette diminue en proportion inverse.
figure 3 la zone d'interposeur et le nombre de hbm augmentent à chaque génération (source : kc yee (tsmc))
de plus, le nombre de hbm installés dans le gpu augmente, ainsi que le nombre de puces dram empilées à l'intérieur du hbm. de plus, la dram est miniaturisée tous les deux ans et la norme hbm est mise à jour tous les deux ans pour améliorer les performances. par conséquent, les hbm de pointe sont rares.
dans ce scénario, tsmc doublera sa capacité de production d’interposeurs de silicium, passant de 15 000 plaquettes par mois vers l’été 2023 à plus de 30 000 plaquettes par mois vers l’été de cette année. en outre, samsung electronics et micron technology ont obtenu la certification nvidia et ont commencé à fournir des hbm de pointe, auparavant dominés par sk hynix.
affecté par ce qui précède, le délai de livraison du nvidia h100, qui est le plus demandé, a été considérablement réduit, passant de 52 semaines à 20 semaines. alors, dans quelle mesure les expéditions de serveurs ia ont-elles augmenté en conséquence ?
définition de deux types de serveurs ia
selon le « global annual server shipments, 2023-2024 » (servers report database, 2024) publié par digitimes research, il existe deux types de serveurs ia :
les systèmes équipés de deux accélérateurs d'ia ou plus, mais pas de hbm, sont appelés « serveurs d'ia universels ».
les systèmes équipés d'au moins quatre accélérateurs d'ia alimentés par hbm sont appelés « serveurs d'ia haut de gamme ».
l'accélérateur d'ia fait ici référence à un matériel spécial conçu pour accélérer les applications d'ia, en particulier les réseaux de neurones et l'apprentissage automatique. un exemple typique est le gpu de nvidia. de plus, le développement et l’exploitation de l’ia générative de niveau chatgpt nécessitent un grand nombre de serveurs d’ia haut de gamme plutôt que des serveurs d’ia à usage général.
alors, quels sont les volumes d’expédition de serveurs ia généraux et de serveurs ia haut de gamme ?
expéditions de serveurs ia généraux et de serveurs ia haut de gamme
la figure 4 montre les expéditions de serveurs ia généraux et de serveurs ia haut de gamme de 2022 à 2023. les livraisons générales de serveurs d’ia devraient s’élever à 344 000 unités en 2022, 470 000 unités en 2023 et 725 000 unités en 2024.
figure 4 livraisons de serveurs ia généraux et de serveurs ia haut de gamme (2022-2024) (source : digitimes research)
dans le même temps, les serveurs d'ia haut de gamme nécessaires au développement et à l'exploitation de l'ia générative de niveau chatgpt devraient expédier 34 000 unités en 2022, 200 000 unités en 2023 et 564 000 unités en 2024.
alors, les expéditions de serveurs ia haut de gamme peuvent-elles répondre aux besoins des csp américains ?
la figure 5 montre les numéros d'expédition des serveurs, des serveurs ia généraux et des serveurs ia haut de gamme. lorsque j'ai dessiné ce diagramme et que je l'ai regardé, j'ai été stupéfait et je me suis demandé : « est-ce le nombre de serveurs ia haut de gamme qui sont livrés ? » c'est parce que, en regardant les serveurs dans leur ensemble, s'il s'agit de serveurs ia à usage général. est toujours un serveur d'intelligence artificielle haut de gamme, et les expéditions sont très faibles.
figure 5 expéditions de serveurs, de serveurs ia généraux et de serveurs ia haut de gamme
source : auteur basé sur mic et digitimes
j'ai été encore plus déçu lorsque j'ai examiné combien de serveurs d'ia haut de gamme seraient nécessaires pour développer et exécuter l'ia générative de niveau chatgpt.
serveur d'ia haut de gamme requis pour générer de l'ia au niveau chatgpt
il est rapporté que le développement et l'exploitation de chatgpt nécessitent 30 000 serveurs d'ia haut de gamme nvidia dgx h100 (figure 6). quand j'ai vu ce nombre de trente mille unités, j'ai eu le vertige.
figure 6 combien de serveurs d'ia haut de gamme sont nécessaires pour exécuter chatgpt ? (source : site web hpc)
à propos, le « nvidia dgx h100 » est équipé de huit puces « h100 », et le prix de chaque puce a grimpé à 40 000 $, ce qui porte le prix total du système à 460 000 $. en d’autres termes, générer une ia de niveau chatgpt nécessite un investissement de 30 000 unités x 460 000 $ = 13,8 milliards de dollars (environ 2 000 milliards de yens sur la base de 1 $ = 145 yens !).
je pense que le monde regorge de systèmes d’ia générative, mais combien d’ia génératives de type chatgpt ont réellement été (ou seront) construites ? (figure 7)
figure 7 expéditions de serveurs, expéditions de serveurs d'ia haut de gamme et nombre de systèmes d'ia générés au niveau chatgpt (source : mic et digitimes)
étant donné que le volume d'expédition de serveurs d'ia haut de gamme en 2022 sera de 34 000 unités, un seul système d'ia de niveau chatgpt peut être construit (il s'agit de chatgpt). l'année suivante, en 2023, les expéditions de serveurs d'ia haut de gamme atteindront 200 000 unités, ce qui permettra de construire 6 à 7 systèmes d'ia de niveau chatgpt. puisque 564 000 serveurs d’ia haut de gamme devraient être livrés en 2024, il sera possible de construire 18 à 19 systèmes d’ia de niveau chatgpt.
cependant, l'estimation ci-dessus suppose que l'ia de niveau chatgpt peut être construite avec 30 000 serveurs d'ia haut de gamme « nvidia dgx h100 ».cependant, comme une génération d’ia risque de devenir plus complexe, plus de 30 000 nvidia dgx h100 pourraient être nécessaires dans ce cas. tout bien considéré, il est peu probable que les fournisseurs de services de communication américains soient satisfaits des livraisons actuelles de serveurs ia haut de gamme.
voyons maintenant combien de serveurs d'ia haut de gamme chaque utilisateur final (comme un csp aux états-unis) possède.
nombre de serveurs ia haut de gamme pour les utilisateurs finaux
la figure 8 montre le nombre de serveurs ia haut de gamme par utilisateur final. en 2023, microsoft, propriétaire d'openai, possède le plus grand nombre de serveurs d'ia haut de gamme, soit 63 000 unités, mais d'ici 2024, google dépassera microsoft et disposera du plus grand nombre de serveurs d'ia haut de gamme.
figure 8 serveurs d'intelligence artificielle haut de gamme par utilisateur final (2023-2024) (source : digitimes research)
les cinq premiers en 2024 sont google, premier avec 162 000 unités (5 systèmes), microsoft deuxième avec 90 000 unités (3 systèmes), super micro troisième avec 68 000 unités (2 systèmes) et amazon (67 000 unités) quatrième. 2 systèmes), suivi de meta à la cinquième place avec 46 000 unités (1 système) (le nombre entre parenthèses est le nombre de systèmes que l'ia de génération de classe chatgpt peut construire). on peut constater que les cinq plus grandes sociétés de production d’énergie solaire thermique aux états-unis monopolisent environ 80 % des parts.
examinons ensuite les livraisons d'accélérateurs d'ia de serveurs d'ia haut de gamme (figure 9). comme prévu, les gpu de nvidia sont les plus utilisés pour les accélérateurs d'ia, atteignant 336 000 unités en 2024. cependant, étonnamment, la deuxième entreprise la plus populaire n’est pas amd, mais google.
figure 9 serveurs d'ia haut de gamme par accélérateur d'ia (2023-2024) (source : digitimes research)
google a développé sa propre unité de traitement tensoriel (tpu) comme accélérateur d'ia. d’ici 2024, le nombre de serveurs ia haut de gamme équipés de ce tpu atteindra 138 000. ici, à partir de la figure 8, nous savons que google disposera de 162 000 serveurs d’ia haut de gamme d’ici 2024. par conséquent, 138 000 unités devraient être équipées du tpu propre à google, et les 24 000 unités restantes seront équipées du gpu de nvidia. autrement dit, pour nvidia, google est à la fois un client et un redoutable ennemi.
de plus, si l'on regarde les expéditions en 2024, amd, qui occupe la troisième place, compte 45 000 unités, suivi d'amazon, qui occupe la quatrième place, avec 40 000 unités. amazon développe également aws trainium comme accélérateur d'intelligence artificielle. s’il attend plus longtemps, amd pourrait être dépassé par amazon.
en résumé, nvidia dispose actuellement des plus grandes livraisons d'accélérateurs d'ia, mais google et amazon deviennent ses concurrents sérieux. le concurrent de nvidia n'est pas le fabricant de processeurs amd (et certainement pas intel, en voie de disparition), mais les csp américains google et amazon.
un boom de l’ia générative à grande échelle est à venir
résumons tout jusqu'à présent. selon un rapport de digitimes research, les livraisons de serveurs d'ia haut de gamme capables de développer et d'exécuter une ia générative de niveau chatgpt ne devraient représenter que 3,9 % de tous les serveurs d'ici 2024. on estime que ce volume d’expédition ne peut tout simplement pas répondre aux besoins des csp.
en d’autres termes, le « gpu festival » de nvidia de 2023 à 2024 n’est qu’un début. en conséquence, un véritable boom de l’ia générative est susceptible de se produire. montrons les bases ci-dessous.
la figure 10 montre le marché des semi-conducteurs par application et ses prévisions futures publiées par la semiconductor industry association (sia). selon les prévisions de la sia, le marché mondial des semi-conducteurs dépassera les 1 000 milliards de dollars américains en 2030.
figure 10 prévisions d'expédition de semi-conducteurs par application (source : sia blog)
d’ici 2030, les marchés les plus importants seront ceux de l’informatique et du stockage de données. cela inclut les pc et les serveurs (et bien sûr les serveurs ia haut de gamme), mais comme il est peu probable que les expéditions de pc augmentent de manière significative, les serveurs constitueront probablement la majorité.
les communications filaires font référence aux semi-conducteurs utilisés dans les centres de données. cela signifie que d'ici 2030, l'informatique et le stockage de données (330 milliards de dollars) + les communications filaires (60 milliards de dollars) = un total de 390 milliards de dollars deviendront des semi-conducteurs pour les centres de données (y compris les pc), devenant ainsi le plus grand marché mondial.
une autre chose à surveiller est le marché des centres de données et ses perspectives,comme le montre la figure 11. après la sortie de chatgpt en 2022, le marché des centres de données devrait croître régulièrement. les centres de données se composent de trois éléments : l'infrastructure réseau, les serveurs et le stockage, et les serveurs et le stockage devraient chacun doubler environ entre 2023 et 2029.
figure 11 perspectives du marché des centres de données (le boom global de l'ia générative n'est pas encore arrivé) (source : auteur basé sur les données de statista market insights)
de cette manière, les semi-conducteurs pour serveurs (y compris les serveurs d'ia haut de gamme) occuperont la plus grande part du marché mondial, et le marché des centres de données se développera également.
répétez une dernière fois.jusqu'à présent, le "gpu festival" de nvidia n'est qu'un événement précédant les vacances. un véritable boom de l’ia générative est à venir.