le mie informazioni di contatto
posta[email protected]
2024-10-03
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
il “gpu festival” di nvidia finirà?
dal rilascio di chatgpt da parte di open ai negli stati uniti il 30 novembre 2022, l'intelligenza artificiale generativa (intelligenza artificiale) è diventata una grande mania e le gpu nvidia sono diventate popolari come semiconduttori ai. tuttavia, nella produzione di gpu, ci sono due colli di bottiglia: il processo di fascia media di tsmc e la memoria a larghezza di banda elevata (hbm) impilata con dram, che porta ad una carenza globale di gpu. “il collo di bottiglia è il processo di fascia media tra hbm e tsmc?"
tra queste gpu, la "h100" è stata particolarmente richiesta, con il suo prezzo che è salito a 40.000 dollari, innescando il cosiddetto "gpu festival" di nvidia.
in questa circostanza, tsmc ha raddoppiato la propria capacità di produzione di interposer a processo intermedio e i produttori di dram come sk hynix hanno aumentato la produzione di hbm, con conseguente riduzione del tempo di consegna "h100" da 52 settimane a 20 settimane.
quindi, il “gpu festival” di nvidia finirà?
quindi, in questo articolo discuteremo se il "gpu day" di nvidia sta per finire. parliamo prima della conclusione. si prevede che entro il 2024 verrà spedito solo il 3,9% dei server ai di fascia alta (la definizione verrà spiegata più avanti) necessari per lo sviluppo e il funzionamento dell'ia a livello di chatgpt. sembra quindi che le esigenze dei fornitori di servizi cloud (csp) come google, amazon e microsoft non possano essere affatto soddisfatte. in breve, finora il "gpu festival" di nvidia è solo l'inizio e si sta avvicinando un boom completo dell'intelligenza artificiale generativa.
successivamente, esaminiamo brevemente i due principali colli di bottiglia della gpu nvidia.
due colli di bottiglia della gpu nvidia
nella produzione delle gpu nvidia, la fonderia tsmc è responsabile di tutti i processi anteriori, centrali e posteriori. in questo caso, il processo intermedio si riferisce al processo di produzione separata di gpu, cpu, hbm e altri chip e al loro posizionamento su un substrato quadrato tagliato da un wafer di silicio da 12 pollici. questo substrato è chiamato interpositore di silicio (figura 1).
figura 1 processi intermedi che emergono dal 2,5d al 3d, come la gpu nvidia (fonte: tadashi kamewada)
inoltre, il pacchetto gpu nvidia sviluppato da tsmc si chiama cowos (chip on wafer on substrate), ma i due colli di bottiglia sono la capacità dell'interpositore di silicio e hbm (figura 2). la situazione è la seguente.
figura 2 struttura cowos e due colli di bottiglia sulla gpu nvidia (fonte: wikichip)
cowos è stato sviluppato nel 2011, ma da allora, con il miglioramento delle prestazioni della gpu, la dimensione dei chip gpu ha continuato ad aumentare e anche il numero di hbm installati nella gpu è aumentato (figura 3). di conseguenza, gli interpositori in silicio diventano ogni anno più grandi, mentre il numero di interpositori disponibili su un singolo wafer diminuisce in proporzione inversa.
figura 3 l'area dell'interpositore e il numero hbm aumentano con ogni generazione (fonte: kc yee (tsmc))
inoltre, aumenta il numero di hbm installati nella gpu e aumenta anche il numero di chip dram impilati all'interno dell'hbm. inoltre, la dram viene miniaturizzata ogni due anni e lo standard hbm viene aggiornato ogni due anni per migliorare le prestazioni. pertanto, la hbm all'avanguardia scarseggia.
in questo scenario, tsmc raddoppierà la propria capacità produttiva di interposer di silicio da 15.000 wafer al mese intorno all’estate del 2023 a oltre 30.000 wafer al mese intorno all’estate di quest’anno. inoltre, samsung electronics e micron technology hanno ottenuto la certificazione nvidia e hanno iniziato a fornire prodotti all'avanguardia hbm, precedentemente dominata da sk hynix.
influenzato da quanto sopra, i tempi di consegna di nvidia h100, che ha la domanda più alta, sono stati notevolmente ridotti da 52 settimane a 20 settimane. di conseguenza, quanto sono aumentate le spedizioni di server ai?
definizione di due tipi di server ai
secondo il "global annual server shipments, 2023-2024" (servers report database, 2024) pubblicato da digitimes research, esistono due tipi di server ai:
i sistemi dotati di due o più acceleratori ai ma non hbm sono chiamati "server ai universali".
i sistemi dotati di almeno quattro acceleratori ai alimentati da hbm sono chiamati "server ai di fascia alta".
l'acceleratore ai qui si riferisce a hardware speciale progettato per accelerare le applicazioni ai, in particolare le reti neurali e l'apprendimento automatico. un tipico esempio è la gpu di nvidia. inoltre, lo sviluppo e il funzionamento dell’ia generativa a livello chatgpt richiedono un gran numero di server ai di fascia alta anziché server ai generici.
quindi, quali sono i volumi di spedizione di server ai generali e di server ai di fascia alta?
server ai generali e spedizioni di server ai di fascia alta
la figura 4 mostra le spedizioni di server ai generali e di server ai di fascia alta dal 2022 al 2023. si prevede che le spedizioni generali di server ai saranno di 344.000 unità nel 2022, 470.000 unità nel 2023 e 725.000 unità nel 2024.
figura 4 spedizioni generali di server ai e server ai di fascia alta (2022-2024) (fonte: digitimes research)
allo stesso tempo, si prevede che i server ai di fascia alta necessari per lo sviluppo e il funzionamento dell’ia generativa a livello chatgpt spediranno 34.000 unità nel 2022, 200.000 unità nel 2023 e 564.000 unità nel 2024.
quindi, le spedizioni di server ai di fascia alta possono soddisfare le esigenze dei csp statunitensi?
la figura 5 mostra i numeri di spedizione di server, server ai generali e server ai di fascia alta. quando ho disegnato questo diagramma e l'ho guardato, sono rimasto sbalordito e mi sono chiesto "è questo il numero di server ai di fascia alta che vengono spediti?" è ancora un server di intelligenza artificiale di fascia alta e le spedizioni sono molto piccole.
figura 5 spedizioni di server, server ai generali e server ai di fascia alta
fonte: autore basato su mic e digitimes
sono rimasto ancora più deluso quando ho esaminato quanti server ai di fascia alta sarebbero stati necessari per sviluppare ed eseguire un'intelligenza artificiale generativa a livello di chatgpt.
è necessario un server ai di fascia alta per generare ai a livello chatgpt
è stato riferito che lo sviluppo e il funzionamento di chatgpt richiedono 30.000 server ai di fascia alta nvidia dgx h100 (figura 6). quando ho visto questo numero di trentamila unità, ho avuto le vertigini.
figura 6 quanti server ai di fascia alta sono necessari per eseguire chatgpt? (fonte: sito web hpc)
a proposito, "nvidia dgx h100" è dotato di otto chip "h100" e il prezzo di ciascun chip è salito a $ 40.000, portando il prezzo totale del sistema a $ 460.000. in altre parole, generare un'intelligenza artificiale a livello di chatgpt richiede un investimento di 30.000 unità x $ 460.000 = $ 13,8 miliardi (circa 2 trilioni di yen sulla base di $ 1 = 145 yen!).
penso che il mondo sia pieno di sistemi di intelligenza artificiale generativa, ma quante ia generative simili a chatgpt sono state effettivamente costruite (o saranno) costruite? (figura 7)
figura 7 spedizioni di server, spedizioni di server ia di fascia alta e numero di sistemi ia generati a livello chatgpt (fonte: mic e digitimes)
poiché il volume delle spedizioni di server ai di fascia alta nel 2022 sarà di 34.000 unità, è possibile costruire un solo sistema ai a livello chatgpt (questo è chatgpt). l'anno successivo, nel 2023, le spedizioni di server ai di fascia alta raggiungeranno le 200.000 unità, quindi potranno essere costruiti da 6 a 7 sistemi ai a livello chatgpt. poiché si prevede che nel 2024 verranno spediti 564.000 server ai di fascia alta, sarà possibile costruire da 18 a 19 sistemi ai a livello chatgpt.
tuttavia, la stima di cui sopra presuppone che l'ia a livello chatgpt possa essere costruita con 30.000 server ai di fascia alta "nvidia dgx h100".tuttavia, poiché è probabile che una generazione di intelligenza artificiale diventi più complessa, in questo caso potrebbero essere necessari più di 30.000 nvidia dgx h100. tutto sommato, è improbabile che i fornitori di servizi di comunicazione statunitensi siano soddisfatti delle attuali spedizioni di server ai di fascia alta.
ora, diamo un'occhiata a quanti server ai di fascia alta possiede ciascun utente finale (come un csp negli stati uniti).
numero di server ai di fascia alta per gli utenti finali
la figura 8 mostra il numero di server ai di fascia alta per utenti finali. nel 2023, microsoft, che possiede openai, avrà il maggior numero di server ai di fascia alta con 63.000 unità, ma entro il 2024 google supererà microsoft e avrà il maggior numero di server ai di fascia alta.
figura 8 server di intelligenza artificiale di fascia alta per utente finale (2023-2024) (fonte: digitimes research)
i primi cinque nel 2024 sono google, al primo posto con 162.000 unità (5 sistemi), microsoft al secondo posto con 90.000 unità (3 sistemi), super micro al terzo posto con 68.000 unità (2 sistemi) e amazon (67.000 unità) al quarto posto. 2 sistemi), seguito da meta al quinto posto con 46.000 unità (1 sistema) (il numero tra parentesi è il numero di sistemi che l'ia della generazione di classi chatgpt può costruire). si può vedere che le prime cinque società di produzione di energia solare termica negli stati uniti monopolizzano circa l’80% della quota.
successivamente, diamo un’occhiata alle spedizioni di server ai di fascia alta e acceleratori ai (figura 9). come previsto, le gpu nvidia sono le più utilizzate per gli acceleratori ai, raggiungendo le 336.000 unità nel 2024. tuttavia, sorprendentemente, la seconda azienda più popolare non è amd, ma google.
figura 9 server ai di fascia alta per acceleratore ai (2023-2024) (fonte: digitimes research)
google ha sviluppato la propria tensor processing unit (tpu) come acceleratore di intelligenza artificiale. entro il 2024, il numero di server ai di fascia alta dotati di questo tpu raggiungerà 138.000. qui, dalla figura 8 sappiamo che google avrà 162.000 server ai di fascia alta entro il 2024. pertanto, si prevede che 138.000 unità saranno dotate del tpu di google e le restanti 24.000 unità saranno dotate della gpu nvidia. in altre parole, per nvidia google è sia un cliente che un formidabile nemico.
inoltre, se guardiamo alle spedizioni nel 2024, amd, che è al terzo posto, ha 45.000 unità, seguita da amazon, che è al quarto posto, con 40.000 unità. amazon sta inoltre sviluppando aws trainium come acceleratore di intelligenza artificiale. se si aspetta ancora, amd potrebbe essere superata da amazon.
per riassumere, nvidia ha attualmente le maggiori spedizioni di acceleratori ia, ma google e amazon stanno diventando i suoi forti concorrenti. il concorrente di nvidia non è il produttore di processori amd (di certo non la intel in via di estinzione), ma i csp statunitensi google e amazon.
è in arrivo un boom dell’intelligenza artificiale generativa su vasta scala
riassumiamo tutto finora. secondo un rapporto di digitimes research, si prevede che le spedizioni di server ia di fascia alta in grado di sviluppare ed eseguire ia generativa a livello chatgpt rappresenteranno solo il 3,9% di tutti i server entro il 2024. si ritiene che questo volume di spedizioni semplicemente non possa soddisfare le esigenze dei csp.
in altre parole, il “gpu festival” di nvidia dal 2023 al 2024 è solo l’inizio. di conseguenza, è probabile che si verifichi un vero e proprio boom dell’intelligenza artificiale generativa. mostriamo le basi di seguito.
la figura 10 mostra il mercato dei semiconduttori per applicazione e le sue previsioni future pubblicate dalla semiconductor industry association (sia). secondo le previsioni della sia, il mercato globale dei semiconduttori supererà i mille miliardi di dollari nel 2030.
figura 10 previsione spedizioni di semiconduttori per applicazione (fonte: sia blog)
entro il 2030, i mercati più grandi saranno quelli dell’informatica e dell’archiviazione dei dati. ciò include pc e server (e ovviamente server ai di fascia alta), ma poiché è improbabile che le spedizioni di pc aumentino in modo significativo, i server costituiranno probabilmente la maggioranza.
le comunicazioni cablate si riferiscono ai semiconduttori utilizzati nei data center. ciò significa che entro il 2030, l’informatica e l’archiviazione dati (330 miliardi di dollari) + le comunicazioni cablate (60 miliardi di dollari) = un totale di 390 miliardi di dollari diventeranno semiconduttori per data center (compresi i pc), diventando il mercato più grande del mondo.
un'altra cosa da tenere d'occhio è il mercato dei data center e le sue prospettive,come mostrato nella figura 11. dopo il rilascio di chatgpt nel 2022, si prevede che il mercato dei data center crescerà costantemente. i data center sono costituiti da tre elementi: infrastruttura di rete, server e storage, e si prevede che server e storage raddoppieranno all’incirca ciascuno dal 2023 al 2029.
figura 11 prospettive del mercato dei data center (il boom completo dell'intelligenza artificiale generativa non è ancora arrivato) (fonte: autore basato sui dati di statista market insights)
in questo modo, i semiconduttori dei server (compresi i server ai di fascia alta) occuperanno la quota maggiore del mercato globale e anche il mercato dei data center si espanderà.
ripeti un'ultima volta.finora, il "gpu festival" di nvidia è solo un evento pre-festivo. è in arrivo un vero e proprio boom dell’intelligenza artificiale generativa.