ovatko nvidia-grafiikkasuorittimien hyvät ajat ohi?

2024-10-03

loppuuko nvidian "gpu-festivaali"?

sen jälkeen kun open ai julkaisi chatgpt:n yhdysvalloissa 30. marraskuuta 2022, generatiivisesta ai:sta (keinoälystä) on tullut suuri villitys, ja nvidia:n grafiikkasuorituksista on tullut suosittuja tekoälypuolijohteina. grafiikkasuorien tuotannossa on kuitenkin kaksi pullonkaulaa: tsmc:n keskitason prosessi ja dram-muistilla pinottu korkean kaistanleveyden muisti (hbm), mikä johtaa globaaliin gpu-pulaan "onko pullonkaula keskialueen prosessissa hbm:n ja tsmc?"

näistä gpu:sta "h100" oli erityisen kysytty, ja sen hinta nousi huimasti 40 000 dollariin, mikä laukaisi niin kutsutun nvidia "gpu festivalin".

tässä tilanteessa tsmc kaksinkertaisti prosessin keskivaiheiden tuotantokapasiteettinsa, ja dram-valmistajat, kuten sk hynix, lisäsivät hbm-tuotantoa, mikä johti "h100":n läpimenoajan lyhenemiseen 52 viikosta 20 viikkoon.

joten, loppuuko nvidian "gpu-festivaali"?

joten tässä artikkelissa keskustelemme siitä, onko nvidian "gpu-päivä" päättymässä. puhutaan ensin johtopäätöksestä. on odotettavissa, että jopa vuoteen 2024 mennessä vain 3,9 % chatgpt-tason tekoälyn kehittämiseen ja käyttöön tarvittavista huippuluokan ai-palvelimista (määritelmä selitetään myöhemmin). siksi näyttää siltä, että pilvipalveluntarjoajien (csp) kuten googlen, amazonin ja microsoftin tarpeita ei voida täyttää ollenkaan. lyhyesti sanottuna toistaiseksi nvidian "gpu-festivaali" on vasta alkua, ja kattava generatiivinen ai-buumi on tulossa.

seuraavaksi tarkastellaan lyhyesti nvidia gpu:n kahta suurta pullonkaulaa.

kaksi nvidia gpu:n pullonkaulaa

nvidia gpu:iden tuotannossa valimo tsmc vastaa kaikista etu-, keski- ja takaprosesseista. tässä väliprosessilla tarkoitetaan prosessia, jossa gpu, cpu, hbm ja muut sirut tuotetaan erikseen ja asetetaan neliömäiselle alustalle, joka on leikattu 12 tuuman piikiekosta. tätä alustaa kutsutaan piiväliaineeksi (kuva 1).

kuva 1 2.5d:stä 3d:ksi kehittyvät väliprosessit, kuten nvidia gpu (lähde: tadashi kamewada)

lisäksi tsmc:n kehittämä nvidia gpu -paketti on nimeltään cowos (chip on wafer on substrate), mutta kaksi pullonkaulaa ovat piivälityskapasiteetti ja hbm (kuva 2). tilanne on seuraava.

kuva 2 cowos-rakenne ja kaksi pullonkaulaa nvidia gpu:ssa (lähde: wikichip)

cowos kehitettiin vuonna 2011, mutta siitä lähtien gpu-suorituskyvyn parantuessa gpu-sirujen koko on jatkanut kasvuaan, ja myös gpu:hun asennettujen hbm:ien määrä on lisääntynyt (kuva 3). tämän seurauksena piivälityslaitteet kasvavat vuosi vuodelta, kun taas yhdellä kiekolla käytettävissä olevien välilevyjen määrä vähenee käänteisessä suhteessa.

kuva 3 interposer-alue ja hbm-luku kasvavat jokaisen sukupolven myötä (lähde: kc yee (tsmc))

lisäksi gpu:hun asennettujen hbm:ien määrä kasvaa ja myös hbm:n sisään pinottujen dram-sirujen määrä kasvaa. lisäksi dram pienennetään kahden vuoden välein, ja hbm-standardi päivitetään kahden vuoden välein suorituskyvyn parantamiseksi. siksi huippuluokan hbm:stä on pulaa.

tämän skenaarion mukaan tsmc kaksinkertaistaa piikiekkojen tuotantokapasiteettinsa 15 000 kiekosta kuukaudessa kesällä 2023 yli 30 000 kiekkoon kuukaudessa tämän vuoden kesällä. lisäksi samsung electronics ja micron technology ovat saaneet nvidia-sertifioinnin ja alkaneet toimittaa huippuluokan hbm:ää, jota aiemmin hallitsi sk hynix.

yllä olevan vaikutuksesta eniten kysytyn nvidia h100:n toimitusaika on lyhentynyt merkittävästi 52 viikosta 20 viikkoon. joten kuinka paljon tekoälypalvelintoimitukset ovat lisääntyneet tämän seurauksena?

kahden tyyppisen ai-palvelimen määritelmä

digitimes researchin julkaiseman "global annual server shipments, 2023-2024" (servers report database, 2024) mukaan tekoälypalvelimia on kahdenlaisia:

järjestelmiä, jotka on varustettu kahdella tai useammalla tekoälykiihdyttimellä, mutta ei hbm:llä, kutsutaan "universaaleiksi tekoälypalvelimiksi".

vähintään neljällä hbm-käyttöisellä tekoälykiihdyttimellä varustettuja järjestelmiä kutsutaan "high-end ai-palvelimiksi".

tekoälykiihdyttimellä tarkoitetaan tässä erikoislaitteistoa, joka on suunniteltu nopeuttamaan tekoälysovelluksia, erityisesti hermoverkkoja ja koneoppimista. tyypillinen esimerkki on nvidian gpu. lisäksi chatgpt-tason generatiivisen tekoälyn kehittäminen ja toiminta vaatii suuren määrän huippuluokan tekoälypalvelimia yleiskäyttöisten tekoälypalvelimien sijaan.

joten mitkä ovat yleisten tekoälypalvelimien ja huippuluokan tekoälypalvelimien toimitusmäärät?

yleiset tekoälypalvelin- ja huippuluokan ai-palvelintoimitukset

kuva 4 näyttää yleisten tekoälypalvelimien ja huippuluokan tekoälypalvelimien toimitukset vuosina 2022–2023. yleisten tekoälypalvelintoimitusten odotetaan olevan 344 000 yksikköä vuonna 2022, 470 000 yksikköä vuonna 2023 ja 725 000 yksikköä vuonna 2024.

kuva 4 yleiset tekoälypalvelinten ja huippuluokan tekoälypalvelinten toimitukset (2022–2024) (lähde: digitimes research)

samaan aikaan chatgpt-tason generatiivisen tekoälyn kehittämiseen ja toimintaan tarvittavien huippuluokan ai-palvelimien odotetaan toimittavan 34 000 yksikköä vuonna 2022, 200 000 yksikköä vuonna 2023 ja 564 000 yksikköä vuonna 2024.

voivatko huippuluokan tekoälypalvelimien toimitukset täyttää yhdysvaltalaisten csp:iden tarpeet?

kuva 5 näyttää palvelimien, yleisten tekoälypalvelimien ja huippuluokan tekoälypalvelimien toimitusmäärät. kun piirsin tämän kaavion ja katsoin sitä, hämmästyin ja ihmettelin: "onko tämä kuinka monta huippuluokan tekoälypalvelinta toimitetaan." tämä johtuu siitä, että tarkasteltaessa palvelimia kokonaisuutena, ovatko ne yleiskäyttöisiä tekoälypalvelimia on edelleen huippuluokan tekoälypalvelin, ja toimitukset ovat hyvin pieniä.

kuva 5 palvelimien, yleisten tekoälypalvelimien ja huippuluokan tekoälypalvelimien toimitukset

lähde: tekijä perustuu mic ja digitimes

olin vieläkin pettynyt, kun tutkin, kuinka monta huippuluokan tekoälypalvelinta tarvitaan chatgpt-tason generatiivisen tekoälyn kehittämiseen ja suorittamiseen.

huippuluokan tekoälypalvelin tarvitaan chatgpt-tason tekoälyn luomiseen

on raportoitu, että chatgpt:n kehittäminen ja toiminta vaatii 30 000 nvidia dgx h100 huippuluokan tekoälypalvelinta (kuva 6). kun näin tämän kolmenkymmenen tuhannen yksikön määrän, tunsin huimausta.

kuva 6 kuinka monta huippuluokan tekoälypalvelinta tarvitaan chatgpt:n suorittamiseen? (lähde: hpc:n verkkosivusto)

muuten, "nvidia dgx h100" on varustettu kahdeksalla "h100"-sirulla, ja jokaisen sirun hinta on noussut 40 000 dollariin, mikä on nostanut järjestelmän kokonaishinnan 460 000 dollariin. toisin sanoen chatgpt-tason tekoälyn luominen vaatii investoinnin 30 000 yksikköä x 460 000 dollaria = 13,8 miljardia dollaria (noin 2 biljoonaa jeniä perustuen 1 dollariin = 145 jeniä!).

luulen, että maailma on täynnä generatiivisia tekoälyjärjestelmiä, mutta kuinka monta chatgpt:n kaltaista generatiivista tekoälyä on todella rakennettu (tai tullaan rakentamaan)? (kuva 7)

kuva 7 palvelintoimitukset, huippuluokan tekoälypalvelintoimitukset ja chatgpt-tasolla luotujen tekoälyjärjestelmien määrä (lähde: mic ja digitimes)

koska huippuluokan tekoälypalvelimien toimitusmäärä vuonna 2022 on 34 000 yksikköä, voidaan rakentaa vain yksi chatgpt-tason tekoälyjärjestelmä (tämä on chatgpt). seuraavana vuonna, vuonna 2023, huippuluokan tekoälypalvelintoimitukset saavuttavat 200 000 yksikköä, joten chatgpt-tason tekoälyjärjestelmää voidaan rakentaa 6–7. koska 564 000 huippuluokan tekoälypalvelinta odotetaan toimitettavan vuonna 2024, on mahdollista rakentaa 18–19 chatgpt-tason tekoälyjärjestelmää.

yllä oleva arvio kuitenkin olettaa, että chatgpt-tason tekoäly voidaan rakentaa 30 000 huippuluokan tekoälypalvelimella "nvidia dgx h100".koska tekoälyn sukupolvi tulee kuitenkin todennäköisesti monimutkaisempaa, tässä tapauksessa voidaan tarvita yli 30 000 nvidia dgx h100 -laitetta. kaiken kaikkiaan yhdysvaltalaiset viestintäpalvelujen tarjoajat eivät todennäköisesti ole tyytyväisiä huippuluokan tekoälypalvelimien nykyisiin toimituksiin.

katsotaanpa nyt, kuinka monta huippuluokan tekoälypalvelinta kullakin loppukäyttäjällä (kuten csp:llä yhdysvalloissa) on.

huippuluokan tekoälypalvelimien määrä loppukäyttäjille

kuva 8 näyttää huippuluokan tekoälypalvelimien määrän loppukäyttäjien mukaan. vuonna 2023 openai:n omistavalla microsoftilla on eniten huippuluokan tekoälypalvelimia, 63 000 yksikköä, mutta vuoteen 2024 mennessä google ohittaa microsoftin ja sillä on eniten huippuluokan tekoälypalvelimia.

kuva 8 korkealuokkaiset tekoälypalvelimet loppukäyttäjien mukaan (2023–2024) (lähde: digitimes research)

vuoden 2024 viisi parasta on google, joka sijoittui ensimmäiseksi 162 000 yksiköllä (5 järjestelmää), microsoft toiseksi 90 000 yksiköllä (3 järjestelmää), super micro kolmanneksi 68 000 yksiköllä (2 järjestelmää) ja amazon (67 000 yksikköä) neljännellä sijalla. 2 järjestelmää), jota seuraa meta viidenneksi 46 000 yksiköllä (1 järjestelmä) (suluissa oleva luku on järjestelmien lukumäärä, jonka chatgpt-luokan sukupolven tekoäly voi rakentaa). voidaan nähdä, että viisi suurinta aurinkolämpövoimantuotantoyhtiötä yhdysvalloissa monopolisoivat noin 80 % osuudesta.

tarkastellaan seuraavaksi korkealuokkaisia tekoälykiihdyttimiä (kuva 9), kuten odotettiin, nvidian grafiikkasuorittimet ovat eniten käytettyjä tekoälykiihdyttimissä, ja niiden määrä on 336 000 yksikköä vuonna 2024. yllättäen toiseksi suosituin yritys ei kuitenkaan ole amd, vaan google.

kuva 9 tekoälykiihdyttimen huippuluokan tekoälypalvelimet (2023–2024) (lähde: digitimes research)

google kehitti oman tensor processing unit (tpu) -yksikön tekoälykiihdyttimeksi. vuoteen 2024 mennessä tällä tpu:lla varustettujen huippuluokan ai-palvelimien määrä nousee 138 000:een. tässä kuvasta 8 tiedämme, että googlella on 162 000 huippuluokan tekoälypalvelinta vuoteen 2024 mennessä. tästä syystä 138 000 yksikköä odotetaan olevan varustettu googlen omalla tpu:lla ja loput 24 000 yksikköä nvidian gpu:lla. toisin sanoen nvidialle google on sekä asiakas että valtava vihollinen.

lisäksi, jos tarkastelemme vuoden 2024 toimituksia, kolmannella sijalla olevalla amd:llä on 45 000 yksikköä, jota seuraa neljännellä sijalla oleva amazon 40 000 yksiköllä. amazon kehittää myös aws trainiumia tekoälyn kiihdyttimeksi. jos se odottaa kauemmin, amazon voi ohittaa amd:n.

yhteenvetona voidaan todeta, että nvidialla on tällä hetkellä suurimmat tekoälykiihdyttimien toimitukset, mutta googlesta ja amazonista on tulossa sen vahvoja kilpailijoita. nvidian kilpailija ei ole prosessorivalmistaja amd (ei tietenkään uhanalainen intel), vaan yhdysvaltalaiset csp:t google ja amazon.

täysi mittainen generatiivinen ai-buumi on tulossa

tehdään yhteenveto kaikesta tähän mennessä. digitimes researchin raportin mukaan chatgpt-tason generatiivisen tekoälyn kehittämiseen ja käyttämiseen pystyvien huippuluokan tekoälypalvelimien toimitusten odotetaan muodostavan vain 3,9 % kaikista palvelimista vuoteen 2024 mennessä. uskotaan, että tämä lähetysmäärä ei yksinkertaisesti pysty vastaamaan csp:n tarpeisiin.

toisin sanoen nvidian "gpu-festivaali" vuosina 2023–2024 on vasta alkua. tämän seurauksena on todennäköisesti tulossa täysi generatiivinen ai-buumi. näytämme perusasiat alla.

kuvassa 10 on esitetty puolijohdemarkkinat sovelluksittain ja sen semiconductor industry associationin (sia) julkaisema tulevaisuuden ennuste. sia:n ennusteiden mukaan globaalit puolijohdemarkkinat ylittävät 1 biljoonan dollarin vuonna 2030.

kuva 10 puolijohteiden toimitusennuste sovelluksittain (lähde: sia-blogi)

vuoteen 2030 mennessä suurimmat markkinat ovat tietojenkäsittely ja tietojen tallennus. tämä sisältää tietokoneet ja palvelimet (ja tietysti huippuluokan tekoälypalvelimet), mutta koska pc-toimitukset eivät todennäköisesti kasva merkittävästi, palvelimet muodostavat todennäköisesti suurimman osan.

langallinen tietoliikenne tarkoittaa palvelinkeskuksissa käytettyjä puolijohteita. tämä tarkoittaa, että vuoteen 2030 mennessä tietojenkäsittelystä ja tietojen tallennus (330 miljardia dollaria) + langallinen tietoliikenne (60 miljardia dollaria) = yhteensä 390 miljardia dollaria muuttuvat datakeskusten (mukaan lukien tietokoneet) puolijohteiksi, ja niistä tulee maailman suurin markkina.

toinen huomioitava asia on datakeskusmarkkinat ja sen näkymät,kuten kuvasta 11 näkyy. chatgpt:n julkaisun vuonna 2022 jälkeen datakeskusmarkkinoiden odotetaan kasvavan tasaisesti. palvelinkeskukset koostuvat kolmesta osasta: verkkoinfrastruktuurista, palvelimista ja tallennustilasta, ja palvelimien ja tallennustilan odotetaan kummankin noin kaksinkertaistuvan vuodesta 2023 vuoteen 2029.

kuva 11 palvelinkeskusten markkinanäkymät (kattava generatiivinen ai-buumi ei ole vielä saapunut) (lähde: kirjoittaja statista market insights -tietoihin perustuen)

tällä tavoin palvelinpuolijohteet (mukaan lukien huippuluokan tekoälypalvelimet) ottavat suurimman osan globaaleista markkinoista, ja myös konesalimarkkinat laajenevat.

toista viimeisen kerran.toistaiseksi nvidian "gpu-festivaali" on vain lomaa edeltävä tapahtuma. täysikasvuinen generatiivinen ai-buumi on tulossa.

uutiset

ovatko nvidia-grafiikkasuorittimien hyvät ajat ohi?

johdanto

yhteystietoni