NVIDIAn tehokkain AI-siru paljastaa suuria suunnitteluvirheitä, ja Kiinan erikoisversio paljastui vahingossa!

2024-08-05

Uusi viisausraportti

Toimittaja: Niin uninen Taozi

[Johdatus uuteen viisauteen] Suunnitteluvirheiden vuoksi Nvidian tehokkain AI-siru Blackwell todella viivästyy toimituksessa. Luovuttajaisät olivat surussa, ja kaikkien suunniteltujen suunnitelmien odotettiin viivästyvän vähintään kolmella kuukaudella.

NVIDIA GPU on aina ollut tekoälytutkimuksen ja -kehityksen elinehto suurille malliyrityksille, kuten OpenAI.

Nyt Blackwell GPU:iden suunnitteluvirheiden vuoksi Nvidian toimitukset joutuvat viivästymään 3 kuukautta tai jopa pidempään.

Tiedot kertoivat yksinomaan, että TSMC:n insinöörit löysivät vian viime viikkoina valmistaessaan Blackwell-siruja massatuotantoon.

Juuri viime viikolla Lao Huang sanoi SIGGRAPHissa, että NVIDIA on toimittanut Blackwellin suunnittelunäytteitä asiakkaille ympäri maailmaa.

Helpotus hänen kasvoillaan ei antanut vihjettä odottamattomista viivästyksistä.

Joten missä ovat sirun suunnittelun puutteet?

GB200 sisältää 2 Blackwell GPU:ta ja 1 Grace CPU:n. Ongelma piilee avainpiirissä, joka yhdistää kaksi Blackwell GPU:ta.

Tämä ongelma on aiheuttanut TSMC:n GB200:n tuottoprosentin laskun.

Uusimpien sirujen toimituksen viivästyminen tarkoittaa, että suurten teknologiayritysten, kuten Metan, Googlen ja Microsoftin, tekoälyn koulutusprosessi vaikuttaa.

Lisäksi heidän konesalin rakentaminen viivästyy väistämättä.

Sanotaan, että Blackwell-siruja odotetaan toimitettavan suuria määriä ensi vuoden ensimmäiseen neljännekseen asti.

SemiAnalysis'n viimeisimmässä raportissa se kertoo myös NVIDIA:n kohtaamista teknisistä haasteista, aikataulun viivästyneiden toimitusten jälkeen ja uudesta järjestelmästä MGX GB200A Ultra NVL36.

Blackwell viivyttää maaliskuuta kohuten keskellä

Muistan vieläkin, että GTC 2024 -konferenssissa Lao Huang piti hallussaan tehokkainta Blackwell-arkkitehtuurin GPU:ta ja ilmoitti maailmalle tehokkaimman suorituskykypedon.

Toukokuussa hän totesi julkisesti, että "aiomme toimittaa suuren määrän Blackwell-arkkitehtuurisiruja myöhemmin tänä vuonna."

Hän jopa totesi luottavaisesti talousraporttikokouksessa: "Näemme tänä vuonna paljon Blackwellin tuloja."

NVIDIA-osakkeenomistajilla on suuria toiveita Blackwell GPU:sta.

Keybanc Capital Marketsin analyytikot arvioivat, että Blackwellin sirut tuovat Nvidian datakeskusten tulot 47,5 miljardista Yhdysvaltain dollarista vuonna 2024 yli 200 miljardiin dollariin vuonna 2025.

Toisin sanoen Blackwell-sarjan grafiikkasuorittimet tulevat olemaan ratkaisevassa roolissa Nvidian tulevassa myynnissä ja tuloissa.

Suunnitteluvirheet vaikuttivat yllättäen suoraan Nvidian tuotantotavoitteisiin tämän vuoden toisella puoliskolla ja ensi vuoden ensimmäisellä puoliskolla.

Blackwellin sirusuunnitteluun osallistuvat sisäpiiriläiset paljastivat, että Nvidia tekee yhteistyötä TSMC:n kanssa testatakseen sirun tuotantoa ja toimintaa ratkaistakseen ongelman mahdollisimman pian.

Nvidian nykyiset korjaavat toimenpiteet ovat kuitenkin jatkaa Hopper-sarjan sirujen toimitusten jatkamista ja Blackwell GPU:iden tuotannon nopeuttamista suunnitelmien mukaisesti tämän vuoden toisella puoliskolla.

Tekoälykoulutus viivästyy, sillä se kuluttaa kymmeniä miljardeja dollareita

Paitsi, että tällä ketjuvaikutuksella on kohtalokas isku suurille mallinkehittäjille ja datakeskusten pilvipalveluntarjoajille.

Tekoälyn kouluttamiseen taloudelliset tukijat, kuten Meta, Microsoft ja Google, käyttivät kymmeniä miljardeja dollareita ja tilasivat suuren määrän Blackwell-siruja.

Google on tilannut yli 400 000 GB200 plus palvelinlaitteistoa, Googlen tilauksen hinta on reilusti yli 10 miljardia dollaria.

Tänä vuonna jättiläinen käyttää jo noin 50 miljardia dollaria siruihin ja muihin laitteisiin, mikä on yli 50 % enemmän kuin viime vuonna.

Lisäksi Meta on tehnyt tilauksia vähintään 10 miljardin dollarin arvosta, kun taas Microsoftin tilauskoko on kasvanut 20 % viime viikkoina.

Näiden kahden yrityksen erityistä tilauskokoa ei kuitenkaan ole vielä määritetty.

Asiaan perehtyneiden ihmisten mukaan Microsoft suunnittelee valmistavansa OpenAI:lle 55 000-65 000 GB200-sirua vuoden 2025 ensimmäiseen neljännekseen mennessä.

Lisäksi Microsoftin johto suunnitteli alun perin tarjoavansa Blackwell-pohjaisia palvelimia OpenAI:lle tammikuussa 2025.

Nyt näyttää siltä, että alkuperäinen suunnitelma on siirrettävä maaliskuulle tai seuraavalle keväälle.

Alkuperäisen aikataulun mukaan he aloittavat uuden supertietokoneklusterin käytön vuoden 2025 ensimmäisellä neljänneksellä.

Tekoälyyritykset, mukaan lukien OpenAI, odottavat uusien sirujen käyttöä seuraavan sukupolven LLM:n kehittämiseen.

Koska suurten mallien koulutus vaatii monta kertaa enemmän laskentatehoa, se voi vastata paremmin monimutkaisiin kysymyksiin, automatisoida monivaiheisia tehtäviä ja tuottaa realistisempia videoita.

Voidaan sanoa, että seuraavan sukupolven supertehokas tekoäly riippuu Nvidian uusimmista AI-siruista.

Harvinainen viive historiassa

Tämä laajamittainen sirutilausviive ei kuitenkaan ole vain odottamaton kaikille, vaan myös harvinainen.

TSMC suunnitteli alun perin aloittavansa Blackwell-sirujen massatuotannon kolmannella neljänneksellä ja aloittavansa laajat toimitukset Nvidian asiakkaille neljännellä neljänneksellä.

Sisäpiiri paljasti, että Blackwellin sirujen odotetaan nyt tulevan massatuotantoon viimeisellä neljänneksellä, ja jos ongelmia ei tule lisää, palvelimia toimitetaan suuria määriä seuraavilla vuosineljänneksillä.

Itse asiassa jo vuonna 2020 Nvidian lippulaivan GPU:n varhaista versiota jouduttiin viivästämään joidenkin ongelmien vuoksi.

Mutta Nvidian kohtaamat riskit olivat tuolloin alhaiset, asiakkailla ei ollut kiire saada tilauksiaan ja palvelinkeskuksista saatiin suhteellisen vähän voittoa.

Tällä kertaa on todellakin erittäin harvinaista, että suuria suunnitteluvirheitä havaitaan ennen massatuotantoa.

Sirusuunnittelijat työskentelevät tyypillisesti TSMC-tehtaiden kanssa suorittaakseen useita tuotantotestejä ja simulaatioita varmistaakseen tuotteen toteutettavuuden ja sujuvan valmistusprosessin ennen suurten tilausten vastaanottamista asiakkailta.

On harvinaista, että TSMC pysäyttää tuotantolinjan ja suunnittelee uudelleen tuotteen, joka on tulossa massatuotantoon.

He ovat tehneet täydelliset valmistelut GB200-massatuotantoon, mukaan lukien varatun konekapasiteetin.

Nyt robottien on istuttava toimettomana, kunnes ongelma on ratkaistu.

Suunnitteluvirhe vaikuttaa myös Nvidian NVLink-palvelintelineiden tuotantoon ja toimitukseen, sillä palvelimista vastaavan yrityksen on odotettava uusia sirunäytteitä ennen palvelintelineen suunnittelun viimeistelyä.

Pakko käynnistää remake

Tekniset haasteet pakottivat myös NVIDIAn kehittämään pikaisesti uuden järjestelmä- ja komponenttiarkkitehtuurin, kuten MGX GB200A Ultra NVL36:n.

Tällä upouudella suunnittelulla on merkittävä vaikutus myös kymmeniin tuotantoketjun alku- ja loppupään toimittajiin.

Blackwell-sarjan teknologisesti edistyneimpänä siruna NVIDIA on tehnyt rohkeita teknisiä valintoja GB200:lle järjestelmätasolla.

Tämä 72 GPU:n teline tarjoaa ennennäkemättömän tehotiheyden, 125 kW per teline. Vertailun vuoksi useimpien palvelinkeskusten telineiden teho on vain 12–20 kW.

Tällainen monimutkainen järjestelmä on myös johtanut lukuisiin ongelmiin, jotka liittyvät virransyöttöongelmiin, ylikuumenemiseen, vesijäähdytyksen toimitusketjun kasvuun, vesijäähdytysjärjestelmän pikakatkaisuihin ja erilaisiin piirilevyjen monimutkaisuuteen liittyviin ongelmiin, ja se on saanut joitain toimittajia ja suunnittelijoita yllättäen.

Tämä ei kuitenkaan aiheuta Nvidiaa vähentämään tuotantoa tai tekemään suuria etenemissuunnitelman muutoksia.

Ydinongelma, joka todella vaikuttaa lähetyksiin, on itse NVIDIAn Blackwell-arkkitehtuurin suunnittelu.

Blackwell-paketti on ensimmäinen paketti, joka on suunniteltu TSMC:n CoWoS-L-teknologiaa käyttävään suurtuotantoon.

CoWoS-L edellyttää RDL-interposerin käyttöä paikallisella piiyhteisliitännällä (LSI) ja sulautettuja siltapiirejä kommunikoinnin silloittamiseksi paketin sisällä olevien eri laskennan ja tallennustilan välillä.

CoWoS-L on paljon monimutkaisempi kuin nykyinen CoWoS-S-tekniikka, mutta se on tulevaisuutta.

Nvidialla ja TSMC:llä on erittäin aggressiivinen kasvusuunnitelma, joka ylittää miljoonan pelimerkin tavoitteen neljännesvuosittain.

Mutta sen seurauksena on syntynyt erilaisia ongelmia.

Yksi ongelma on se, että useiden hienojakoisten kohoumien upottaminen orgaaniseen väliin ja piiväliaineeseen voi aiheuttaa lämpölaajenemiskertoimen (CTE) epäsopivuuden piisuuttimen, siltojen, orgaanisen väliaineen ja alustan välillä, mikä johtaa vääntymiseen.

Siltasirujen asettelu vaatii erittäin suurta tarkkuutta, varsinkin kun on kyse kahden päälaskennan sirun välisistä silloista, koska nämä sillat ovat kriittisiä 10 TB/s sirujen välisen yhteyden tukemiseksi.

Suuren suunnitteluongelman huhutaan liittyvän siltapiiriin. Samaan aikaan muutama ylin globaali johdotuksen metallikerros ja sirun kohoumat on myös suunniteltava uudelleen. Tämä on yksi tärkeimmistä syistä useiden kuukausien viivästymiseen.

Toinen ongelma on, että TSMC:llä ei ole tarpeeksi CoWoS-L-tuotantokapasiteettia.

Muutaman viime vuoden aikana TSMC on rakentanut suuren määrän CoWoS-S-kapasiteettia, ja Nvidian osuus on suurin.

Nyt, kun Nvidia siirtää nopeasti kysyntää CoWoS-L:lle, TSMC rakentaa uutta upeaa AP6:ta CoWoS-L:lle ja jälkiasentaa olemassa olevaa CoWoS-S-kapasiteettia AP3:een.

Tätä varten TSMC:n on muutettava vanhaa CoWoS-S-tuotantokapasiteettia, muuten nämä kapasiteetit jäävät käyttämättä ja CoWoS-L kasvaa hitaammin. Ja tämä muutosprosessi tekee kasvusta erittäin epätasaista.

Yhdistämällä nämä kaksi ongelmaa TSMC ei selvästikään pysty toimittamaan tarpeeksi Blackwell-siruja Nvidian tarpeiden mukaan.

Tämän seurauksena Nvidia keskittää lähes kaiken tuotantokapasiteetin GB200 NVL 36x2- ja NVL72 -telinemittakaavaisiin järjestelmiin. Ja B100:lla ja B200:lla varustetut HGX-laskentamoduulit peruttiin.

Vaihtoehtona NVIDIA tuo markkinoille Blackwell GPU-B200A:n, joka perustuu B102-siruun ja joka on varustettu 4-kerroksisella HBM-muistilla vastaamaan keskitason ja matalan luokan tekoälyjärjestelmien tarpeita.

Mielenkiintoista on, että tätä B102-sirua käytetään myös Kiinan "erikoisversiossa" B20.

Koska B102 on monoliittinen laskentasiru, Nvidia ei voi vain pakata sitä CoWoS-S:ään, vaan antaa myös muiden toimittajien TSMC:n lisäksi tehdä 2.5D-pakkauksia, kuten Amkor, ASE SPIL ja Samsung.

B200A ilmestyy 700 W ja 1000 W HGX-muodoissa, varustettuna jopa 144 Gt HBM3E-videomuistilla ja jopa 4 TB/s kaistanleveydellä. On syytä huomata, että tämä on pienempi kuin H200:n muistin kaistanleveys.

Seuraavana on keskitason parannettu versio - Blackwell Ultra.

Vakio CoWoS-L Blackwell Ultra, nimittäin B210 tai B200 Ultra, ei ainoastaan saavuta jopa 288 Gt 12-kerroksista HBM3E-muistia muistin päivityksen suhteen, vaan myös parantaa FLOPS-suorituskykyä jopa 50 %.

B200A Ultralla on korkeampi FLOPS, mutta videomuistia ei päivitetä.

Sen lisäksi, että B200A Ultrassa on sama HGX-kokoonpano kuin alkuperäisessä B200A:ssa, se esittelee myös uuden MGX NVL 36 -muodon.

HGX Blackwellin suorituskyky/TCO on erinomainen harjoittettaessa työkuormia alle 5 000 GPU:lla.

Silti MGX NVL36 on ihanteellinen valinta moniin seuraavan sukupolven malleihin joustavamman infrastruktuurinsa ansiosta.

Koska Llama 3 405B on jo lähellä H200 HGX -palvelimen rajaa, seuraavan sukupolven MoE LLAMA 4 ei varmasti mahdu yhteen Blackwell HGX -palvelinsolmuun.

Yhdessä MGX B200A Ultra NVL36:n hinta-arvion kanssa SemiAnalysis uskoo, että HGX B200A ei myy kovin hyvin.

MGX GB200A Ultra NVL36 -arkkitehtuuri

MGX GB200A NVL36 SKU on ilmajäähdytteinen 40 kW/telinepalvelin, jossa on 36 GPU:ta, jotka on täysin yhdistetty toisiinsa NVLinkin kautta.

Niistä jokainen teline on varustettu 9 laskenta-alustalla ja 9 NVSwitch-alustalla. Jokainen laskentataso on 2U ja sisältää 1 Grace CPU:n ja 4 700 W B200A Blackwell GPU:ta. Jokaisessa 1U NVS-kytkimen alustassa on vain yksi kytkimen ASIC, ja kunkin kytkimen ASIC:n kaistanleveys on 28,8 Tbit/s.

Vertailun vuoksi GB200 NVL72/36x2 sisältää 2 Grace-suoritinta ja 4 1200 W Blackwell GPU:ta.

Vain 40 kW per teline ja kyky olla ilmajäähdytteisiä, nykyiset palvelinkeskuksen operaattorit voivat helposti ottaa käyttöön MGX NVL36:n ilman infrastruktuurin uudelleensuunnittelua.

Toisin kuin GB200 NVL72/36x2, 4 GPU:n ja 1 CPU:n suhde tarkoittaa, että kukin GPU voi saada vain puolet C2C-kaistanleveydestä.

Siksi MGX NVL36 ei voi käyttää C2C-yhteyttä, mutta vaatii integroidun ConnectX-8 PCIe -kytkimen suorittaakseen GPU-CPU-viestinnän.

Lisäksi, toisin kuin kaikki muut olemassa olevat tekoälypalvelimet (HGX H100/B100/B200, GB200 NVL72/36x2, MI300), jokainen taustaverkkokortti vastaa nyt kahdesta grafiikkasuorittimesta.

Tämä tarkoittaa, että vaikka ConnectX-8 NIC -rakenne voi tarjota 800 Gt taustaverkkoa, kukin GPU voi käyttää vain 400 Gt InfiniBand/RoCE-taustakaistanleveyttä. (myös malleissa GB200 NVL72/36x2 half)

GB200 NVL72/NVL36x2 -laskentatason ydin on Bianca-kortti, joka sisältää 2 Blackwell B200 GPU:ta ja 1 Grace CPU:n.

Koska jokainen laskentataso on varustettu kahdella Bianca-kortilla, yhteensä 2 Grace-suoritinta ja 4 1200 W Blackwell GPU:ta.

Sitä vastoin MGX GB200A NVL36:n prosessori ja grafiikkasuoritin ovat eri piirilevyillä, kuten HGX-palvelimen suunnittelussa.

Mutta toisin kuin HGX-palvelimet, 4 GPU:ta laskentalokeroa kohden jaetaan kahteen 2-GPU-levyyn. Jokainen 2-GPU-kortti on varustettu Mirror Mezz -liittimellä, joka on samanlainen kuin Bianca-kortti.

Näitä Mirror Mezz -liittimiä käytetään sitten yhdistämään ConnectX-8-keskitasoon ja yhdistämään ConnectX-8 ASIC integroidulla PCIe-kytkimellä GPU:hun, paikalliseen NVMe-tallennustilaan ja Grace-suorittimeen.

Koska ConnectX-8 ASIC on hyvin lähellä GPU:ta, grafiikkasuorittimen ja ConnectX-8 NIC:n välillä ei tarvita ajastinta. HGX H100/B100/B200 vaatii sen.

Lisäksi, koska Grace CPU:n ja Blackwell GPU:n välillä ei ole C2C-yhteyttä, Grace CPU on täysin itsenäisellä piirilevyllä, joka on suorittimen emolevy. Tämä emolevy sisältää BMC-liittimet, CMOS-akun, MCIO-liittimet jne.

NVLink-kaistanleveys GPU:ta kohti on 900 Gt/s kumpaankin suuntaan, mikä on sama kuin GB200 NVL72/36x2. FLOP-kohtaisesti tämä lisää merkittävästi GPU-GPU-kaistanleveyttä, mikä antaa MGX NVL36:lle edun tietyissä työkuormissa.

Koska vain yksi kytkimien kerros yhdistää 36 GPU:ta, vain 9 NVSwitch ASIC:tä tarvitaan estävän verkkotoiminnan aikaansaamiseen.

Lisäksi, koska jokaisessa 1U:n kytkinlevyssä on vain yksi 28,8 Tbit/s ASIC, ilmajäähdytys on erittäin helppoa. Esimerkiksi 25,6 Tbit/s 1U-kytkin, kuten Quantum-2 QM9700, käy.

Koska taustaverkossa on vain 2 800G-porttia laskentaalustaa kohti, se käyttää 2-raiteista optimoitua rivinpääverkkoa.

Jokaista 8 GB200A NVL36 -telinettä kohden on 2 Quantum-X800 QM3400 -kytkintä.

700 watin GPU:n tapauksessa kunkin GB200A NVL36:n telineen virrankulutus voi olla noin 40 kW, eli 4 kW lämmönpoistoa 2U:n tilassa.

Tämän seurauksena ilman jäähdyttämiseen tarvitaan erityisesti suunniteltuja jäähdytyslevyjä ja nopeita tuulettimia.

Haasteita MGX GB200A NVL 36:n käyttöönotossa

Koska GB200A NVL36 on täysin riippuvainen ilmajäähdytyksestä, ja 2U-rungon etuosassa olevan PCIe NIC:n lisäksi siinä on myös erillinen PCIe-kytkin, mikä lisää merkittävästi lämmönhallinnan haastetta.

Siksi tausta-NIC:n mukauttaminen GB200A NVL36:ssa on periaatteessa mahdotonta.

Koska monet koneoppimisriippuvuudet on käännetty ja optimoitu x86-suorittimille ja Grace CPU ja Blackwell GPU ovat erillisillä piirilevyillä, on todennäköistä, että myös x86+B200A NVL36-versio tulee olemaan.

Vaikka x86-suoritin voi tarjota korkeamman huippusuorituskyvyn, virrankulutus on vastaavasti 100 W korkeampi, mikä lisää huomattavasti OEM-valmistajien lämmönhallinnan haasteita.

Lisäksi, kun otetaan huomioon Grace CPU:n myynti, vaikka NVIDIA julkaisee x86 B200A NVL36 -ratkaisun, ne pakottavat asiakkaat valitsemaan GB200A NVL36:n.

Tietysti GB200A NVL36:lla on myös oma myyntivalttinsa - 40 kW:n ilmajäähdytysjärjestelmä telinettä kohti.

Loppujen lopuksi monilla asiakkailla ei ole varaa nestejäähdytys- ja tehoinfrastruktuuriin, joka vaaditaan GB200 NVL72:ssa, jonka teho on noin 125 kW per teline (tai 36x2, jonka kokonaisvirrankulutus on yli 130 kW).

H100:n TDP on 700 wattia, ja se käyttää tällä hetkellä 4U korkeaa 3DVC:tä, kun taas 1000 watin H200 käyttää 6U:n korkeaa 3DVC:tä.

Vertailun vuoksi MGX B200A NVL36:n TDP on myös 700 W, mutta runko on vain 2U, joten tilaa on melko rajoitetusti. Siksi evän pinta-alan lisäämiseksi tarvitaan vaakasuoraan pidennetty parvekemainen evä.

Sen lisäksi, että tuulettimet vaativat suuremman jäähdytyselementin, niiden on myös tarjottava vahvempi ilmavirta kuin GB200 NVL72/36x2 2U -laskentaalusta tai HGX 8 GPU -malli.

Arvioiden mukaan 40 kW:n telineessä 15–17 % järjestelmän kokonaistehosta käytetään rungon sisäisiin tuulettimiin. Vertailun vuoksi HGX H100:n tuuletin kuluttaa vain 6–8 % järjestelmän kokonaistehosta.

MGX GB200A NVL36:n moitteettoman toiminnan edellyttämän suuren tuulettimen tehon vuoksi tämä on erittäin tehoton malli.

Miksi peruuttaa GB200A NVL64

Ennen kuin Nvidia viimeisteli MGX GB200A NVL36:n, he yrittivät myös suunnitella ilmajäähdytettyä NVL64-telinettä, joka kuluttaa 60 kW ja kuljettaa 64 GPU:ta täysin yhdistettynä NVLinkin kautta.

Laajan teknisen analyysin jälkeen SemiAnalysis kuitenkin päätti, että tuote ei ollut käyttökelpoinen eikä se olisi kaupallisesti saatavilla.

Ehdotetussa NVL64 SKU:ssa on 16 laskenta-alustaa ja 4 NVSwitch-alusta. Jokainen laskentataso on 2U ja sisältää Grace-suorittimen ja neljä 700 W Blackwell GPU:ta, aivan kuten MGX GB200A NVL36.

Päämuutos on NVSwitch-alustassa - sen sijaan, että GB200:n 2 NVS-kytkintä lokeroa kohden vähennettäisiin yhteen, Nvidia yrittää nostaa sen 4 ASIC-kytkimeen.

Ilmeisesti olisi lähes mahdotonta jäähdyttää behemotia niin suurella virrankulutuksella pelkällä ilmalla. (NVIDIA ehdotti 60 kW, SemiAnalysis arvioi 70 kW)

Tämä vaatii tyypillisesti takaoven lämmönvaihtimen käyttöä, mutta tämä kumoaa ilmajäähdytteisen telinearkkitehtuurin pisteen, koska on edelleen riippuvainen nestejäähdytyksen toimitusketjusta. Lisäksi tämä ratkaisu vaatii edelleen toimitilatason muutoksia useimmissa datakeskuksissa jäähdytysveden ohjaamiseksi takaoven lämmönvaihtimeen.

Toinen erittäin vaikea lämpöongelma on, että NVSwitch-alusta sisältää neljä 28,8 Tbit/s ASIC-kytkintä 1U-kotelossa, jotka vaativat lähes 1500 W jäähdytystehoa.

Yksittäin katsottuna 1500 W:n tehon saavuttaminen 1U:n kotelossa ei ole vaikeaa. Kuitenkin, kun ottaa huomioon, että Ultrapass lentävät johdot ASIC-kytkimestä taustalevyn liittimeen estävät paljon ilmavirtaa, jäähdytyshaaste tulee merkittäväksi.

Koska ilmajäähdytteinen MGX NVL -teline oli tuotava markkinoille erittäin nopeasti, Nvidia yritti toimittaa tuotteen kuuden kuukauden kuluessa suunnittelun aloittamisesta. Uusien vaihtolava- ja toimitusketjujen suunnittelu on kuitenkin erittäin vaikeaa jo ennestään resurssipulassa olevalle toimialalle.

Toinen GB200A NVL64:n suuri ongelma on, että telinettä kohti on 64 800 G:n taustaporttia, mutta jokaisessa XDR Quantum-X800 Q3400 -kytkimessä on 72 800 Gt:n alavirran porttia. Toisin sanoen jokaisessa kytkimessä on 16 800G-porttia vapaana.

Tyhjät portit kalliissa taustakytkimissä voi vaikuttaa merkittävästi verkon suorituskykyyn ja kokonaisomistuskustannuksiin, koska kytkimet ovat kalliita, erityisesti korkean porttitiheyden modulaariset kytkimet, kuten Quantum-X800.

Lisäksi 64 GPU:n käyttäminen samassa NVLink-verkkotunnuksessa ei ole ihanteellinen.

Pinnalla 64 on hyvä luku, koska siinä on 2, 4, 8, 16 ja 32 yhteisinä tekijöinä, mikä tekee siitä täydellisen erilaisiin rinnakkaisiin kokoonpanoihin.

Esimerkiksi tensoririnnakkaisisuus TP=8, asiantuntijarinnakkaisisuus EP=8 tai TP=4, täysin sirpaloidun datan rinnakkaisuus FSDP=16.

Valitettavasti laitteiston epäluotettavuuden vuoksi Nvidia suosittelee pitämään vähintään 1 laskentalokero per NVL-teline varavarana, jotta GPU voidaan ottaa offline-tilaan huollon aikana ja käyttää kuumana varaosana.

Ilman vähintään yhtä laskentalokeroa kuumaa varakeinoa kohti, jopa 1 GPU-vika voi aiheuttaa koko telineen pakotetun pois käytöstä huomattavan ajan. Tämä on samanlaista kuin 8 GPU:n HGX H100 -palvelimella yksi GPU-vika pakottaa kaikki 8 H100:ta pois käytöstä.

Ainakin yhden laskentalokeron säilyttäminen kuumana varana tarkoittaa, että vain 60 GPU:ta telinettä kohti pystyy käsittelemään työkuorman. Tässä tapauksessa juuri mainittuja etuja ei enää ole.

NVL36×2 tai NVL72 on varustettu 72 grafiikkasuorittimella, mikä tarkoittaa, että käyttäjät eivät voi käyttää vain kahta laskentatasoa varaosina, vaan myös 64 GPU:ta käytettävissä jokaisessa telineessä.

GB200A NVL36:ssa voi olla 1 laskentataso kuumana valmiustilana. Tällä hetkellä rinnakkaisratkaisun yleisinä tekijöinä on 2, 4, 8 ja 16.

Vaikutus toimitusketjuun

SemiAnalysis-spekuloinnin mukaan GB200 NVL72/36x2 -toimitukset vähenevät tai viivästyvät ja B100- ja B200 HGX -toimitukset vähenevät merkittävästi.

Samaan aikaan Hopperin toimitukset kasvavat vuoden 2024 viimeisestä neljänneksestä vuoden 2025 ensimmäiseen neljännekseen.

Lisäksi GPU-tilaukset siirretään HGX Blackwelliltä ja GB200 NVL36x2:lta MGX GB200A NVL36:een vuoden toisella puoliskolla.

Tämä vaikuttaa kaikkiin ODM:ihin ja komponenttitoimittajiin, koska toimitus- ja tulosuunnitelmat muuttuvat merkittävästi vuoden 2024 kolmannesta neljänneksestä 2025 toiseen neljännekseen.

Viitteet:

https://www.theinformation.com/articles/nvidias-new-ai-chip-is-delayed-impacting-microsoft-google-meta?rc=epv9gi

https://www.semianalysis.com/p/nvidias-blackwell-reworked-shipment

uutiset

NVIDIAn tehokkain AI-siru paljastaa suuria suunnitteluvirheitä, ja Kiinan erikoisversio paljastui vahingossa!

Johdanto

yhteystietoni