uutiset

Nvidia pommikentällä "räjähti" itsekseen?

2024-08-05

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Kirjoittaja on Leslie Wu, entinen TSMC:n tehtaan rakentamisen asiantuntija (julkinen tili: Zihao Tanxin)

Toimittaja Su Yang

NVIDIA, joka pommittaa markkinoita usein, ei ole onnistunut pitämään 3 biljoonan dollarin markkina-arvosta kiinni.

Kesäkuun 19. päivänä Pekingin aikaa Nvidian markkina-arvo saavutti 3,335 biljoonaa US$, ohittaen Microsoftin ja Applen yhdellä iskulla ja nousi maailman ykköseksi. Tämän huippuhetken kokemisen jälkeen Nvidian markkina-arvo alkoi laskea kaupankäynnin päättyessä 2. elokuuta Nvidian markkina-arvo supistui 26 %.

Tätä ennen jotkut analyytikot olivat kehottaneet sijoittajia "astumaan jarrulle". Daily Economic News lainasi investointipankki DA Davidsonin analyytikkoa Gil Luriaa sanoneen, että Nvidian ennätyssuoritus oli 26 miljardia dollaria, mikä johtuu huippuasiakkaiden GPU-tuotteisiin kuluttamisesta. Hän uskoo, että tämä suuntaus horjuu tulevaisuudessa ja Nvidian osakekurssi Kaksinumeroinen lasku tapahtuisi 18 kuukauden sisällä.

Gil Lurian kaltaisten analyytikoiden mukaanHuippuasiakkaat ovat miettineet toisiaan, ja Nvidian omat "virheet" ovat myös antaneet asiakkaille mahdollisuuden muuttaa mieltään ja kilpailijat leikata ne pois. Kaikki alkaa negatiivisista huhuista Blackwell-arkkitehtuurisiruista, mukaan lukien alhainen CoWoS-tuotto. Tärkeimmät ongelmat, kuten B100 SKU:n hylkääminen, B200-toimituksen viivästykset ja uudelleen teippaus

Päätellen siitä, mitä opimme sisäisesti TSMC:ssä,Uutiset siitä, että Nvidian Blackwell-siru nauhataan uudelleen, ovat todellakin totta, mutta se koskee pääasiassa B100-sarjan perussiruja.Ongelma piilee taustalla olevassa vakiosolussa (standardisolussa)——Se on valmiiksi suunniteltu standardipiirimoduuli, jolla on tietyt toiminnot ja koot.Korkeapaineisissa ympäristöissä voi esiintyä epänormaaleja työolosuhteita, ongelmat on löydetty toistaiseksi, ja maski on avattava uudelleen.

Kiekkojen valmistuksen kokonaisaikaa ei kuitenkaan voida lyhentää. Onneksi vuonna 2024 toimitetaan vain pieniä eriä, mikä ei ole Blackwell-palvelinten toimitusaika lähettää pieniä eriä Henkilökohtaisen kokemukseni mukaan TSMC:n ei ole vaikeaa palauttaa edistystä.

01 Tuottoprosentti, joka ottaa syyn viivästyneistä toimituksista

B100:n hylkääminen ja B200:n toimituksen viivästyminen ja uusintasarja ovat yksipuolinen käsitys Blackwell-sirun "pomppimisonnettomuudesta", joka liittyy Nvidian monimutkaiseen nimeämiseen.

Blackwell-sirut sisältävät kaksi perussirua, B100 ja B102. Nämä SKU:t, mukaan lukien B200GB200, käyttävät kaikki B100-sarjaan perustuvia siruratkaisuja, ja B200A perustuu B102:een.

Ymmärtämisen helpottamiseksi olemme laatineet taulukon kaikille. Voit verrata perussiruja B102 ja B100, samoin kuin vastaavia palvelimia eri sovelluksille voidaan yhdistää useampaan tyyliin, kuten HGX B200A / HGX B200/ NVL36/ 72 on jopa ilmajäähdytteinen versio NVL8:sta tai GB210A:sta.

Blackwell-sirujen ja erilaisten SKU:iden nimeäminen tekee ulkopuolisille hämmentävää ymmärtää, mikä on ymmärrettävää, mutta"CoWoS:n tuottoprosentti on vain 66%, ja yhdestä kiekosta voidaan leikata vain 10 hyvää muotia. Tämä väite on vastoin tervettä järkeä.

Voimme puhua lyhyesti "tuoton" käsitteestä kiekkojen valmistuksen etu- ja takavaiheessa.

Nvidia käyttää etupään GPU-muovia, kuten Apple, Qualcomm ja AMD, tällä kertaa N4P-prosessia, joka on erittäin kypsä, joten tuottoprosentista ei tarvitse huolehtia.

Taustapakkaus, erityisesti CoWoS:n "oS"-osa, ei sisällä vain GPU-muistia, vaan myös HBM-muistia, ja 8 HBM:n hinta on erittäin korkea, jos GPU-suulakkeesta tulee vika pala.Siksi tuotantoa on mahdotonta ajoittaa, jos tuottoaste on alle 80 %, muuten kustannukset kasvavat äärettömästi ja bruttotuloa ei voida taata. Jos tuottoaste on 66 %, tuotantoa ei ajoiteta ollenkaan.

Valmistusprosessin epänormaalin tuoton riskin hallinnassa Fablessin tehtaana ei NVIDIA tai Apple voi panostaa kaikkiin tuotteisiin, jos uudessa ratkaisussa on ongelmia, koko tuotesukupolvi voidaan romuttaa Tämä Riski on liian suuri, joten tilausta tehdessä on oltava vaihtoehtoja samaan aikaan. Toisin sanoen, vaikka CoWoS-L:n tuotossa olisi ongelmia, se ei vaikuta Blackwell-sirujen toimitukseen.

Annan teille esimerkin, jos Apple haluaa käyttää TSMC:n uutta 2 nm:n prosessia A18-sirulleen ensi vuonna, se varmasti kehittää samalla N3P-prosessiratkaisun varmistaakseen, että "mitään ei menetetä". sama.

Saamiemme tietojen mukaan Blackwell käyttää CoWoS-L-pakkauksia ja tämänhetkinen saanto on noin 90 %. Ja se on edelleen nousussa, mikä on yhdenmukainen Nomura-tiimin kanssa, jolla on alan perusteellisin CoWoS-tutkimus. Lisäksi TSMC:n odotus CoWoS-L:n tuottoprosentista vuoden alussa oli 95 %. Verrattuna CoWoS-S-pakkauksia käyttävien H200- ja H100-tuotteiden 99 %:n tuottoprosenttiin 90 % on luonnollisesti huono suoritus, mutta uusi prosessi, tuskin hyväksyttävä.

Siksi CoWoS-L:n nykyinen tuottoaste ei todellakaan ole niin hyvä kuin odotettiin, muttaEtupään GPU-suulakkeen on suunniteltava maski uudelleen tavallisten yksikköongelmien vuoksi, mikä johtaa siihen, että Blackwell-sirua ei voida tuottaa sujuvasti, mikä johtaa välillisesti CoWoS-L:n tuotantokapasiteetin sulkemiseen taustalla , CoWoS-L:n tuottoprosentissa on suuria poikkeavuuksia. On vastoin tosiasioita ja alan tervettä järkeä väittää, ettei Backwell-siruja voida toimittaa sujuvasti.

Itse asiassa ennen B100-sarjan perussirun uudelleenkäsittelyä Nvidia oli jo tehnyt säätöjä, koska CoWoS-L:n tuottoprosentti oli alle 95%. S Pakkauksissa alkuperäinen suunnitelma oli jakaa CoWoS-L:n tuotantokapasiteetin paine ja varmistaa lisää Blackwell-sirujen tuotantoa vuonna 2025. Nyt tämä säätö voi myös auttaa Nvidiaa ratkaisemaan GPU-suulakkeiden suunnitteluongelmien aiheuttaman aikatauluviiveen. Auta myös lisäämään Blackwell-sirujen kokonaistoimituksia vuonna 2025.

02 Kuka puristaa Nvidian "kaulaa"?

Aiemmin on keskusteltu siitä, että NVIDIA on juuttunut laskentatehon kaulaan, mutta NVIDIAn oma "kaula" on juuttunut ylemmissä yrityksissä, kuten HBM Memory.

On sanottava, että HBM- ja nestejäähdytteisten QCD-pikaliitinmoduulien tarjonta on tällä hetkellä suhteellisen tiukkaa, muttaTiukka tarjonta ei viivästy toimituksia, vaan johtaa korkeintaan toimitusten vähenemiseen, ja näiden tässä vaiheessa pulaa olevien osien teknologia on edelleen taattu. Esimerkiksi Samsung on päättänyt liittyä NVIDIAn HBM-toimittajajärjestelmään.

Mikä todella vaikuttaa Blackwell-sirujen toimituksiin, on eri palvelimien myöhempi tuotteistaminen.

Teollisuusketjun uutisten mukaan tuotantovaiheeseen on tällä hetkellä tulossa sirujen lisäksi myös levykomponentit, kytkinlaitteet, telineet, jäähdytysratkaisut jne.

Laajennettaessa 8-kortin kaapista 72-kortin kaappiin on otettava huomioon monia asioita, mukaan lukien verkon kaistanleveyden konvergenssi ja erilaisten rinnakkaisten strategioiden (mallitietojen segmentointi, segmentoidut laskelmat, kopiointi ja uudelleenjärjestely) optimaaliset työolosuhteet. kaappi jne. Lisäksi, koska lavoja on enemmän, tiheys on suurempi ja kompaktimpi, monimutkaiset asiat, kuten sisäisten johtojen määrä, nopeat kytkennät ja lämmönpoisto, tarkoittavat, että myös teline on suunniteltava uudelleen, ja ne kaikki tulee testata. nyt.

Koska NVL36/72-palvelin on upouusi tekninen ratkaisu, myös kaikkien alijärjestelmien täydellisyys ja integraatio on yksi riskeistä koko järjestelmä on myös tämän sukupolven tuotteiden laadun perusta.

Vesijäähdytystä lämmönpoistoon käyttävässä GB200-sarjassa on otettava huomioon myös nestevuotoongelma, joka sisältää pääasiassa kolme komponenttia: vesijäähdytyslevy, haaraputki, CDU-nestejäähdytyksen jakeluyksikkö ja QCD-pikaliitin , pikaliittimet ovat alttiimpia vuotoille, joten vuoto Se on myös vaikein ongelma palvelinvalmistajille. Sen laatu on kriittisin ja liittyy suoraan vastuunjakoon. Yleensä,Jos vuoto tapahtuu, Nvidia maksaa ensin korvauksen asiakkaalle ja esittää sitten vaatimuksia järjestelmävalmistajilta, kuten Hon Hai ja Quanta. Tekoälypalvelinteline voi helposti maksaa miljoonia dollareita.

Saamiemme uutisten perusteella järjestelmävalmistajat, kuten Nvidia, Hon Hai ja Quanta, testaavat edelleen vesijäähdytyslämmönpoistoa, eivätkä ole vielä ottaneet käyttöön suuria määriä.

Kuten aiemmin mainittiin, riippumatta siitä, onko kyseessä sirutehdas, järjestelmätehdas tai lämmönpoistotehdas, yksikään valmistaja ei ole halukas ottamaan tätä riskiä helposti, kun he joutuvat maksamaan miljoonien dollarien korvauksen, ja heidän on otettava se käyttöön. marsua" ennen kuin ne voidaan panna täytäntöön suuressa mittakaavassa.

03 Kääntyykö Nvidia?

Mainitsimme artikkelin alussa, että Nvidian markkina-arvo on pudonnut historiallisen korkeimmasta yli 3,3 biljoonasta Yhdysvaltain dollarista nykyiseen 2,6 biljoonaan Yhdysvaltain dollariin, mikä on yli 26 %, kun Nvidia julkaisi ensimmäisen vuosineljänneksen raportin Luottavaisesti odotettiin toisen vuosineljänneksen liiketulosta 28 miljardia dollaria, ja virhe oli ±2 %.

Nyt GPU-suulakkeiden suunnitteluongelmien vuoksi CoWoS-pakkausten tuottoprosentti on alle 95 %, ja erilaisia ​​palvelinteknologiaratkaisuja ei ole vielä viimeistelty, mikä vaikuttaa Blackwell-sirujen sujuvaan toimitukseen 2:sta Lista, jonka markkina-arvo on biljoonia?

Voidaan sanoa, että suuria ongelmia ei tule lyhyellä aikavälillä, avain on, Blackwell-sirut on suunniteltu pienten erien tuotantoon kolmannella vuosineljänneksellä, ja niitä lisätään vasta neljännellä vuosineljänneksellä, ja tämä on vain TSMC:n tuotannon ajoitusrytmi Kun GPU-suulakkeen tuotanto on valmis, seuraava askel on takaisin -lopun CoWoS ja sitten Bumpingin tehdas Lopuksi menimme kokoonpanotehtaisiin, kuten Industrial Fii ja Wistron.ja suorita sitten palvelintoimitukset ja suorituskyvyn toteutus.

Sanalla sanoen, palvelintoimitukset vaikuttavat Nvidian tuloihin, eivät TSMC:n sirutoimituksiin.

Nykyisen rytmin mukaan, nopein palvelinten massatoimitus on vasta vuoden 2025 ensimmäisellä neljänneksellä. Toisin sanoen Nvidia saavuttaa Blackwell-sirujen liiketoiminnan suuren kasvun vasta ensi vuoden ensimmäisellä neljänneksellä.Toisin sanoen tämä siru tuo suuria tuloja Nvidialle vasta ensi vuonna. Tämä on myös kohtuullinen odotus alkuperäisiltä markkinoilta, eikä se heijastu toisen tai edes kolmannen vuosineljänneksen tulokseen.

Nvidialle vastaava aika löytää suunnitteluongelmia kolmannella vuosineljänneksellä, keksiä ratkaisuja ja suorittaa sen jälkeen erittäin kuuma ajo TSMC:ssä on vielä neljännen vuosineljänneksen puolivälissä tai loppupuolella, luultavasti marraskuun ja joulukuun välillä Itse tuotantokapasiteetti on suunniteltu valmistuvan ja tuotantoa voidaan periaatteessa jatkaa 3 kuukauden kuluttua. Lisäksi TSMC:llä on N4P:stä tai CoWoS-S/L:stä riippumatta enemmän tuotantokapasiteettia kuin nyt, ja käyttöastetta on nostettu tasolle. 120 % selviytyä suunnitteluvirheistä Ongelma, joka aiheutti viivästyksiä sirujen toimituksissa, jotka oli alun perin tarkoitus toimittaa pieninä erinä, ei ollut periaatteessa suuri ongelma.Vuositasolla, vaikka Blackwellin toimitukset ovat tänä vuonna pienemmät, se ei ole paljon vähemmän.

NVIDIAn ja koko alaketjun osalta siruongelmat ovat nyt paljastuneet, ja palvelimen eri alijärjestelmiä on myös testattava eri todellisissa ympäristöissä samanaikaisesti. Mikä on optimistisempaa, on se, että tällä hetkellä tuotetuilla siruilla on ongelmia vain tietyissä korkeajänniteympäristöissä. Nämä sirut voidaan luovuttaa palvelinjärjestelmien valmistajille, kuten Hon Haille, eri säätöjä ja testejä varten pysyvät samoina kuin ennenkin, on vielä puoli vuotta aikaa saada sirut simuloimaan testausta eri ympäristöissä, ja lopullinen laajamittainen toimitusaika putoaa helmi-maaliskuulle 2025.

Nykytilanteesta päätellen toisella vuosineljänneksellä H200-tulvakuljetusten taustalla kehitys tulee olemaan ohjeistuksen mukainen ja ylittää odotukset , tämän vuoden Blackwell-sirut tulevat olemaan pieniä eriä. Toimitusmäärä pienenee alkuperäisestä suunnitelmasta noin 20 000 kiekkoon (CoWoS-L on vähennetty 41 000:sta alle 20 000:een), mikä tarkoittaa NVIDIAn arvioitua suorituskykyä noin Yhdysvalloissa. 8-9,5 miljardia dollaria, mutta H-sarja lisää kiekkojen määrää. Suorituskyvyn menetys on tällä kertaa noin 5 miljardia dollaria, samoin kuin hätätoimenpiteet tuotantokapasiteetin kiirehtimiseksi B-sarjan tuotannon jälkeen neljännen vuosineljänneksen talousraportissa, ja sillä on varmasti vaikutusta osakekurssiin.

Verrattuna itse Blackwell-sirun "kiertymiseen" on se, että Nvidia tuo markkinoille uusia SKU:ita joka vuosi. Vauhti on erittäin nopea, jos aikaa ei ole tarpeeksi optimoida ja parantaa luotettavuutta On mahdollista, että tietty tuote kaatuu täysin lähivuosina. Tämä on Nvidian kehityslogiikka, jota meidän on tarkasteltava uudelleen, ja se on myös mahdollisuus, jota kilpailijat odottavat.

Makronäkökulmasta katsottuna, vaikka NVIDIA:n kasvulogiikassa ei ole ollut ongelmia viimeisen kahden vuoden aikana, pidemmän aikavälin kehitysriskit ovat lisääntymässä.Tämä riski ei heijastu vain jokaisen sukupolven hulluissa ja radikaaleissa teknologisissa muutoksissa, vaan myös sovellus- ja myöhemmässä kysynnässä teknologiat, kuten uudet teknologiat, jotka ovat edistyneitä siruteknologiaa tai hallitsevat suuria malleja, ovat aloittaneet oman tutkimuksensa.

Olen todellakin nähnyt paljon raportteja Kiinan ja Amerikan jättiläisistä. He ovat kaikki lopettaneet tutkimuksen tekemisen.OpenAIItse kehitetty siruprojekti on lähes neuvotteluvaiheessa TSMC:n kanssa.