uutiset

Nvidian kastroitu versio B200A:sta paljastettiin!Vahvin siruarkkitehtuuri on vaikea tuottaa: tuotantokapasiteetti ei riitä ja se voidaan kompensoida veitsitaidoilla

2024-08-05

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Mengchen tulee Aofein temppelistä
Qubits |. Julkinen tili QbitAI

NVIDIAn tehokkain siru, B200, joutui lykkäämään kolmella kuukaudella, ja huhuja levisi.

Tässä tulee Lao Huangin vastatoimi: sirun kastroitu versioB200Aaltistuminen.

Onko tämä se?"Tuotantokapasiteetti ei riitä, joten meidän on käytettävä veitsitaitoja korvataksemme sen."



Aivan oikein, SemiAnalysis-analyysin mukaan suurin B200:n kohtaama ongelma on juuri seRiittämätön tuotantokapasiteetti, tarkemminTSMC:n uuden pakkausprosessin CoWoS-L:n tuotantokapasiteetti on riittämätön

B200A:n kastroitua versiota käytetään ensin keskitason ja matalan luokan tekoälyjärjestelmien tarpeisiin.

B200A:n kastroitu versio, muistin kaistanleveys pienenee

Miksi B200A:n sanotaan olevan kastroitu versio?

Ilmaisin heijastuu pääasiassa muistin kaistanleveyteen.4TB/s, suoraan verrattuna B200:n vuoden alun lehdistötilaisuudessa mainostamaan 8 Tt/s.Kuttunut puoleen



Tämän takana on CoWoS-L:n pakkausprosessiPalautettu CoWoS-S, jopa B200A:n sanotaan olevan yhteensopiva muiden ei-TSMC 2.5D -pakkaustekniikoiden, kuten Samsungin, kanssa.

Yleisesti ottaen CoWoS-edistyneestä pakkauksesta on tällä hetkellä kolme versiota, CoWoS-S、CoWoS-Rja CoWoS-L, suurin ero on interposer-ratkaisussa.

väliinpanijaSirukiekon ja painetun piirilevyn välillä se toteuttaa tiedonvaihdon sirun ja pakkaussubstraatin välillä samalla kun se tarjoaa mekaanisen tuen ja lämmönpoistokyvyn.

CoWoS-S:llä on yksinkertaisin rakenne, ja välilevy vastaa piilevyä.



CoWoS-R käytettyRDL-tekniikkaa(Uudelleenjakokerros, uudelleenjakokerros), väliaine on ohutta metallimateriaalia, jolla on monikerroksinen rakenne.



CoWoS-L on monimutkaisin, lisäämällä aLSI-siru(Local Silicon Interconnect, Local Silicon Interconnect), jolla voidaan saavuttaa suurempi johdotustiheys ja se voidaan myös tehdä suurempina kokoina.



TSMC julkaisi CoWoS-L:n, koska vanhemmalla tekniikalla oli vaikeuksia jatkaa koon ja suorituskyvyn kasvua.

Esimerkiksi AMD:n AI-kiihdytyssirun MI300:n CoWoS-S-välityskerros on laajennettu 3,5-kertaiseksi alkuperäiseen standardiin verrattuna, mutta tulevaisuuden AI-sirun suorituskyvyn kasvutarpeisiin on edelleen vaikea vastata.

Mutta nyt on uutisia, että CoWoS-L on kohdannut ongelmia tuotantokapasiteetin lisäämisen aikana, ja piin, väliaineen ja alustan välillä voi olla ongelmia.Lämpölaajenemiskerroin ei täsmää, mikä johtaa taivutukseen, on suunniteltava uudelleen.

Aiemmin TSMC on rakentanut suuren määrän CoWoS-S-tuotantokapasiteettia, ja Nvidialla on suurin osuus. Nyt Nvidian kysyntä voi siirtyä nopeasti CoWoS-L:ään, mutta kestää kauan ennen kuin TSMC muuttaa tuotantokapasiteettinsa uuteen prosessiin.

Lisäksi on uutinen, että B200A:n ytimestä (sisäinen malli B102) valmistetaan myös B20-erikoisversiota, en paljasta yksityiskohtia.

Suuria malleja kouluttava B200 kohtaa myös muita haasteita

Blackwellin edistämä pääspesifikaatio on "uusi sukupolvi laskentayksiköitä"GB200 NVL72, yhdessä kaapissa on 36 CPU:ta + 72 GPU:ta.

Laskentateho on erittäin hyvä Yhden kaapin harjoituslaskentateho FP8-tarkkuudella on jopa 720PFlops, mikä on lähellä DGX SuperPod -supertietokoneklusterin (1000PFlops) tehoa H100-aikakaudella.

Mutta myös virrankulutus on Semianalysis-arvioiden mukaan erittäin hyvä.Tehon tiheysSuunnilleen kaappikohtaisesti125 kW , ennennäkemätöntä. Se tuo haasteita virransyötön, lämmönpoiston, verkkosuunnittelun, rinnakkaisuuden, luotettavuuden jne.

Itse asiassa teollisuus ei ole vielä täysin kesyttänyt H1 miljoonan korttiklusteria, jota on käytetty suuriin mallikoulutukseen.

Esimerkiksi Llama 3.1 -sarjan teknisessä raportissa todettiin, että harjoituksen aikana tapahtui keskimäärin kerran kolmessa tunnissa vika, josta 58,7 % oli GPU:n aiheuttamia.

Yhteensä 419 viasta 148 johtui erilaisista GPU-vioista (mukaan lukien NVLink-virheet) ja 72 erityisesti HBM3-muistihäiriöistä.



Yleisesti ottaen, vaikka Lao Huang vihdoin toimittaisi B200:n, kestää silti enemmän aikaa, ennen kuin tekoälyjätti rakentaa B200-klusterin ja investoi laajaan mallikoulutukseen.

GPT-5, Claude 3.5 Opus, Llama 4 jne., jotka ovat jo aloittaneet harjoittelun tai ovat loppusuoralla, eivät välttämättä ole käytössä Blackwellin voimaa vasta seuraavan sukupolven malleissa.

Yksi asia vielä

Vastauksena huhuihin B200:n lykkäämisestä NVIDIA antoi virallisen vastauksen:

Hopperin kysyntä on vahvaa ja Blackwellin näytekokeet ovat alkaneet laajasti,Tuotannon odotetaan kasvavan vuoden toisella puoliskolla

Tarkkaa vastausta ei anneta, viivästyykö se kolmella kuukaudella.

Morgan Stanley oli kuitenkin optimistisempi viimeisimmässä raportissaan ja uskoi, että tuotanto keskeytetään vain noin kahdeksi viikoksi.

Viitelinkit:
[1]https://x.com/dylan522p/status/1820200553512841239
[2]https://www.semianalysis.com/p/nvidias-blackwell-reworked-shipment
[3]https://3dfabric.tsmc.com/english/dedicatedFoundry/technology/cowos.htm
[4]https://www.trendforce.com/news/2024/03/21/news-blackwell-enters-the-scene-a-closer-look-at-tsmcs-cowos-branch/
[5]https://ieeexplore.ieee.org/document/9501649