NVIDIA validissima AI chip est vitia maioris consilii manifestat, et Sinarum versio specialis accidens exposita est!

2024-08-05

Nova Sapientia Report

Editor: So somno Taozi

[Introductio ad Novam Sapientiam]. Ob vitia designandi, potentissimus Nvidia AI chip Blackwell vere moratus est in shipment. Patres donatoris in luctu fuerunt, et omnia consilia actis per tres saltem menses morata expectata sunt.

NVIDIA GPU sanguis AI investigationis et progressus in magnis societatibus exemplaribus semper fuit sicut OpenAI.

Nunc, propter vitia designandi in Blackwell GPUs, portationes Nvidiae per 3 menses vel etiam longiores sunt differendae.

Solum Informationes nuntiaverunt fabrum TSMC vitium recentibus hebdomadibus detexisse cum Blackwell xxxiii ad massam productionem paraverint.

Sub ultima septimana, Lao Huang dixit in SIGGRAPH NVIDIA exempla machinalis Blackwell cessisse clientibus circa mundum.

Aspectus levationis in vultu nihil ex inopinatis morae dabat.

Ita, ubi sunt vitia in chip consilio?

GB200 continet 2 Blackwell GPUs et 1 Gratia CPU. Difficultas est in circulo clavis inter duos Blackwell GPUs connectens.

Hoc problema est quod cessum TSMC scriptoris GB200 declinare effecit.

De morae amet recentissimorum astularum significat pro maioribus societatibus technologiarum ut Meta, Google, et Microsoft, AI processus disciplinae afficietur.

Praeterea notitia eorum media constructio inevitabiliter differatur.

Dicitur Blackwell astulas in magna quantitate expectandum esse usque ad primam quartam partem anni proximi.

In recentissima fama SemiAnalysis, etiam singula provocationes technicas ab NVIDIA, schedule post moras portationes, et nova ratio MGX GB200A Ultra NVL36.

Blackwell moratur Martii, inter clamorem

Adhuc memini in colloquio GTC 2024, Lao Huang potentissimum Blackwell architecturae GPU tenuisse et mundo potentissimum bestiam perficientur nuntiasse.

Mense Maio palam affirmavit "magnum numerum architecturae Blackwell navem hoc anno postea assulam agere".

Etiam confidenter affirmavit in conventu relationi nummariae "Multum vectigal Blackwell videbimus hoc anno."

Socios NVIDIA magna spes est apud Blackwell GPU.

Analystae ex Fora Capital Keybanc aestimant Blackwell assulas Nvidia centri vectigalia deducturum ab US$47.5 miliardis 2024 ad plus quam US$CC miliardis in 2025 .

Aliis verbis, series Blackwell GPUs definitivas partes aget in Nvidia venditio et vectigalibus futuris.

Improviso consilium vitia directe afficiebat scuta productionis Nvidiae pro altera parte huius anni et primum dimidium anni proximi.

Insides qui in consilio chip Blackwell reclusi sunt, Nvidia cum TSMC laborat ut tentaretur productionem et operationem chippis solvendam quam primum quaestionem.

Autem, Nvidia mensurae medicinales current amet Hopperarum seriei chippis propagare pergunt et productionem Blackwell GPUs in secundo dimidium huius anni destinatam accelerant.

Consumptis decem billions dollariorum, moratus est disciplina AI

Non solum quod haec catena effectus exitialem habebit ictum ad magnum exemplar tincidunt et nubes media notitia muneris aliqua.

Ad instituendi AI, adiutores nummarios ut Meta, Microsoft, Google decem miliardum dollariorum peregit et magnum numerum astularum Blackwell iussit.

Google plus quam 400,000 GB200 iussit, plus ferramentorum servo, sumptus ordinis Google plus plus quam X miliardis dollariorum est.

Hoc anno, gigas iam circiter $50 miliarda in xxxiii et aliis instrumentis bonorum expendit, augmentum plus quam 50% ab anno proximo.

Praeterea Meta ordines etiam posuit minimum US$10 miliardis, cum magnitudo ordinis Microsoft aucta est per 20% proximis hebdomadibus.

Attamen ordo certae magnitudinis harum duarum societatum nondum determinatus est.

Iuxta rem familiarem homines, Microsoft consilia ad 55,000-65,000 GB200 astularum praeparant OpenAI ad primam quartam partem 2025 .

Praeterea, procuratio Microsoft initio cogitavit ministrantibus Blackwell-powered ad OpenAI mense Ianuario 2025 providere.

Nunc apparet originale consilium differri necessitatem ad Idus Martias vel sequentem ver.

Secundum tempus primitus horarium, incipient novum supercomputando botrum in quarta parte prima 2025 currentem.

Societates AI, inclusas OpenAI, exspectant ut novas astulas ad posteros LLM crescant.

Cum institutio magnarum exemplorum pluries plurium vim computandi requirit, melius potest respondere quaestionibus complexis, automatis multi- gradatim operibus, ac magis realisticas formas generare.

Affirmari potest posteros super-potens AI ex ultimis AI chippis Nvidia pendere.

Rara mora in historia

Sed haec magnarum rerum mora ordinis non solum inopinata ab omnibus, sed etiam rara est.

TSMC initio in tertia quarta parte molis plumbi Blackwell chippis inchoare cogitavit et in quarta quarta Nvidia portarentur magnas scalas incipiunt.

Insides demonstraverunt Blackwell astulas nunc exspectari ut massam efficiant in quarta quarta parte ingrediendi, et si nullae adhuc difficultates sunt, servientes in partibus subsequentibus copiose navigaturi sunt.

Re vera, primo 2020, prima versio navis praetoriae Nvidia GPU propter aliquas difficultates differri debebat.

Sed pericula quae ab Nvidia eo tempore iacent erant, clientes non festinabant ad ordines suos recipiendos et parum lucri ex centris recipiendis erat.

Hoc tempore, valde rarissimum est vitia maioris consilii antequam massa productionis detegantur.

Chip designatores typice laborant cum TSMC fabs ut multiplices probationes et simulationes productionis exerceant ut faciliorem reddant productum et lenis processus fabricandi antequam amplos ordines a clientibus recipiat.

Rara est TSMC desinere lineam productionis et reddere opus quod massa productus est.

Plenam praeparationem fecerunt ad productionem massae GB200, inter capacitatem machinae dicatam collocandi.

Nunc, robots otiosos sedere usque ad problema solvendum.

Consilium vitium etiam productionem et deliberationem servientis NVLink eculei Nvidiae afficiet, sicut societas ministris responsalis exspectanda est nova exemplaria chippis ante consilium servo eculeo finalisandi.

Coactus est ad launch reformandam

Provocationes technicae etiam NVIDIA compelluntur ad novam rationem et componentis architecturae instanter evolvendam, sicut MGX GB200A Ultra NVL36.

Hoc consilium notae novae etiam significantem ictum in justo fluminis et amni praebitorum habebit.

Cum maxime technicis artibus provectae chip in serie Blackwell, NVIDIA audaces electiones technicas pro GB200 in gradu systematis fecit.

Hoc 72-GPU eculeum vim densitatis 125kW per eculeum inauditam liberat. Prae, maxima notitia centri tormenta tantum habent 12kW ad 20kW.

Talis ratio implicata etiam numerosas quaestiones ad potestatem partus quaestiones pertinentes duxit, incalescentium, aquarum refrigerationem, copiam catenae incrementi, aquae refrigerationis velox disiunctio ratio effluat, et varios ambitus tabulas multiplicitatis quaestiones, et nonnullas praebitores et designatores custodiae deprehensus est.

Non est quid Nvidia ad productionem minuendam vel ad adaptationes maiores roadmapendas, sed facit.

Core exitus quae nautis afficit consilium est ipsius architecturae Blackwell NVIDIAE.

Involucrum Blackwell prima sarcina disposita est ad productionem summi voluminis utendi technologiae TSMC CoWoS-L.

CoWoS-L usum interpositoris RDL requirit cum loci interiunctis siliconibus (LSI) et astulae pontis infixae ad communicationes pontis inter varias computationes et repositas intra sarcinam.

CoWoS-L multo implicatior est quam hodierna technologia CoWoS-S, sed futurum est.

Nvidia et TSMC incrementum valde infestum habent consilium, propositum excedentes unum decies centena milia xxxiii per quarterium.

Sed variae difficultates ortae sunt ex consequenti.

Una causa est quod pontes gibba in pice plexo multiplices in interpositum organicum et interpositum silicon causare possunt coefficientem expansionis scelerisque (CTE) mis match inter pii mori, pontes, interpositorem organicum et substratum, in pagina proveniens.

Propositum pontis astularum accuratissime requirit, praesertim cum ad pontes inter 2 summas supputationes ramentorum adveniat, sicut hi pontes critici sunt ad 10 TB/s chip-to-chip interiungendum.

Maioris consilii exitus ad pontem relatum esse nuntiatur. Eodem tempore, suprema pauca filum global filum metallicum et labeculas spumae redsignari necesse est. Haec una ex praecipuis multorum mensium morarum rationibus est.

Alia quaestio est, quod TSMC capacitatem productionis CoWoS-L non satis habet.

Super hos annos, TSMC magnam copiam capacitatis CoWoS-S aedificavit, cum Nvidia rationem maioris partis.

Nunc, cum Nvidia ad CoWoS-L celeriter vagantem exigat, TSMC novam fab AP6 aedificat pro CoWoS-L et retrofitandi facultatem in AP3.

Ad hunc finem, TSMC opus est facultatem productionis CoWoS-S antiquam transformare, alioquin hae facultates otiosae erunt et CoWoS-L tardius crescent. Et haec mutatio processus incrementum valde inaequale faciet.

Coniungendo has duas difficultates, TSMC patet non satis esse astulas Blackwell supplere secundum necessitates Nvidiae.

Quam ob rem, Nvidia paene omnem facultatem productionis suae in systematibus GB200 NVL 36x2 et NVL72 systematis tortus tendit. Et HGX moduli computandi instructi cum B100 et B200 aboliti sunt.

Ut jocus, NVIDIA Blackwell GPU-B200A in chip B102 innixum mittet et cum 4 iacu-HBM memoriam instruit ad necessitates mediarum rationum AI ad medium ad low-finem.

Interestingly, hoc B102 chip etiam in "editione speciali" B20 in Sinis adhibebitur.

Cum B102 sit monolithicus chippis computans, Nvidia non solum in CoWoS-S involucrum esse potest, sed etiam alii commeatus praeter TSMC 2.5D fasciculum faciunt, ut Amkor, ASE SPIL et Samsung.

B200A in 700W et 1000W HGX formis apparebunt, instructi usque ad 144GB ipsius HBM3E memoriam video et usque ad 4 TB/s latitudinem. Notatu dignum est hoc minus esse quam latitudo HCC memoria.

Proximum est medium range auctus versio - Blackwell Ultra.

Vexillum CoWoS-L Blackwell Ultra, nempe B210 vel B200 Ultra, non solum usque ad 288GB de 12-HBM3E iacuit quantum ad memoriam reficiendi, sed etiam perficiendi FLOPS usque ad 50% auget.

B200A Ultra altiorem FLOPS habebit, sed memoria video non upgraded.

Praeter eandem HGX configurationem cum originali B200A, etiam B200A Ultra novam MGX NVL 36 formam inducit.

HGX Blackwell effectus/TCO optima est cum in laboribus exercendis minus quam 5,000 GPUs.

Nihilominus, MGX NVL36 optima electio est per plura exempla generationis proximae propter suam infrastructuram flexibiliorem.

Cum Llama 3 405B iam prope limitem H200 HGX servientis sit, posteritas MoE LLAMA 4 in unum nodi Blackwell HGX certo congruens erit.

Cum aestimatione pretii deducta MGX B200A Ultra NVL36, SemiAnalysis credit HGX B200A non optime vendere.

MGX GB200A Ultra NVL36 architectura

MGX GB200A NVL36 SKU refrigeratus est 40kW/eculeus cum 36 GPUs per NVLink plene connexus.

Ex iis, quilibet eculeus instructus erit cum 9 scutulis computato et 9 NVSwitch fercula. Quaelibet computatio lance 2U est et gratia 1 CPU et 4 700W B200A Blackwell GPUs continet. Ipsumque 1U NVSwitch lance unum tantum transitum habet ASIC, et band latitudo cuiusque transindi ASIC est 28.8 Tbit/s.

Prae, GB200 NVL72/36x2 sarcinas 2 Gratia CPUs et 4 1200W Blackwell GPUs.

Cum solum 40kW per eculeum et facultas aeris refrigerandi, exsistentes operariorum instrumentorum communicationis socialis facile explicant MGX NVL36 sine re-instructura eorum infrastructura.

Dissimilis GB200 NVL72/36x2, proportio 4 GPUs ad 1 CPU significat quod unumquodque GPU nonnisi dimidium ipsius C2C longitudinis accipere potest.

Ergo MGX NVL36 non potest uti C2C connexione, sed requirit integram ConnectX-8 PCIe transitum ad communicationem GPU-CPU complendam.

Accedit, dissimiles omnibus aliis servientibus AI existentibus (HGX H100/B100/B200, GB200 NVL72/36x2, MI300), unusquisque NIC in posteriore nunc reus erit 2 GPUs.

Hoc significat, licet Consilium ConnectX-8 NIC 800G retis fine retis praebere possit, unumquodque GPU accedere non potest nisi 400G extremitatis posterioris InfiniBand/RoCE Sedis. (Item ex GB200 NVL72/36x2 media)

Medium GB200 NVL72/NVL36x2 tabulam computant est tabula Bianca quae continet 2 Blackwell B200 GPUs et 1 Gratia CPU.

Cum singula computatione lance instructa cum 2 tabulis Bianca, summa 2 gratiarum CPUs et 4 1200W Blackwell GPUs instructus erit.

E contra, CPU et GPU MGX GB200A NVL36 in diversis PCBs erunt, similes consilio ministri HGX.

Dissimiles autem servientibus HGX, 4 GPUs per supputatum lance in 2 2-GPU tabulas subdividetur. Quaelibet 2-GPU tabula cum Speculo Mezz connectentis similis cum tabula Bianca instructa est.

Hi connexiones Speculi Mezz tunc adhibebuntur ad coniungere ad medium plani ConnectX-8 et connectere ConnectX-8 ASIC cum suis integralibus PCIe switch ad GPU, localem NVMe repositionis et gratia CPU.

Cum ConnectX-8 ASIC arctissima GPU sit, retimer inter GPU et ConnectX-8 NIC necesse non est. HGX H100/B100/B200 id requirit.

Praeterea, cum gratia CPU et Blackwell GPU nulla C2C connexio intersit, gratia CPU in PCB omnino independentis, quod est CPU materna, erit. Haec mater tabula BMC connexiones continebit, CMOS altilium, MCIO connexiones, etc.

Sedis NVLink per GPU erit 900GB/s in utraque parte, quae eadem est cum GB200 NVL72/36x2. In fundamento per-FLOP, significanter hoc GPU-ad-GPU latitudinem auget, commodum dans MGX NVL36 in quibusdam laboribus.

Cum una tantum virgarum tabulatum 36 GPUs coniungit, tantum 9 NVSwitch ASICs opus est ut retiacula non intercludat.

Praeterea cum unumquodque 1U lance transitum unum tantum 28.8Tbit/s ASIC habeat, aer refrigeratio facillima est. Exempli gratia, 25.6Tbit/s 1U transibit sicut Quantum-2 QM9700 faciet.

In retis backend, cum tantum 2 800G portus per conputant lance, adhibebit 2-rail optimized finem-ordinis ornatum.

Pro singulis 8 GB200A NVL36 tormenta, erunt 2 virgae quantae-X800 QM3400.

In casu 700W per GPU, vis consumptio uniuscuiusque eculei GB200A NVL36 potest esse circa 40kW, id est, 4kW caloris dissipationis in spatio 2U.

Quam ob rem calor specialiter designatus subsidit et summus velocitas fans refrigerationis aeris requiretur.

Provocationes instruendae MGX GB200A NVL 36

Cum GB200A NVL36 tota in aere refrigeratione innitatur, et praeter Plu NIC in anteriori fine 2U chassis, etiam dedicata Plu commutatio est, quae signanter auget provocationem scelestam.

Ergo, customizing backend NIC in the GB200A NVL36 basically impossibile est.

Cum multae machinae discendi clientelas pro x86 CPUs compigantur et optimized sint, gratia CPU et Blackwell GPU distinctis PCBs sint, verisimile est etiam versionem esse x86+B200A NVL36.

Quamquam, quamvis x86 CPU altiorem apicem perficientur praebere potest, potentia consummatio per 100W correspondenter altior erit, ita magnas provocationes OEMs thermarum administrationis augens.

Praeterea venditio Gratiae CPU considerans, etiam si NVIDIA solutionem x86 B200A NVL36 immittit, clientes ad eligendum GB200A NVL36.

Scilicet, GB200A NVL36 etiam punctum venditionis suum habet - systema 40kW aeris refrigerationis per eculeum.

Post omnes, multi clientes liquidam refrigerationem et potestatem infrastructuram necessariam pro GB200 NVL72 praestare non possunt, cum circiter 125 kW per eculeum (vel 36x2 cum summa potestate consumptio super 130kW).

H100 habet TDP ex 700W et nunc 4U altae 3DVC utitur, dum 1000W H200 pro 6U altae 3DVC utitur.

Prae, TDP ipsius MGX B200A NVL36 etiam 700W est, sed gb tantum 2U est, ergo spatium satis limitatum est. Ergo podium horizontale extenditur sicut pinna, requiritur ad augendum superficiei pinnae.

Praeter maiorem heatsink requirunt, etiam ventilatores necesse est ut venti editi validiores praebeant quam GB200 NVL72/36x2 2U repositorium vel HGX 8 GPU designant.

Secundum aestimationes, in eculeo 40kW, 15% ad 17% totius systematis potentiae pro gb internis fans adhibebitur. Prae, ventilabrum HGX H100 tantum 6% ad 8% totius systematis potentiae consumit.

Ob magnam vim ventilationis quaesitam ut opus apte efficiatur MGX GB200A NVL36, hoc consilium maxime inefficax est.

Cur inritas GB200A NVL64

Priusquam Nvidia complevit MGX GB200A NVL36, etiam eculeum NVL64 refrigeratum excogitare conantur, qui 60kW consumit et 64 GPUs per NVLink plene coniungitur.

Tamen, post multam analysim machinalem, SemiAnalysis decrevit productum non posse fieri neque commercium praesto esse.

In proposito NVL64 SKU computantur 16 scutellae et 4 scutra NVSwitch. Ipsumque computatorium unumquemque 2U est et Gratiam continet CPU et quattuor 700W Blackwell GPUs, sicuti MGX GB200A NVL36.

Praecipua immutatio est in scutulis NVSwitch - pro reductione GB200 scriptorum 2 NVS per lance ad 1, Nvidia eam augere conatur ad virgas 4 ASIC.

Patet, quod impossibile esset iuxta behemoth tam alta potentia consummatio per aerem solum refrigerari. (NVIDIA proposita 60kW, SemiAnalysis aestimata 70kW)

Hoc typice requirit usum caloris commutatoris posticiendi ianuae, sed punctum eculei aeris refrigerati in hac architectura superat, sicut adhuc liquore refrigerationis copia catenae fretus est. Accedit, haec solutio adhuc requirit facultatem modificationum graduum in plerisque data centra meatus aquam refrigerantem ad calorem commutatoris posticum.

Alia quaestio scelerisque difficillima est quod NVSwitch lance quattuor virgas ASIC in chassis 1U continebit, prope 1500W potentiae refrigerationis requirens.

Singula spectata, non difficile est 1500W in 1U chassis assequi. Nihilominus, cum consideras fila Ultrapass volans ab ASIC switch ad iungo backplani multum intercludere airflow, provocatio refrigeratio significans fit.

Data necessitate MGX NVL eculeo aere refrigerato ad mercatum perquam cito, Nvidia intra sex menses consilio initiationis productum liberare conatus est. Nihilominus, novas commutationes cursatorum et machinarum vinculorum cogitans difficillimum est industriae iam subsidiis accinctae.

Altera quaestio maioris cum GB200A NVL64 est quod 64 800G portus per eculeum retro sunt, sed uterque XDR Quantum-X800 Q3400 transibit 72 800G portus amni portat. In aliis verbis, singulae transitum habebunt 16 800G portuum vacuae.

Habens inanis portus in caris dorsi finem permutat signanter impactionem retis perficiendi et summa dominii sumptus, quia virgas pretiosae sunt, praesertim summus portus densitatis modularis virgarum instar Quantum-X800.

Accedit, utens 64 GPUs in eadem NVLink domain non est specimen.

In superficie, 64 est numerus bonus, quia habet 2, 4, 8, 16, et 32 sicut factores communes, quod perficit propter diversas figuras parallelas.

Exempli gratia, tensor parallelismus TP=8, perito parallelismus EP=8, vel TP=4, data parallelismo FSDP=16.

Infeliciter, ob vanitatem ferramentorum, Nvidia suadet ut saltem 1 lancem per NVL eculeum computant ut parcant ut GPU offline per sustentationem sumi possit et pro calido parce adhibeatur.

Sine 1 saltem lance computato parce per eculeum in calidis, etiam 1 defectionis GPU causare potest totam eculeum extra servitium per tempus notabile cogendi. Hoc simile est quomodo in custodia 8-GPU HGX H100, una GPU defectus omnes 8 H100s extra servitium coget.

Servans saltem unum repositorium computatum sicut parce fervidum significat solum 60 GPUs per eculeum inposuit tractare potest. Hoc in casu, commoda iam dicta non sunt.

NVL36×2 vel NVL72 cum 72 GPUs instructum est, quod significat utentes non solum uti 2 supputandis ferculis calidis parcit, sed etiam 64 GPUs in singulis eculeis usui praesto sunt.

GB200A NVL36 1 computando lancem habere potest ut stando calido.

Impact in copia catenae

Secundum speculationem SemiAnalysis, portationes GB200 NVL72/36x2 reducentur vel retardantur, et portationes B100 et B200 HGX significanter minuentur.

Interim Infundibulum portarentur a quarta 2024 ad primam quartam partem 2025 augere.

Praeterea ordines GPU transferentur ab HGX Blackwell et GB200 NVL36x2 ad MGX GB200A NVL36 in media parte anni.

Hoc incidat omnes ODMs et commeatus componentes ut amet ac reditus consilia signanter ab Q3 2024 ad Q2 2025 mutabunt.

Notae:

https://www.theinformation.com/articles/nvidias-new-ai-chip-is-delayed-impacting-microsoft-google-meta?rc=epv9gi

https://www.semianalysis.com/p/nvidias-blackwell-reworked-shipment

nuntium

NVIDIA validissima AI chip est vitia maioris consilii manifestat, et Sinarum versio specialis accidens exposita est!

Introductio

mihi contactus notitia