berita

Chip AI paling kuat dari NVIDIA mengungkap kelemahan desain utama, dan versi khusus Tiongkok secara tidak sengaja terungkap!

2024-08-05

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


Laporan Kebijaksanaan Baru

Editor: Taozi ngantuk sekali

[Pengantar Kebijaksanaan Baru] Karena cacat desain, chip AI terkuat Nvidia, Blackwell, benar-benar akan tertunda pengirimannya. Para ayah donor sedang berduka, dan semua rencana yang dijadwalkan diperkirakan akan tertunda setidaknya selama tiga bulan.

GPU NVIDIA selalu menjadi sumber penelitian dan pengembangan AI untuk perusahaan model besar seperti OpenAI.

Kini, karena cacat desain pada GPU Blackwell, pengiriman Nvidia harus tertunda selama 3 bulan atau bahkan lebih lama.

Informasi secara eksklusif melaporkan bahwa para insinyur TSMC menemukan kelemahan tersebut dalam beberapa minggu terakhir saat mereka menyiapkan chip Blackwell untuk produksi massal.


Baru minggu lalu, Lao Huang mengatakan di SIGGRAPH bahwa NVIDIA telah mengirimkan sampel teknik Blackwell kepada pelanggan di seluruh dunia.

Ekspresi lega di wajahnya tidak menunjukkan adanya penundaan yang tidak terduga.

Lantas, di mana letak kekurangan pada desain chipnya?

GB200 berisi 2 GPU Blackwell dan 1 CPU Grace. Masalahnya terletak pada rangkaian kunci yang menghubungkan kedua GPU Blackwell tersebut.

Masalah inilah yang menyebabkan tingkat imbal hasil GB200 TSMC menurun.


Tertundanya pengiriman chip terbaru berarti bagi perusahaan teknologi besar seperti Meta, Google, dan Microsoft, proses pelatihan AI akan terpengaruh.

Selain itu, pembangunan pusat data mereka pasti akan tertunda.

Chip Blackwell diperkirakan akan dikirimkan dalam jumlah besar hingga kuartal pertama tahun depan.

Dalam laporan terbaru SemiAnalysis, juga merinci tantangan teknis yang dihadapi NVIDIA, jadwal setelah pengiriman tertunda, dan sistem baru MGX GB200A Ultra NVL36.


Blackwell menunda bulan Maret, di tengah protes

Saya masih ingat bahwa pada konferensi GTC 2024, Lao Huang mengadakan GPU arsitektur Blackwell paling kuat dan mengumumkan kepada dunia binatang dengan performa paling kuat.

Pada bulan Mei, dia secara terbuka menyatakan bahwa "kami berencana mengirimkan chip arsitektur Blackwell dalam jumlah besar akhir tahun ini."

Dia bahkan dengan percaya diri menyatakan pada pertemuan laporan keuangan, "Kita akan melihat banyak pendapatan Blackwell tahun ini."

Pemegang saham NVIDIA menaruh harapan besar terhadap GPU Blackwell.


Analis dari Keybanc Capital Markets memperkirakan chip Blackwell akan meningkatkan pendapatan pusat data Nvidia dari US$47,5 miliar pada tahun 2024 menjadi lebih dari US$200 miliar pada tahun 2025.

Dengan kata lain, seri GPU Blackwell akan memainkan peran penting dalam penjualan dan pendapatan Nvidia di masa depan.

Di luar dugaan, cacat desain tersebut berdampak langsung pada target produksi Nvidia pada paruh kedua tahun ini dan paruh pertama tahun depan.

Orang dalam yang terlibat dalam desain chip Blackwell mengungkapkan bahwa Nvidia bekerja sama dengan TSMC untuk menguji produksi dan pengoperasian chip guna menyelesaikan masalah secepat mungkin.

Namun langkah perbaikan yang dilakukan Nvidia saat ini adalah dengan terus memperluas pengiriman chip seri Hopper dan mempercepat produksi GPU Blackwell sesuai rencana pada paruh kedua tahun ini.

Menghabiskan puluhan miliar dolar, pelatihan AI tertunda

Tak hanya itu, efek berantai ini akan memberikan pukulan fatal bagi pengembang model besar dan penyedia layanan cloud pusat data.

Untuk melatih AI, pendukung keuangan seperti Meta, Microsoft, dan Google menghabiskan puluhan miliar dolar dan memesan chip Blackwell dalam jumlah besar.

Google telah memesan lebih dari 400.000 GB200, ditambah perangkat keras server, biaya pesanan Google lebih dari 10 miliar dolar AS.

Tahun ini, raksasa tersebut telah menghabiskan sekitar $50 miliar untuk pembelian chip dan aset peralatan lainnya, meningkat lebih dari 50% dari tahun lalu.

Selain itu, Meta juga telah melakukan pemesanan setidaknya sebesar US$10 miliar, sementara ukuran pesanan Microsoft meningkat sebesar 20% dalam beberapa minggu terakhir.

Namun besaran pesanan spesifik kedua perusahaan ini belum ditentukan.

Menurut orang-orang yang mengetahui masalah ini, Microsoft berencana menyiapkan 55.000-65.000 chip GB200 untuk OpenAI pada kuartal pertama tahun 2025.

Selain itu, manajemen Microsoft awalnya berencana menyediakan server bertenaga Blackwell ke OpenAI pada Januari 2025.


Kini tampaknya rencana awal perlu ditunda hingga Maret atau musim semi berikutnya.

Sesuai jadwal semula, mereka akan mulai menjalankan cluster superkomputer baru pada kuartal pertama tahun 2025.

Perusahaan AI, termasuk OpenAI, sedang menunggu penggunaan chip baru untuk mengembangkan LLM generasi berikutnya.

Karena pelatihan model besar memerlukan daya komputasi berkali-kali lipat, pelatihan ini dapat menjawab pertanyaan kompleks dengan lebih baik, mengotomatiskan tugas multi-langkah, dan menghasilkan video yang lebih realistis.

Bisa dikatakan generasi AI super bertenaga berikutnya bergantung pada chip AI terbaru Nvidia.

Penundaan yang jarang terjadi dalam sejarah

Namun, penundaan pesanan chip dalam skala besar ini tidak hanya tidak terduga oleh semua orang, tetapi juga jarang terjadi.

TSMC awalnya berencana memulai produksi massal chip Blackwell pada kuartal ketiga dan memulai pengiriman skala besar ke pelanggan Nvidia pada kuartal keempat.

Orang dalam mengungkapkan bahwa chip Blackwell sekarang diperkirakan akan memasuki produksi massal pada kuartal keempat, dan jika tidak ada masalah lebih lanjut, server akan dikirimkan dalam jumlah besar pada kuartal berikutnya.


Faktanya, pada awal tahun 2020, versi awal GPU andalan Nvidia harus tertunda karena beberapa masalah.

Namun risiko yang dihadapi Nvidia rendah pada saat itu, pelanggan tidak terburu-buru dalam menerima pesanan, dan keuntungan yang diperoleh dari pusat data relatif kecil.

Saat ini, sangat jarang ditemukan cacat desain besar sebelum produksi massal.

Perancang chip biasanya bekerja dengan pabrik TSMC untuk melakukan beberapa pengujian dan simulasi produksi guna memastikan kelayakan produk dan proses produksi yang lancar sebelum menerima pesanan dalam jumlah besar dari pelanggan.

Jarang sekali TSMC menghentikan jalur produksi dan mendesain ulang suatu produk yang hendak diproduksi massal.

Mereka telah melakukan persiapan penuh untuk produksi massal GB200, termasuk mengalokasikan kapasitas mesin khusus.

Kini, robot harus diam hingga masalahnya teratasi.

Cacat desain juga akan mempengaruhi produksi dan pengiriman rak server NVLink Nvidia, karena perusahaan yang bertanggung jawab atas server harus menunggu sampel chip baru sebelum menyelesaikan desain rak server.

Terpaksa meluncurkan remake

Tantangan teknis juga memaksa NVIDIA untuk segera mengembangkan sistem dan arsitektur komponen baru, seperti MGX GB200A Ultra NVL36.

Desain anyar ini juga akan memberikan dampak signifikan terhadap puluhan pemasok hulu dan hilir.


Sebagai chip paling berteknologi maju dalam seri Blackwell, NVIDIA telah membuat pilihan teknis yang berani untuk GB200 di tingkat sistem.

Rak 72-GPU ini menghasilkan kepadatan daya yang belum pernah terjadi sebelumnya yaitu 125kW per rak. Sebagai perbandingan, sebagian besar rak pusat data hanya memiliki daya 12kW hingga 20kW.

Sistem yang sedemikian kompleks juga telah menyebabkan banyak masalah terkait dengan masalah penyaluran daya, panas berlebih, pertumbuhan rantai pasokan pendingin air, kebocoran sistem pendingin air yang cepat terputus, dan berbagai masalah kompleksitas papan sirkuit, dan telah membuat beberapa pemasok dan perancang lengah.

Namun, bukan itu yang menyebabkan Nvidia mengurangi produksi atau melakukan penyesuaian peta jalan besar-besaran.

Masalah inti yang sangat mempengaruhi pengiriman adalah desain arsitektur Blackwell NVIDIA itu sendiri.


Paket Blackwell adalah paket pertama yang dirancang untuk produksi volume tinggi menggunakan teknologi CoWoS-L TSMC.

CoWoS-L memerlukan penggunaan interposer RDL dengan interkoneksi silikon lokal (LSI) dan chip jembatan tertanam untuk menjembatani komunikasi antara berbagai komputasi dan penyimpanan dalam paket.


CoWoS-L jauh lebih kompleks dibandingkan teknologi CoWoS-S saat ini, namun ini adalah masa depan.

Nvidia dan TSMC memiliki rencana pertumbuhan yang sangat agresif, melebihi target satu juta chip per kuartal.

Namun berbagai permasalahan pun muncul sebagai dampaknya.

Salah satu permasalahannya adalah dengan menyematkan beberapa jembatan tonjolan bernada halus ke dalam interposer organik dan interposer silikon dapat menyebabkan ketidakcocokan koefisien muai panas (CTE) antara cetakan silikon, jembatan, interposer organik, dan substrat, yang mengakibatkan lengkungan.


Tata letak chip jembatan memerlukan presisi yang sangat tinggi, terutama jika menyangkut jembatan antara 2 chip komputasi utama, karena jembatan ini sangat penting untuk mendukung interkoneksi chip-ke-chip sebesar 10 TB/dtk.

Masalah desain utama dikabarkan terkait dengan chip jembatan. Pada saat yang sama, beberapa lapisan logam kabel global teratas dan tonjolan chip juga perlu didesain ulang. Inilah salah satu alasan utama penundaan selama berbulan-bulan.

Permasalahan lainnya adalah TSMC tidak memiliki kapasitas produksi CoWoS-L yang cukup.

Selama beberapa tahun terakhir, TSMC telah membangun kapasitas CoWoS-S dalam jumlah besar, dengan Nvidia menguasai sebagian besar sahamnya.

Kini, dengan Nvidia yang dengan cepat mengalihkan permintaan ke CoWoS-L, TSMC sedang membangun AP6 baru yang luar biasa untuk CoWoS-L dan menambah kapasitas CoWoS-S yang ada di AP3.

Untuk mencapai tujuan ini, TSMC perlu mengubah kapasitas produksi CoWoS-S yang lama, jika tidak, kapasitas tersebut akan menganggur dan CoWoS-L akan tumbuh lebih lambat. Dan proses transformasi ini akan membuat pertumbuhan menjadi sangat tidak merata.

Menggabungkan kedua masalah ini, TSMC jelas tidak mampu memasok chip Blackwell dalam jumlah yang cukup sesuai kebutuhan Nvidia.

Akibatnya, Nvidia memfokuskan hampir seluruh kapasitas produksinya pada sistem skala rak GB200 NVL 36x2 dan NVL72. Dan modul komputasi HGX yang dilengkapi dengan B100 dan B200 dibatalkan.


Sebagai alternatifnya, NVIDIA akan meluncurkan Blackwell GPU-B200A berbasis chip B102 dan dilengkapi memori HBM 4 lapis untuk memenuhi kebutuhan sistem AI kelas menengah ke bawah.

Menariknya, chip B102 ini juga akan digunakan pada B20 “edisi khusus” China.

Karena B102 adalah chip komputasi monolitik, Nvidia tidak hanya dapat mengemasnya di CoWoS-S, tetapi juga mengizinkan pemasok lain selain TSMC untuk melakukan pengemasan 2.5D, seperti Amkor, ASE SPIL, dan Samsung.

B200A akan hadir dalam bentuk HGX 700W dan 1000W, dilengkapi dengan memori video HBM3E hingga 144GB dan bandwidth hingga 4 TB/s. Perlu dicatat bahwa ini kurang dari bandwidth memori H200.

Berikutnya adalah versi peningkatan kelas menengah – Blackwell Ultra.

CoWoS-L Blackwell Ultra standar, yaitu B210 atau B200 Ultra, tidak hanya mencapai HBM3E 12-lapisan hingga 288GB dalam hal penyegaran memori, tetapi juga meningkatkan kinerja FLOPS hingga 50%.

B200A Ultra akan memiliki FLOPS yang lebih tinggi, namun memori video tidak akan ditingkatkan.

Selain memiliki konfigurasi HGX yang sama dengan B200A asli, B200A Ultra juga memperkenalkan bentuk baru MGX NVL 36.


Performa/TCO HGX Blackwell sangat baik saat melatih beban kerja dengan kurang dari 5.000 GPU.

Namun, MGX NVL36 adalah pilihan ideal untuk banyak model generasi berikutnya karena infrastrukturnya yang lebih fleksibel.

Karena Llama 3 405B sudah mendekati batas server H200 HGX, MoE LLAMA 4 generasi berikutnya pasti tidak akan muat dalam satu node server Blackwell HGX.

Dikombinasikan dengan perkiraan harga MGX B200A Ultra NVL36, SemiAnalysis yakin HGX B200A tidak akan terjual dengan baik.

Arsitektur MGX GB200A Ultra NVL36

SKU MGX GB200A NVL36 adalah server 40kW/rak berpendingin udara dengan 36 GPU yang sepenuhnya terhubung melalui NVLink.

Diantaranya, setiap rak akan dilengkapi dengan 9 baki komputasi dan 9 baki NVSwitch. Setiap baki komputasi berukuran 2U dan berisi 1 CPU Grace dan 4 GPU Blackwell B200A 700W. Setiap baki NVSwitch 1U hanya memiliki satu ASIC sakelar, dan bandwidth setiap ASIC sakelar adalah 28,8 Tbit/s.

Sebagai perbandingan, GB200 NVL72/36x2 mengemas 2 CPU Grace dan 4 GPU Blackwell 1200W.


Dengan hanya 40kW per rak dan kemampuan berpendingin udara, operator pusat data yang ada dapat dengan mudah menerapkan MGX NVL36 tanpa merekayasa ulang infrastruktur mereka.

Berbeda dengan GB200 NVL72/36x2, rasio 4 GPU berbanding 1 CPU berarti setiap GPU hanya bisa mendapatkan setengah dari bandwidth C2C.

Oleh karena itu, MGX NVL36 tidak dapat menggunakan interkoneksi C2C, tetapi memerlukan switch PCIe ConnectX-8 terintegrasi untuk menyelesaikan komunikasi GPU-CPU.

Selain itu, tidak seperti semua server AI lain yang ada (HGX H100/B100/B200, GB200 NVL72/36x2, MI300), setiap NIC backend kini akan bertanggung jawab atas 2 GPU.

Artinya, meskipun desain ConnectX-8 NIC dapat menyediakan jaringan back-end sebesar 800G, setiap GPU hanya dapat mengakses bandwidth InfiniBand/RoCE back-end sebesar 400G. (Juga pada setengah GB200 NVL72/36x2)


Inti dari baki komputasi GB200 NVL72/NVL36x2 adalah papan Bianca, yang berisi 2 GPU Blackwell B200 dan 1 CPU Grace.

Karena setiap baki komputasi dilengkapi dengan 2 papan Bianca, total 2 CPU Grace dan 4 GPU Blackwell 1200W akan dilengkapi.


Sebaliknya, CPU dan GPU MGX GB200A NVL36 akan menggunakan PCB yang berbeda, mirip dengan desain server HGX.

Namun tidak seperti server HGX, 4 GPU per baki komputasi akan dibagi lagi menjadi 2 papan 2-GPU. Setiap board 2-GPU dilengkapi dengan konektor Mirror Mezz yang mirip dengan board Bianca.

Konektor Mirror Mezz ini kemudian akan digunakan untuk terhubung ke midplane ConnectX-8 dan menghubungkan ConnectX-8 ASIC dengan switch PCIe terintegrasi ke GPU, penyimpanan NVMe lokal, dan Grace CPU.

Karena ConnectX-8 ASIC sangat dekat dengan GPU, tidak diperlukan pengatur waktu antara GPU dan ConnectX-8 NIC. HGX H100/B100/B200 memerlukannya.

Selain itu, karena tidak ada interkoneksi C2C antara Grace CPU dan Blackwell GPU, Grace CPU akan berada pada PCB yang sepenuhnya independen, yaitu motherboard CPU. Motherboard ini akan berisi konektor BMC, baterai CMOS, konektor MCIO, dll.


Bandwidth NVLink per GPU akan menjadi 900 GB/dtk di setiap arah, sama dengan GB200 NVL72/36x2. Pada basis per-FLOP, hal ini secara signifikan meningkatkan bandwidth GPU-ke-GPU, memberikan MGX NVL36 keunggulan dalam beban kerja tertentu.

Karena hanya satu lapisan switch yang menghubungkan 36 GPU, hanya diperlukan 9 NVSwitch ASIC untuk menyediakan jaringan non-pemblokiran.

Selain itu, karena setiap baki sakelar 1U hanya memiliki satu ASIC 28,8Tbit/s, pendinginan udara menjadi sangat mudah. Misalnya, sakelar 1U 25,6Tbit/dtk seperti Quantum-2 QM9700 bisa digunakan.


Pada jaringan backend, karena hanya terdapat 2 port 800G per baki komputasi, maka jaringan end-of-row yang dioptimalkan akan menggunakan 2 rel.

Untuk setiap 8 rak NVL36 GB200A, akan ada 2 sakelar Quantum-X800 QM3400.


Dalam hal 700W per GPU, konsumsi daya setiap rak GB200A NVL36 mungkin sekitar 40kW, yaitu pembuangan panas 4kW dalam ruang 2U.

Oleh karena itu, diperlukan heat sink yang dirancang khusus dan kipas berkecepatan tinggi untuk mendinginkan udara.


Tantangan dalam penerapan MGX GB200A NVL 36

Karena GB200A NVL36 sepenuhnya mengandalkan pendingin udara, dan selain PCIe NIC di ujung depan sasis 2U, terdapat juga sakelar PCIe khusus, yang akan meningkatkan tantangan manajemen termal secara signifikan.

Oleh karena itu, mengkustomisasi NIC backend pada GB200A NVL36 pada dasarnya tidak mungkin.

Karena banyak dependensi pembelajaran mesin dikompilasi dan dioptimalkan untuk CPU x86, dan CPU Grace serta GPU Blackwell berada pada PCB terpisah, kemungkinan besar juga akan ada versi x86+B200A NVL36.

Namun, meskipun CPU x86 dapat memberikan kinerja puncak yang lebih tinggi, konsumsi dayanya juga akan lebih tinggi sebesar 100W, sehingga sangat meningkatkan tantangan manajemen termal bagi OEM.

Selain itu, mengingat penjualan Grace CPU, meskipun NVIDIA meluncurkan solusi x86 B200A NVL36, mereka akan mendorong pelanggan untuk memilih GB200A NVL36.

Tentu saja, GB200A NVL36 juga memiliki nilai jual tersendiri – sistem pendingin udara 40kW per rak.

Lagi pula, banyak pelanggan tidak mampu membeli pendingin cair dan infrastruktur daya yang diperlukan untuk GB200 NVL72 dengan daya sekitar 125 kW per rak (atau 36x2 dengan total konsumsi daya lebih dari 130kW).

H100 memiliki TDP 700W dan saat ini menggunakan 3DVC setinggi 4U, sedangkan H200 1000W menggunakan 3DVC setinggi 6U.

Sebagai perbandingan, TDP MGX B200A NVL36 juga 700W namun sasisnya hanya 2U sehingga ruangnya cukup terbatas. Oleh karena itu diperlukan sirip seperti balkon yang memanjang secara horizontal untuk menambah luas permukaan sirip.


Selain membutuhkan heatsink yang lebih besar, kipas juga perlu memberikan aliran udara yang lebih kuat dibandingkan baki komputasi GB200 NVL72/36x2 2U atau desain GPU HGX 8.

Menurut perkiraan, dalam rak 40kW, 15% hingga 17% dari total daya sistem akan digunakan untuk kipas sasis internal. Sebagai perbandingan, kipas HGX H100 hanya mengonsumsi 6% hingga 8% dari total daya sistem.

Karena besarnya daya kipas yang dibutuhkan agar MGX GB200A NVL36 berfungsi dengan baik, ini adalah desain yang sangat tidak efisien.

Mengapa membatalkan GB200A NVL64

Sebelum Nvidia menyelesaikan MGX GB200A NVL36, mereka juga mencoba merancang rak NVL64 berpendingin udara yang mengonsumsi 60kW dan membawa 64 GPU yang sepenuhnya terhubung melalui NVLink.

Namun, setelah analisis teknik yang ekstensif, SemiAnalysis memutuskan bahwa produk tersebut tidak layak dan tidak akan tersedia secara komersial.

Dalam SKU NVL64 yang diusulkan, terdapat 16 baki komputasi dan 4 baki NVSwitch. Setiap baki komputasi berukuran 2U dan berisi CPU Grace dan empat GPU Blackwell 700W, seperti MGX GB200A NVL36.

Modifikasi utama ada pada baki NVSwitch - alih-alih mengurangi 2 NVSwitch per baki GB200 menjadi 1, Nvidia mencoba meningkatkannya menjadi 4 sakelar ASIC.


Tentu saja, hampir mustahil untuk mendinginkan raksasa dengan konsumsi daya yang tinggi hanya melalui udara. (NVIDIA mengusulkan 60kW, SemiAnalysis memperkirakan 70kW)

Hal ini biasanya memerlukan penggunaan penukar panas pintu belakang, namun hal ini tidak sesuai dengan arsitektur rak berpendingin udara karena masih ada ketergantungan pada rantai pasokan pendingin cair. Selain itu, solusi ini masih memerlukan modifikasi tingkat fasilitas di sebagian besar pusat data untuk menyalurkan air pendingin ke penukar panas pintu belakang.

Masalah termal lain yang sangat sulit adalah bahwa baki NVSwitch akan berisi empat sakelar ASIC 28,8Tbit/s dalam sasis 1U, yang memerlukan daya pendinginan hampir 1500W.

Dilihat secara individual, tidak sulit mencapai 1500W dalam sasis 1U. Namun, jika Anda mempertimbangkan bahwa kabel terbang Ultrapass dari sakelar ASIC ke konektor bidang belakang menghalangi banyak aliran udara, tantangan pendinginan menjadi signifikan.

Mengingat kebutuhan untuk membawa rak MGX NVL berpendingin udara ke pasar dengan sangat cepat, Nvidia berupaya mengirimkan produk tersebut dalam waktu enam bulan sejak dimulainya desain. Namun, merancang palet peralihan dan rantai pasokan baru sangatlah sulit bagi industri yang sudah kekurangan sumber daya.


Masalah besar lainnya dengan GB200A NVL64 adalah terdapat 64 port back-end 800G per rak, tetapi setiap switch XDR Quantum-X800 Q3400 membawa 72 port downstream 800G. Dengan kata lain, setiap switch akan memiliki 16 port 800G yang kosong.

Memiliki port kosong pada switch back-end yang mahal dapat berdampak signifikan terhadap kinerja jaringan dan total biaya kepemilikan karena switch mahal, terutama switch modular dengan kepadatan port tinggi seperti Quantum-X800.


Selain itu, menggunakan 64 GPU dalam domain NVLink yang sama tidaklah ideal.

Secara sekilas, 64 adalah bilangan yang bagus karena memiliki 2, 4, 8, 16, dan 32 sebagai faktor persekutuan, sehingga sempurna untuk konfigurasi paralel yang berbeda.

Misalnya, paralelisme tensor TP=8, paralelisme ahli EP=8, atau TP=4, paralelisme data pecahan penuh FSDP=16.

Sayangnya, karena perangkat kerasnya tidak dapat diandalkan, Nvidia menyarankan untuk menyimpan setidaknya 1 baki komputasi per rak NVL sebagai cadangan sehingga GPU dapat offline selama pemeliharaan dan digunakan sebagai cadangan panas.

Tanpa setidaknya 1 baki komputasi dalam cadangan panas per rak, bahkan 1 kegagalan GPU dapat menyebabkan seluruh rak terpaksa tidak dapat digunakan dalam jangka waktu yang lama. Hal ini serupa dengan server 8-GPU HGX H100, satu kegagalan GPU akan memaksa 8 H100 tidak dapat digunakan.

Menyimpan setidaknya satu baki komputasi sebagai cadangan panas berarti hanya 60 GPU per rak yang dapat menangani beban kerja. Dalam hal ini, keuntungan yang disebutkan di atas tidak ada lagi.


NVL36×2 atau NVL72 dilengkapi dengan 72 GPU, yang berarti pengguna tidak hanya dapat menggunakan 2 baki komputasi sebagai cadangan panas, tetapi juga masih memiliki 64 GPU yang tersedia untuk digunakan di setiap rak.

GB200A NVL36 dapat memiliki 1 baki komputasi sebagai hot standby Saat ini, ada 2, 4, 8, dan 16 sebagai faktor persekutuan dari solusi paralel.

Dampak pada rantai pasokan

Menurut spekulasi SemiAnalysis, pengiriman GB200 NVL72/36x2 akan dikurangi atau ditunda, dan pengiriman B100 dan B200 HGX akan berkurang secara signifikan.

Sedangkan pengiriman Hopper akan meningkat pada kuartal keempat tahun 2024 hingga kuartal pertama tahun 2025.

Selain itu, pesanan GPU akan ditransfer dari HGX Blackwell dan GB200 NVL36x2 ke MGX GB200A NVL36 pada paruh kedua tahun ini.

Hal ini akan berdampak pada semua ODM dan pemasok komponen karena rencana pengiriman dan pendapatan akan berubah secara signifikan dari Q3 2024 ke Q2 2025.

Referensi:

https://www.theinformation.com/articles/nvidias-new-ai-chip-is-delayed-impacting-microsoft-google-meta?rc=epv9gi

https://www.semianalisis.com/p/nvidias-blackwell-reworked-shipment