berita

Nvidia di bidang pengeboman "meledak" sendiri?

2024-08-05

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Penulisnya adalah Leslie Wu, mantan ahli konstruksi pabrik TSMC (akun publik: Zihao Tanxin)

Editor Su Yang

NVIDIA, yang kerap mengebom pasar, gagal mempertahankan nilai pasar sebesar US$3 triliun.

Pada 19 Juni waktu Beijing, nilai pasar Nvidia mencapai US$3,335 triliun, melampaui Microsoft dan Apple sekaligus menjadi yang nomor satu di dunia. Setelah mengalami momen penting tersebut, nilai pasar Nvidia mulai menurun hingga penutupan perdagangan tanggal 2 Agustus, nilai pasar Nvidia menyusut sebesar 26%.

Sebelumnya, beberapa analis telah meminta investor untuk "mengrem." Daily Economic News mengutip analis bank investasi DA Davidson Gil Luria yang mengatakan bahwa rekor kinerja Nvidia mencapai US$26 miliar, berasal dari pengeluaran pelanggan teratas untuk produk GPU-nya. Dia yakin tren ini akan terguncang di masa depan, dan harga saham Nvidia Penurunan dua digit akan terjadi dalam waktu 18 bulan.

Menurut analis seperti Gil Luria,Pelanggan teratas berubah pikiran, dan "kesalahan" NVIDIA sendiri juga memberikan pelanggan peluang untuk berubah pikiran dan para pesaing menghentikannya. Semuanya dimulai dengan rumor negatif tentang chip arsitektur Blackwell, termasuk tingkat hasil CoWoS yang rendah. Permasalahan utama seperti ditinggalkannya SKU B100, penundaan pengiriman B200, dan penghentian kembali

Dilihat dari apa yang kami pelajari secara internal di TSMC,Kabar bahwa chip Blackwell Nvidia sedang direkam ulang memang benar adanya, namun sebagian besar melibatkan chip dasar seri B100.Masalahnya terletak pada sel Standar yang mendasarinya (sel standar)——Ini adalah modul sirkuit standar yang telah dirancang sebelumnya dengan fungsi dan dimensi tertentu. Jika desain chip dipahami sebagai blok penyusun, maka unit standar adalah unit terkecil dari blok penyusun——Kondisi kerja yang tidak normal dapat terjadi di lingkungan bertekanan tinggi, sejauh ini masalahnya telah ditemukan, dan masker perlu dibuka kembali.

Namun, waktu masuk dan keluar pembuatan wafer secara keseluruhan tidak dapat dipersingkat. Untungnya, hanya batch kecil yang akan dikirimkan pada tahun 2024, yang bukan merupakan waktu pengiriman server Blackwell untuk mengirimkan dalam jumlah kecil. Dari pengalaman pribadi saya, tidak sulit bagi TSMC untuk memulihkan kemajuannya.

01 Tingkat hasil yang menjadi penyebab keterlambatan pengiriman

Ditinggalkannya B100 dan penundaan pengiriman B200 serta seri ulangnya adalah pemahaman sepihak tentang "kecelakaan pentalan" chip Blackwell, yang terkait dengan penamaan Nvidia yang rumit.

Chip seri Blackwell mencakup dua chip dasar, B100 dan B102. SKU ini, termasuk B200GB200, semuanya menggunakan solusi chiplet berdasarkan seri B100, dan B200A didasarkan pada B102.

Untuk memudahkan pemahaman, kami telah menyusun tabel untuk semua orang. Anda dapat membandingkan chip dasar B102 dan B100, serta SKU server yang sesuai. Server untuk aplikasi yang berbeda juga dapat digabungkan ke dalam lebih banyak gaya, seperti HGX B200A / HGX B200/ NVL36/ 72 bahkan merupakan versi NVL8 atau GB210A berpendingin udara.

Penamaan chip Blackwell dan berbagai SKU membuatnya membingungkan bagi pihak luar untuk memahaminya, yang bisa dimaklumi, tapi“Tingkat hasil CoWoS hanya 66%, dan hanya 10 kematian yang baik yang dapat dipotong dari satu wafer.”

Kita dapat berbicara secara singkat tentang konsep "hasil" dari tahap depan dan belakang pembuatan wafer.

Untuk GPU die front-end seperti Apple, Qualcomm dan AMD, Nvidia kali ini menggunakan proses N4P yang sudah sangat matang, sehingga tidak perlu khawatir dengan tingkat hasil.

Kemasan back-end, terutama bagian "oS" dari CoWoS, tidak hanya mencakup die GPU, tetapi juga memori HBM, dan biaya 8 HBM itu sendiri sangat tinggi. Jika die GPU gagal, seluruh paket akan menjadi a potongan sampah.Oleh karena itu, tidak mungkin menjadwalkan produksi jika tingkat hasil lebih rendah dari 80%, jika tidak biaya akan semakin besar dan laba kotor tidak dapat dijamin. Jika tingkat hasil 66%, produksi tidak akan dijadwalkan sama sekali.

Dalam hal menghadapi risiko hasil yang tidak normal dalam proses produksi, sebagai pabrik Fabless, baik Nvidia maupun Apple tidak dapat mempertaruhkan semua produk pada solusi baru. Jika ada masalah dengan solusi baru, seluruh generasi produk mungkin akan dibatalkan . Ini Risikonya terlalu besar, jadi ketika melakukan pemesanan, harus ada alternatif yang tersedia pada saat yang bersamaan. Dengan kata lain, meskipun ada masalah dengan hasil CoWoS-L, hal itu tidak akan mempengaruhi pengiriman chip Blackwell.

Izinkan saya memberi Anda sebuah contoh. Jika Apple ingin menggunakan proses 2nm baru TSMC untuk chip A18-nya tahun depan, Apple pasti akan mengembangkan solusi proses N3P pada saat yang sama untuk memastikan "tidak ada yang hilang". sama.

Berdasarkan data yang kami peroleh, Blackwell menggunakan kemasan CoWoS-L, dan rendemen saat ini sekitar 90%. Dan angka ini masih terus meningkat, hal ini sejalan dengan tim Nomura, yang memiliki penelitian CoWoS paling menyeluruh di industri ini. Selain itu, ekspektasi TSMC terhadap tingkat hasil CoWoS-L di awal tahun adalah 95%. Dibandingkan dengan tingkat hasil 99% pada produk H200 dan H100 yang menggunakan kemasan CoWoS-S, 90% tentu saja merupakan kinerja yang buruk, tetapi untuk proses baru, Hampir tidak dapat diterima.

Oleh karena itu, tingkat imbal hasil CoWoS-L saat ini memang belum sebaik yang diharapkan, namunMati GPU front-end perlu mendesain ulang topeng karena masalah unit standar, mengakibatkan chip Blackwell tidak dapat diproduksi dengan lancar, yang secara tidak langsung menyebabkan penghentian kapasitas produksi CoWoS-L di back-end , terdapat kelainan besar pada tingkat hasil CoWoS-L. Hal ini bertentangan dengan fakta dan akal sehat industri jika menyatakan bahwa chip Backwell tidak dapat dikirimkan dengan lancar.

Padahal, sebelum masalah re-silicon chip dasar seri B100, NVIDIA sudah melakukan penyesuaian karena masalah tingkat hasil CoWoS-L yang kurang dari 95%. Pada B200A yang menggunakan chip dasar B102, diganti dengan CoWoS- S Untuk pengemasan, rencana awalnya adalah membagi tekanan kapasitas produksi CoWoS-L dan memastikan produksi lebih banyak chip Blackwell pada tahun 2025. Sekarang penyesuaian ini juga dapat membantu Nvidia mengatasi masalah penundaan yang disebabkan oleh masalah desain cetakan GPU, dan juga dapat Membantu meningkatkan pengiriman chip Blackwell secara keseluruhan pada tahun 2025.

02 Siapa yang mencubit “leher” Nvidia?

Ada banyak diskusi di masa lalu bahwa NVIDIA terjebak dalam kekuatan komputasi, tetapi "leher" NVIDIA sendiri tertahan oleh perusahaan-perusahaan hulu seperti HBM Memory.

Harus dikatakan bahwa pasokan modul konektor cepat HBM dan QCD berpendingin cairan saat ini relatif terbatas, namunPasokan yang ketat tidak akan menunda pengiriman, namun paling tidak akan menyebabkan pengurangan pengiriman, dan teknologi suku cadang yang kekurangan pasokan pada tahap ini masih terjamin. Misalnya, Samsung telah memutuskan untuk bergabung dengan sistem pemasok HBM NVIDIA.

Apa yang benar-benar akan mempengaruhi pengiriman chip Blackwell adalah produksi berbagai server selanjutnya.

Menurut berita dari rantai industri, tidak hanya chip yang saat ini memasuki tahap produksi, tetapi juga komponen papan, peralatan switching, rak, solusi pendingin, dll.

Saat memperluas dari kabinet 8 kartu ke kabinet 72 kartu, banyak masalah yang perlu dipertimbangkan, termasuk konvergensi bandwidth jaringan dan kondisi kerja optimal dari berbagai strategi paralel (segmentasi data model, penghitungan tersegmentasi, penyalinan, dan reorganisasi) di seluruh kabinet, dll. Selain itu, karena jumlah palet lebih banyak, kepadatannya lebih tinggi dan lebih kompak, masalah rumit seperti jumlah kabel internal, peralihan kecepatan tinggi, dan pembuangan panas berarti rak juga harus didesain ulang, dan semuanya harus diuji. Sekarang.

Karena server NVL36/72 adalah solusi teknis baru, kesempurnaan semua subsistem dan integrasi juga merupakan salah satu risikonya keseluruhan sistem juga menjadi pertimbangan. Dasar kualitas produk generasi ini.

Untuk seri GB200 yang menggunakan pendingin air untuk pembuangan panas, masalah kebocoran cairan juga harus diperhatikan, yang terutama melibatkan tiga komponen: pelat pendingin air, pipa cabang, unit distribusi pendingin cairan CDU, dan konektor cepat QCD , konektor cepat paling rentan terhadap kebocoran, jadi kebocoran Ini juga merupakan masalah yang paling menyusahkan bagi produsen server. Kualitasnya adalah yang paling penting dan secara langsung melibatkan pembagian tanggung jawab. Biasanya,Jika ada kebocoran, Nvidia akan membayar kompensasi terlebih dahulu kepada pelanggan, dan kemudian mengajukan klaim ke produsen sistem seperti Hon Hai dan Quanta. Rak server AI dapat dengan mudah menelan biaya jutaan dolar. Kompensasi kebocoran cairan dapat langsung membuat bisnis kecil bangkrut.

Dilihat dari berita yang kami terima, produsen sistem seperti Nvidia, Hon Hai, dan Quanta masih menguji pembuangan panas pendingin air, dan belum memperkenalkannya dalam jumlah besar.

Seperti disebutkan sebelumnya, tidak peduli apakah itu pabrik chip, pabrik sistem, atau pabrik pendingin, yang menghadapi kompensasi jutaan dolar, tidak ada produsen yang mau mengambil risiko ini dengan mudah " sebelum mereka dapat diimplementasikan dalam skala besar.

03 Akankah Nvidia “berbalik”?

Kami telah menyebutkan di awal artikel bahwa nilai pasar Nvidia telah turun dari rekor tertinggi dalam sejarah lebih dari 3,3 triliun dolar AS menjadi 2,6 triliun dolar AS saat ini, turun lebih dari 26%. dengan yakin mengharapkan hasil operasional kuartal kedua. Perusahaan ini mengumpulkan US$28 miliar, dan kesalahannya berada dalam kisaran ±2%.

Sekarang, karena masalah desain cetakan GPU, tingkat hasil pengemasan CoWoS kurang dari 95% yang diharapkan, dan berbagai solusi teknologi server belum diselesaikan, yang akan mempengaruhi kelancaran pengiriman chip Blackwell dari 2 Daftar dengan kapitalisasi pasar triliunan?

Bisa dikatakan tidak akan ada masalah besar dalam jangka pendek, kuncinya, Chip Blackwell dijadwalkan untuk produksi batch kecil pada kuartal ketiga, dan tidak akan ditingkatkan hingga kuartal keempat, dan ini hanya ritme penjadwalan produksi TSMC. Setelah menyelesaikan produksi cetakan GPU, langkah selanjutnya adalah CoWoS, dan kemudian pabrik Bumping. Terakhir, kami pergi ke pabrik sistem seperti Industrial Fii dan Wistron untuk perakitan., lalu menyelesaikan pengiriman server dan implementasi kinerja.

Singkatnya, pengiriman server berdampak pada pendapatan Nvidia, bukan pengiriman chip TSMC.

Sesuai ritme saat ini, pengiriman server massal tercepat tidak akan terjadi hingga kuartal pertama tahun 2025. Dengan kata lain, Nvidia tidak akan mencapai peningkatan bisnis yang besar pada chip Blackwell hingga kuartal pertama tahun depan.Dengan kata lain, chip ini tidak akan memberikan kontribusi pendapatan yang besar bagi Nvidia hingga tahun depan. Hal ini juga merupakan ekspektasi yang wajar dari pasar aslinya dan tidak akan tercermin pada kinerja kuartal kedua atau bahkan kuartal ketiga.

Bagi Nvidia, waktu yang tepat untuk menemukan masalah desain pada kuartal ketiga, mencari solusi, dan kemudian menjalankan proses super panas di TSMC masih di pertengahan hingga akhir kuartal keempat, mungkin antara November dan Desember, bagian ini kapasitas produksinya sendiri telah dijadwalkan untuk selesai, dan produksi pada dasarnya dapat terus dijadwalkan dalam 3 bulan. Selain itu, terlepas dari N4P atau CoWoS-S/L, TSMC memiliki kapasitas produksi yang lebih besar dari sekarang, dan telah meningkatkan tingkat pemanfaatan menjadi 120. % untuk mengatasi cacat desain. Masalah yang menyebabkan tertundanya pengiriman chip yang semula dijadwalkan dikirim dalam jumlah kecil pada kuartal ketiga pada dasarnya bukanlah masalah besar.Secara tahunan, meskipun pengiriman Blackwell akan berkurang tahun ini, namun jumlahnya tidak akan berkurang banyak.

Bagi Nvidia dan seluruh rantai industri hilir, masalah chip kini telah terungkap, dan berbagai subsistem server juga harus diuji di berbagai lingkungan aktual pada waktu yang bersamaan. Yang lebih optimis adalah bahwa chip yang diproduksi saat ini hanya akan mengalami masalah di lingkungan bertegangan tinggi tertentu. Chip ini dapat diserahkan ke produsen sistem server seperti Hon Hai untuk berbagai penyesuaian dan pengujian tetap sama seperti sebelumnya, masih ada waktu setengah tahun untuk mendapatkan chip untuk mensimulasikan pengujian di berbagai lingkungan, dan waktu pengiriman skala besar terakhir akan jatuh pada bulan Februari-Maret 2025.

Dilihat dari situasi saat ini, pada kuartal kedua, dengan latar belakang banjirnya pengiriman H200, kinerjanya kemungkinan besar akan sesuai dengan pedoman dan melampaui ekspektasi. Apalagi, pendapatan utama di tahun 2023 adalah seri H200 , chip Blackwell tahun ini akan diproduksi dalam jumlah kecil. Skala pengiriman akan dikurangi dari rencana awal, menjadi sekitar 20.000 wafer (CoWoS-L dikurangi dari 41K menjadi kurang dari 20K), yang berarti perkiraan kinerja NVIDIA sekitar AS. $8-9,5 miliar, tetapi seri H akan meningkatkan jumlah wafer. Kerugian kinerja kali ini mungkin sekitar US$5 miliar karena penjualan massal dan tindakan tanggap darurat untuk mempercepat kapasitas produksi setelah produksi seri B. Ini mungkin tercermin di laporan keuangan kuartal keempat, dan pasti akan ada dampaknya pada harga saham.

Dibandingkan dengan chip Blackwell yang "terbalik", masalah yang patut mendapat perhatian dan perhatian lebih adalah Nvidia meluncurkan SKU baru setiap tahun, yang membutuhkan banyak teknologi inovatif. Kecepatannya sangat cepat jika tidak ada cukup waktu untuk mengoptimalkan dan meningkatkan keandalan Ada kemungkinan terjadinya pembalikan total pada suatu produk dalam beberapa tahun ke depan. Ini adalah logika pengembangan Nvidia yang perlu kita kaji ulang, dan ini juga merupakan peluang yang ditunggu-tunggu oleh para pesaing.

Dari perspektif yang lebih makro, meskipun tidak ada masalah dengan logika pertumbuhan NVIDIA dalam dua tahun terakhir, risiko pembangunan jangka panjang semakin meningkat.Risiko ini tidak hanya tercermin dalam perubahan teknologi yang gila dan radikal di setiap generasi, tetapi juga dalam penerapan dan masalah permintaan berikutnya teknologi, seperti teknologi baru. Perusahaan hulu yang memiliki teknologi chip canggih atau menguasai model besar telah memulai penelitian mandiri.

Saya memang telah melihat banyak laporan dalam dua hari terakhir. Mengenai raksasa China dan Amerika, mereka semua berhenti melakukan penelitian sendiri. Berikut ini berita untuk referensi Anda:Buka AIProyek chip yang dikembangkan sendiri hampir dalam negosiasi dengan TSMC.