Versi B200A yang dikebiri Nvidia terungkap! Arsitektur chip yang paling kuat sulit untuk diproduksi: kapasitas produksi tidak mencukupi, sehingga kita perlu menggunakan keterampilan pisau untuk membuatnya

Versi B200A yang dikebiri Nvidia terungkap!Arsitektur chip terkuat sulit diproduksi: kapasitas produksi tidak mencukupi, dan dapat dibuat dengan keterampilan pisau

2024-08-05

Mengchen berasal dari Kuil Aofei
Qubit |. Akun publik QbitAI

Chip NVIDIA yang paling kuat, B200, terpaksa ditunda selama tiga bulan, dan banyak rumor yang beredar.

Inilah tindakan balasan Lao Huang: versi chip yang dikebiriB200Apaparan.

Apakah ini?“Kapasitas produksinya tidak mencukupi, jadi kami perlu menggunakan keterampilan pisau untuk menebusnya.”？

Benar sekali, menurut analisis SemiAnalysis, masalah utama yang dihadapi B200 adalah tepatnyaKapasitas produksi tidak mencukupi, lebih spesifikProses pengemasan baru TSMC, CoWoS-L, memiliki kapasitas produksi yang tidak mencukupi。

Versi B200A yang dikebiri pertama-tama akan digunakan untuk memenuhi kebutuhan sistem AI kelas menengah hingga bawah.

Versi B200A yang dikebiri, bandwidth memori menyusut

Kenapa B200A dikatakan versi kastrasi?

Indikator ini terutama tercermin pada bandwidth memori.4 TB/detik, dibandingkan secara langsung dengan 8 TB/s yang dipromosikan oleh B200 pada konferensi pers di awal tahun.Menyusut setengahnya。

Di balik ini adalah proses pengemasan oleh CoWoS-LMengembalikan CoWoS-S, bahkan B200A dikatakan kompatibel dengan teknologi pengemasan 2.5D non-TSMC lainnya seperti Samsung.

Secara umum, kemasan canggih CoWoS saat ini memiliki tiga varian, CoWoS-S、CoWoS-Rdan CoWoS-Saya, perbedaan utamanya terletak pada solusi interposer.

interposerAntara wafer chip dan papan sirkuit cetak, ia mewujudkan pertukaran informasi antara chip dan substrat kemasan, sekaligus memberikan dukungan mekanis dan kemampuan pembuangan panas.

CoWoS-S memiliki struktur paling sederhana, dan interposernya setara dengan pelat silikon.

CoWoS-R digunakanteknologi RDL(Lapisan redistribusi, lapisan redistribusi), interposer adalah bahan logam tipis dengan struktur multi-lapisan.

CoWoS-L adalah yang paling kompleks, menambahkan achip LSI(Interkoneksi Silikon Lokal, interkoneksi silikon lokal), yang dapat mencapai kepadatan kabel yang lebih tinggi dan juga dapat dibuat menjadi ukuran yang lebih besar.

TSMC meluncurkan CoWoS-L karena teknologi lama menghadapi kesulitan untuk terus berkembang dalam ukuran dan kinerja.

Misalnya, pada chip akselerasi AI AMD MI300, lapisan interposer CoWoS-S telah diperluas hingga 3,5 kali lipat dari standar aslinya, namun masih sulit untuk memenuhi kebutuhan pertumbuhan kinerja chip AI di masa depan.

Namun kini, ada kabar bahwa CoWoS-L mengalami beberapa masalah selama peningkatan kapasitas produksi, dan mungkin ada masalah antara silikon, interposer, dan substrat.Koefisien muai panas tidak sesuai sehingga mengakibatkan pembengkokan, perlu didesain ulang.

Di masa lalu, TSMC telah membangun kapasitas produksi CoWoS-S dalam jumlah besar, dengan Nvidia menempati bagian terbesar. Kini permintaan Nvidia dapat dengan cepat beralih ke CoWoS-L, namun TSMC memerlukan waktu untuk mengubah kapasitas produksinya ke proses baru.

Selain itu, ada kabar bahwa inti B200A (model internal B102) juga akan digunakan untuk membuat B20 edisi khusus di masa mendatang. Saya tidak akan menjelaskan detailnya.

Pelatihan B200 untuk model besar juga menghadapi tantangan lain

Spesifikasi utama yang dipromosikan oleh Blackwell adalah "unit komputasi generasi baru"GB200 NVL72, satu kabinet memiliki 36 CPU + 72 GPU.

Daya komputasinya sangat bagus. Daya komputasi pelatihan satu kabinet dengan presisi FP8 mencapai 720PFlops, mendekati kekuatan cluster superkomputer DGX SuperPod (1000PFlops) di era H100.

Namun konsumsi dayanya juga sangat baik. Menurut perkiraan Semianalisis,Kepadatan dayaKira-kira per kabinet125 kW , belum pernah terjadi sebelumnya. Hal ini membawa tantangan dalam hal pasokan listrik, pembuangan panas, desain jaringan, paralelisme, keandalan, dll.

Faktanya, industri ini belum sepenuhnya menjinakkan cluster kartu senilai H1 juta yang telah digunakan untuk pelatihan model besar.

Misalnya, laporan teknis seri Llama 3.1 menunjukkan bahwa rata-rata kegagalan terjadi setiap tiga jam sekali selama pelatihan, dimana 58,7% disebabkan oleh GPU.

Dari total 419 kegagalan, 148 disebabkan oleh berbagai kegagalan GPU (termasuk kegagalan NVLink), dan 72 secara khusus disebabkan oleh kegagalan memori HBM3.

Jadi secara umum, meskipun Lao Huang akhirnya mengirimkan B200, raksasa AI tersebut masih membutuhkan lebih banyak waktu untuk benar-benar membangun cluster B200 dan berinvestasi dalam pelatihan model besar.

GPT-5, Claude 3.5 Opus, Llama 4, dll., yang telah memulai pelatihan atau hampir selesai, tidak dapat digunakan. Kekuatan Blackwell tidak akan terlihat hingga model generasi berikutnya.

Satu hal lagi

Menanggapi rumor penundaan B200, NVIDIA memberikan tanggapan resmi:

Permintaan terhadap Hopper sangat kuat dan uji coba sampel Blackwell telah dimulai secara luas,Produksi diperkirakan akan meningkat pada paruh kedua tahun ini。

Belum ada jawaban spesifik apakah akan ditunda selama tiga bulan.

Namun Morgan Stanley lebih optimis dalam laporan terbarunya karena yakin produksi hanya akan dihentikan sekitar dua minggu.

Tautan referensi:
[1]https://x.com/dylan522p/status/1820200553512841239
[2]https://www.semianalysis.com/p/nvidias-blackwell-mengerjakan-ulang-pengiriman
[3]https://3dfabric.tsmc.com/bahasa Inggris/dedicatedFoundry/teknologi/cowos.htm
[4]https://www.trendforce.com/news/2024/03/21/news-blackwell-memasuki-pemandangan-melihat-lebih-dekat-cabang-tsmcs-cowos/
[5]https://ieeexplore.ieee.org/document/9501649

berita

Versi B200A yang dikebiri Nvidia terungkap!Arsitektur chip terkuat sulit diproduksi: kapasitas produksi tidak mencukupi, dan dapat dibuat dengan keterampilan pisau

Perkenalan

informasi kontak saya