berita

ming-chi kuo mengatakan nvidia berhenti mengembangkan kabinet ai versi kabinet ganda gb200 (nvl36*2)

2024-10-02

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

menurut berita it house pada 2 oktober, ming-chi kuo merilis pengarahan investasi pasar kemarin (1 oktober). dilaporkan bahwa karena tidak adanya persyaratan penyesuaian pelanggan, nvidia tidak lagi menyediakan versi kabinet ganda gb200 (2 nvl36). ), dan hanya menyediakan versi kabinet tunggal. versi kabinet gb200 nvl72, sedangkan versi kabinet tunggal nvl36 masih mempertahankan rencana pengembangan dan pengiriman asli.

it home melampirkan informasi pengarahan ming-chi kuo sebagai berikut:

kesimpulannya:

hal ini tidak akan mempengaruhi tren positif ai dan nvidia dalam jangka panjang, namun dalam jangka pendek mungkin menyebabkan beberapa pelaku pasar mempertanyakan kemampuan eksekusi nvidia dan rantai pasokan.

nvidia sering merevisi cetak biru produk server ai-nya baru-baru ini. saya rasa hal ini karena nvidia ingin mencapai keseimbangan yang lebih baik antara eksekusi rantai pasokan, keunggulan kompetitif, dan kebutuhan pelanggan dengan sumber daya yang terbatas (menghentikan pengembangan nvl36*2 hanyalah salah satu contohnya). ini adalah hal yang baik dan mewakili pendekatan nvidia yang lebih pragmatis terhadap perencanaan produk, namun proses perubahan mungkin membuat beberapa pelaku pasar bingung dengan kekacauan rantai pasokan.

karena rendahnya visibilitas bauran pengiriman produk server blackwell pada tahun 2025 (beberapa bulan yang lalu, pasar secara umum percaya bahwa hanya akan ada nvl36, nvl72 dan nvl36*2), prospek tahun 2025 dari beberapa pemasok, seperti perakitan dan pendinginan, akan sangat terpengaruh.

perbandingan dua versi 72gpu: alasan memilih nvl72 dan membatalkan nvl36*2

sumber daya pembangunan terbatas.rencana awalnya adalah tiga kasus gb200 (nvl36, nvl72, nvl36*2) sedang dikembangkan pada waktu yang bersamaan. diharapkan versi pengembangan (development drop: devdrop) mulai pertengahan november akan menyatu menjadi nvl72 dan nvl36*2 (karena nvl36 "secara teoritis" siap memasuki tahap produksi massal), dan versi final keduanya akan selesai pada pertengahan maret 2025. jaminan kualitas (qa). namun, masih terdapat ketidakpastian dalam pengembangan nvl36, apalagi pengembangan dua versi gpu 72 secara bersamaan (nvl72 dan nvl36*2).

nvl72 menghemat ruang pusat data.jika nvl72 dapat mengatasi tantangan desain pembuangan panas sidecar dengan baik, nvl72 akan memerlukan satu kabinet lebih sedikit dibandingkan nvl36*2, sehingga meningkatkan efisiensi ruang pusat data.

efisiensi inferensi nvl72 lebih baik.dengan memanfaatkan desain perangkat lunak yang dapat diparalelkan, terdapat sedikit perbedaan dalam hasil pelatihan ai llm antara nvl72 dan nvl36*2. namun, dalam proses penalaran yang tidak atau tidak mudah untuk memparalelkan desain (seperti model autoregresif), performa nvl72 lebih mudah mengungguli nvl36*2.

preferensi pelanggan utama.misalnya, microsoft lebih memilih nvl72 daripada nvl36*2.

memenuhi janji publik. fokus publisitas nvidia selalu pada nvl72 versi kabinet tunggal. untuk memenuhi komitmen publiknya dan dengan sumber daya yang terbatas, prioritas pengembangan nvl72 lebih tinggi daripada nvl36*2.

pengembangan nvl72 menghadapi tantangan teknis yang belum pernah terjadi sebelumnya, dan visibilitas jadwal produksi massal saat ini masih rendah

tantangan terbesar dalam pengembangan nvl72 terutama berasal dari persyaratan tdp (titik desain termal) sebesar 132kw. ini adalah server dengan konsumsi daya tertinggi dalam sejarah nvidia dan rantai pasokan membutuhkan lebih banyak waktu untuk menyelesaikan masalah teknis yang belum pernah terjadi sebelumnya.

perlu dicatat bahwa tdp mengacu pada konsumsi daya rata-rata dari operasi berkelanjutan. jika desain yang tidak tepat menyebabkan konsumsi daya maksimum sesaat (disebut edp (electrical design point) oleh nvidia) lebih tinggi dari tdp, mungkin diperlukan lebih dari dua sidecar. jika demikian, tidak hanya kompleksitas desain pembuangan panas dan kesulitan produksi massal yang meningkat, dan keunggulan nvl72 dalam menghemat ruang pusat data juga hilang.

tantangan desain lainnya dari sidecar adalah mengontrol suhu yang mendekat secara stabil dalam kisaran 5–10°c. jika standar dilonggarkan, stabilitas sistem mungkin terpengaruh.

perlu dicatat bahwa tantangan konsumsi daya tinggi yang disebutkan di atas tidak hanya melibatkan sidecar, tetapi seluruh komponen dan desain sistem.

survei rantai pasokan terbaru saya menunjukkan bahwa jadwal produksi massal nvl72 mungkin baru akan terjadi setelah 2h25 (vs. target optimis nvidia adalah 1h25).