Apa yang disebut “hot chip” Nvidia sebenarnya adalah “platform panas”

Apa yang disebut “hot chip” NVIDIA sebenarnya adalah “platform panas”

2024-08-24

Nvidia mendapat berita buruk yang jarang terjadi awal bulan ini ketika muncul laporan bahwa akselerator GPU "Blackwell" yang sangat dinanti-nantikan oleh perusahaan dapat tertunda hingga tiga bulan karena cacat desain. Namun, juru bicara Nvidia mengatakan semuanya berjalan sesuai rencana, dengan beberapa pemasok mengatakan tidak ada yang berubah, sementara yang lain mengatakan ada beberapa penundaan yang normal.

Orang dalam industri berharap bahwa pengguna akan mengetahui lebih banyak tentang situasi Blackwell ketika Nvidia mengumumkan hasil keuangan kuartal kedua tahun fiskal 2025 pada Rabu depan.

Dilaporkan bahwa chip Blackwell - B100, B200 dan GB200 - akan menjadi fokus konferensi Hot Chips tahun ini di Universitas Stanford di California minggu depan, di mana Nvidia akan memperkenalkan arsitekturnya, merinci beberapa inovasi baru, dan menguraikan metode yang digunakan dalam merancang kasus chip AI dan membahas penelitian pendingin cair di pusat data untuk menjalankan beban kerja AI yang terus meningkat ini. Menurut Dave Salvador, direktur produk akselerasi komputasi Nvidia, perusahaan juga akan memamerkan chip Blackwell yang sudah berjalan di salah satu pusat datanya.

Sebagian besar hal yang dibicarakan Nvidia tentang Blackwell sudah diketahui, seperti GPU Blackwell Ultra yang akan hadir tahun depan, dan GPU Rubin serta CPU Vera generasi berikutnya yang mulai diluncurkan pada tahun 2026. Namun, Salvator menekankan,Ketika berbicara tentang Blackwell, penting untuk menganggapnya sebagai sebuah platform, bukan sebuah chip individual.Salvator mengatakan kepada wartawan dan analis pada pengarahan minggu ini sebagai persiapan untuk Hot Chips.

“Ketika Anda berpikir tentang Nvidia dan platform yang kami bangun, GPU, jaringan, dan bahkan CPU kami hanyalah permulaan,” katanya. “Kami sedang melakukan rekayasa tingkat sistem dan pusat data untuk membangun hal-hal ini yang benar-benar dapat terwujud dan memecahkan masalah nyata tersebut. Sistem dan Platform untuk Tantangan AI Generatif yang Sulit. Kita telah melihat ukuran model bertambah seiring waktu, dan sebagian besar aplikasi AI generatif perlu dijalankan secara real time, dan persyaratan untuk inferensi telah meningkat secara dramatis dalam beberapa waktu terakhir. tahun. Inferensi model bahasa besar secara real-time memerlukan banyak GPU dan, dalam waktu dekat, beberapa node server.”

Ini tidak hanya mencakup GPU Blackwell dan CPU Grace, tetapi juga chip NVLink Switch, DPU Bluefield-3, NIC ConnextX-7 dan ConnectX-8, switch Ethernet Spectrum-4, dan switch InfiniBand Quantum-3. Salvator juga menunjukkan informasi berbeda untuk NVLink Switch (di bawah), Compute, Spectrum-X800 dan Quantum-X800.

Nvidia meluncurkan arsitektur Blackwell yang sangat dinanti-nantikan pada konferensi GTC 2024 pada bulan Maret tahun ini, dan produsen skala besar serta produsen peralatan asli dengan cepat mendaftar. Perusahaan ini mengincar bidang AI generatif yang berkembang pesat, di mana model bahasa besar (LLM) akan menjadi lebih besar, sebagaimana dibuktikan oleh Meta Llama 3.1, yang diluncurkan pada bulan Juni dengan model 4050 A dengan miliaran parameter. Salvator berkata,Ketika LLM semakin besar dan kebutuhan akan inferensi real-time tetap ada, LLM akan memerlukan lebih banyak komputasi dan latensi yang lebih rendah, sehingga memerlukan pendekatan platform.

Dia berkata: "Seperti kebanyakan LLMS lainnya, layanan yang akan didukung oleh model ini diharapkan berjalan secara real time. Untuk melakukan hal ini, Anda memerlukan banyak GPU. Tantangannya adalah bagaimana menggabungkan kinerja tinggi GPU, kinerja tinggi GPU, dan kinerja GPU yang tinggi." Ada keseimbangan besar antara pemanfaatan dan memberikan pengalaman pengguna yang luar biasa kepada pengguna akhir yang menggunakan layanan berbasis AI ini.”

01 Kebutuhan akan kecepatan

Dengan Blackwell, Nvidia menggandakan bandwidth per switch dari 900 GB/detik menjadi 1,8 TB/detik. Teknologi Scalable Hierarchical Aggregation and Reduction Protocol (SHARP) dari perusahaan menghadirkan lebih banyak komputasi ke dalam sistem yang sebenarnya berada di switch. Hal ini memungkinkan kami melakukan beberapa pembongkaran dari GPU untuk membantu mempercepat kinerja, dan juga membantu memperlancar lalu lintas jaringan pada fabric NVLink. Ini adalah inovasi yang terus kami dorong di tingkat platform.

Multi-node GB200 NVL72 adalah sasis berpendingin cairan yang menghubungkan 72 GPU Blackwell dan 36 CPU Grace dalam desain skala rak yang menurut Nvidia berfungsi sebagai GPU tunggal untuk LLM triliunan parameter seperti GPT-MoE-1.8T Memberikan kinerja yang lebih tinggi kinerja inferensi. Kinerjanya 30 kali lipat dari sistem HGX H100, dan kecepatan pelatihannya 4 kali lipat dari H100.

Nvidia juga menambahkan dukungan asli untuk FP4, menggunakan Quasar Quantization System milik perusahaan, yang dapat memberikan akurasi yang sama seperti FP16 sekaligus mengurangi penggunaan bandwidth sebesar 75%. Sistem Kuantisasi Quasar adalah perangkat lunak yang memanfaatkan Mesin Transformer Blackwell untuk memastikan akurasi, dan Salvator mendemonstrasikannya dengan membandingkan gambar AI generatif yang dibuat menggunakan FP4 dan FP16, yang hampir tidak menunjukkan perbedaan nyata.

Dengan menggunakan FP4, model ini dapat menggunakan lebih sedikit memori dan berperforma lebih baik daripada FP8 di GPU Hopper.

02 Sistem pendingin cair

Dalam hal pendinginan cair, Nvidia akan memperkenalkan metode chip-to-chip langsung air hangat yang dapat mengurangi penggunaan daya pusat data sebesar 28%.

“Yang menarik dari pendekatan ini adalah beberapa manfaatnya, yang mencakup peningkatan efisiensi pendinginan, biaya pengoperasian yang lebih rendah, masa pakai server yang lebih lama, dan kemungkinan penggunaan kembali panas yang ditangkap untuk penggunaan lain,” kata Salvator. “Ini tentu akan membantu meningkatkan efisiensi Pendinginan Salah satu caranya adalah, seperti namanya, sistem ini sebenarnya tidak menggunakan lemari es. Kalau dipikir-pikir cara kerja lemari es, bekerjanya sangat baik, dengan adanya larutan air hangat, kita tidak perlu menggunakan pendingin , yang menghemat energi dan mengurangi biaya pengoperasian.”

Topik lainnya adalah bagaimana Nvidia memanfaatkan kecerdasan buatan, merancang chip kecerdasan buatannya menggunakan Verilog, bahasa deskripsi perangkat keras yang mendeskripsikan sirkuit dalam kode yang telah digunakan selama empat dekade. NVIDIA membantu dengan agen Verilog otonom yang disebut VerilogCoder.

“Peneliti kami telah mengembangkan model bahasa besar yang dapat digunakan untuk mempercepat pembuatan kode Verilog yang menggambarkan sistem kami,” katanya. “Kami akan menggunakannya pada produk generasi mendatang untuk membantu membangun kode-kode tersebut banyak hal. Ini dapat membantu mempercepat proses desain dan verifikasi, mempercepat aspek manual desain dan pada dasarnya mengotomatiskan banyak tugas.”

berita

Apa yang disebut “hot chip” NVIDIA sebenarnya adalah “platform panas”

Perkenalan

Informasi kontak saya