berita

NVIDIA Blackwell beroperasi di pusat data: NVLINK ditingkatkan menjadi 1,4TB/dtk, image FP4 GenAI pertama dirilis

2024-08-24

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

IT House melaporkan pada 24 Agustus bahwa Nvidia mengundang beberapa media untuk mengadakan pengarahan dan mendemonstrasikan platform Blackwell kepada wartawan teknologi untuk pertama kalinya. NVIDIA akan menghadiri acara Hot Chips 2024 yang diadakan pada 25-27 Agustus untuk mendemonstrasikan penggunaan platform Blackwell di pusat data.

Menyangkal berita Blackwell menunda pencatatan

Pada pengarahan ini, Nvidia membantah berita penundaan pencatatan Blackwell dan membagikan lebih banyak informasi tentang pusat data Goliath.

Nvidia mendemonstrasikan pengoperasian Blackwell di salah satu pusat datanya selama pengarahan dan menekankan bahwa Blackwell mengalami kemajuan sesuai rencana dan akan dikirimkan ke pelanggan akhir tahun ini.

Ada rumor bahwa Blackwell memiliki semacam cacat atau masalah yang menghalanginya untuk dirilis ke pasar tahun ini.

Pengantar Blackwell

NVIDIA mengatakan Blackwell lebih dari sekedar sebuah chip, ini adalah sebuah platform. Seperti Hopper, Blackwell mencakup sejumlah besar desain untuk pelanggan pusat data, komputasi awan, dan kecerdasan buatan, dan setiap produk Blackwell terdiri dari chip yang berbeda.

Chip yang disertakan dalam IT Home adalah sebagai berikut:

GPU Blackwell

CPU Rahmat

Chip Sakelar NVLINK

Lapangan Biru-3

Hubungkan X-7

Hubungkan X-8

Spektrum-4

Kuantum-3

jembatan Blackwell

Nvidia juga membagikan gambar baru dari berbagai jembatan dalam rangkaian produk Blackwell. Ini adalah gambar pertama dari cable tray Blackwell yang dibagikan, yang menggambarkan keahlian teknik ekstensif yang diperlukan untuk merancang platform pusat data generasi mendatang.

Targetkan model AI triliun parameter

Blackwell dirancang untuk memenuhi kebutuhan kecerdasan buatan modern dan memberikan kinerja luar biasa untuk model bahasa besar seperti 405B Llama-3.1 milik Meta. Ketika LLM menjadi lebih besar dan memiliki lebih banyak parameter, pusat data akan memerlukan lebih banyak komputasi dan latensi yang lebih rendah.

Metode inferensi multi-GPU

Pendekatan inferensi multi-GPU adalah melakukan komputasi pada beberapa GPU untuk mencapai latensi rendah dan throughput tinggi, namun menggunakan rute multi-GPU memiliki komplikasinya sendiri. Setiap GPU dalam lingkungan multi-GPU harus mengirimkan hasil penghitungan ke GPU lain di setiap lapisan, yang memerlukan komunikasi GPU-ke-GPU bandwidth tinggi.

Pendekatan inferensi multi-GPU adalah melakukan komputasi pada beberapa GPU untuk mencapai latensi rendah dan throughput tinggi, namun menggunakan rute multi-GPU memiliki komplikasinya sendiri. Setiap GPU dalam lingkungan multi-GPU harus mengirimkan hasil penghitungan ke GPU lain di setiap lapisan, yang memerlukan komunikasi GPU-ke-GPU bandwidth tinggi.

Sakelar NVLINK yang lebih cepat

Dengan Blackwell, NVIDIA memperkenalkan switch NVLINK yang lebih cepat yang menggandakan bandwidth fabric menjadi 1,8 TB/dtk. Sakelar NVLINK sendiri didasarkan pada chip 4NP node 800mm2 TSMC, yang dapat menskalakan NVLINK hingga 72 GPU di rak GB200 NVL72.

Chip ini menyediakan bandwidth dua arah menyeluruh sebesar 7,2 TB/dtk melalui 72 port, dengan daya komputasi dalam jaringan sebesar 3,6 TFLOP. Baki sakelar NVLINK dilengkapi dua sakelar ini, memberikan total bandwidth hingga 14,4 TB/dtk.

Pendinginan air

NVIDIA menggunakan pendingin air untuk meningkatkan kinerja dan efisiensi. Sistem GB200, Grace Blackwell GB200, dan B200 akan menampilkan solusi pendingin cair baru ini, yang dapat mengurangi biaya daya untuk fasilitas pusat data hingga 28%.

Gambar kecerdasan buatan pertama dihasilkan menggunakan perhitungan FP4

NVIDIA™ (NVIDIA®) juga membagikan gambar kecerdasan buatan pertama di dunia yang dihasilkan menggunakan komputasi FP4. Gambar tersebut menunjukkan bahwa model kuantisasi FP4 menghasilkan gambar kelinci 4-bit yang sangat mirip dengan model FP16, namun lebih cepat.

Gambar ini dihasilkan oleh MLPerf menggunakan Blackwell dalam difusi stabil. Sekarang, tantangan dalam mengurangi akurasi (dari FP16 ke FP4) adalah Anda kehilangan sejumlah akurasi.