Musk membeli 100.000 H100 untuk membangun superkomputer AI terkuat di dunia, dan pelatihan model generasi berikutnya dimulai

Musk mengambil 100.000 H100 untuk membangun superkomputer AI paling kuat di dunia, dan pelatihan model generasi berikutnya dimulai

2024-07-23

Mingmin berasal dari Kuil Aofei
Qubit |. Akun publik QbitAI

Musk membangun cluster AI paling kuat di dunia!

Kabar eksplosif tersebut diumumkan secara resmi oleh Lao Ma sendiri di Twitter.

Pada pukul 04.20 waktu setempat, superkluster Memphis yang dibangun bersama oleh xAI, X, dan NVIDIA telah memulai pelatihan.
terdiri dariTerdiri dari 100.000 lembar H100, saat ini merupakan cluster pelatihan terkuat di dunia!

Skala ini jauh melampaui Frontier, superkomputer terkuat di dunia.

Anggota pendiri xAI menindaklanjutinya dengan mengatakan:

Ketika kami mendirikan perusahaan ini setahun yang lalu, tujuan kami adalah mencapai tiga keunggulan: keunggulan data, keunggulan bakat, dan keunggulan komputasi.
Mulai hari ini, kami memiliki ketiganya!

Di bawah postingan Musk, Supermicro, yang memiliki hubungan dekat dengan Nvidia dan berspesialisasi dalam teknologi pendingin cair, juga mengirimkan ucapan selamat. Pendirinya, Charles Liang, berkata:

Sangat menyenangkan kami membuat sejarah bersama Musk.

Pada saat yang sama, Musk menambahkan bahwa penyelesaian cluster akan memberikan keuntungan yang signifikan untuk melatih model terkuat di dunia pada tahun ini.

Menurut pernyataan sebelumnya, dibutuhkan 100.000 H100 untuk melatih Grok-3.

△Tembakan cluster dari atas

Lebih dari itu, pada bulan Juni tahun ini, dia menyebutkan bahwa menginvestasikan listrik sebesar 1GW untuk H100 tidaklah sepadan. Musim panas mendatang, cluster yang terdiri dari 300.000 B200 mungkin akan mulai digunakan.

Cluster yang dibangun sendiri lebih percaya diri

Pada bulan Mei tahun ini, The Information melaporkan bahwa Musk akan membangun cluster superkomputer yang terdiri dari 100.000 H100 pada musim gugur tahun 2025 dan bekerja sama dengan Oracle.

Dilaporkan xAI akan menginvestasikan US$10 miliar untuk menyewa server Oracle.

Saat itu masih ada yang mempertanyakan kenapa dibangun tahun depan tapi tetap menggunakan teknologi generasi sebelumnya?

NVIDIA telah meluncurkan B100 dan B200 berdasarkan arsitektur Blackwell baru, yang dapat melatih model besar jauh lebih efisien daripada H100.

Kalau dilihat sekarang, mungkinkah waktu yang diberitakan salah? Akan lebih masuk akal jika rampung tahun ini.

Baru-baru ini, Musk menanggapi kabar penghentian kerja sama dengan Oracle untuk membangun cluster superkomputer.

Dia mengatakan bahwa xAI menerima 24.000 sumber daya H100 dari Oracle untuk melatih Grok-2. Kabar terkait membuktikan bahwa kerja sama penyewaan server antara xAI dan Oracle masih terus berlanjut.

Namun, dalam pembangunan cluster H100 100.000 kartu, kami memilih model buatan sendiri dan mempromosikannya secepat mungkin. Konon hanya butuh 19 hari untuk memasang 100.000 kartu.

Kita sendiri yang harus mengambil alih kemudi.

Kabar selanjutnya menunjukkan bahwa Dell dan Super Micro menjadi mitra baru Musk.

CEO Dell dan CEO Supermicro baru-baru ini mentweet bahwa kerja sama sedang berlangsung dan menyertakan foto pusat data.

Selama proses pembangunan klaster, Musk secara pribadi mengunjungi lokasi tersebut.

Pada saat yang sama, terungkap juga di Twitter bahwa Grok sedang berlatih di Memphis dan Grok-2 akan diluncurkan pada bulan Agustus.

Perlu disebutkan bahwa Oracle sebelumnya telah menyampaikan kekhawatirannya tentang pasokan listrik di lokasi pendirian cluster.

Menurut perkiraan, 100.000 unit H100 memerlukan 150 megawatt daya yang dialokasikan dari jaringan listrik, namun Musk tampaknya telah memecahkan masalah ini.

Kabar terkini, klaster saat ini untuk sementara memperoleh 8 megawatt. Setelah penandatanganan perjanjian pada 1 Agustus nanti, akan diperoleh 50 MW. Saat ini terdapat 32.000 kartu yang online dan akan 100% online pada kuartal keempat - cukup untuk mendukung operasi pelatihan model skala GPT-5.

Singkatnya, yang pasti adalah bahwa semua raksasa AI percaya bahwa memegang kekuatan komputasi di tangan mereka sendiri akan lebih dapat diandalkan, dan layak mengeluarkan banyak uang untuk hal ini.

Menurut perkiraan biaya, harga setiap H100 sekitar US$30.000-40.000. Cluster superkomputer Musk akan bernilai US$4 miliar (setara dengan lebih dari RMB 29 miliar).

Berita sebelumnya menyebutkan bahwa Microsoft dan OpenAI sedang mengembangkan proyek pusat data senilai US$100 miliar yang disebut "Stargate".

Menurut orang-orang yang mengetahui masalah ini, kesepakatan sedang dicapai antara Oracle dan Microsoft yang melibatkan 100,000 B200. Cluster ini mungkin siap pada musim panas mendatang.

Selain itu, Meta juga diketahui memiliki cluster superkomputer yang mewah, dan vendor cloud seperti AWS juga berinvestasi lebih banyak di pusat data.

Referensi:
[1]https://x.com/elonmusk/status/1810727394631950752
[2]https://x.com/elonmusk/status/1815325410667749760
[3]https://x.com/dylan522p/status/1815494840152662170
[4]https://x.com/MichaelDell/status/1803385185984974941

berita

Musk mengambil 100.000 H100 untuk membangun superkomputer AI paling kuat di dunia, dan pelatihan model generasi berikutnya dimulai

Perkenalan

informasi kontak saya