Pertarungan AI untuk hegemoni dimulai! OpenAI segera membangun superkomputer 100.000 GB200, 100.000 H100 milik Musk akan mulai dilatih pada akhir bulan

Pertarungan AI untuk hegemoni dimulai! OpenAI segera membangun superkomputer 100.000 GB200, 100.000 H100 milik Musk akan memulai pelatihan pada akhir bulan

2024-07-16

Laporan Kebijaksanaan Baru

Editor: Taozi

[Pengantar Kebijaksanaan Baru] Musk secara resmi mengumumkan bahwa cluster superkomputer terbesar di dunia yang dibangun oleh xAI dibangun dengan 100.000 H100 dan diperkirakan akan memulai pelatihan pada akhir bulan ini. Di sisi lain, OpenAI kembali meningkatkan investasinya dan akan membangun superkomputer yang terdiri dari 100.000 GB200 untuk sepenuhnya menghancurkan xAI.

Untuk mencapai AGI, perusahaan di seluruh dunia bersiap untuk membakar semua GPU!

Informasi secara eksklusif melaporkan bahwa cluster superkomputer OpenAI berikutnya akan terdiri dari 100.000 blok GB200.

Ini menggunakan chip AI Nvidia yang paling kuat hingga saat ini.

Di sisi lain, xAI juga membangun apa yang dikenal sebagai "klaster superkomputer terbesar di dunia", yang terdiri dari 100 ribu H100, dan akan dimasukkan ke dalam pelatihan pada akhir bulan ini.

Dalam postingan terbaru Musk, ia langsung menanggapi laporan bahwa xAI dan Oracle telah menghentikan negosiasi kesepakatan server.

Dia mengatakan bahwa xAI telah membeli 24.000 H100 dari Oracle dan melatih Grok 2 pada chip ini.

Grok 2 saat ini sedang menjalani fine-tuning dan perbaikan bug, dan diharapkan siap dirilis bulan depan. Pada saat yang sama, xAI juga membangun cluster yang terdiri dari 100.000 H100 sendiri. Tujuannya adalah untuk mencapai waktu penyelesaian pelatihan tercepat dan berencana untuk memulai model pelatihan akhir bulan ini. Ini akan menjadi klaster pelatihan terkuat di dunia, dan keunggulannya sudah jelas. Alasan mengapa kami memutuskan untuk membangun sendiri 100.000 sistem chip H100, serta sistem besar generasi berikutnya, adalah karena daya saing inti kami bergantung pada kecepatan kami dibandingkan perusahaan AI lainnya. Ini adalah satu-satunya cara untuk mengejar pesaing Anda. Oracle adalah perusahaan yang luar biasa, dan ada perusahaan lain (mengacu pada Microsoft) yang juga menunjukkan potensi besar dalam berpartisipasi dalam proyek cluster GB200 OpenAI. Namun ketika takdir kita bergantung pada menjadi perusahaan tercepat, kita harus mengambil alih, bukan hanya menjadi penonton saja.

Singkatnya, di era yang terus berubah ini, jika Anda ingin mengungguli pesaing Anda, Anda harus memastikan keunggulan kecepatan yang mutlak.

xAI Oracle runtuh, puluhan miliar dolar terbuang percuma

Pada bulan Mei tahun ini, Informasi melaporkan bahwa xAI telah mendiskusikan perjanjian multi-tahun untuk menyewa chip Nvidia AI dari Oracle.

Kesepakatan tersebut diperkirakan bernilai hingga US$10 miliar, namun menemui jalan buntu karena beberapa masalah.

Diantaranya, Musk mensyaratkan kecepatan pembangunan superkomputer benar-benar melebihi imajinasi Oracle. Oracle juga khawatir bahwa lokasi pilihan xAI tidak akan memiliki daya yang cukup.

Untuk mengubah situasi ini, kita hanya bisa mengandalkan kemandirian.

Kini, xAI sedang membangun pusat data AI sendiri di Memphis, Tennessee, yang menggunakan chip Nvidia yang dikirimkan oleh Dell dan Supermicro.

Oracle tidak terlibat dalam proyek tersebut, menurut orang-orang yang terlibat dalam negosiasi.

Padahal, sebelumnya xAI telah banyak menyewa chip Nvidia dari Oracle dan menjadi salah satu pelanggan terbesar pemasok GPU komputasi awan ini.

Kesepakatan tersebut akan tetap berjalan untuk saat ini meskipun negosiasi yang lebih luas mengalami kegagalan.

Dari respon terbaru Musk, terlihat jumlah chip Oracle meningkat dari 16.000 di bulan Mei menjadi 24.000.

100.000 buah koneksi seri H100

Namun, Musk masih berharap untuk membangun superkomputer yang dilengkapi dengan 100.000 GPU Nvidia, yang disebutnya sebagai "Gigafactory of Compute."

Dia mengatakan bahwa xAI membutuhkan lebih banyak chip untuk melatih model AI generasi berikutnya-Grok 3.0.

Lao Ma mengatakan kepada investor pada bulan Mei bahwa dia berharap superkomputer tersebut dapat beroperasi pada musim gugur tahun 2025, dan bahwa dia secara pribadi akan bertanggung jawab untuk mengirimkan superkomputer tersebut tepat waktu karena sangat penting untuk mengembangkan LLM.

Dia telah berkali-kali menyatakan secara terbuka bahwa cluster pelatihan berpendingin cairan yang terdiri dari 100.000 H100 akan online dalam beberapa bulan.

Alasan mengapa iterasi model Grok penting adalah karena ini merupakan bagian dari paket berlangganan X Social App, yang dimulai dari $8 per bulan dan mencakup berbagai fitur.

Baru minggu lalu, xAI juga merilis foto Musk dan karyawan lainnya di pusat data. Di latar belakang foto, ada server.

Meski lokasinya tidak disebutkan dalam postingan tersebut. Namun pada bulan Juni, presiden Greater Memphis Chamber mengatakan bahwa xAI sedang membangun superkomputer di pabrik Electrolux di Memphis.

Tata letak utilitas fasilitas xAI baru di Memphis, Tennessee

CEO Dell Micael Dell mengatakan bahwa Dell membantu xAI membangun pusat data.

Selain itu, CEO Supermicro Charles Liang juga memposting foto dirinya dan Musk di pusat data, yang juga mengonfirmasi kemitraan perusahaan dengan xAI.

Perlu disebutkan bahwa bulan lalu Musk mengumumkan bahwa xAI telah menyelesaikan pembiayaan Seri B sebesar $6 miliar, dengan valuasi perusahaan mencapai $24 miliar.

Investor pada pembiayaan Seri B ini mencakup 8 investor antara lain Andreessen Horowitz, Sequoia Capital, Valor Equity Partners, Vy Capital, dan Fidelity Management & Research.

Dia secara pribadi mengatakan bahwa pada putaran pendanaan terakhir, sebagian besar dana akan diinvestasikan dalam pembangunan daya komputasi.

Tentunya, proyek superkomputer yang dibangun oleh xAI merupakan bagian dari upayanya untuk mengejar ketertinggalan OpenAI.

Superkomputer 100.000 GB200, disewa seharga 5 miliar dolar AS selama dua tahun

Bahkan di sisi lain, OpenAI juga terus mempercepat kecepatan penelitian dan pengembangannya, tidak berani mengendur.

Dua orang yang mengetahui masalah ini mengungkapkan bahwa kesepakatan Oracle dengan Microsoft melibatkan sekelompok 100.000 chip GB200 Nvidia yang akan datang.

Saat superkomputer ini dibuat, 100.000 H100 milik Musk tidak akan berarti apa-apa.

Beberapa netizen berseru bahwa jumlah chip NVIDIA GB200 di cluster tersebut kira-kira setara dengan jumlah transistor pada prosesor Intel 80286. Saya terkejut melihat pemandangan ini dalam hidup saya.

Orang lain menganalisanya dan berkata, "Kinerja pelatihan GB200 akan 4 kali lipat dari H100."

GPT-4 dilatih menggunakan 25.000 A100 (pendahulu H100) dalam 90 hari. Jadi secara teori Anda dapat melatih GPT-4 dalam waktu kurang dari 2 hari dengan 100.000 GB200, meskipun hal ini berada dalam kondisi ideal dan mungkin tidak sepenuhnya realistis. Namun hal ini membuat orang membayangkan model AI seperti apa yang bisa mereka latih dalam 90 hari menggunakan cluster superkomputer ini, yang diharapkan bisa dioperasikan pada kuartal kedua tahun 2025.

Pada konferensi GTC 2024, Lao Huang pernah memperkenalkan bahwa H100 4 kali lebih cepat dari A100, dan B200 3 kali lebih cepat dari H100.

Dengan asumsi kedua perusahaan menandatangani kesepakatan multi-tahun, biaya sewa klaster semacam itu bisa mencapai sekitar $5 miliar selama dua tahun, menurut orang-orang yang mengetahui harga cloud GPU.

Cluster ini diharapkan siap pada kuartal kedua tahun 2025.

Oracle akan membeli chip dari Nvidia dan menyewakannya ke Microsoft, yang kemudian akan menyediakan chip tersebut ke OpenAI. Bagaimanapun, hal ini telah menjadi praktik konsisten yang saling menguntungkan antara Microsoft dan OpenAI.

Microsoft menginvestasikan uang di OpenAI dan sebagai imbalannya mendapatkan akses ke model OpenAI baru.

Oracle berencana untuk menempatkan chip tersebut di pusat data di Abilene, Texas, menurut orang yang terlibat dalam perencanaan tersebut.

Kesepakatan itu juga menunjukkan bahwa Microsoft sendiri tidak bisa mendapatkan cukup chip Nvidia.

Selain itu, tidak umum bagi penyedia komputasi awan untuk menyewa server satu sama lain, namun tingginya permintaan akan chip Nvidia menyebabkan transaksi yang tidak biasa ini.

Tahun lalu, Microsoft mencapai perjanjian server sewaan serupa dengan CoreWeave untuk meningkatkan kapasitas server Nvidia.

Referensi:

https://x.com/elonmusk/status/181072739463195075

https://x.com/amir/status/1810722841106821623

berita

Pertarungan AI untuk hegemoni dimulai! OpenAI segera membangun superkomputer 100.000 GB200, 100.000 H100 milik Musk akan memulai pelatihan pada akhir bulan

Perkenalan

informasi kontak saya