Musk mengungkap monster AI Dojo! Superkomputer yang dikembangkan sendiri menantang NVIDIA, setara dengan sekitar 8.000 yuan H100

Musk mengungkap monster AI Dojo! Superkomputer yang dikembangkan sendiri menantang NVIDIA, setara dengan sekitar 8.000 H100

2024-08-05

Artikel ini dicetak ulang di Xinzhiyuan

Untuk melatih Grok 3 terkuat, xAI menghabiskan 19 hari membangun cluster superkomputer terbesar di dunia yang terdiri dari 100.000 H100.

Dalam hal pelatihan robot FSD dan Optimus Prime, Musk juga tidak mengeluarkan biaya dan menginvestasikan banyak sumber daya komputasi.

Dojo Superkomputer adalah landasan Tesla AI dan dibuat khusus untuk melatih jaringan saraf FSD.

Baru hari ini, dia mengunjungi cluster superkomputer Tesla di Texas Super Factory (Cortex).

Musk berkata, "Ini akan menjadi sistem dengan sekitar 100.000 GPU H100/H200 dan dilengkapi dengan penyimpanan skala besar untuk pelatihan video mengemudi otonom penuh (FSD) dan robot Optimus."

Tak hanya itu, selain GPU NVIDIA, cluster superkomputer ini juga dilengkapi dengan sistem Tesla HW4, AI5, dan Dojo.

Mereka akan diberi daya dan didinginkan oleh sistem besar yang berkapasitas hingga 500 megawatt.

Pada Tesla AI Day tahun 2021, Musk mengumumkan Dojo untuk pertama kalinya.

Kini tiga tahun telah berlalu, bagaimana perkembangan Dojo?

8.000 daya komputasi setara H100, gandakan taruhan Anda

Setengah bulan lalu, netizen mengklaim bahwa Tesla akan memiliki kekuatan komputasi pelatihan AI pada akhir tahun 2024, setara dengan kinerja H100 senilai 90.000 yuan.

Musk menambahkan sesuatu pada ini:

Kami tidak hanya menggunakan GPU NVIDIA tetapi juga komputer AI kami sendiri - Tesla HW4 AI (berganti nama menjadi AI4) dalam sistem pelatihan AI, dengan rasio sekitar 1:2. Ini berarti terdapat sekitar 90.000 H100, ditambah sekitar 40.000 komputer AI4.

Ia juga menyebutkan bahwa pada akhir tahun ini, Dojo 1 akan memiliki sekitar 8.000 daya komputasi setara H100. Skala ini tidak besar, namun juga tidak kecil.

Cluster superkomputer Dojo D1

Faktanya, pada bulan Juni tahun lalu, Musk mengungkapkan bahwa Dojo telah online dan menjalankan tugas-tugas berguna selama beberapa bulan.

Ini menyiratkan bahwa Dojo telah terlibat dalam pelatihan untuk beberapa tugas.

Baru-baru ini, pada konferensi pendapatan Tesla, Musk mengatakan bahwa Tesla sedang bersiap untuk meluncurkan taksi tanpa pengemudi pada bulan Oktober, dan tim AI akan "menggandakan investasi" di Dojo.

Total daya komputasi Dojo diperkirakan mencapai 100 exaflops pada Oktober 2024.

Dengan asumsi chip D1 dapat mencapai 362 teraflops, untuk mencapai 100 exaflops, Tesla akan membutuhkan lebih dari 276,000 chip D1, atau lebih dari 320,000 GPU Nvidia A100.

50 miliar transistor, D1 telah dimasukkan ke dalam produksi

Pada Tesla AI Day tahun 2021, chip D1 diluncurkan untuk pertama kalinya. Chip ini memiliki 50 miliar transistor dan hanya seukuran telapak tangan.

Ia memiliki kinerja yang kuat dan efisien serta dapat menangani berbagai tugas kompleks dengan cepat.

Pada bulan Mei tahun ini, chip D1 mulai diproduksi, menggunakan node proses 7nm TSMC.

Ganesh Venkataramanan, mantan direktur senior perangkat keras di Autopilot, pernah berkata, "D1 dapat melakukan penghitungan dan transmisi data secara bersamaan, mengadopsi arsitektur set instruksi ISA yang disesuaikan, dan sepenuhnya dioptimalkan untuk beban kerja pembelajaran mesin."

Ini adalah chip pembelajaran mesin murni.

Meski begitu, D1 masih belum sekuat Nvidia A100 yang juga diproduksi menggunakan proses 7nm TSMC.

D1 menempatkan 50 miliar transistor pada chip berukuran 645 milimeter persegi, sedangkan A100 berisi 54 miliar transistor, memiliki ukuran chip 826 milimeter persegi, dan kinerjanya lebih unggul dari D1.

Untuk mendapatkan bandwidth dan daya komputasi yang lebih tinggi, tim Tesla AI mengintegrasikan 25 chip D1 ke dalam satu ubin dan mengoperasikannya sebagai sistem komputer terpadu.

Setiap ubin memiliki daya komputasi 9 petaflops, bandwidth 36 terabyte per detik, dan mencakup perangkat keras daya, pendingin, dan transfer data.

Kita dapat menganggap satu ubin sebagai komputer mandiri yang terdiri dari 25 komputer mini.

Dengan menggunakan teknologi interkoneksi tingkat wafer InFO_SoW (Integrated Fan-Out, System-on-Wafer), 25 chip D1 pada wafer yang sama dapat mencapai koneksi berkinerja tinggi dan bekerja seperti satu prosesor.

Enam ubin tersebut membentuk rak, dan dua rak membentuk kabinet.

Sepuluh kabinet merupakan ExaPOD.

Pada AI Day 2022, Tesla mengatakan Dojo akan berkembang dengan menerapkan beberapa ExaPOD. Semua gabungan ini membentuk superkomputer.

Prosesor skala wafer, seperti Dojo Tesla dan Wafer-Scale Engine WSE dari Cerebras, jauh lebih efisien dalam kinerja dibandingkan multiprosesor.

Keuntungan utama dari yang pertama mencakup komunikasi bandwidth tinggi dan latensi rendah antar inti, impedansi jaringan yang lebih rendah, dan efisiensi energi yang lebih besar.

Saat ini, hanya Tesla dan Cerebras yang memiliki desain system-on-wafer.

Namun, menyatukan 25 chip menimbulkan tantangan tegangan dan sistem pendingin.

Netizen memotret Tesla sedang membangun sistem pendingin raksasa di Texas

Tantangan yang melekat pada chip tingkat wafer adalah chip tersebut harus menggunakan memori on-chip, yang tidak cukup fleksibel dan mungkin tidak cocok untuk semua jenis aplikasi.

Perangkat Keras Tom memperkirakan bahwa teknologi generasi berikutnya mungkin adalah CoW_SoW (Chip-on-Wafer), yang melakukan penumpukan 3D pada ubin dan mengintegrasikan memori HBM4.

Selain itu, Tesla juga sedang mengembangkan chip D2 generasi berikutnya guna mengatasi masalah arus informasi.

Daripada menghubungkan chip individual, D2 menempatkan seluruh ubin Dojo pada satu wafer silikon.

Pada tahun 2027, TSMC diperkirakan akan menyediakan sistem tingkat wafer yang lebih kompleks, dan daya komputasi diperkirakan akan meningkat lebih dari 40 kali lipat.

Sejak peluncuran D1, Tesla belum mengungkapkan status pesanan chip D1 yang telah dipesan atau diharapkan diterima, maupun jadwal penerapan spesifik superkomputer Dojo.

Namun, pada bulan Juni tahun ini, Musk mengatakan bahwa dalam 18 bulan ke depan, separuh dari perangkat keras AI Tesla akan dikerahkan, dan separuh lainnya adalah Nvidia/perangkat keras lainnya.

Perangkat keras lain, mungkin AMD.

Mengapa Dojo dibutuhkan

Mengemudi secara otonom menghabiskan daya komputasi

Menurut kami, bisnis utama Tesla terbatas pada produksi kendaraan listrik, dengan beberapa tambahan panel surya dan sistem penyimpanan energi.

Namun Musk mengharapkan lebih banyak dari Tesla.

Sebagian besar sistem self-driving, seperti Waymo, anak perusahaan induk Google, Alphabet, masih mengandalkan sensor tradisional sebagai masukan, seperti radar, lidar, dan kamera.

Namun Tesla mengambil jalur "penglihatan penuh". Mereka hanya mengandalkan kamera untuk menangkap data visual, melengkapinya dengan peta definisi tinggi untuk penentuan posisi, dan kemudian menggunakan jaringan saraf untuk memproses data guna membuat keputusan cepat tentang mengemudi otonom.

Secara intuitif, jelas bahwa cara pertama adalah cara yang lebih sederhana dan lebih cepat, dan memang demikianlah kenyataannya.

Waymo telah mengkomersialkan penggerak otonom L4, yaitu sistem yang dapat mengemudi sendiri tanpa campur tangan manusia dalam kondisi tertentu sebagaimana didefinisikan oleh SAE. Namun jaringan saraf FSD (Full Self-Driving) Tesla masih tidak dapat dipisahkan dari pengoperasian manusia.

Andrej Karpathy, yang pernah menjabat sebagai kepala AI di Tesla, mengatakan bahwa penerapan FSD pada dasarnya adalah "membangun hewan buatan dari awal".

Kita dapat menganggapnya sebagai replika digital dari korteks visual dan fungsi otak manusia. FSD tidak hanya perlu terus mengumpulkan dan memproses data visual, mengidentifikasi dan mengklasifikasikan objek di sekitar kendaraan, tetapi juga harus memiliki kecepatan pengambilan keputusan yang sebanding dengan manusia.

Terlihat bahwa Musk menginginkan lebih dari sekedar sistem penggerak otonom yang menguntungkan. Tujuannya adalah menciptakan kecerdasan baru.

Namun untungnya, dia tidak perlu khawatir tentang kekurangan data. Sekitar 1,8 juta orang saat ini membayar biaya berlangganan FSD sebesar $8.000 (sebelumnya bisa sebesar $15.000), yang berarti Tesla dapat mengumpulkan jutaan mil video mengemudi untuk pelatihan.

Dalam hal daya komputasi, superkomputer Dojo adalah tempat pelatihan FSD. Nama Cinanya dapat diterjemahkan sebagai "dojo", mengacu pada ruang latihan seni bela diri.

NVIDIA tidak cukup baik

Seberapa populerkah GPU NVIDIA? Lihat saja seberapa besar keinginan para CEO raksasa teknologi untuk dekat dengan para gangster lama.

Bahkan sekaya Musk, dia mengakui selama panggilan pendapatan bulan Juli bahwa dia "sangat khawatir" bahwa Tesla mungkin tidak dapat menggunakan cukup GPU Nvidia.

“Apa yang kami lihat adalah permintaan perangkat keras Nvidia sangat tinggi sehingga seringkali sulit mendapatkan GPU.”

Saat ini, Tesla tampaknya masih menggunakan perangkat keras Nvidia untuk menyediakan daya komputasi bagi Dojo, namun Musk tampaknya tidak ingin menaruh semua telurnya dalam satu keranjang.

Apalagi mengingat harga chip Nvidia yang begitu tinggi dan performanya belum sepenuhnya memuaskan Musk.

Dalam hal sinergi perangkat keras dan perangkat lunak, Tesla dan Apple memiliki pandangan yang sama, yaitu sinergi tingkat tinggi antara keduanya harus dicapai, terutama untuk sistem yang sangat terspesialisasi seperti FSD, yang harus menghilangkan GPU dan penggunaan yang sangat terstandarisasi. perangkat keras yang disesuaikan.

Inti dari visi ini adalah chip D1 milik Tesla, yang akan dirilis pada tahun 2021 dan akan diproduksi oleh TSMC pada bulan Mei tahun ini.

Selain itu, Tesla juga sedang mengembangkan chip D2 generasi berikutnya, dengan harapan dapat menempatkan seluruh blok Dojo dalam satu chip silikon untuk mengatasi hambatan aliran informasi.

Dalam laporan pendapatan kuartal kedua, Musk mencatat bahwa dia melihat “cara lain untuk bersaing dengan Nvidia melalui Dojo.”

Bisakah Dojo berhasil?

Sekalipun dia seyakin Musk, ketika berbicara tentang Dojo, dia akan ragu untuk mengatakan bahwa Tesla mungkin tidak akan berhasil.

Dalam jangka panjang, mengembangkan perangkat keras superkomputer sendiri dapat membuka model bisnis baru untuk sektor AI.

Musk mengatakan bahwa versi pertama Dojo akan disesuaikan untuk anotasi dan pelatihan data visual Tesla, yang akan sangat berguna untuk FSD dan melatih robot humanoid Optimus milik Tesla.

Versi masa depan akan lebih cocok untuk pelatihan AI umum, tetapi ini pasti akan melibatkan perangkat lunak Nvidia.

Hampir semua perangkat lunak AI dirancang untuk bekerja dengan GPU NVIDIA, dan menggunakan Dojo berarti menulis ulang seluruh ekosistem AI, termasuk CUDA dan PyTorch.

Ini berarti Dojo hanya memiliki satu jalan keluar - menyewa daya komputasi dan membangun platform komputasi awan yang mirip dengan AWS dan Azure.

Morgan Stanley memperkirakan dalam sebuah laporan pada bulan September lalu bahwa Dojo dapat membuka aliran pendapatan baru dalam bentuk robotaxi dan layanan perangkat lunak, menambah $500 miliar pada nilai pasar Tesla.

Singkatnya, dilihat dari alokasi perangkat keras Musk yang cermat saat ini, Dojo bukanlah sebuah "langkah putus asa" tetapi lebih seperti asuransi ganda. Namun begitu sukses, dividen besar juga bisa dibagikan.

Referensi:

https://techcrunch.com/2024/08/03/tesla-dojo-elon-musks-big-plan-to-build-an-ai-supercomputer-explained/

https://www.tomshardware.com/tech-industry/teslas-dojo-system-on-wafer-is-in-production-a-serious-processor-for-serious-ai-workloads

Klik "" dan ayo pergi

berita

Musk mengungkap monster AI Dojo! Superkomputer yang dikembangkan sendiri menantang NVIDIA, setara dengan sekitar 8.000 H100

Perkenalan

informasi kontak saya