berita

Menyerang GPU, chip TPU menjadi populer dalam semalam

2024-08-17

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Sejak ituObrolanGPTSetelah ledakan tersebut, penelitian dan pengembangan model AI besar muncul satu demi satu. Saat "Perang 100 Mode" ini sedang berjalan lancar, perusahaan chip Amerika NVIDIA menghasilkan banyak uang dengan kinerja GPU-nya yang luar biasa dalam perhitungan model besar. .

Namun, langkah Apple baru-baru ini sedikit meredakan antusiasme Nvidia.

01

Pelatihan model AI, Apple memilih TPU daripada GPU

NVIDIA selalu menjadi pemimpin di bidang infrastruktur komputasi AI. Di pasar perangkat keras AI, khususnya di bidang pelatihan AI, pangsa pasarnya lebih dari 80%. GPU NVIDIA selalu menjadi pemimpin di Amazon, Microsoft , Meta,Buka AI Ini adalah solusi daya komputasi pilihan bagi banyak raksasa teknologi di bidang AI dan pembelajaran mesin.

Oleh karena itu, Nvidia terus menghadapi beragam tantangan dalam industri ini. Di antara para pesaingnya, terdapat banyak pemain kuat dalam penelitian independen dan pengembangan GPU, serta pionir dalam mengeksplorasi arsitektur inovatif. TPU Google juga menjadi lawan kuat yang tidak dapat diabaikan oleh Nvidia karena keunggulan uniknya.

Pada tanggal 30 Juli, Apple merilis makalah penelitian. Dalam makalah tersebut, Apple memperkenalkan dua model yang menyediakan dukungan untuk Apple Intelligence-AFM-on-device (AFM adalah singkatan dari Apple Basic Model) dan AFM-server (model bahasa berbasis server besar). model bahasa 100 juta parameter berusia satu tahun, yang terakhir adalah model bahasa berbasis server.

Apple menyatakan dalam makalahnya bahwa untuk melatih model AI-nya, mereka menggunakan dua jenis prosesor tensor (TPU) dari Google, dan unit-unit ini disusun dalam kelompok chip yang besar. Untuk membangun AFM-on-device, model AI yang dapat berjalan di iPhone dan perangkat lain, Apple menggunakan chip 2048 TPUv5p. Untuk server AFM model AI servernya, Apple mengerahkan 8192 prosesor TPUv4.

Pilihan strategis Apple untuk meninggalkan GPU Nvidia dan beralih ke Google TPU memberikan kejutan besar di dunia teknologi. Harga saham Nvidia turun lebih dari 7% hari itu, penurunan terbesar dalam tiga bulan, dan nilai pasarnya menguap sebesar US$193 miliar.

Orang dalam industri mengatakan keputusan Apple menunjukkan bahwa beberapa perusahaan teknologi besar mungkin mencari alternatif selain unit pemrosesan grafis Nvidia dalam hal pelatihan kecerdasan buatan.

02

TPU VS GPU, mana yang lebih cocok untuk model berukuran besar?

Sebelum membahas apakah TPU atau GPU lebih cocok untuk model besar, kita perlu memahami keduanya terlebih dahulu.

Perbandingan antara TPU dan GPU

TPU, nama lengkap Tensor Processing Unit, adalah chip khusus yang dirancang oleh Google untuk mempercepat beban kerja pembelajaran mesin. Ini terutama digunakan untuk pelatihan dan penalaran model pembelajaran mendalam. Perlu dicatat bahwa TPU juga termasuk dalam kategori chip ASIC, dan ASIC adalah chip yang disesuaikan secara khusus untuk kebutuhan spesifik tertentu.

Semua orang pasti familiar dengan GPU, yang merupakan prosesor yang awalnya dirancang untuk rendering grafis dan kemudian banyak digunakan dalam komputasi paralel dan pembelajaran mendalam. Ia memiliki kemampuan pemrosesan paralel yang kuat, dan GPU yang dioptimalkan juga sangat cocok untuk tugas paralel seperti pembelajaran mendalam dan komputasi ilmiah.

Terlihat bahwa kedua chip yang berbeda ini memiliki tujuan yang berbeda pada desain awalnya.

Dibandingkan dengan CPU tradisional, kemampuan komputasi paralel GPU menjadikannya sangat cocok untuk memproses kumpulan data berskala besar dan tugas komputasi yang kompleks. Oleh karena itu, dengan maraknya model AI besar dalam beberapa tahun terakhir, GPU pernah menjadi pilihan pertama perangkat keras komputasi pelatihan AI.

Namun, dengan terus berkembangnya model AI besar, tugas komputasi menjadi semakin besar dan kompleks secara eksponensial, sehingga memunculkan persyaratan baru untuk daya komputasi dan sumber daya komputasi. Saat GPU digunakan untuk komputasi AI, tingkat pemanfaatan daya komputasi menjadi rendah Hambatan konsumsi energi dalam efisiensi energi yang tinggi, serta tingginya harga dan terbatasnya pasokan produk GPU NVIDIA, telah menarik lebih banyak perhatian pada arsitektur TPU, yang pada awalnya dirancang untuk pembelajaran mendalam dan pembelajaran mesin. Dominasi GPU di bidang ini mulai menghadapi tantangan.

Dilaporkan bahwa Google mulai mengembangkan chip yang didedikasikan untuk algoritma pembelajaran mesin AI secara internal pada awal tahun 2013, dan baru pada tahun 2016 chip yang dikembangkan sendiri bernama TPU ini secara resmi dipublikasikan. Mengalahkan Lee Sedol pada Maret 2016 dan Ke Jie pada Mei 2017 AlfaGo, yang dilatih menggunakan chip seri TPU Google.

Jika dikatakan bahwa TPU lebih cocok untuk pelatihan model AI besar, mungkin sulit meyakinkan semua orang tanpa menjelaskan “keterampilan”-nya secara detail.

Bagaimana TPU cocok untuk pelatihan model besar?

Pertama, TPU memiliki unit komputasi multidimensi untuk meningkatkan efisiensi komputasi.Dibandingkan dengan unit komputasi skalar di CPU dan unit komputasi vektor di GPU, TPU menggunakan unit komputasi dua dimensi atau bahkan dimensi lebih tinggi untuk menyelesaikan tugas komputasi, dan memperluas loop operasi konvolusi untuk mencapai penggunaan kembali dan pengurangan data secara maksimal. biaya transmisi dan meningkatkan efisiensi akselerasi.

Kedua, TPU memiliki transmisi data yang lebih hemat waktu dan unit kontrol efisiensi tinggi.Masalah dinding memori yang disebabkan oleh arsitektur von Neumann sangat menonjol dalam tugas pembelajaran mendalam, dan TPU mengadopsi strategi yang lebih radikal untuk merancang transmisi data, dan unit kontrol lebih kecil, sehingga memberikan lebih banyak ruang untuk memori on-chip dan unit komputasi.

Terakhir, TPU dirancang untuk mempercepat AI dan meningkatkan kemampuan komputasi AI/ML.Dengan pemosisian yang akurat, arsitektur sederhana, kontrol single-thread, dan set instruksi yang disesuaikan, arsitektur TPU sangat efisien dalam operasi pembelajaran mendalam dan mudah diperluas, sehingga lebih cocok untuk penghitungan pelatihan AI skala ultra-besar.

Dilaporkan bahwa Google TPUv4 memiliki konsumsi daya 1,3-1,9 kali lebih rendah daripada NVIDIA A100. Dalam berbagai model kerja seperti Bert dan ResNet, efisiensinya 1,2-1,9 kali lebih tinggi daripada A100, produk TPUv5/TPU Trillium dapat mencapai konsumsi daya 1,3-1,9 kali lebih rendah dibandingkan NVIDIA A100. Lebih lanjut meningkatkan kinerja komputasi sebesar 2 kali/hampir 10 kali lipat. Terlihat bahwa produk Google TPU memiliki keunggulan lebih dari segi biaya dan konsumsi daya dibandingkan produk NVIDIA.

Pada konferensi pengembang I/O 2024 pada bulan Mei tahun ini, CEO Alphabet Sundar Pichai mengumumkan chip AI pusat data generasi keenam Tensor Processor Unit (TPU)-Trillium, dengan mengatakan bahwa produk ini hampir lima kali lebih cepat dari pendahulunya, dan katanya pengiriman akan tersedia akhir tahun ini.

Google mengatakan kinerja komputasi chip Trillium generasi keenam 4,7 kali lebih tinggi dibandingkan chip TPU v5e, dan efisiensi energi 67% lebih tinggi dibandingkan v5e. Chip ini dirancang untuk mendukung teknologi yang menghasilkan teks dan konten lainnya dari model berukuran besar. Google juga mengatakan bahwa chip Trillium generasi keenam akan tersedia untuk pelanggan cloud pada akhir tahun ini.

Insinyur Google mencapai peningkatan kinerja tambahan dengan meningkatkan kapasitas memori bandwidth tinggi dan bandwidth keseluruhan. Model AI memerlukan memori canggih dalam jumlah besar, yang telah menjadi hambatan dalam peningkatan kinerja lebih lanjut.

Perlu diperhatikan bahwa Google tidak akan menjual chip TPU miliknya secara terpisah sebagai produk independen, namun akan menyediakan layanan komputasi berbasis TPU kepada pelanggan eksternal melalui Google Cloud Platform (GCP).

Kepintaran Google juga terlihat dalam rencana ini: menjual perangkat keras secara langsung memerlukan biaya tinggi dan manajemen rantai pasokan yang rumit. Dengan menyediakan TPU melalui layanan cloud, Google dapat menyederhanakan proses instalasi, penerapan, dan pengelolaan, mengurangi ketidakpastian dan overhead tambahan. Model ini juga menyederhanakan proses penjualan, menghilangkan kebutuhan untuk membentuk tim penjualan perangkat keras tambahan. Selain itu, Google sedang bersaing ketat dengan OpenAI untuk AI generatif. Jika Google mulai menjual TPU, Google akan bersaing dengan dua lawan kuat pada saat yang sama: Nvidia dan OpenAI, yang mungkin bukan strategi paling cerdas saat ini.

Pada bagian artikel ini, beberapa orang mungkin bertanya: Karena TPU memiliki keunggulan kinerja yang luar biasa, apakah ia akan menggantikan GPU dalam waktu dekat?

03

Sekarang berbicara tentang mengganti GPU? Mungkin ini terlalu dini

Permasalahan ini tidaklah sesederhana itu.

Berbicara kelebihan TPU saja tanpa membicarakan kelebihan GPU saja sudah membutakan mata. Selanjutnya, kita juga perlu memahami bagaimana GPU cocok untuk pelatihan model AI besar saat ini dibandingkan dengan TPU.

Kami melihat bahwa keunggulan TPU terletak pada rasio efisiensi energi dan indikator daya komputasi biaya unit yang luar biasa. Namun, sebagai chip ASIC, kelemahannya berupa biaya coba-coba yang tinggi juga relatif jelas.

Juga dari segi kematangan ekosistem. Setelah pengembangan selama bertahun-tahun, GPU memiliki ekosistem perangkat lunak dan alat pengembangan yang besar dan matang. Banyak pengembang dan lembaga penelitian telah lama mengembangkan dan mengoptimalkan berdasarkan GPU, dan telah mengumpulkan banyak perpustakaan, kerangka kerja, dan algoritme. Ekosistem TPU relatif baru, dan sumber daya serta alat yang tersedia mungkin tidak sekaya GPU, sehingga membuat adaptasi dan optimalisasi menjadi lebih sulit bagi pengembang.

Dalam hal keserbagunaan. GPU pada awalnya dirancang untuk rendering grafis, namun arsitekturnya sangat fleksibel dan dapat beradaptasi dengan berbagai jenis tugas komputasi, tidak hanya pembelajaran mendalam. Hal ini membuat GPU lebih mudah beradaptasi ketika menghadapi beragam skenario aplikasi. Sebaliknya, TPU dirancang khusus untuk beban kerja pembelajaran mesin dan mungkin tidak mampu menangani tugas komputasi terkait non-pembelajaran mesin seefisien GPU.

Terakhir, persaingan di pasar GPU sangat ketat. Berbagai produsen terus mendorong inovasi teknologi dan pembaruan produk, serta arsitektur baru dan peningkatan kinerja lebih sering dilakukan. Pengembangan TPU sebagian besar dipimpin oleh Google, dan kecepatan pembaruan serta evolusinya mungkin relatif lambat.

Secara keseluruhan, NVIDIA dan Google memiliki strategi berbeda untuk chip AI: NVIDIA mendorong batas kinerja model AI dengan menyediakan daya komputasi yang kuat dan dukungan pengembang yang ekstensif; sementara Google meningkatkan kinerja chip AI melalui arsitektur komputasi terdistribusi yang efisien . Dua pilihan jalur berbeda ini memungkinkan mereka menunjukkan keunggulan unik di bidang aplikasinya masing-masing.

Alasan mengapa Apple memilih Google TPU mungkin karena beberapa hal berikut: Pertama, TPU berkinerja baik saat memproses tugas pelatihan terdistribusi skala besar, memberikan kemampuan komputasi yang efisien dan latensi rendah; kedua, dengan menggunakan platform Google Cloud, Apple dapat mengurangi perangkat keras biaya dan fleksibel. Menyesuaikan sumber daya komputasi untuk mengoptimalkan keseluruhan biaya pengembangan AI. Selain itu, ekosistem pengembangan AI Google juga menyediakan banyak alat dan dukungan, memungkinkan Apple mengembangkan dan menerapkan model AI-nya dengan lebih efisien.

Contoh yang diambil Apple membuktikan kemampuan TPU dalam pelatihan model besar. Namun dibandingkan NVIDIA, TPU masih jarang digunakan di bidang model besar. Ada lebih banyak perusahaan model besar di belakangnya, termasuk raksasa seperti OpenAI, Tesla, dan ByteDance. Pusat data AI utama umumnya masih menggunakan GPU NVIDIA.

Oleh karena itu, mungkin terlalu dini untuk mengatakan bahwa TPU Google dapat mengalahkan GPU Nvidia, namun TPU harus menjadi pemain yang sangat menantang.

04

Penantang GPU bukan hanya TPU

Tiongkok juga memiliki perusahaan yang bertaruh pada chip TPU—Zhonghao Xinying. Yang Gongyifan, pendiri Zhonghao Xinying, pernah bekerja sebagai anggota staf penelitian dan pengembangan chip inti di Google dan sangat terlibat dalam desain dan penelitian Google TPU 2/3/4. Menurutnya, TPU adalah arsitektur yang menguntungkan untuk model AI besar .

Pada tahun 2023, chip "Snap" Zhonghao Xinying secara resmi lahir. Dengan kemampuan interkoneksi antar-chip berkecepatan tinggi yang unik sebanyak 1.024 chip, chip "Snap" telah membangun cluster komputasi cerdas berskala besar yang disebut "Taize". Performa cluster sistemnya puluhan kali lebih tinggi daripada GPU tradisional, dan ini adalah AIGC dengan lebih dari 100 miliar parameter. Pelatihan dan inferensi model besar memberikan jaminan daya komputasi yang belum pernah terjadi sebelumnya. Pencapaian ini tidak hanya menunjukkan akumulasi besar Zhonghao Xinying di bidang teknologi daya komputasi AI, namun juga memenangkan tempat berharga bagi chip domestik di kancah internasional.

Namun, dalam demam emas kecerdasan buatan saat ini, pasokan chip NVIDIA H100 terbatas dan mahal. Perusahaan-perusahaan besar dan kecil mencari pengganti produk chip AI NVIDIA, termasuk perusahaan yang menggunakan jalur GPU tradisional, serta mengeksplorasi arsitektur perusahaan yang baru.

Tantangan yang dihadapi GPU jauh melampaui TPU.

Dalam penelitian dan pengembangan jalur GPU, saingan terbesar Nvidia adalahAMD, pada bulan Januari tahun ini, para peneliti menggunakan sekitar 8% GPU di cluster superkomputer Frontier untuk melatih model besar pada level GPT 3.5. Cluster superkomputer Frontier sepenuhnya didasarkan pada perangkat keras AMD, yang terdiri dari 37.888 GPU MI250X dan 9.472 CPU Epyc 7A53. Penelitian ini juga memecahkan kesulitan model pelatihan terdistribusi tingkat lanjut pada perangkat keras AMD, menyediakan platform pelatihan besar untuk platform AMD kelayakannya.

Pada saat yang sama, ekosistem CUDA secara bertahap dipecah. Pada bulan Juli tahun ini, perusahaan Inggris Spectral Compute meluncurkan solusi yang dapat mengkompilasi kode sumber CUDA untuk GPU AMD, yang sangat meningkatkan efisiensi kompatibilitas GPU AMD dengan CUDA.

IntelGaudi 3 juga langsung melakukan benchmark pada Nvidia H100 saat dirilis. Pada bulan April tahun ini, Intel meluncurkan Gaudi 3 untuk pembelajaran mendalam dan model AI generatif skala besar. Intel mengatakan bahwa dibandingkan dengan generasi sebelumnya, Gaudi 3 dapat memberikan daya komputasi AI BF16 format floating-point empat kali lipat, dan bandwidth memori meningkat sebesar 1,5. kali, dan layanan Bandwidth jaringan untuk perluasan sistem skala besar menjadi dua kali lipat. Dibandingkan dengan chip NVIDIA H100, jika diterapkan pada model Meta Llama2 dengan parameter 7B dan 13B serta model OpenAI GPT-3 dengan parameter 175B, Gaudi 3 diharapkan dapat mempersingkat waktu pelatihan model tersebut rata-rata 50%.

Selain itu, ketika diterapkan pada Llama dengan parameter 7B dan 70B serta model Falcon open source dengan parameter 180B, throughput inferensi Gaudi 3 diharapkan rata-rata 50% lebih tinggi dibandingkan H100, dan efisiensi inferensi rata-rata 40% lebih tinggi. Selain itu, Gaudi 3 memiliki keunggulan kinerja inferensi yang lebih besar pada rangkaian masukan dan keluaran yang lebih panjang.

Saat diterapkan pada Llama dengan parameter 7B dan 70B serta model Falcon dengan parameter 180B, kecepatan inferensi Gaudi 3 meningkat sebesar 30% dibandingkan NVIDIA H200.

Intel mengatakan Gaudi 3 akan tersedia untuk pelanggan pada kuartal ketiga tahun ini dan untuk OEM termasuk Dell, HPE, Lenovo dan Supermicro pada kuartal kedua, namun kisaran harga Gaudi 3 tidak diumumkan.

November lalu,MicrosoftPada Konferensi Teknologi Ignite, mereka merilis chip AI pertama yang dikembangkan sendiri, Azure Maia 100, serta Azure Cobalt, sebuah chip yang digunakan dalam layanan perangkat lunak cloud. Kedua chip tersebut akan diproduksi oleh TSMC dan menggunakan teknologi proses 5nm.

Dilaporkan bahwa produk kelas atas Nvidia terkadang bisa dijual dengan harga 30.000 hingga 40.000 dolar AS. Chip yang digunakan untuk ChatGPT diyakini membutuhkan sekitar 10.000, yang merupakan biaya besar bagi perusahaan AI. Perusahaan teknologi besar dengan permintaan chip AI yang besar sangat mencari sumber pasokan alternatif. Microsoft memilih untuk mengembangkan produknya sendiri dengan harapan dapat meningkatkan kinerja produk AI generatif seperti ChatGPT sekaligus mengurangi biaya.

Cobalt adalah chip serba guna berdasarkan arsitektur Arm dengan 128 inti. Maia 100 adalah chip ASIC yang dirancang khusus untuk layanan cloud Azure dan beban kerja AI. Chip ini digunakan untuk pelatihan dan penalaran cloud, dan jumlah transistornya mencapai 105 miliar. Kedua chip ini akan diimpor ke pusat data Microsoft Azure dan layanan dukungan seperti OpenAI dan Copilot.

Rani Borkar, wakil presiden yang bertanggung jawab atas departemen chip Azure, mengatakan bahwa Microsoft telah mulai menguji chip Maia 100 dengan produk Bing dan Office AI, mitra AI utama Microsoft, pengembang ChatGPT OpenAI, juga sedang menjalani pengujian. Beberapa komentar pasar percaya bahwa waktu proyek chip AI Microsoft adalah suatu kebetulan, sama seperti model bahasa berskala besar yang dikembangkan oleh Microsoft, OpenAI, dan perusahaan lain telah mulai berkembang pesat.

Namun, Microsoft tidak yakin chip AI-nya dapat menggantikan produk Nvidia secara luas. Beberapa analis percaya bahwa jika upaya Microsoft berhasil, hal ini juga dapat membantunya mendapatkan keuntungan dalam negosiasi di masa depan dengan Nvidia.

Selain raksasa chip, dampak dari perusahaan start-up juga tidak kalah pentingnya. Misalnya LPU yang diluncurkan oleh Groq, Wafer Scale Engine 3 yang diluncurkan oleh Cerebras, Sohu yang diluncurkan oleh Etched, dll.

Saat ini, Nvidia menguasai sekitar 80% pasar chip pusat data kecerdasan buatan, sementara sebagian besar dari 20% sisanya dikendalikan oleh versi Google TPU yang berbeda. Apakah pangsa pasar TPU akan terus meningkat di masa depan? Berapa pertumbuhannya? Akankah ada arsitektur chip AI lain yang akan membagi struktur pasar yang ada menjadi tiga? Ketegangan ini diperkirakan akan terungkap secara bertahap dalam beberapa tahun ke depan.