Informasi kontak saya
Surat[email protected]
2024-08-14
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
Sebelum lahirnya ChatGPT, Google seorang diri telah memicu gelombang penting dalam pengembangan kecerdasan buatan di dunia. Yang menggemparkan di seluruh dunia adalah bahwa Google AlphaGo mengalahkan pemain Go Korea Lee Sedol dalam "Perang Manusia-Mesin". pada tahun 2016. Di balik ini, chip TPU yang mendukung pengoperasian "otak paling kuat" AlphaGo sangatlah penting, dan masih terus ditingkatkan.
Meskipun TPU pada awalnya dibuat untuk beban kerja internal, karena berbagai keunggulannya, TPU tidak hanya digunakan secara luas di Google dan menjadi tulang punggung AI, namun juga disukai dan diterapkan secara kompetitif oleh raksasa teknologi seperti Apple dan banyak perusahaan model besar. startup. Melihat ke belakang, dalam sepuluh tahun sejak kelahirannya, chip TPU secara bertahap telah berpindah dari ujung tombak industri AI ke tengah panggung. Namun, karena infrastruktur TPU sebagian besar dibangun berdasarkan TensorFlow dan JAX, Google juga menghadapi tantangan seperti "pulau teknis" sampai batas tertentu.
Sepuluh tahun “mengikuti” inovasi kecerdasan buatan
Dengan pengembangan pembelajaran mesin dan algoritme pembelajaran mendalam yang mendalam, permintaan industri akan chip komputasi AI khusus berperforma tinggi dan berdaya rendah berkembang pesat. Namun, CPU dan GPU tujuan umum tradisional yang berspesialisasi dalam tugas-tugas kompleks seperti akselerasi grafis dan rendering video tidak dapat memenuhi tuntutan besar beban kerja pembelajaran mendalam. Pada saat yang sama, terdapat masalah seperti efisiensi rendah dan komputasi khusus yang terbatas.
Jeff Dean, kepala ilmuwan Google, mengatakan, "Kami melakukan beberapa perhitungan kasar mengenai berapa banyak daya komputasi yang dibutuhkan jika ratusan juta orang melakukan percakapan tiga menit dengan Google setiap hari. Kami segera menyadari pada saat itu bahwa hal ini memerlukan pada dasarnya menghabiskan seluruh komputer yang digunakan oleh Google. Dengan kata lain, jumlah komputer di pusat data Google perlu ditingkatkan dua kali lipat untuk mendukung kemampuan baru ini."
Hasilnya, Google berkomitmen untuk mengeksplorasi solusi pembelajaran mesin yang lebih hemat biaya dan energi, dan segera meluncurkan proyek TPU, dan mengumumkan pada tahun 2015 bahwa chip TPU generasi pertama (TPU v1) telah online secara internal. TPU adalah sirkuit terintegrasi khusus aplikasi (ASIC) yang dirancang untuk satu tujuan tertentu, termasuk menjalankan matriks unik dan operasi matematika berbasis vektor yang diperlukan untuk membangun model AI. Berbeda dari operasi matriks GPU, fitur ikonik PU adalah unit perkalian matriks (MXU).
Menurut Wakil Presiden Google dan Akademisi Teknik Norm Jouppi, kemunculan TPU memungkinkan Google menyelamatkan 15 pusat data. Salah satu alasan penting mengapa TPU lebih hemat biaya adalah karena tumpukan perangkat lunak Google lebih terintegrasi secara vertikal dibandingkan GPU. Google memiliki tim teknik khusus yang membangun seluruh rangkaian perangkat lunaknya, mulai dari implementasi model (Vertex Model Garden) hingga kerangka pembelajaran mendalam (Keras, JAX, dan TensorFlow) hingga kompiler yang dioptimalkan untuk TPU (XLA).
Dari segi performa, TPU v1 memiliki 65536 8-bit MAC (Matrix Multiplication Unit), performa puncak 92 TOPS, dan ruang memori on-chip 28 MiB. Dibandingkan dengan CPU dan GPU, TPU v1 memiliki kinerja yang baik dalam waktu respons dan rasio efisiensi energi, serta dapat meningkatkan kecepatan inferensi jaringan neural secara signifikan. Keberhasilan TPU v1 membuat Google menyadari bahwa chip pembelajaran mesin memiliki prospek pengembangan yang luas, sehingga Google terus meningkatkan versi dan meluncurkan produk dengan kinerja lebih canggih dan efisiensi lebih tinggi berdasarkan TPU v1.
Misalnya, TPU v2 dan TPU v3 dirancang sebagai inferensi AI sisi server dan chip pelatihan untuk mendukung tugas AI yang lebih kompleks. TPU v4 semakin meningkatkan skalabilitas dan fleksibilitas serta mendukung pembangunan cluster komputasi AI skala besar. Diantaranya, TPU v2 memperluas desain chip tunggal ke sistem superkomputer yang lebih besar untuk pertama kalinya, membangun TPU Pod yang terdiri dari 256 chip TPU. Selain itu, TPU v3 menambahkan teknologi pendingin cair, dan TPU v4 memperkenalkan sakelar sirkuit optik untuk lebih meningkatkan kinerja dan efisiensi.
Pada tahun 2023, mengingat keraguan dan kontroversi "berlebihan" yang dihadapi oleh chip TPU v5, Google langsung beralih ke versi TPU v5e. TPU v5e telah disesuaikan dalam arsitekturnya, menggunakan arsitektur TensorCore tunggal. Daya komputasi puncak INT8 mencapai 393 TFLOPS, melebihi 275 TFLOPS v4. Namun, daya komputasi puncak BF16 hanya 197 TFLOPS, lebih rendah dari tingkat v4 generasi sebelumnya. Hal ini menunjukkan bahwa TPU v5e lebih cocok untuk tugas penalaran dan juga dapat mencerminkan pilihan strategis Google untuk pasar layanan daya komputasi AI.
Pada Konferensi Pengembang I/O pada bulan Mei tahun ini, Google merilis TPU Trillium generasi keenam. Amin Vadhat, wakil presiden dan manajer umum Google Cloud Machine Learning, Systems, dan Cloud AI, mengatakan bahwa kinerja komputasi puncak Trillium TPU lebih dari 4,7 kali lebih tinggi dibandingkan TPU v5e generasi sebelumnya, dan efisiensi energi lebih dari 67%. lebih tinggi dari TPU v5e. Pada saat yang sama, kapasitas dan bandwidth memori bandwidth tinggi digandakan, dan bandwidth interkoneksi antar-chip juga digandakan untuk memenuhi kebutuhan sistem AI yang lebih canggih.
Perlu disebutkan bahwa Trillium dapat menskalakan hingga 256 TPU dalam satu Pod dengan bandwidth tinggi dan latensi rendah. Dengan memanfaatkan kemajuan Google dalam skalabilitas tingkat pod, teknologi multi-slice, dan unit pemrosesan cerdas Titanium, pengguna akan dapat menghubungkan ratusan pod Trillium TPU individual untuk membangun superkomputer dan jaringan pusat data berskala petabyte.
Secara keseluruhan, keunggulan solusi teknologi TPU terletak pada desain arsitekturnya yang lebih terpusat. Tidak seperti beberapa GPU yang terhubung ke papan yang sama, TPU disusun dalam bentuk kubus, memungkinkan komunikasi antar-chip lebih cepat, dan kerja sama mendalam dengan Broadcom telah meningkatkan kecepatan transmisi komunikasi secara signifikan. Selain itu, dalam skenario khusus dan persyaratan kasus penggunaan, hal ini dapat mendorong pengoptimalan dan iterasi produk dengan lebih cepat. Namun, karena infrastruktur TPU sebagian besar dibangun berdasarkan TensorFlow dan JAX, dan industri ini lebih mainstream dalam menggunakan model HuggingFace dan PyTorch untuk inovasi, Google juga menghadapi masalah "pulau teknis" sampai batas tertentu.
Diadopsi oleh Apple dan sejumlah besar startup AI
Dalam hal aplikasi, proyek Google TPU awalnya dibuat untuk kebutuhan internal tertentu dan dengan cepat digunakan secara luas di berbagai departemen, dan telah menjadi salah satu chip khusus paling matang dan canggih di bidang AI. Menurut Andy Swing, chief engineer sistem perangkat keras pembelajaran mesin Google, mereka awalnya memperkirakan akan memproduksi kurang dari 10.000 TPU v1, namun akhirnya memproduksi lebih dari 100.000, dengan aplikasi yang mencakup periklanan, pencarian, suara, AlphaGo, dan bahkan mengemudi otonom dan banyak lagi bidang lainnya.
Seiring dengan peningkatan kinerja dan efisiensi, chip TPU secara bertahap menjadi infrastruktur AI Google dan tulang punggung AI di hampir semua produk. Misalnya, Google Cloud Platform secara ekstensif menggunakan chip TPU untuk mendukung infrastruktur AI-nya. Chip ini digunakan untuk mempercepat proses pelatihan dan inferensi model pembelajaran mesin serta memberikan kemampuan komputasi berperforma tinggi dan efisien. Melalui Google Cloud Platform, pengguna dapat mengakses instance mesin virtual (VM) berdasarkan chip TPU untuk pelatihan dan penerapan model pembelajaran mesin mereka sendiri.
Meskipun Google telah memperoleh basis pengguna yang baik untuk layanan cloud, Google tidak menjual perangkat keras secara langsung kepada pengguna. Analis industri menunjukkan bahwa Google bersaing ketat dengan OpenAI untuk AI generatif. Jika mereka menjual TPU, maka hal itu akan menantang Nvidia secara langsung. Pada saat yang sama, menjual perangkat keras secara langsung memerlukan overhead yang tinggi dan manajemen rantai pasokan yang kompleks, sementara menyediakan TPU melalui layanan cloud dapat menyederhanakan proses instalasi, penerapan, dan manajemen, sehingga mengurangi ketidakpastian dan overhead tambahan.
Di sisi lain, kerja sama yang erat antara Google Cloud dan Nvidia juga perlu diperhatikan. Google tidak hanya menggunakan GPU NVIDIA secara internal, tetapi juga menyediakan layanan berbasis GPU NVIDIA pada platform layanan cloud-nya untuk memenuhi kebutuhan pelanggan akan komputasi performa tinggi dan aplikasi AI.
Memang benar bahwa chip AI Nvidia telah menjadi produk yang "harus bersaing" dengan raksasa teknologi, namun industri ini juga menjajaki opsi yang lebih beragam. Meskipun telah banyak digunakan secara internal, Google juga mencoba menggunakan TPU untuk mengimbangi inovasi kecerdasan buatan guna menyediakan layanan AI kepada lebih banyak pelanggan. Andy Swing mengatakan, “Pengaturan TPU dan pod kami berada di lokasi yang paling sesuai dengan kemampuan pusat data saat ini, namun kami mengubah desain pusat data untuk lebih memenuhi kebutuhan besok. Sebaliknya, kami sedang membangun jaringan pusat data global yang penuh dengan TPU.”
Saat ini, banyak perusahaan teknologi di seluruh dunia yang menggunakan chip TPU Google. Misalnya, Apple mengakui bahwa mereka menggunakan Google TPU untuk melatih model kecerdasan buatannya, dengan mengatakan bahwa "sistem ini memungkinkan kami melatih model AFM secara efisien dan terukur, termasuk perangkat AFM, server AFM, dan model yang lebih besar." melatih server AFM dari awal pada 8192 chip TPUv4, menggunakan panjang urutan 4096 dan ukuran batch 4096 urutan untuk melakukan 6,3 triliun pelatihan token. Selain itu, AFM sisi akhir dilatih pada chip Google TPUv5p 2048.
Data lain menunjukkan bahwa lebih dari 60% startup AI generatif yang telah menerima pembiayaan dan hampir 90% unicorn AI generatif menggunakan infrastruktur AI Google Cloud dan layanan Cloud TPU, dan digunakan secara luas di berbagai bidang sosial ekonomi.
Misalnya, startup AI terkenal seperti Anthropic, Midjourney, Salesforce, Hugging Face, dan AssemblyAI menggunakan Cloud TPU secara ekstensif. Diantaranya, sebagai "saingan OpenAI", Anthropic menggunakan chip Google Cloud TPU v5e untuk memberikan dukungan perangkat keras pada model bahasa besar Claude guna mempercepat pelatihan model dan proses inferensi. Selain itu, banyak lembaga penelitian dan pendidikan ilmiah juga menggunakan chip Google TPU untuk mendukung proyek penelitian terkait AI mereka. Lembaga-lembaga ini dapat menggunakan kekuatan komputasi berkinerja tinggi dari chip TPU untuk mempercepat proses eksperimental, sehingga mendorong kemajuan penelitian ilmiah dan pendidikan mutakhir.
Perlu dicatat bahwa menurut informasi resmi Google, biaya pengoperasian TPU terbarunya kurang dari $2 per jam, namun pelanggan harus memesannya tiga tahun sebelumnya untuk memastikan penggunaan. Hal ini mungkin membawa tantangan penting bagi perusahaan teladan besar dalam industri yang berubah dengan cepat.
Bagaimanapun, perjalanan sepuluh tahun TPU telah berhasil membuktikan bahwa selain CPU dan GPU, industri ini memiliki jalur baru dalam mengejar daya komputasi yang dibutuhkan untuk AI. TPU juga telah menjadi inti fungsi AI di hampir semua produk Google dan mendukung kemajuan Google DeepMind Perkembangan pesat model dasar dan bahkan seluruh industri model besar. Di masa depan, seiring dengan terus berkembangnya teknologi AI dan pasar yang terus berkembang, semakin banyak perusahaan yang memilih untuk menggunakan chip Google TPU untuk memenuhi kebutuhan komputasi AI mereka. Namun perangkat keras AI juga bisa menjadi lebih terspesialisasi, yang akan membuat perangkat keras dan model lebih terintegrasi, sehingga sulit untuk melihat kemungkinan inovasi baru di luar kerangka kerja.