Mendobrak pulau ekologis, alat daya komputasi AI asli heterogen dalam negeri diluncurkan, dari Zhongke Jiahe

2024-07-22

Laporan Jantung Mesin

Penulis: Zenan

“Dengan bantuan perangkat lunak pengoptimalan sistem, ambang batas pengembangan akan diturunkan, berbagai perangkat keras akan disatukan, dan ekologi teknologi akan dikembangkan. Hal ini sangat penting bagi kemajuan ekologi cerdas saat ini,” kata Akademisi Universitas Akademi Teknik Tiongkok dan Akademisi Institut Teknologi Komputasi Akademi Ilmu Pengetahuan Tiongkok Sun Ninghui, ketua komite dan ketua CCF, menyampaikan pidato pada konferensi pers. “Selain chip pintar dan aplikasi industri AI, kita memerlukan pihak-pihak yang mengoptimalkan perangkat lunak sistem untuk bergabung dan bekerja sama, sehingga kita dapat membuat ekosistem dalam negeri menjadi lebih baik.”

Akademisi Sun Ninghui pada konferensi pers

Menghadapi masalah daya komputasi yang "macet", kami akhirnya memiliki solusi tingkat sistem.

Pada tanggal 20 Juli, startup infrastruktur AI Zhongke Jiahe secara resmi merilis generasi pertama alat komputasi AI asli yang heterogen.

Menghadapi tren penerapan daya komputasi domestik skala besar saat ini, metode yang diusulkan oleh Zhongke Jiahe dapat memungkinkan berbagai jenis chip diparalelkan dalam skala besar sekaligus memaksimalkan efisiensi, dan memungkinkan pengguna daya komputasi untuk mengakses daya komputasi secara langsung tanpa harus memperhatikan ekologi chip yang berbeda. Datang dan gunakan.

Cui Huimin, pendiri dan CEO Zhongke Jiahe, merilis dan memperkenalkan bahwa "peralatan daya komputasi AI asli heterogen Jiahe" telah memainkan peran tertentu dalam infrastruktur AI pada daya komputasi domestik. Ini kompatibel dengan berbagai chip AI domestik dan menyediakan antarmuka terpadu berkinerja tinggi untuk melindungi perbedaan chip.Berdasarkan platform asli yang heterogen, cluster daya komputasi AI telah meningkatkan kinerja dalam penalaran model besar.Latensi dapat dikurangi 3-74 kali lipat, throughput meningkat 1,4-2,1 kali lipat, efisiensi energi meningkat 1,46 kali lipat, dan dapat mendukung model besar padat dengan parameter 340B dan model MoE besar dengan 640B。

Pada saat yang sama, Zhongke Jiahe telah memberikan dukungan penalaran berkinerja tinggi kepada lebih dari 10 pelanggan termasuk chip, integrator, penyedia layanan, dll. Arsitekturnya mendukung model besar arus utama dalam dan luar negeri dan dapat melakukan penalaran paralel yang terdiversifikasi.

Penyedia daya komputasi dan mitra aplikasi yang diumumkan pada konferensi pers meliputi: AMD, Boyd, Huawei, Hangzhou Artificial Intelligence Computing Center, Open Transun, Moore Thread, Qingyun Technology, Rise VAST, Suiyuan Technology, dan Wuwenxin Qiong, Yunxi Hashrate, Xinhua San , dll. (diurutkan berdasarkan abjad berdasarkan pinyin).

Cui Huimin, pendiri dan CEO Zhongke Jiahe, pada konferensi pers

Kekuatan komputasi AI asli yang heterogen, bertujuan untuk mencapai "tiga nol dan satu tinggi"

Rencana yang diajukan oleh Zhongke Jiahe bertujuan untuk memungkinkan penerapan model AI besarMencapai migrasi tanpa biaya, penggunaan tanpa kerugian, dan penggunaan penerapan tanpa penundaan secara efisien pada chip yang berbeda。

Rangkaian alat perangkat lunak ini mencakup tiga produk: mesin inferensi model besar asli heterogen "SigInfer", mesin penyempurnaan asli heterogen "SigFT", dan alat pembuatan dan penerjemahan operator otomatis "SigTrans".

Diantaranya, SigInfer, yang dirilis kemarin, adalah mesin inferensi asli heterogen berkinerja tinggi lintas platform yang tidak hanya mendukung kartu akselerator AI tingkat server, tetapi juga GPU tingkat konsumen. Oleh karena itu, ini dapat diterapkan di pusat data dan mempercepat berbagai perangkat sisi akhir.

Sebagai basis teknis untuk komputasi heterogen, kekuatan komputasi AI berbeda yang diakses melalui SigInfer dapat mencapai antarmuka panggilan terpadu dan migrasi aplikasi bisnis yang lancar. SigInfer akan melakukan optimasi mendalam multi-level sambil menggunakan berbagai kekuatan komputasi yang berbeda untuk sepenuhnya memanfaatkan potensi kekuatan komputasi chip.

Ini memiliki berbagai fitur mesin inferensi model besar modern, seperti mendukung API Serving, penjadwalan permintaan, manajemen Batch, optimasi KV Cache, paralelisme tensor, paralelisme pipa, paralelisme ahli, dan bahkan paralelisme pipa multi-mesin.

Zhongke Jiahe mengatakan bahwa SigInfer telah mendukung sebagian besar struktur model besar di industri.

Saat ini SigInfer sudah dapat mengimplementasikan kemampuan mesin inferensi yang lengkap. Cluster kartu akselerator heterogen yang didukungnya dapat secara fleksibel menjadwalkan kartu akselerator AI NVIDIA + kartu akselerator AI domestik untuk inferensi hybrid, dan dapat diperluas hingga triliunan model besar.

Penggunaan SigInfer untuk membantu penerapan chip AI dapat memungkinkan layanan model besar mempertahankan throughput tinggi dan latensi rendah ketika kebutuhan akses bisnis meningkat.

Saat menggunakan kartu grafis NVIDIA yang sama, kita dapat melihat bahwa SigInfer dapat memberikan efek akselerasi yang lebih jelas:

Selain itu, ketika menggunakan chip domestik untuk menyelesaikan tugas serupa, SigInfer juga dapat meningkatkan tingkat throughput kartu akselerator AI dalam komputasi paralel, sekaligus mengurangi penundaan keluaran Token secara signifikan.

Perkakas daya komputasi AI asli heterogen dapat menyesuaikan frekuensi komputasi akselerator AI berdasarkan berbagai tahap pemrosesan tugas model besar, karakteristik operator, tujuan pengoptimalan, pengoptimalan adaptif, dll., sehingga mencapai efisiensi tinggi. Zhongke Jiahe menghitung akun untuk kami. Selama pengoperasian pusat data, penggunaan A800 plus SigInfer dapat meningkatkan rasio efisiensi energi sebesar 46% dibandingkan dengan vllm.

Selain mengoptimalkan infrastruktur cloud, Zhongke Jiahe juga mendemonstrasikan optimalisasi kinerja untuk inferensi sisi klien. SigInfer dapat mempercepat peralatan chip berdasarkan produsen besar seperti Intel, Qualcomm, dan AMD. Dibandingkan dengan solusi penerapan arus utama di industri, SigInfer dapat meningkatkan efisiensi inferensi sisi perangkat hingga 5 kali lipat.

Di balik komputasi heterogen dan peningkatan efisiensi terdapat penerapan dan optimalisasi serangkaian teknologi dan rekayasa mutakhir.

Untuk meningkatkan efisiensi komputasi paralel, Zhongke Jiahe telah memperkenalkan serangkaian optimasi. Misalnya, optimasi akses memori pada tahap decoding mendalam memungkinkan KV Cache memperoleh multiplexing tingkat register Dibandingkan dengan pemuatan dari L2, latensi dan bandwidth telah dioptimalkan.

Pada saat yang sama, untuk mengurangi pengurangan paralelisme, peneliti dari Zhongke Jiahe juga melakukan pembagian paralel dalam dimensi urutan data. Dikombinasikan dengan optimalisasi penggunaan kembali KV Cache, tidak hanya menghemat akses memori, tetapi juga meningkatkan paralelisme, meningkatkan efisiensi eksekusi penghitungan inti seluruh mekanisme perhatian.

Zhongke Jiahe juga telah mengeksplorasi metode pembangkitan operator berkinerja tinggi untuk daya komputasi heterogen. Melalui kerja sama dengan produsen daya komputasi, Zhongke Jiahe memigrasikan cutlass ke arsitektur chip domestik, sehingga sangat meningkatkan efisiensi pengoperasian perkalian matriks. Diantaranya, perusahaan mencapai peningkatan kinerja lebih dari 20% melalui optimalisasi yang dikombinasikan dengan teknologi kompilasi.

Dengan dukungan serangkaian teknologi, alat-alat listrik komputasi AI asli heterogen Jiahe telah mencapai optimalisasi efisiensi energi yang sangat baik.

Dimulai dari kompilasi teknologi: rute teknis Zhongke Jiahe

Berbeda dengan kemampuan yang diberikan oleh beberapa perusahaan infrastruktur komputasi AI di masa lalu,Komputasi dan akselerasi heterogen yang disediakan oleh Zhongke Jiahe berpusat pada teknologi kompilasi.。

Untuk komputer, pekerjaan yang dilakukan oleh lapisan kompilasi adalah "penerjemahan". Lapisan ini bertanggung jawab untuk mengubah konten bahasa pemrograman tingkat tinggi yang ditulis oleh manusia ke dalam bahasa yang dapat dipahami dan dijalankan oleh mesin.

Dalam proses ini kompilasi juga perlu dioptimalkan, yaitu untuk meningkatkan efisiensi pengoperasian kode mesin yang dihasilkan. Dalam hal kinerja chip, kompilasi memainkan peran besar tetapi sering kali diabaikan.

Platform komputasi CUDA memainkan peran penting pada chip NVIDIA terpopuler di industri. Ini mencakup bahasa pemrograman, kompiler, berbagai perpustakaan akselerasi berkinerja tinggi, dan kerangka kerja AI. Ini dapat bertindak sebagai distributor ketika komputer melakukan tugas, memanfaatkan sepenuhnya sumber daya komputasi dari perangkat keras yang berbeda untuk membuat model kode yang kompleks berjalan lebih cepat. Dapat dikatakan bahwa ekosistem AI saat ini sebagian besar didasarkan pada CUDA.

Untuk daya komputasi dalam negeri, untuk mencapai aplikasi skala besar, perlu dibangun ekologi dan kemampuan yang diperlukan.

Di era AI generatif, permintaan masyarakat akan daya komputasi telah mendorong perkembangan teknologi chip, namun tantangan baru juga muncul:

Dari perspektif perusahaan chip, ekosistem juga berkembang dalam beberapa bagian, yang akan menyebabkan peningkatan biaya pengembangan dan masalah seperti efisiensi dan kompatibilitas implementasi.
Dari perspektif perkembangan industri, teknologi AI berkembang pesat dan mencakup lebih banyak skenario, yang berarti semakin banyak jenis daya komputasi yang terlibat, yang selanjutnya mendorong permintaan akan komputasi heterogen.

Oleh karena itu, industri sangat membutuhkan rantai alat yang efisien yang dapat mendukung beragam chip dalam negeri. Jika serangkaian perangkat lunak dasar yang universal, berbiaya rendah, dan berkinerja tinggi dapat muncul dan membantu mitra ekologis dengan cepat mentransplantasikan aplikasi yang dikembangkan berdasarkan ekosistem NVIDIA, potensi chip dalam negeri dapat dimanfaatkan sepenuhnya, sehingga mendorong laju penelitian dan pengembangan teknologi, sehingga dapat mendorong laju penelitian dan pengembangan teknologi. secara bertahap Membangun siklus positif yang membentuk ekosistem kekuatan komputasi AI.

Inilah yang sedang dilakukan Zhongke Jiahe.

Lapisan platform perangkat lunak dasar yang disediakan oleh Zhongke Jiahe diposisikan pada lapisan operator, kompiler, dan kerangka kerja, membangun jembatan antara perangkat keras dan perangkat lunak.Alat komputasi AI asli heterogen yang disediakannya dapat membantu pengguna memigrasikan model AI dan arsitektur chip dengan lancar, sehingga memberikan kemudahan luar biasa pada aplikasi AI.

Semua tingkat kemampuan ini melibatkan teknologi kompilasi. Cakupan kompilasi AI mencakup lapisan dan lapisan operator. Dibandingkan dengan kompiler tradisional, rentang transformasi semantik lebih luas. Misalnya, kompiler AI umumnya perlu mempertimbangkan perhitungan partisi grafik, fusi subgraf, komputasi paralel, pemblokiran data, dll. Ini adalah permasalahan yang sulit dipecahkan.

Dalam hal ini, Zhongke Jiahe telah menyelesaikan banyak penelitian, seperti melakukan analisis aliran data global pada tingkat ekspresi Tensor, membuat grafik penghitungan dan grafik ketergantungan data yang akurat, lalu mendobrak batasan operator untuk fusi operator, dan telah mencapai hasil yang baik. Memengaruhi. Pada beberapa jaringan, metodenya mencapai rasio akselerasi hingga 3,7 kali lipat dibandingkan tingkat mahir industri. Hasil kerja yang relevan dipublikasikan pada konferensi puncak tahun ini di bidang komputer.

Membangun kekuatan komputasi menyeluruh yang memungkinkan solusi untuk membantu memakmurkan ekosistem AI dalam negeri

Zhongke Jiahe didirikan pada Juli 2023, dan timnya sebagian besar berasal dari Institut Teknologi Komputasi, Akademi Ilmu Pengetahuan Tiongkok. Pendirinya, Cui Huimin, lulus dari Departemen Ilmu Komputer Universitas Tsinghua dan merupakan kepala tim kompilasi di Institut Teknologi Komputasi, Akademi Ilmu Pengetahuan Tiongkok. Tim inti perusahaan memiliki pengalaman lebih dari 20 tahun dalam penelitian dan pengembangan penyusun, dan telah menjabat sebagai anggota inti dalam memimpin atau berpartisipasi dalam penelitian penyusun dan pengembangan sejumlah chip dalam negeri.

Sejak didirikan, perusahaan ini berfokus pada kompilasi chip dan teknologi pengoptimalan, serta berkomitmen untuk menyediakan sumber daya komputasi berkinerja tinggi yang universal, berbiaya rendah, dan berkinerja tinggi, dengan misi "mengumpulkan kekuatan gabungan chip untuk membangun ekosistem domestik." Saat ini, Zhongke Jiahe telah menerima beberapa putaran pembiayaan dengan total hampir 100 juta yuan.

Zhongke Jiahe sedang membangun serangkaian produk di tiga rute, termasuk mesin inferensi model besar AI yang mendukung daya komputasi heterogen, kerangka penyempurnaan model besar, dan rangkaian alat kompilasi AI. Mereka tidak hanya dapat membantu pengguna daya komputasi dengan cepat menggunakan daya komputasi AI yang terdiversifikasi, namun juga membantu pemasok daya komputasi meningkatkan ekosistem perangkat lunak dan meningkatkan daya saing, sehingga melengkapi bagian penting dari ekosistem daya komputasi AI dalam negeri.

Lebih penting lagi, Zhongke Jiahe berharap dapat menjadi jembatan "komunikasi", yang menghubungkan sejumlah besar pengguna daya komputasi dan penyedia daya komputasi, sehingga kedua belah pihak dapat berjalan dengan bahagia di kedua arah, sehingga mendorong pengembangan daya komputasi AI asli yang heterogen untuk aplikasi skala besar dan perkembangan pesat ekosistem AI dalam negeri.

berita

Mendobrak pulau ekologis, alat daya komputasi AI asli heterogen dalam negeri diluncurkan, dari Zhongke Jiahe

Perkenalan

informasi kontak saya