Platform pelatihan campuran chip heterogen skala kilokalori pertama di dunia telah dirilis! Wuwen Xinqiong: Biarkan dunia tidak memiliki komputasi AI yang sulit digunakan power

Platform pelatihan campuran chip heterogen skala kilokalori pertama di dunia telah dirilis!Wuwen Xinqiong: Biarkan dunia tidak memiliki kekuatan komputasi AI yang sulit digunakan

2024-07-15

hal-hal cerdas
PengarangZeR0
Editor Mo Ying

“Sebelum menyalakan keran, kita tidak perlu mengetahui dari sungai mana air tersebut berasal. Demikian pula, ketika kita menggunakan berbagai aplikasi AI di masa depan, kita tidak akan mengetahui model dasar mana yang digunakan dan kartu akselerator mana yang digunakan. Kekuatan komputasi—ini adalah infrastruktur AI Native terbaik.”

Infrastruktur AI Native seperti itu perlu dibangun bersama oleh semua orang. Pada tanggal 4 Juli, di Forum Infrastruktur AI pada Konferensi Kecerdasan Buatan Dunia 2024, Xia Lixue, salah satu pendiri dan CEO Wuwen Core Dome, merilis platform pelatihan hibrida chip heterogen skala kilokalori pertama di dunia, pelatihan hibrida heterogen kilokalori cluster. Pemanfaatan daya komputasi mencapai maksimum 97,6%.

Pada saat yang sama, Xia Lixue mengumumkan bahwa platform cloud Infini-AI Wuwen Core Dome telah mengintegrasikan kemampuan pelatihan campuran heterogen kilo-card model besar. Ini adalah platform pertama di dunia yang dapat melakukan pelatihan campuran chip heterogen skala kilo-kartu tugas tunggal , dan memiliki skalabilitas 10.000-ka. Mendukung pelatihan campuran model besar termasuk enam chip heterogen dari AMD, Huawei Ascend, Tianshu Zhixin, Muxi, Moore Thread, dan NVIDIA.

Mulai bulan Juli, pengguna yang mendaftar untuk pelatihan uji coba dapat memulai pelatihan model besar dengan skala 70 miliar parameter di Infini-AI dengan satu klik.

Baru 4 bulan yang lalu, pengembangan model besar Infini-AI dan platform cloud layanan Wuwen Xinqiong mengumumkan versi beta publik pertamanya. Pelanggan perusahaan model besar seperti Zhipu AI, Dark Side of the Moon, dan Shengshu Technology telah menggunakan Infini-AI secara stabil. Kekuatan komputasi yang heterogen, dan lebih dari 20 startup aplikasi AI Native terus menggunakan berbagai model API preset di Infini-AI dan menggunakan rantai alat yang disediakan oleh Wuwen Xinqiong untuk mengembangkan model bisnis mereka sendiri.

Peluncuran platform pertama di dunia yang dapat melakukan pelatihan campuran chip heterogen dalam skala kilocard tidak hanya mencerminkan kekuatan teknis Wuwen Core Dome dalam optimasi komputasi heterogen dan desain sistem cluster, tetapi juga mencerminkan kepatuhan Wu Wen Core Dome terhadap "MxN" Sebuah pencapaian penting dari konsep ekologi lapisan tengah.

Wuwen Xinqiong memimpin dalam membangun pola ekologi lapisan tengah "MxN" untuk mencapai penerapan beberapa algoritma model besar yang efisien dan terpadu pada beberapa chip.

Platform Infini-AI telah mendukung lebih dari 30 model termasuk Qwen2, GLM4, Llama 3, Gemma, Yi, Baichuan2, seri ChatGLM3 dan AMD, Huawei Shengteng, Biren, Cambrian, Suiyuan, Haiguang, Tianshu Zhixin, Lebih dari 10 jenis komputasi kartu, termasuk Muxi, Moore Thread, dan NVIDIA, tidak hanya mendukung koneksi satu-ke-satu antara satu algoritma dan sebuah chip, tetapi juga mendukung pencocokan gratis dan kombinasi beberapa model dan beberapa chip.

Menurut Xia Lixue, diharapkan pada akhir tahun ini, Wuwen Xinqiong akan sepenuhnya menerapkan perutean otomatis M×N dari model ke chip.

1. Cluster Wanka adalah medan pertempuran bagi para ahli strategi militer berskala besar, dan negara ini menghadapi kesulitan dalam membuka ekosistemnya.

Xia Lixue, salah satu pendiri dan CEO Wuwen Core Dome, percaya bahwa kekuatan komputasi adalah garda depan dan landasan pengembangan AI. Skala model yang muncul setelah GPT-4 tidak meningkat secara eksponensial, dan daya komputasi yang diperlukan untuk mendukung algoritme mengalami hambatan. Saat ini, tidak ada yang dapat mengimplementasikan sistem besar dengan skala lebih besar dan jumlah penghitungan lebih besar untuk model tunggal, yang membuat pengembangan model memasuki tahap baru. Dalam keadaan melambat dan stagnan, dengan kata lain sistem daya komputasi yang mendukung kemampuan model untuk berpindah ke generasi berikutnya masih perlu dikembangkan dan dibangun. .

Model-model besar bersaing dalam kekuatan komputasi global di bawah pengaruh Scaling Law. Ada laporan bahwa Microsoft dan OpenAI sedang membangun proyek kekuatan komputasi besar senilai lebih dari 100 miliar dolar AS. Dibandingkan dengan banyak teknik lainnya, perluasan skala yang sederhana dan kasar ini memberikan keuntungan paling praktis pada kecerdasan model. Google, OpenAI, serta produsen besar dalam negeri dan tiga operator besar semuanya membangun klaster besar berskala Wanka.

Dalam sistem yang benar-benar berkelanjutan, berulang, besar, dan stabil, Scaling Law memiliki keunggulan unik. Ia tidak memiliki banyak teknik yang kaya dan lebih mudah untuk dipelihara dan diperluas. Untuk sebuah sistem yang benar-benar perlu berjalan dalam jangka waktu yang lama, skalabilitas adalah atribut yang sangat penting, dan sistem yang scalable adalah sistem yang baik.

Bagan IDC menunjukkan bahwa permintaan daya komputasi untuk deduksi dan pelatihan AI di masa depan berkembang pesat di seluruh dunia, dan baik pelatihan maupun inferensi memerlukan dukungan sumber daya komputasi yang kuat. Ekologi dalam dan luar negeri di balik pasar besar ini sangat berbeda. Pola lapisan model ekologi asing dan lapisan chip relatif terkonsentrasi, sedangkan ekosistem Tiongkok relatif terdesentralisasi dan dinamis. Baik lapisan model maupun lapisan chip bersaing untuk memperluas pasar tenaga komputasi dan menghadapi banyak masalah utama dalam membuka pasar ekosistem.

Cluster Wanka adalah medan pertempuran bagi para ahli strategi militer berskala besar. Xia Lixue menyampaikan bahwa saat ini terdapat lebih dari 100 klaster kilocard yang sedang dibangun atau direncanakan di Tiongkok, dan sebagian besar dari klaster tersebut memiliki kekuatan komputasi yang heterogen. Banyak klaster yang menggunakan layanan chip yang berbeda dan terlibat dalam produksi AI. Alasannya mencakup kemungkinan risiko rantai pasokan yang timbul dari ketergantungan yang berlebihan pada satu platform perangkat keras, dan peningkatan kinerja yang cepat dari chip domestik yang memberikan beragam pilihan kepada pihak-pihak yang berkepentingan.

Namun, sejumlah besar chip heterogen juga telah membentuk "silo ekologis". Ekosistem perangkat keras yang berbeda bersifat tertutup dan tidak kompatibel satu sama lain. Tumpukan perangkat lunak tidak dapat dikoordinasikan dan dihubungkan dengan baik. Penggunaan daya komputasi menghadapi serangkaian tantangan teknis yang sangat kompleks. Meskipun terdapat banyak cluster daya komputasi, masih sulit untuk mencapai integrasi dan pemanfaatan yang efektif. Hal ini merupakan pemborosan sumber daya daya komputasi. Hal ini tidak hanya menjadi kesulitan terbesar dalam membangun infrastruktur AI Native, tetapi juga merupakan alasan penting mengapa hal ini terjadi industri model besar saat ini sedang menghadapi "kekurangan daya komputasi".

Wuwen Core Dome ingin membangun infrastruktur AI Native yang dapat beradaptasi dengan lanskap ekologi multi-model dan multi-chip Tiongkok, menyediakan platform komputasi berguna yang secara efisien mengintegrasikan sumber daya komputasi heterogen, dan middleware yang mendukung optimalisasi bersama dan akselerasi perangkat lunak dan perangkat keras. , memecahkan “silo ekologis” yang ada dan memungkinkan chip dan cluster heterogen untuk benar-benar bertransformasi menjadi kekuatan komputasi yang besar.

Tugas inferensi pelatihan AI sangat berbeda dari komputasi tradisional. Misalnya, satu tugas akan berukuran besar dan bersifat bursty. Oleh karena itu, jika strategi penjadwalan yang lebih AI Native tidak diterapkan, pemanfaatan sumber daya seluruh sistem akan sangat rendah, atau bahkan Akibatnya, tugas pelanggan sering kali terhenti dan dimulai ulang, sehingga memperlambat proses pengembangan AI.

Solusi Wuwenxinqiong memiliki sistem manajemen cloud yang lengkap di bagian bawah, termasuk kemampuan penjadwalan serta platform PaaS dan MaaS. Berikut ini setara dengan basis kekuatan komputasi untuk kolaborasi cloud, yang memungkinkan pengembang dan peneliti model besar untuk bergerak dan dengan cepat menggunakan kekuatan komputasi yang berbeda.

Platform layanan MaaS yang dibangun atas dasar ini, yaitu platform layanan kumpulan model, dapat menyediakan banyak layanan model besar dengan aplikasi yang fleksibel untuk membantu beberapa perusahaan yang masih dalam masa pembelajaran AI untuk segera mengembangkan beberapa aplikasi berskala besar. model besar.

2. Mencapai pelatihan silang chip yang berbeda dan mengurangi biaya implementasi aplikasi model besar

Di balik serangkaian kemajuan produksi dan penelitian, tim Litbang Wuwen Xinqiong memiliki banyak pengalaman praktis dan pencapaian dalam optimalisasi komputasi chip heterogen dan desain sistem cluster.

Baru-baru ini, tim peneliti gabungan Wuwen Xinqiong, Universitas Tsinghua, dan Universitas Shanghai Jiao Tong merilis HETHUB, sistem pelatihan hybrid terdistribusi heterogen untuk model skala besar. Ini adalah pertama kalinya di industri pelatihan campuran silang antara enam merek chip yang berbeda telah dicapai, dan penyelesaian tekniknya tinggi. Menurut Xia Lixue, tujuan awal dari rekayasa teknologi ini adalah untuk terus mendorong batas atas kemampuan teknis model besar dengan mengintegrasikan daya komputasi yang lebih heterogen, dan pada saat yang sama, dengan membuka ekosistem chip yang heterogen, terus mengurangi biaya implementasi aplikasi model besar.

Ia mengatakan, dua tantangan utama yang dihadapi dalam membangun sistem adalah komunikasi dan distribusi pelatihan. Pustaka komunikasi yang berbeda untuk arsitektur perangkat keras yang berbeda setara dengan memiliki dua orang yang menggunakan bahasa yang sangat berbeda untuk menyelesaikan proyek besar; kartu heterogen memiliki banyak perbedaan kinerja karena konsep desain yang berbeda dan beradaptasi dengan tugas yang berbeda, sehingga menghasilkan beragam Perbedaan dalam efisiensi yang ditunjukkan oleh berbagai jenis kartu dapat membuat pelatihan terdistribusi dalam skala besar menjadi tidak efisien.

Oleh karena itu, timnya telah melakukan banyak pekerjaan, antara lain:

1. Dalam hal komunikasi, membangun perpustakaan komunikasi kolektif universal untuk mencapai komunikasi yang efisien dari berbagai jenis chip dan kompatibel dengan banyak jenis perangkat keras;

2. Usulkan skema pemisahan yang tidak seragam berdasarkan paralelisme pipa untuk memecahkan masalah efisiensi perangkat keras yang berbeda dan mengalokasikan tugas yang paling sesuai sesuai dengan situasi Anda;

3. Alat prediksi pelatihan campuran yang dikembangkan sendiri dapat memprediksi nilai setiap chip terlebih dahulu di awal pelatihan, sehingga menemukan strategi pemisahan yang optimal untuk menyelesaikan seluruh tugas pelatihan dan membentuk solusi terbaik pada kartu yang berbeda.

Dilihat dari efek pelatihan campuran yang sebenarnya, Wuwen Xinqiong telah melakukan banyak kombinasi yang dapat mencapai lebih dari 70%, dan pemanfaatan daya komputasi dapat mencapai hingga 97,6%. Pelatihan campuran pada 6 kombinasi chip yang berbeda telah mencapai skala kilokalori .

Sebelumnya Wuwen Xinqiong mencapai inferensi M×N, namun kini telah mencapai pelatihan M×N, yang merupakan terobosan yang sangat besar.

Fungsionalitas tersebut diintegrasikan ke dalam platform Infini-AI yang ada. Platform ini memiliki kemampuan untuk memungkinkan pengguna menyebarkan aplikasi dan layanan secara efisien di platform. Setelah menambahkan kemampuan pelatihan campuran, platform ini dapat mendukung kombinasi silang 6 merek, memecahkan hambatan pelatihan dari satu merek dunia untuk mendukung kilokalori heterogen Sebuah platform untuk pelatihan campuran.

Lapisan atas Infini-AI mendukung berbagai strategi pelatihan, termasuk paralelisme tensor, paralelisme data, dan tumpang tindih komunikasi, yang dapat mencapai pelatihan yang efisien dan dapat mendukung pelatihan model besar dengan lebih dari 70 miliar token, serta pelatihan campuran satu klik dalam jumlah besar. -model skala. Dengan menggunakan platform ini, pengembang tidak perlu menghabiskan lebih banyak waktu mempertimbangkan perbedaan dalam kekuatan komputasi yang mendasarinya. Mereka dapat dengan cepat menyesuaikan model besar mereka pada cluster hybrid yang terdiri dari chip berbeda dan dengan cepat mengimplementasikan bisnis mereka sendiri.

3. Penjadwalan yang efisien + toleransi kesalahan yang efisien untuk memastikan penyelesaian tugas yang stabil pada cluster daya komputasi yang besar

Setelah membangun cluster daya komputasi yang besar, salah satu tugas inti yang dihadapi adalah bagaimana cara menggunakannya? Ini melibatkan masalah penjadwalan yang efisien. Sistem penjadwalan daya komputasi yang efisien dapat membuat sumber daya heterogen yang terintegrasi dimanfaatkan dengan lebih baik oleh semua pengguna.

Wuwen Core Dome telah membuat banyak kemajuan dalam sistem penjadwalan daya komputasi yang efisien. Manajemen terpadu cluster multi-heterogen dapat mendukung lebih dari sepuluh jenis chip dan membangun lebih dari 10.000 sistem daya komputasi tingkat kartu Melalui Wuwen Core Dome rangkaian hybrid Desain strategi penjadwalan membuat penundaan penjadwalan tugas rata-rata pada tingkat milidetik, dan pemanfaatan sumber daya seluruh cluster sistem dapat dipertahankan di atas 90%. Dengan meningkatkan basis seluruh wadah AI, Wuwen Xinqiong dapat meningkatkan SLO seluruh klaster menjadi 99,95% dalam skenario multi-penyewa, dan skalabilitasnya sangat tinggi.

Selain penjadwalan, pada saat melakukan pelatihan model, pelatihan tidak dapat diulang terus menerus. Wuwen Core Qiong telah mengembangkan sistem pelatihan toleransi kesalahan yang efisien, termasuk sistem runtime toleransi kesalahan untuk model besar, sistem prediksi anomali indikator hibrid, dan sistem pembacaan dan penulisan asinkron pos pemeriksaan.

Bagian toleransi kesalahan telah meningkatkan waktu pelatihan efektif model besar sebesar 30%, tingkat keberhasilan deteksi anomali model besar telah ditingkatkan hingga 70%, dan sebagian besar kesalahan dapat ditemukan dan dihindari terlebih dahulu Efisiensi pembacaan dan penulisan pos pemeriksaan telah ditingkatkan 20 kali lipat, dan terminal abnormal pada model besar telah ditingkatkan. Waktunya dikurangi menjadi kurang dari 5 menit, yang dapat memastikan penyelesaian tugas yang stabil pada cluster daya komputasi besar.

Untuk memfasilitasi pengembang untuk menggunakan cluster dengan lebih baik, platform ini mengintegrasikan kemampuan teknis optimasi sistem layanan model besar Wuwenxinqiong. Ketika menghadapi konkurensi tinggi dan banyak pengguna mengirimkan permintaan pada saat yang sama, melalui penjadwalan permintaan, Teknologi seperti cache kata cepat dapat dilakukan. membantu tugas dikirim dengan lebih baik dan hasil penghitungan dikembalikan, yang dapat meningkatkan laju throughput lebih dari 30 kali lipat, membuat aplikasi berjalan lebih lancar dan lancar.

Kesimpulan: Tidak ada lagi kekuatan komputasi AI yang sulit digunakan di dunia

"Tidak ada kontradiksi antara meningkatkan batas teknis dan penerapan serta penyebaran teknologi, dan itu tergantung pada bagaimana kita bertekad untuk memperlakukan teknologi ini." Xia Lixue percaya bahwa pembicaraan tentang pengurangan biaya model besar menjadi 1/10.000 saat ini adalah hal yang adil seperti berbicara tentang membuat setiap rumah tangga mendapat aliran listrik 30 tahun yang lalu.

Infrastruktur yang unggul adalah suatu "keajaiban". Ketika biaya marjinal turun ke nilai kritis, lebih banyak orang dapat menerima teknologi baru.

Saat ini, perkembangan industri model besar sedang memasuki tahap implementasi industri skala besar. Berkembangnya skenario penerapan telah menyebabkan kebutuhan akan pelatihan model besar semakin mendesak. Membangun infrastruktur AI Native di era model besar tidak hanya dapat menyediakan lingkungan penelitian dan pengembangan yang lebih serbaguna, efisien, dan nyaman bagi pengembang AI, namun juga merupakan landasan utama untuk mencapai integrasi sumber daya komputasi yang efektif dan mendukung pengembangan AI yang berkelanjutan. industri.

Pengembangan AI memerlukan kemampuan sistem dasar yang dapat mengintegrasikan beberapa chip heterogen secara seragam, dan lapisan perantara yang menerapkan kemudahan penggunaan antara daya komputasi heterogen dan beberapa algoritme, sehingga memungkinkan pengguna untuk menjadwalkan daya komputasi yang berbeda melalui kerangka pemrograman terpadu Seiring waktu, antarmuka yang kompatibel dengan kebiasaan pemrograman pengguna yang ada dipasang di dalamnya untuk memfasilitasi perluasan di masa depan.

Wuwen Core berkomitmen untuk membangun infrastruktur AI Native yang benar-benar dapat beradaptasi dengan multi-model dan multi-chip, sehingga tidak ada kekuatan komputasi AI yang sulit digunakan di dunia. pemanfaatan dan integrasi "M×N", tetapi juga tujuan utamanya adalah untuk mengubah sumber daya komputasi yang tampaknya tidak aktif menjadi daya komputasi yang besar, meningkatkan integritas ekosistem model besar, secara signifikan mengurangi biaya penerapan model besar, dan membantu mempromosikan inovasi penerapan model besar di berbagai industri.

berita

Platform pelatihan campuran chip heterogen skala kilokalori pertama di dunia telah dirilis!Wuwen Xinqiong: Biarkan dunia tidak memiliki kekuatan komputasi AI yang sulit digunakan

Kenalan

informasi kontak saya