70 kali kompresi pamungkas! Tidak peduli berapa banyak pos pemeriksaan yang Anda miliki pada model besar, Anda tidak akan takut

70 kali kompresi pamungkas!Tidak peduli berapa banyak pos pemeriksaan yang Anda miliki pada model besar, Anda tidak akan takut.

2024-08-05

Kolom AIxiv adalah kolom tempat Machine Heart menerbitkan konten akademis dan teknis. Dalam beberapa tahun terakhir, kolom Heart of the Machine AIxiv telah menerima lebih dari 2.000 laporan, mencakup laboratorium terkemuka dari universitas dan perusahaan besar di seluruh dunia, yang secara efektif mempromosikan pertukaran dan diseminasi akademis. Jika Anda memiliki karya luar biasa yang ingin Anda bagikan, silakan berkontribusi atau hubungi kami untuk pelaporan. Email pengiriman: [email protected]; [email protected]

Penulis makalah ini semuanya dari Laboratorium Nuh Huawei. Penulis pertama adalah Li Wenshuo, dan penulis terkait adalah Wang Yunhe dan Chen Xinghao. Dalam beberapa tahun terakhir, tim terkait telah menerbitkan sejumlah karya representatif di konferensi terkemuka seperti ICML, CVPR, NeurIPS, ICCV, dan ECCV. Mereka telah menghasilkan banyak hasil di berbagai bidang seperti model bahasa besar yang efisien dan model visual, dan telah bekerja sama dengannya universitas terkenal dan lembaga penelitian ilmiah. Kerja sama kelembagaan sangat luas.

Sebagai "raja lalu lintas" yang layak di industri dan akademisi AI saat ini, model besar telah menarik banyak pakar dan perusahaan untuk menginvestasikan sumber daya dalam penelitian dan pelatihan. Seiring bertambahnya skala, masalah sistem dan teknik menjadi masalah yang tidak dapat dihindari dalam pelatihan model besar. Misalnya, selama 54 hari pelatihan Llama3.1, sistem mengalami error sebanyak 466 kali, dengan rata-rata setiap 2,78 jam sekali!

Kemudian, pos pemeriksaan penyimpanan yang sering diperlukan. Namun menyimpan pos pemeriksaan juga merupakan proyek besar.

Meta telah melakukan banyak upaya untuk mempercepat waktu pos pemeriksaan penyimpanan dan meningkatkan frekuensi penyimpanan untuk mengatasi kegagalan sistem yang sering terjadi. Namun penyimpanan yang sering juga berarti banyak sumber daya penyimpanan. Cluster pelatihannya dilengkapi dengan SSD 240PB untuk memenuhi tantangan ini. Biaya penyimpanannya saja adalah 100 juta yuan!

Metode ExCP Huawei Noah muncul. Untuk mengatasi overhead besar yang disebabkan oleh penyimpanan, mereka mengusulkan teknologi pos pemeriksaan kompresi ekstrem, yang dapat mengompresi model sebanyak 70 kali tanpa kehilangan, sehingga secara signifikan mengurangi overhead penyimpanan selama pelatihan.

Kode ini sekarang bersifat open source dan dirilis di bawah kerangka Apache 2.0. Beberapa mitra yang terlibat dalam masalah ini telah berhasil mereproduksi hasilnya.

Alamat artikel: https://arxiv.org/abs/2406.11257
Alamat gudang: https://github.com/Gaffey/ExCP

Metode ini juga sangat inovatif. Dua konsep penting disebutkan dalam artikel ini. Yang pertama adalah menggunakan informasi sisa dari pos pemeriksaan dalam pelatihan untuk mencapai rasio pemangkasan yang lebih tinggi melalui ketersebaran informasi pada rangkaian waktu dan bobot digabungkan untuk kompresi guna mencapai tingkat kompresi tinggi secara keseluruhan.

metode tertentu

1. Residu pos pemeriksaan

Selama proses pelatihan, parameter saat ini dapat dianggap sebagai bobot yang disimpan di pos pemeriksaan sebelumnya ditambah jumlah pembaruan gradien dalam iterasi yang berurutan. Bagian ini relatif jarang dan berisi lebih sedikit informasi, sehingga sisa ini dikompresi, kompresi yang lebih baik rasio dapat diperoleh. Sebaliknya, momentum yang disimpan dalam pengoptimal adalah rata-rata geser dari gradien momen pertama dan kedua. Untuk momen pertama, parameter default rata-rata geser adalah 0,9, yang berkisar antara ratusan hingga ribuan. tidak ada banyak korelasi dengan konten yang disimpan di pos pemeriksaan terakhir, sehingga pengoptimal langsung memampatkan nilainya sendiri, bukan nilai sisanya.Pos pemeriksaan terakhir yang akan dikompresi dinyatakan sebagai

2. Kompresi Sendi Momentum Pengoptimal Berat Badan

Pekerjaan yang ada terkait dengan kompresi model umumnya hanya berfokus pada kinerja inferensi model, atau ukuran titik pemeriksaan penyimpanan akhir model, tetapi tidak memperhatikan overhead ruang penyimpanan model selama keseluruhan proses pelatihan. Oleh karena itu, pekerjaan yang ada hanya memampatkan bobot, mengabaikan bahwa pengoptimal umum seperti Adam sebenarnya menyimpan momentum dua kali lipat jumlah bobot. Di satu sisi, pekerjaan ini memampatkan keduanya, secara signifikan meningkatkan rasio kompresi keseluruhan; di sisi lain, pekerjaan ini juga menggunakan korelasi antara bobot dan momentum pengoptimal untuk lebih meningkatkan rasio kompresi masing-masing.

Pemangkasan bobot: Karena bobot pemangkasan adalah nilai sisa, momen orde kedua dari momentum pengoptimal secara kasar dapat mewakili amplitudo perubahan nilai sisa bobot dalam periode waktu yang lalu, sehingga momen orde kedua dari momentum pengoptimal dapat digunakan sebagai indikator. Tentukan rasio pemangkasan lapisan yang berbeda.Strategi pemangkasan ditunjukkan pada rumus berikut

Dalam rumusnya, W dan masing-masing mewakili berat dan momen kedua.

Pemangkasan momentum pengoptimal: Untuk pemangkasan momentum, momen orde pertama dapat digunakan sebagai indikator untuk melakukan pemangkasan. Terdapat bukti singkat tentang konvergensi di makalah.Pada saat yang sama, jika bobot suatu posisi telah dipangkas, maka momentum pengoptimal posisi terkait juga harus diproses secara bersamaan, sehingga strategi pemangkasannya seperti terlihat pada rumus berikut.

Dalam rumusnya, mewakili momen orde pertama.

3. Proses kompresi secara keseluruhan

Proses kompresi keseluruhan ditunjukkan pada Algoritma 1. Langkah-langkah perhitungan sisa bobot/kompresi gabungan/kuantisasi tidak seragam/kode kompresi dilakukan secara berurutan untuk mendapatkan hasil kompresi akhir.

Proses pemulihan file checkpoint lengkap seperti yang ditunjukkan pada Algoritma 2. Setelah dekompresi, hasil floating point terlebih dahulu dipulihkan dari buku kode dan subskrip disimpan setelah kuantisasi tidak seragam, dan kemudian dibandingkan dengan bobot dasar (periksa sebelumnya Bobot asli titik atau bobot rekonstruksi yang dipulihkan) dijumlahkan untuk mendapatkan file lengkap dari pos pemeriksaan. Proses pemulihan file checkpoint di seluruh proses pelatihan seperti yang ditunjukkan pada Algoritma 3. Setelah menyelesaikan pelatihan, hanya benih acak dari bobot inisialisasi dan hasil kompresi yang disimpan di setiap checkpoint yang disimpan, dan kemudian checkpoint tersebut dipulihkan di urutan untuk mendapatkan yang lengkap Urutan pos pemeriksaan yang darinya satu atau lebih pos pemeriksaan dapat dipilih untuk melanjutkan pelatihan/pengujian, dll.

Hasil percobaan

Artikel ini tidak hanya mengevaluasi model bahasa besar, tetapi metode ini juga dapat mencapai hasil yang baik pada model visual yang lebih besar seperti ViT-L32.

Dari percobaan ablasi juga terlihat bahwa penggunaan metode pemangkasan sisa sangat mengurangi kerugian akibat pemangkasan.

Artikel tersebut juga memberikan contoh tanya jawab untuk model bahasa besar sebelum dan sesudah kompresi. Terlihat bahwa kompresi itu sendiri tidak merusak kemampuan tanya jawab model.

berita

70 kali kompresi pamungkas!Tidak peduli berapa banyak pos pemeriksaan yang Anda miliki pada model besar, Anda tidak akan takut.

Perkenalan

informasi kontak saya