Satu kartu menangani Llama 3.1 405B, memungkinkan model besar menjadi langsing dengan mudah! Toolkit kompresi super ada di sini

Satu kartu menangani Llama 3.1 405B, memungkinkan model besar menjadi langsing dengan mudah!Toolkit kompresi super ada di sini

2024-08-02

Kontribusi dari tim rantai alat model
Qubit |. Akun publik QbitAI

Satu kartu menangani Llama 3.1 (405B), alat kompresi model besar terbaru telah hadir!

Baru-baru ini, Llama-3.1 telah mencapai puncak open source, namun model versi 405B yang paling kuat memerlukan lebih dari 900 GB memori, sehingga menimbulkan tantangan sumber daya yang lebih menuntut.

Alat kompresi dan tolok ukur model besar diluncurkan bersama oleh Universitas Beihang, SenseTime, Politeknik Nanyang, dan tim lainnyaLLMC, dapat menyelesaikan masalah ini dengan sangat baik.

Hal ini memungkinkan satu 80G A100 menyelesaikan kalibrasi dan evaluasi Llama 3.1 405B, sehingga mencapai kuantifikasi biaya sangat rendah.

Ini mendukung beberapa algoritma kompresi, model dan backend inferensi, dengan skalabilitas yang kuat dan kemampuan evaluasi yang komprehensif.

Saat ini, tim peneliti telah mencantumkan metode penggunaannya di beranda GitHub, yang dapat diperoleh dengan mengklik link di akhir artikel.

Llama3.1 lebih besar dan lebih sulit untuk dikompres

Kuantisasi bit rendah adalah salah satu teknik umum untuk memecahkan masalah dengan sumber daya terbatas. Untuk tujuan ini, peneliti terkait menggunakan LLMC untuk melakukan kompresi terkuantisasi pada Llama 3.1.

Hasilnya ditunjukkan pada Tabel 1. Beberapa algoritma di LLMC, seperti QuaRot dan AWQ, dapat secara efektif menjaga akurasi kuantisasi pada model dengan parameter 70B dan 405B. Algoritme "pembulatan" (Naif) yang paling sederhana menunjukkan kehilangan akurasi yang signifikan pada model skala besar ini, terutama ketika aktivasi dikuantisasi.

Tim peneliti menemukan bahwa penurunan akurasi kuantifikasi model seri Llama 3.1 disebabkan oleh adanya beberapa outlier atau outlier pada tensor aktivasinya yang lebih signifikan dibandingkan model lainnya. Seiring bertambahnya ukuran model Llama 3.1, fenomena outlier ini menjadi lebih serius. Pencilan mengacu pada titik dalam data di mana nilai tertentu berbeda secara signifikan dari nilai lainnya, dan merupakan salah satu faktor utama yang memengaruhi akurasi kuantifikasi.

Dengan bantuan alat LLMC, tim peneliti memvisualisasikan tensor aktivasi input dari 4 lapisan (q_proj, o_proj, gate_proj, down_proj) dari blok pertama model seri Llama 3.1 (8B, 70B, 405B) (seperti yang ditunjukkan pada Gambar 1-3 ). Bagian bawah setiap subgambar menunjukkan rata-rata dan deviasi standar nilai Kurtosis semua token pada nilai aktivasi lapisan ini.

Terlihat dari Gambar 1-3 bahwa pada model rangkaian Llama 3.1, terdapat outlier di beberapa saluran tensor aktivasi, dan fenomena ini lebih terlihat jelas pada model yang lebih besar.

Oleh karena itu, dapat disimpulkan secara masuk akal bahwa:Meskipun model Llama 3.1 405B menjadi lebih kuat, model tersebut juga menjadi lebih "tidak normal" dan lebih sulit untuk diukur.。

Alat LLMC mendukung serangkaian algoritme kuantisasi untuk menekan outlier dalam model besar, termasuk AWQ, SmoothQuant, OS+, QuaRot, dll. Seperti dapat dilihat dari Tabel 1, metode ini sangat meningkatkan akurasi kuantisasi Llama 3.1 dengan menekan outlier secara efektif. Misalnya, dalam kuantisasi model 405B W8A8, SmoothQuant, OS+, dan QuaRot dapat mencapai akurasi yang hampir sama dengan model floating-point.

LLMC: Perangkat Pelangsing Model Besar Terpadu

△Diagram kerangka kerja LLMC

Mendukung banyak algoritma . LLMC mendukung beberapa algoritme kompresi, termasuk 16 metode kuantisasi berbeda, yang mencakup kuantisasi bobot saja, aktivasi bobot, dan presisi campuran. Keberagaman ini memungkinkan adanya perbandingan yang adil dan analisis mendalam terhadap berbagai pendekatan. Tentu saja, selain kuantisasi, berbagai jenis algoritma renggang dan terkait saat ini didukung.

△Klasifikasi beberapa algoritma kompresi ramah perangkat keras yang saat ini didukung oleh LLMC

Penyelarasan yang sangat akurat . Tim LLMC melakukan beberapa percobaan penyelarasan yang membandingkan beberapa algoritma kuantisasi yang sudah ada (LLMC vs. kertas/kode asli).

Pengaturan eksperimental sama dengan yang ada di makalah asli atau pengaturan default kode sumber terbukanya (ditunjukkan pada Tabel 3).

Hasil percobaan ini dirangkum dalam Tabel 4-6. Hasil dalam tabel menunjukkan bahwa alat LLMC hampir konsisten kinerjanya dengan algoritma kuantisasi asli yang dilaporkan dalam literatur. Melalui eksperimen ini, kami menunjukkan bahwa LLMC tidak hanya efektif namun juga dapat diandalkan dalam mereproduksi hasil metode kuantifikasi yang ada. Hal ini memastikan bahwa kontribusi alat tersebut terhadap penelitian kuantitatif LLM kredibel dan berharga.

Hitung dengan biaya sangat rendah . Toolkit LLMC dirancang agar hemat sumber daya dan mampu menjalankan model besar dengan persyaratan perangkat keras minimal. Berkat mekanisme operasi tingkat blok tunggal, hanya satu 80G A100 yang diperlukan untuk menyelesaikan kalibrasi dan evaluasi Llama 3.1 405B, sehingga mencapai kuantifikasi berbiaya sangat rendah.

Kompatibilitas beberapa backend . LLMC mendukung berbagai pengaturan kuantisasi dan format model, serta kompatibel dengan berbagai backend dan platform perangkat keras, seperti LightLLM, TRT-LLM, PPL-LLM, vLLM, MLC-TVM, dan llama.cpp, menjadikannya sangat serbaguna.

Skalabilitas tinggi . Toolkit ini sangat modular dan dapat diperluas, dapat dengan mudah beradaptasi dari kuantisasi bilangan bulat ke kuantisasi floating point, dari model padat ke model campuran ahli (MoE), dari LLM ke model bahasa visual (VLM), dan dari kuantisasi ke sparsifikasi. Desain modular ini memastikan pengguna dapat memperluas dan menyesuaikan toolkit agar sesuai dengan kebutuhan mereka.

penilaian keanekaragaman . LLMC mampu mengevaluasi model kompresi secara komprehensif, memberikan indikator dan analisis kinerja terperinci, seperti kebingungan (PPL), analisis visualisasi data, kurtosis (Kurtosis), kesalahan dan distribusi outlier. Kemampuan evaluasi yang komprehensif ini memastikan pengguna dapat membuat keputusan yang tepat mengenai strategi kompresi terbaik untuk model mereka.

Tim LLMC telah merilis LLMC, perangkat kompresi model besar multi-fungsi, yang mendukung berbagai algoritma kompresi, model, dan backend inferensi, serta memiliki skalabilitas yang kuat dan kemampuan evaluasi yang komprehensif.

Toolkit ini memungkinkan pengguna untuk mengompresi LLM 100 miliar parameter hanya dengan menggunakan satu GPU, yang sangat memudahkan penerapan kuantisasi LLM. Dilengkapi dengan perangkat canggih ini, peneliti model besar di masa depan serta pengguna biasa dapat secara efektif mengintegrasikan algoritma dan format yang sesuai yang diperlukan oleh platform back-end yang sesuai untuk aplikasi mereka, sehingga mempopulerkan aplikasi kompresi model besar.

Alamat alat: https://github.com/ModelTC/llmc
Alamat makalah: https://arxiv.org/abs/2405.06001

berita

Satu kartu menangani Llama 3.1 405B, memungkinkan model besar menjadi langsing dengan mudah!Toolkit kompresi super ada di sini

Kenalan

informasi kontak saya