berita

Hukum Penskalaan yang Menantang, Meta merilis MobileLLM, model kecil 350M di sisi seluler, dengan kinerja sebanding dengan 7B LLaMA-v

2024-07-22

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


Laporan Kebijaksanaan Baru

Editor: Qiao Yang

[Pengantar Kebijaksanaan Baru] Scaling Law belum berakhir, dan “model kecil” perlahan-lahan menjadi tren yang diikuti oleh raksasa teknologi. Seri MobileLLM yang baru-baru ini dirilis oleh Meta bahkan telah dikurangi skalanya menjadi kurang dari 1B. Kedua versi tersebut masing-masing hanya memiliki parameter 125M dan 350M, tetapi keduanya telah mencapai kinerja yang lebih baik daripada model skala besar.

Dari konferensi pers beberapa raksasa teknologi pada bulan Mei dan Juni, samar-samar kita sudah bisa merasakan tren perkembangan penting AI: dari pusat data cloud hingga pengguna individu, dari server besar hingga notebook dan perangkat seluler.

Mengikuti Scaling Law bukan lagi satu-satunya cara, dan kisah tentang para model yang “mengambil hal kecil untuk menang besar” terus berkembang.

Pertama Microsoft memperbaruinya; kemudian Google menggunakannya.

Dalam hal perangkat keras, kami telah melihat fungsi AI secara bertahap terintegrasi secara mendalam dengan produk elektronik.

Misalnya, fungsi Recall Microsoft yang terkenal adalah bagian penting darinya; Apple juga telah meluncurkan aplikasi di bawah payung Apple Intelligence, berupaya untuk berintegrasi secara mulus dengan iOS.

Saat ini parameter LLM seringkali mencapai puluhan miliar. Parameter Apple 3B memang sudah sangat kecil, namun masih ada ambang batas yang tinggi untuk perangkat seluler seperti ponsel.

Tidak hanya menggunakan model kompresi presisi campuran 2-bit dan 4-bit (rata-rata 3,5-bit per berat), tetapi juga memerlukan setidaknya memori 8G dan chip M1 untuk dijalankan.

Sebuah makalah yang baru-baru ini diterbitkan oleh Meta menunjukkan bahwa jumlah parameter dapat dikurangi lebih lanjut. Jumlah parameter model MobileLLM yang baru diusulkan kurang dari 1 miliar, namun kinerjanya masih mengesankan.


Alamat makalah: https://arxiv.org/abs/2402.14905

LeCun juga secara pribadi men-tweet untuk mendukung penelitian ini, memuji serangkaian operasi yang menyederhanakan jumlah parameter.


Makalah ini telah diterima oleh ICML 2024, dan kode pelatihan model telah bersumber terbuka di GitHub.


Alamat GitHub: https://github.com/facebookresearch/MobileLLM

Perkenalan

Pertama, mari kita membuat asumsi. Jika GPT-4 (dengan sekitar 1 triliun parameter) diterapkan dalam kehidupan dengan kecepatan inferensi 50 token/dtk, jenis perangkat keras apa yang Anda perlukan?

Jawabannya adalah 100 juta GPU H100. Apalagi perangkat seluler, tidak bisa diletakkan di rumah.

Jadi bagaimana jika kita menurunkan standar dan menggunakan model seperti LLaMA-v2 7B, ditambah dengan kuantisasi 8-bit?

Perhitungan sederhana menunjukkan bahwa hanya menyimpan parameter model memerlukan sekitar 7 GB, tetapi ini bukan ruang penyimpanan, melainkan ruang memori operasi (DRAM) yang berharga.


Selain itu, DRAM tidak dapat sepenuhnya ditempati oleh model AI. Mengingat pengoperasian sistem operasi dan aplikasi lainnya, rasio memori LLM tidak boleh melebihi 10%.

Berdasarkan statistik pada Gambar 2, perangkat seluler yang baru-baru ini dirilis oleh berbagai merek umumnya dilengkapi dengan DRAM 6 hingga 12 GB. Artinya, jika Anda ingin berhasil menerapkannya di ponsel, jumlah parameter model harus dikurangi menjadi <1B.

Tidak hanya penyimpanan, konsumsi daya juga menjadi masalah besar. Konsumsi energi model 7B adalah sekitar 0,7J/token, dan iPhone yang terisi penuh memiliki energi terbuang sekitar 50kJ. Dihitung, jika kecepatan pembangkitan adalah 10 token/s, pengisian penuh ponsel Anda hanya akan memungkinkan Anda berbicara dengan model selama 2 jam.

Berdasarkan pertimbangan di atas, penerapan model <1B pada terminal seluler merupakan pilihan yang lebih ideal. Oleh karena itu, ukuran parameter MobileLLM diposisikan pada 125M/350M, yang merupakan urutan besarnya lebih kecil dari model 3B Apple bisa dikatakan sebagai "mini di antara mini".

Namun jangan dibatasi oleh Hukum Penskalaan. Parameter kecil tidak berarti kemampuan yang lemah. Pentingnya arsitektur model harus kembali menjadi perhatian kita.


MobileLLM tidak hanya mencapai kinerja SOTA dalam model dengan ukuran yang sama, tetapi juga mengusulkan bahwa kedalaman arsitektur lebih penting daripada lebarnya. Model kecil yang "dalam dan sempit" "ramping" juga dapat mempelajari konsep-konsep abstrak.

Arsitektur dan Metode

Dengan parameter hanya 125M/350M, cara mengoptimalkan desain arsitektur dalam rentang terbatas telah menjadi isu penting.

Untuk LLM <1B, penulis telah mengeksplorasi 4 teknik desain arsitektur yang efektif.

1) Gunakan jaringan feedforward SwiGLU

2) Buatlah bentuk keseluruhan jaringan menjadi "panjang dan sempit", yaitu dalam dan sempit

3) Gunakan kembali metode berbagi penyematan

4) Gunakan mekanisme perhatian kueri yang dikelompokkan (perhatian kueri yang dikelompokkan)


Atas dasar ini, penulis juga mengusulkan metode berbagi lapisan berdasarkan blok, yang selanjutnya dapat meningkatkan akurasi model tanpa menimbulkan overhead memori tambahan, tetapi dengan mengorbankan peningkatan penundaan inferensi dalam proses decoding.

Model dengan mekanisme berbagi lapisan tambahan ini diberi label MobileLLM-LS.

Sanggah Hukum Penskalaan: Desain arsitektur model kecil sangat penting

Makalah yang mengusulkan Scaling Law pada tahun 2020 percaya bahwa jumlah data pelatihan, jumlah parameter, dan jumlah iterasi pelatihan adalah faktor kunci yang menentukan kinerja, dan dampak arsitektur model hampir dapat diabaikan.

Namun, penulis makalah ini mengusulkan melalui eksperimen komparatif bahwa hukum ini tidak berlaku untuk model kecil.

Ketika parameter model ditetapkan pada 125M atau 350M, model "sempit" dengan 30 hingga 42 lapisan memiliki kinerja yang jauh lebih baik daripada model "pendek dan gemuk" dengan sekitar 12 lapisan (Gambar 4), dalam penalaran akal sehat, tanya jawab , pemahaman bacaan, dll. 8 Ada tren serupa di semua tolok ukur.


Ini sebenarnya merupakan penemuan yang sangat menarik, karena di masa lalu, ketika merancang arsitektur untuk model kecil dengan orde 125M, mereka umumnya tidak menumpuk lebih dari 12 lapisan.

Mengapa kembali ke “berbagi kode”

Metode "embedding sharing" pertama kali diusulkan oleh model kecil seperti OPT, karena parameter lapisan pengkodean dalam model kecil memiliki proporsi yang cukup besar.

Misalnya, model 125M menggunakan pengkodean dengan panjang konteks 32k dan dimensi 512. Lapisan pengkodean input dan output berisi 16M parameter, terhitung 20%.

Sebagai perbandingan, jumlah parameter lapisan pengkodean pada model besar dapat diabaikan. Misalnya pada LLaMA-7B proporsinya turun menjadi 3,7%, dan pada LLaMA-70B bahkan hanya 0,7%. Oleh karena itu, pengkodean bersama dapat diabaikan untuk LLM.

Keusangan code sharing di era model besar tidak berarti bahwa teknologi ini tidak lagi cocok untuk model kecil. Hal ini dapat membuat arsitektur model lebih kompak dan efisien.

Seperti yang ditunjukkan pada Tabel 1, setelah berbagi kode, model masih mempertahankan performa aslinya secara keseluruhan sekaligus mengurangi jumlah total parameter sebesar 16 juta, dan bahkan meningkatkan beberapa tolok ukur.


mekanisme pembagian lapisan

Seperti disebutkan sebelumnya, hasil eksperimen makalah ini menemukan bahwa membuat model kecil menjadi "ramping" bermanfaat bagi peningkatan kinerja. Jadi penulis berpikir: Jika mekanisme berbagi lapisan diperkenalkan, bukankah itu setara dengan meningkatkan kedalaman model sambil menjaga jumlah parameter tidak berubah.

Eksperimen telah membuktikan bahwa metode ini memang dapat meningkatkan kinerja, dan makalah ini juga membandingkan metode berbagi lapisan yang berbeda (Gambar 6). Pada akhirnya, setelah menimbang memori perangkat, kinerja, dan latensi inferensi, pembagian berdasarkan blok langsung (berbagi berdasarkan blok langsung). , Gambar 6b).


Eksperimen evaluasi

Penulis membuat model MobileLLM/MobileLLM-LS dengan parameter 125M dan 350M dan melatihnya pada kumpulan data 1T.

Model terlatih diuji pada beberapa kumpulan data dengan sampel nol, termasuk tolok ukur yang umum digunakan seperti ARC-easy, ARCchallenge, HellaSwag, WinoGrande, TQA, dan RACE.

Tabel 3 menunjukkan hasil evaluasi penalaran akal sehat tanpa sampel. Seri MobileLLM pada dasarnya telah mencapai SOTA komprehensif, tidak hanya mengungguli model klasik yang dirilis sebelumnya seperti OPT dan BLOOM, tetapi juga lebih baik daripada GPT-neo yang baru dirilis, Galactica, RWKV dan parameter lainnya.


Dalam hal menjawab pertanyaan dan pemahaman bacaan, MobileLLM masih berkinerja baik (Tabel 4). Dibandingkan dengan model lain, MobileLLM 125M dan 325M masing-masing memiliki peningkatan >6,4 poin dan sekitar 10 poin di TQA.

Tugas hilir

Selain menjalankan skor pada pengujian benchmark, makalah ini juga mempertimbangkan berbagai persyaratan model saat menerapkan skenario aplikasi, dan melakukan evaluasi terkait.

AlpacaEval dan MT-Bench masing-masing menguji performa model dalam tugas obrolan satu putaran dan multi-putaran. Dibandingkan dengan tiga model dasar lainnya, MobileLLM masih memiliki performa terbaik, dan bahkan dapat menggunakan parameter 350 juta untuk mengungguli performa lainnya. parameter> model 1B.


Kecuali untuk dialog, dalam skenario panggilan API, skor EM MobileLLM dapat menyamai skor LLaMA-v2 dengan parameter 7B.


Selain itu MobileLLM juga sangat kompatibel dengan kuantisasi (PTQ). Setelah kuantifikasi W8A8, performa model turun kurang dari 0,5 poin, dan masih kompatibel dengan mekanisme berbagi lapisan, sehingga dapat beradaptasi dengan penerapan dalam kondisi perangkat keras yang lebih ketat.


tentang Penulis

Penulis koresponden artikel ini, Zechun Liu, adalah ilmuwan riset di Meta Reality Labs. Dia lulus dari Universitas Fudan dengan gelar sarjana dan Ph.D. dari Universitas Sains dan Teknologi Hong Kong. Sebelum bergabung dengan Meta, dia menjabat sebagai sarjana tamu di CMU selama lebih dari dua tahun.


Minat penelitian Zechun adalah penerapan pembelajaran mendalam dalam skenario kehidupan nyata, seperti keterbatasan sumber daya yang tidak mencukupi, trade-off antara sumber daya komputasi dan akurasi, dll., dengan fokus pada binarisasi dan kuantisasi jaringan, pemangkasan saluran jaringan, arsitektur desain, dan penyulingan pengetahuan, dll.

Referensi:

https://x.com/ylecun/status/1810035281472491665

https://arxiv.org/abs/2402.14905