berita

Universitas Sains dan Teknologi Tiongkok dan Hukum Entropi Nuh Huawei mengungkap kinerja dan tingkat kompresi data model besar

2024-07-22

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Kolom AIxiv adalah kolom tempat Machine Heart menerbitkan konten akademis dan teknis. Dalam beberapa tahun terakhir, kolom Heart of the Machine AIxiv telah menerima lebih dari 2.000 laporan, mencakup laboratorium terkemuka dari universitas dan perusahaan besar di seluruh dunia, yang secara efektif mendorong pertukaran dan diseminasi akademis. Jika Anda memiliki karya luar biasa yang ingin Anda bagikan, silakan berkontribusi atau hubungi kami untuk pelaporan. Email pengiriman: [email protected]; [email protected]

Pekerjaan ini diselesaikan oleh tim IEEE Fellow Chen Enhong dari National Key Laboratory of Cognitive Intelligence di Universitas Sains dan Teknologi Tiongkok dan Laboratorium Bahtera Nuh Huawei. Tim Profesor Chen Enhong sangat terlibat dalam bidang penambangan data dan pembelajaran mesin, dan telah menerbitkan banyak makalah di jurnal terkemuka dan konferensi Google Cendekia telah dikutip lebih dari 20.000 kali. Laboratorium Bahtera Nuh adalah laboratorium Huawei yang bergerak dalam penelitian dasar mengenai kecerdasan buatan. Laboratorium ini menganut konsep penekanan yang sama pada penelitian teoretis dan inovasi aplikasi, serta berkomitmen untuk mendorong inovasi dan pengembangan teknologi di bidang kecerdasan buatan.

Data adalah landasan keberhasilan model bahasa besar (LLM), namun tidak semua data bermanfaat untuk pembelajaran model. Secara intuitif, sampel berkualitas tinggi diharapkan memiliki efisiensi yang lebih baik dalam pengajaran LLM. Oleh karena itu, metode yang ada biasanya berfokus pada pemilihan data berbasis kualitas. Namun, sebagian besar metode ini mengevaluasi sampel data yang berbeda secara independen, mengabaikan efek kombinatorial kompleks antar sampel. Seperti yang ditunjukkan pada Gambar 1, meskipun setiap sampel memiliki kualitas yang sempurna, kombinasi sampel tersebut mungkin masih suboptimal karena adanya redundansi atau inkonsistensi informasi timbal balik. Meskipun subset berbasis kualitas terdiri dari ketiga sampel kualitas, pengetahuan yang dikodekan oleh ketiga sampel tersebut sebenarnya mubazir dan bertentangan. Sebaliknya, subset data lain yang terdiri dari beberapa sampel dengan kualitas yang relatif lebih rendah namun beragam dapat menyampaikan lebih banyak informasi dalam pengajaran LLM. Oleh karena itu, pemilihan data berbasis kualitas tidak sepenuhnya sejalan dengan tujuan memaksimalkan pengetahuan LLM.

Artikel ini bertujuan untuk mengungkap hubungan intrinsik antara kinerja LLM dan pemilihan data. Terinspirasi oleh sifat kompresi informasi LLM, kami menemukan hukum entropi, yang menghubungkan kinerja LLM dengan laju kompresi data dan hilangnya langkah-langkah pelatihan model sebelumnya, yang masing-masing mencerminkan tingkat redundansi informasi dari kumpulan data dan efek inherennya. LLM pada kumpulan data. Melalui derivasi teoretis dan evaluasi empiris, kami menemukan bahwa performa model berbanding terbalik dengan rasio kompresi data pelatihan, yang biasanya menghasilkan kerugian pelatihan yang lebih rendah. Berdasarkan temuan hukum entropi, kami mengusulkan metode pemilihan data yang sangat efisien dan umum untuk pelatihan LLM, bernama ZIP, yang bertujuan untuk memprioritaskan subset data dengan tingkat kompresi rendah. ZIP dengan rakus memilih beragam data dalam beberapa tahap, yang pada akhirnya memperoleh subset data dengan keragaman yang baik.



Tim: Tim Chen Enhong di National Key Laboratory of Cognitive Intelligence di Universitas Sains dan Teknologi Tiongkok, Laboratorium Bahtera Nuh Huawei

Tautan makalah: https://arxiv.org/pdf/2407.06645

Tautan kode: https://github.com/USTC-StarTeam/ZIP



Gambar 1

Hukum entropi

Kami melakukan analisis teoritis tentang hubungan antara kompresi data dan kinerja LLM. Secara intuitif, kebenaran dan keragaman data pelatihan akan mempengaruhi performa model akhir. Pada saat yang sama, kinerja LLM mungkin menjadi suboptimal jika data memiliki konflik inheren yang parah atau jika model kurang memahami informasi yang dikodekan dalam data. Berdasarkan asumsi tersebut, kami menyatakan kinerja LLM sebagai Z, yang diperkirakan akan dipengaruhi oleh:

Rasio kompresi data R: Secara intuitif, kumpulan data dengan rasio kompresi lebih rendah menunjukkan kepadatan informasi yang lebih tinggi.

Kerugian pelatihan L: Menunjukkan apakah data sulit diingat oleh model. Dalam model dasar yang sama, kerugian pelatihan yang tinggi biasanya disebabkan oleh adanya gangguan atau informasi yang tidak konsisten dalam kumpulan data.

Konsistensi data C: Konsistensi data tercermin dari entropi probabilitas token berikutnya berdasarkan situasi sebelumnya. Konsistensi data yang lebih tinggi biasanya menyebabkan hilangnya pelatihan lebih rendah.

Kualitas data rata-rata Q: mencerminkan rata-rata kualitas data pada tingkat sampel, yang dapat diukur melalui berbagai aspek obyektif dan subyektif.



Berdasarkan hukum Entropi, kami mengusulkan dua kesimpulan:

Jika C diperlakukan sebagai konstanta, kerugian pelatihan dipengaruhi langsung oleh rasio kompresi. Oleh karena itu, performa model dikendalikan oleh rasio kompresi: jika rasio kompresi data R lebih tinggi, maka Z biasanya lebih buruk, yang akan diverifikasi dalam eksperimen kami.

Pada rasio kompresi yang sama, kerugian pelatihan yang lebih tinggi berarti konsistensi data yang lebih rendah. Oleh karena itu, pengetahuan efektif yang dipelajari oleh model tersebut mungkin lebih terbatas. Ini dapat digunakan untuk memprediksi kinerja LLM pada data berbeda dengan rasio kompresi dan kualitas sampel yang serupa. Kami akan menunjukkan penerapan alasan ini dalam praktiknya nanti.

ZIP: algoritma pemilihan data yang sangat ringan

Di bawah panduan hukum entropi, kami mengusulkan ZIP, metode pemilihan data yang memilih sampel data melalui tingkat kompresi data, yang bertujuan untuk memaksimalkan jumlah informasi efektif dengan anggaran data pelatihan yang terbatas. Untuk alasan efisiensi, kami mengadopsi paradigma serakah multi-tahap berulang untuk mendapatkan solusi perkiraan secara efisien dengan tingkat kompresi yang relatif rendah. Dalam setiap iterasi, pertama-tama kami menggunakan tahap seleksi global untuk memilih kumpulan sampel kandidat dengan rasio kompresi rendah untuk menemukan sampel dengan kepadatan informasi tinggi. Kami kemudian menerapkan tahap seleksi lokal yang terperinci untuk memilih sekumpulan sampel yang lebih kecil yang memiliki redundansi terendah dengan sampel yang dipilih. Terakhir, kami menggunakan tahap seleksi lokal yang terperinci untuk meminimalkan kesamaan antara sampel yang akan ditambahkan. Proses di atas berlanjut hingga diperoleh data yang cukup. Algoritma spesifiknya adalah sebagai berikut:



Hasil percobaan

1. Efektivitas algoritma pemilihan ZIP untuk LLM yang berbeda dan dalam tahapan penyelarasan LLM yang berbeda

Membandingkan algoritma pemilihan data SFT yang berbeda, model yang dilatih berdasarkan data pemilihan ZIP menunjukkan keunggulan dalam performa dan juga unggul dalam efisiensi. Lihat tabel di bawah untuk hasil spesifik:



Berkat karakteristik ZIP yang tidak bergantung pada model dan tidak sensitif terhadap konten, ZIP juga dapat diterapkan pada pemilihan data pada tahap penyelarasan preferensi. Data yang dipilih oleh ZIP juga menunjukkan keuntungan yang besar. Lihat tabel di bawah untuk hasil spesifik:



2. Verifikasi eksperimental hukum Entropi

Berdasarkan eksperimen pemilihan data SFT, kami menyesuaikan beberapa kurva hubungan berdasarkan efek model, laju kompresi data, dan hilangnya model pada langkah pelatihan sebelumnya. Hasilnya ditunjukkan pada Gambar 2 dan Gambar 3, dari situ kita dapat mengamati korelasi erat antara ketiga faktor tersebut. Pertama-tama, data dengan tingkat kompresi yang rendah biasanya memberikan hasil model yang lebih baik. Hal ini karena proses pembelajaran LLM sangat terkait dengan kompresi informasi. Kita dapat menganggap LLM sebagai kompresor data, sehingga data dengan tingkat kompresi yang lebih rendah berarti lebih banyak pengetahuan dan dengan demikian lebih berharga bagi kompresor. Pada saat yang sama, dapat diamati bahwa rasio kompresi yang lebih rendah biasanya disertai dengan kerugian pelatihan yang lebih tinggi. Hal ini karena data yang sulit untuk dikompres membawa lebih banyak pengetahuan, sehingga menimbulkan tantangan yang lebih besar bagi LLM untuk menyerap pengetahuan yang terkandung di dalamnya.



Gambar 2 Mistral-7B



Gambar 3 Llama-3-8B

3. Penerapan praktis hukum Entropi

Kami menyediakan penerapan hukum entropi untuk memandu pembaruan bertahap data pelatihan LLM dalam skenario nyata. Dalam skenario tugas ini, jumlah data pelatihan relatif stabil, dan hanya sebagian kecil data yang diubah.Hasilnya ditunjukkan pada Gambar 4, dimana



Ini adalah 5 versi data yang diperbarui secara bertahap secara bertahap. Karena persyaratan kerahasiaan, hanya hubungan relatif dari efek model pada tingkat kompresi yang berbeda yang disediakan. Menurut prediksi hukum entropi, dengan asumsi bahwa kualitas data tidak menurun secara signifikan setelah setiap pembaruan tambahan, kinerja model diharapkan akan meningkat seiring dengan penurunan laju kompresi data.Prediksi ini sesuai dengan versi data pada gambar

Hasilnya konsisten.Namun, versi datanya

Menunjukkan peningkatan kehilangan dan kompresi data yang tidak biasa, yang mengindikasikan potensi penurunan performa model karena berkurangnya konsistensi dalam data pelatihan. Prediksi ini selanjutnya dikonfirmasi oleh evaluasi kinerja model selanjutnya. Oleh karena itu, hukum entropi dapat digunakan sebagai prinsip panduan pelatihan LLM untuk memprediksi potensi risiko kegagalan pelatihan LLM tanpa melatih model pada kumpulan data lengkap hingga konvergensi. Hal ini sangat penting mengingat tingginya biaya pelatihan LLM.



Gambar 4