berita

Data penyelarasan LLM sepenuhnya disintesis secara otomatis! Mahasiswa doktoral UW asal Tiongkok usulkan metode Magpie, Macbook Air bisa menjalankannya

2024-07-26

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


Laporan Kebijaksanaan Baru

Editor: Qiao Yang

[Pengantar Kebijaksanaan Baru] Makalah terbaru dari Universitas Washington dan Allen AI mengusulkan pendekatan baru dan menarik untuk sintesis data. Mereka menemukan bahwa memanfaatkan sepenuhnya karakteristik autoregresif LLM dapat memandu model untuk secara otomatis menghasilkan data penyempurnaan instruksi berkualitas tinggi.

Data sangat penting untuk pelatihan LLM, namun fokus kami sering kali pada data pelatihan dan evaluasi, sementara data penyempurnaan diabaikan.

Misalnya, meskipun model seri Llama memiliki bobot terbuka (seperti Llama-3-Instruct), kumpulan data penyempurnaan masih bersifat pribadi.

Sebagian besar keberhasilan LLM bergantung pada penyempurnaan instruksi, sebuah proses yang memungkinkan model untuk menggeneralisasi tugas-tugas yang belum pernah dilakukan selama pelatihan dengan lebih baik.

Sama seperti efektivitas pelatihan yang bergantung pada kualitas korpus pelatihan, efektivitas penyempurnaan instruksi juga bergantung pada ketersediaan kumpulan data instruksi berkualitas tinggi.

Namun, dibandingkan dengan korpus pelatihan mandiri yang tidak berlabel, kumpulan data penyempurnaan dan penyelarasan berkualitas tinggi lebih sulit untuk dibuat dan diperluas karena diperlukan lebih banyak anotasi manual dan terdapat rentang petunjuk yang telah ditentukan sebelumnya.

Bahkan perusahaan yang mengkhususkan diri dalam menyediakan data kepada raksasa teknologi AI tidak dapat mencapai anotasi otomatis pada tahap saat ini, dan bahkan harus mempekerjakan profesional dengan gaji tinggi untuk berpartisipasi dalam menyempurnakan dan membangun kumpulan data yang selaras.

Alexandr Wang, CEO Scale AI, pernah berkata,

Baru-baru ini, sebuah makalah yang diterbitkan bersama oleh Universitas Washington dan lembaga penelitian Allen AI berfokus pada cara mensintesis data penyesuaian berkualitas tinggi dengan LLM yang selaras.


Alamat makalah: https://arxiv.org/abs/2406.08464

Metode yang diusulkan dalam makalah ini mewujudkan otomatisasi seluruh proses dan tidak memerlukan masalah awal apa pun. Yang lebih menakjubkan lagi adalah kode tersebut tidak hanya dapat dijalankan secara lokal, tetapi juga menggunakan LLM untuk secara otomatis menghasilkan data yang sangat andal dan berkualitas tinggi.

Setelah mereka menggunakan model Dasar Llama-3-8B untuk menyempurnakan kumpulan data SFT yang mereka hasilkan, mereka memperoleh model dengan kinerja yang lebih kuat daripada versi resmi Llama-3-Instruct yang telah disempurnakan.


Makalah ini diteruskan dan didukung oleh Sebastian Raschka, seorang tokoh besar di kalangan AI.


Pada awalnya, dia tidak percaya bahwa metode ini benar-benar dapat dijalankan secara lokal di MacBook Air, namun setelah mencobanya sendiri, dia terkejut saat mengetahui bahwa metode tersebut benar-benar dapat dijalankan.


Raschka adalah penulis beberapa buku teknis terlaris, termasuk "Membangun Model Bahasa Besar dari Awal", "Pelajaran Mesin Python", dll. Saat ini ia menjabat sebagai insinyur penelitian di Lightning AI.



Penulis pertama makalah ini, Zhangchen Xu, adalah mahasiswa doktoral tahun kedua di Laboratorium Keamanan Siber Universitas Washington, belajar di bawah bimbingan Profesor Radha Poovendran. Minat penelitiannya adalah keamanan, privasi, dan keadilan pembelajaran mesin, dan saat ini dia fokus tentang cara membangun LLM yang tepercaya.


Jadi mari kita lihat lebih dekat bagaimana metode sintesis data yang efisien ini diterapkan.

Ikhtisar metode

Input LLM umumnya terdiri dari 3 bagian:

- templat pra-kueri

- Konten kueri (kueri)

- Templat pasca-kueri

Dua templat umumnya telah ditentukan sebelumnya oleh pengembang model untuk memastikan bahwa model diminta dengan benar.

Misalnya, bentuk masukan Llama-2-chat adalah:

Hai! [/INST]

Dalam penelitian sebelumnya, biasanya ada dua metode untuk menyusun kumpulan data yang menyempurnakan. Salah satunya dengan membiarkan manusia secara langsung membuatnya secara manual, yang jelas memakan waktu dan sumber daya. Yang kedua adalah memulai dengan sejumlah kecil instruksi seed yang dianotasi secara manual dan memanggil LLM melalui petunjuk untuk mensintesis lebih banyak instruksi.

Meskipun metode kedua menghemat tenaga kerja, metode ini sangat menguji tingkat rekayasa cepat dan pemilihan masalah awal. Dengan kata lain, sulit mencapai ekspansi skala besar yang terkendali.

Masalah yang lebih fatal adalah bahwa instruksi yang disintesis seringkali sangat dekat dengan instruksi awal, yang akan sangat mempengaruhi keragaman kumpulan data berskala besar. Membuat kumpulan data instruksi berkualitas tinggi dan beragam dengan cara yang terukur tetap menjadi masalah yang menantang di bidang LLM.

Namun, penulis membuat penemuan menarik dalam percobaan awal: Karena karakteristik autoregresif LLM, ketika hanya templat pra-kueri yang dimasukkan, model akan secara otomatis mensintesis kueri, dan dari sudut pandang konten, tampaknya ada kualitas dan keragaman yang baik. Hal ini menunjukkan bahwa mereka dapat secara efektif memanfaatkan kemampuan yang dipelajari selama proses penyelarasan.

Terinspirasi oleh hal ini, penulis mengusulkan ide berikut untuk membuat kumpulan data instruksi: gunakan templat pra-kueri sebagai prompt, masukkan ke LLM yang selaras, dan secara otomatis menghasilkan data instruksi.

Seperti yang ditunjukkan pada gambar di bawah, setiap contoh data instruksi berisi satu atau lebih pasangan instruksi-respons, dan peran penyedia instruksi dan pengikut ditentukan.


Gambar 1 menjelaskan alur yang dihasilkan secara otomatis oleh seluruh data, yang secara kasar dibagi menjadi dua langkah.

Yang pertama adalah generasi instruksi. Metode MAGPIE menyusun konten kueri ke dalam format templat instruksi LLM yang telah ditentukan sebelumnya, namun hanya menyertakan penyedia instruksi (seperti pengguna) dan tidak menyertakan konten instruksi spesifik.

Dengan menggunakan ini sebagai masukan LLM, model akan menghasilkan instruksi secara autoregresif. Proses ini memastikan keragaman instruksi yang dihasilkan karena tidak diperlukan keahlian teknik petunjuk khusus dan tidak ada pertanyaan penyemaian yang digunakan.

Pada langkah kedua, MAGPIE memasukkan instruksi yang dihasilkan sebelumnya ke LLM untuk mendapatkan konten respons.

Dengan mengulangi dua langkah di atas berulang kali, beberapa putaran data instruksi dapat diperoleh. Jika Anda ingin menghasilkan data untuk bidang tertentu, Anda dapat melakukannya dengan menambahkan perintah yang sesuai.


Setelah memperoleh hasil pembuatan asli, penulis juga menyaringnya berdasarkan panjang teks, kategori tugas, kualitas masukan, kesulitan masukan dan indikator lainnya.


Makalah ini menggunakan dua model, masing-masing Llama-3-8B-Instruct dan Llama-3-70B-Instruct, untuk membuat dua kumpulan data MAGPIE-Air dan MAGPIE-Pro, dan memberikan contoh instruksi yang dihasilkan dalam lampiran:


Seperti yang Anda lihat, kualitas teksnya memang bagus, dan sebanding dengan instruksi yang ditulis manusia.

Namun, untuk mengevaluasi kualitas data berskala besar tersebut, kita tidak bisa hanya mengandalkan perasaan subjektif, sehingga penulis melakukan analisis kuantitatif pada kumpulan data instruksi yang dihasilkan MAGPIE-Pro.

Analisis kumpulan data

Cakupan

Untuk mempertimbangkan keragaman teks instruksi, metrik yang efektif adalah cakupan penyematan teks dalam ruang semantik.

Penulis secara acak mengambil sampel teks instruksi dari MAGPIE-Pro, mengkodekannya ke dalam vektor penyematan dan memproyeksikannya ke dalam ruang dua dimensi menggunakan metode t-SNE. Tiga set data dasar digunakan untuk perbandingan, termasuk Alpaca, Evol Instruct, dan UltraChat.

Setiap titik proyeksi t-SNE pada gambar di bawah mewakili 10.000 instruksi yang dipilih secara acak. Terlihat bahwa proyeksi MAGPIE-Pro pada dasarnya mencakup cakupan ketiga kumpulan data lainnya, yang menunjukkan bahwa ia memberikan topik yang lebih luas dan beragam.


Atribut perintah

Makalah ini menggunakan model Llama-3-8B-Instruct untuk mengevaluasi berbagai atribut data instruksi MAGPIE, seperti kategori tugas instruksi, kualitas, kesulitan, kesamaan, dan kualitas respons.

Kategori tugas untuk menghasilkan instruksi sebagian besar adalah pengambilan informasi, terhitung lebih dari setengahnya, dan juga mencakup penulisan kreatif, mencari nasihat, perencanaan, matematika, penalaran, brainstorming dan pengeditan, dll., yang pada dasarnya konsisten dengan kebutuhan arus utama pengguna manusia. .


Kualitas dan kesulitan instruksi juga dievaluasi secara otomatis menggunakan model Llama-3-8B-Instruct.

Terlihat bahwa di kedua kumpulan data, sebagian besar instans dinilai rata-rata ke atas, dan kualitas MAGPIE-Pro secara keseluruhan lebih baik daripada MAGPIE-Air.

Distribusi kesulitan instruksi kumpulan data pada dasarnya serupa, dengan lebih dari 60% terkonsentrasi pada tingkat "mudah", dan kumpulan data Pro sedikit lebih menantang daripada Air.


Dengan menghitung kesamaan instruksi, tingkat diversifikasi dapat dinilai dari aspek lain. Makalah ini menggunakan FAISS untuk mencari tetangga terdekat dari setiap teks yang disisipkan dan menghitung jarak antara mereka untuk mengukur tingkat kesamaan.

Dalam hal kualitas respons, FsfairX-LLaMA3-RM-v0.1 digunakan sebagai model evaluasi penghargaan, dan URIAL digunakan sebagai model dasar untuk perbandingan. Perbedaan imbalan yang positif menunjukkan kualitas yang lebih tinggi, yang bermanfaat bagi proses penyempurnaan instruksi.

Seperti terlihat pada Gambar 5b, distribusi data MAGPIE secara keseluruhan bergeser ke kanan dan memiliki nilai puncak yang lebih rendah dibandingkan model baseline, yang menunjukkan bahwa kualitas respons secara keseluruhan lebih baik.


keamanan

Selain itu, dalam hal keamanan perintah, penulis menggunakan Llama-guard-2 untuk evaluasi otomatis dan menemukan bahwa sebagian besar kumpulan data MAGPIE aman, namun masih berisi kurang dari 1% perintah atau hasil respons berbahaya.


Evaluasi hasil

Salah satu hal yang menarik dari penelitian ini adalah biaya operasional yang efisien dan jalur pipa yang sepenuhnya otomatis tanpa intervensi manual.

Saat membuat kumpulan data 3M MAGPIE-Air, empat GPU A100 digunakan untuk menyelesaikan pembuatan perintah/respons dalam 1,55 jam/50 jam. Menghasilkan kumpulan data MAGPIE-Pro 1M masing-masing membutuhkan waktu 3,5 jam/150 jam.

Jika dijalankan di server cloud, biayanya juga sangat besar. Biayanya $0,12 atau $1,10 per 1 ribu instans yang dihasilkan, bergantung pada kumpulan data Air atau Pro.

Untuk benar-benar mencerminkan keunggulan metode MAGPIE, makalah ini benar-benar menerapkan kumpulan data untuk menyempurnakan model dasar dan membandingkannya dengan versi penyempurnaan yang dirilis secara resmi.

Penulis memilih 6 kumpulan data penyempurnaan instruksi open source tercanggih seperti ShareGPT dan Evol Instruct sebagai dasar. Diantaranya, ShareGPT dan WildChat ditulis oleh manusia, dan Evol Instruct dan UltraChat adalah kumpulan data sintetis.

Model dasar yang disempurnakan mencakup Llama-3 dan Qwen-1.5, dan dua indikator yang banyak digunakan, AlpacaEval dan Arena-Hard, dipilih untuk mengevaluasi kinerja.

Dari perbandingan data detail antara kedua tabel, terlihat bahwa model dasar mana pun yang digunakan, kumpulan data yang dihasilkan dengan metode MAGPIE memiliki kualitas lebih tinggi, lebih baik dari semua kumpulan data dasar, dan lebih baik dari data resmi. diatur di sebagian besar indikator. Merilis model yang disempurnakan.



Ketika hukum penskalaan LLM secara bertahap menyentuh dinding data, metode makalah ini membuka pintu harapan lain bagi data sintetis. Mungkin dengan menggunakan algoritme dan teknik yang dirancang dengan cermat, data sintetis LLM secara bertahap dapat menjadi "Andalan" kumpulan data publik.

Referensi:

https://arxiv.org/abs/2406.08464