Informasi kontak saya
Surat[email protected]
2024-08-19
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
Laporan Kebijaksanaan Baru
Editor: Qiao Yang
[Pengantar Kebijaksanaan Baru]Semakin banyak penelitian yang menemukan bahwa pasca pelatihan sama pentingnya untuk memodelkan kinerja. Nathan Lambert, peneliti pembelajaran mesin di Allen AI, baru-baru ini menerbitkan postingan blog teknis yang merangkum resep pelatihan pasca-model yang digunakan oleh raksasa teknologi.
Dengan pesatnya perkembangan dunia akademis dan industri LLM, tidak hanya daya komputasi dan data yang digunakan untuk pra-pelatihan yang digunakan secara gila-gilaan, tetapi penyelarasan dan penyempurnaan metode pasca-pelatihan juga terus diperbarui.
Model yang dirilis sebelumnya seperti InstructGPT dan WebGPT menggunakan metode RLHF standar, dan gaya serta skala pengelolaan data di dalamnya tampaknya sudah ketinggalan zaman.
Dalam beberapa bulan terakhir, raksasa AI seperti Meta, Google, dan NVIDIA telah merilis model sumber terbuka, disertai dengan makalah atau laporan terperinci, termasuk,,,, dan laporan model dasar Apple Intellegence.
Dari informasi yang diungkapkan ini, kita dapat melihat beberapa tren terkini dalam metode pasca-pelatihan. Ilmuwan riset Allen AI, Nathan Lambert, baru-baru ini menerbitkan artikel tentang topik ini.
Alamat asli: https://www.interconnects.ai/p/frontier-model-post-training
Nathan Lambert lulus dari UC Berkeley, memimpin tim RLHF di HuggingFace, dan saat ini menjadi peneliti pembelajaran mesin di Allen AI.
Dalam artikelnya, ia menunjukkan bahwa data sintetis, pelatihan berulang, label preferensi manusia, dan pemfilteran ekstensif adalah fitur umum dari metode pasca-pelatihan yang digunakan dalam model ini. Secara khusus, resep pasca-latihan baru dibuat berdasarkan preset berikut:
-Data sintetis mungkin memiliki kualitas lebih tinggi dibandingkan data manusia, terutama untuk tugas yang menantang
- RLHF dapat menskalakan ke skala yang lebih besar daripada penyempurnaan instruksi
- Diperlukan beberapa putaran pelatihan dan pembangkitan untuk mendapatkan model terbaik
- Pemfilteran data adalah bagian terpenting dari pelatihan
Asumsi-asumsi ini sebagian besar saling terkait untuk membentuk program pelatihan yang dapat diperluas ke tim besar, sehingga ideal untuk perusahaan teknologi raksasa. Isi artikel secara spesifik memberikan penjelasan rinci tentang empat poin di atas.
Pipa standar baru
Jika kita menganggap bahwa skor ChatBot Arena mengukur kinerja model pasca-pelatihan, yang sebagian besar terkait dengan gaya dan ketahanan, hampir semua laboratorium besar telah mencapai kemajuan signifikan melalui pelatihan berulang.
Kami belum melihat peluncuran Gemini 2 atau GPT-5, yang mungkin mengubah paradigma pasca-pelatihan saat ini dan berpotensi memberikan kontrol lebih besar terhadap model kami.
Namun dari sudut pandang saat ini, metode yang digunakan oleh berbagai laboratorium terkemuka jelas mengalami konvergensi, dan tren ini jauh lebih jelas dari yang diharapkan.
Data preferensi manusia
Saluran RLHF awal berfokus pada data manusia, yang hadir dalam dua bentuk utama: 1) data manusia untuk menyempurnakan instruksi untuk tugas-tugas khusus; 2) data preferensi manusia tentang penyelesaian tugas.
Kumpulan data penyempurnaan seperti itu mahal dan dilindungi dengan ketat. Sejauh yang saya tahu, satu-satunya yang publik adalah No Robots, yang dirilis Lambert ketika dia berada di tim HuggingFace.
Alamat gudang: https://huggingface.co/datasets/HuggingFaceH4/no_robots
Data preferensi manusia sebagian besar terkait dengan perbaikan model tertentu. Namun meskipun data dapat dibuat terbuka, tidak ada kepastian bahwa preferensi dari satu model dapat ditransfer ke model lainnya.
Lambert dan timnya melakukan upaya serupa di HuggingFace, tetapi gagal karena kontrak data berbayar yang kecil.
Saat ini, satu-satunya aspek yang menggunakan data manusia adalah data preferensi. Dilihat dari data yang diungkapkan oleh Llama 2 dan rumor lainnya, Meta mungkin menghabiskan $10M-20M untuk data preferensi, atau bahkan lebih. Hal ini juga terbatas pada model akhir yang dipublikasikan dan tidak mencakup eksperimen dan evaluasi yang lebih luas.
Nemotron menggunakan sejumlah besar data sintetis untuk menggantikan data manusia, namun secara relatif, penyesuaian model ini kurang baik.
Ada tantangan yang mendesak, namun juga peluang, bagi komunitas terbuka: mencari tahu sejauh mana intervensi manusia terhadap data semacam ini dan apakah data tersebut dapat digantikan dengan metode seperti LLM-as-a-Judge atau model penghargaan.
RLHF yang diperluas
Thomas Scialom, kepala penyelarasan di Llama 3, mengatakan di podcast Latent Space:
RLHF jauh lebih terukur. Biayanya lebih murah, lebih mudah dioperasikan, dan umumnya menghasilkan kinerja yang lebih baik.
Dia juga mengatakan bahwa dia akan menggunakan "100% anggaran data penyelarasan untuk data penyelarasan yang diperlukan pada tahap RL, daripada menghabiskan lebih banyak waktu untuk instruksi."
Sebagian besar upaya penyelarasan sumber terbuka berfokus pada penyempurnaan instruksi yang diperluas (IFT, atau SFT). IFT mudah dioperasikan, cocok untuk berbagai tugas, dan mudah digunakan dengan data sintetis.
Namun yang jelas industri hanya menggunakan IFT sebagai titik awal perluasan RLHF. Data SFT terutama berfokus pada bidang tertentu yang gagal dicakup oleh model sebelumnya, dan kemudian memperluas RLHF atas dasar ini.
RLHF adalah proses berulang, dan proses pembuatan model memungkinkannya untuk terus ditingkatkan. Latihan 5 putaran dirinci di makalah Llama 2 dan Nemotron, tapi kami tidak tahu apakah ada batas atas jumlah ini.
Llama 3.1 dilatih dengan 6 putaran data preferensi, Llama 2 dilatih dengan 5 putaran, Nemotron dilatih dengan 4 putaran, dan sebelumnya terdapat beberapa putaran penyempurnaan instruksi.
Untuk data preferensi manusia, beberapa iterasi mungkin terutama didorong oleh pertimbangan kelayakan:
1. Data ditransfer dari perusahaan anotasi ke laboratorium secara batch
2. Melakukan beberapa putaran pelatihan skala kecil dapat mengurangi risiko pengiriman produk akhir. Daripada menunggu semua data tersedia sebelum memulai pelatihan, biarkan model secara bertahap berjalan sesuai rencana
Faktor-faktor praktis tersebut mungkin tampak tidak penting, namun sering kali memicu norma-norma industri tertentu.
Gambar di bawah ini berasal dari makalah Llama 2 yang mencatat data terkait 5 putaran pengambilan sampel penolakan dan PPO.
Nemotron juga melakukan trim SFT 2 roda dan penyelarasan 4 roda. Diantaranya, RPO adalah model penghargaan yang ditimbang dengan pengoptimal DPO.
Metode RLHF berulang serupa dapat ditelusuri kembali ke "Kecerdasan Buatan Konstitusional" yang diusulkan oleh Anthropic, namun komunitas open source tampaknya tidak mereproduksi hasil ini dalam skala besar.
Saat ini civitas akademika sedang memperhatikan “pelatihan DPO online” yang arahnya serupa, namun kurang memperhatikan data antar putaran. Pendekatan ini saat ini masih memerlukan banyak pekerjaan manual, namun setelah prosesnya diotomatisasi, DPO online akan menjadi masa depan.
Faktanya, pemilihan algoritma masing-masing tim untuk fase pasca pelatihan tidak boleh terlalu kaku. DPO dan PPO masing-masing memiliki kelebihan dan kekurangan masing-masing. DPO lebih mudah untuk diukur, namun metode yang terinspirasi dari PPO (seperti RL online) memiliki batas atas kinerja yang lebih tinggi.
Pendekatan-pendekatan ini saat ini dimotivasi terutama oleh kesederhanaan, karena tim-tim ini masih relatif baru dan sedang membangun sistem modular, dan seorang anggota tim pasca-pelatihan Llama 3 menegaskan pendekatan ini terhadap kesederhanaan teknik.
Llama 3 memiliki siklus pasca-pelatihan yang sederhana: pengambilan sampel penolakan, SFT, dan DPO. Hal ini tidak hanya menghasilkan kinerja optimal pada tingkat empiris tetapi juga memungkinkan reproduktifitas. Selain itu, tim dapat menjelajahi banyak alur kerja yang berbeda (misalnya coding, matematika) secara asinkron, sehingga menyatukan data ke dalam loop sederhana yang sama.data sintetis
Bagian penting dari siklus RLHF baru ini adalah data perintah sintetis yang melebihi kemampuan manusia pada sebagian besar tugas.
Jika Anda dapat sedikit meningkatkan model dan menghasilkan instruksi yang lebih baik, maka "mulai dari awal" dan perbarui pos pemeriksaan.
Meta secara eksplisit menyatakan di makalah bahwa mereka "menggunakan model 405B untuk meningkatkan kualitas pasca-pelatihan model kecil kami"; Google melakukan ini dengan menyaring Gemini Flash, namun kenyataannya sebagian besar model mutakhir mungkin menyertakan beberapa langkah serupa.
Saya mendengar bahwa OpenAI menggunakan 50 triliun token data untuk melatih model generasi berikutnya, yang sebagian besar adalah data sintetis. Ada rumor tahun lalu bahwa Anthropic memiliki “korpus AI Konstitusi skala pra-pelatihan”, yang sekarang tampaknya masuk akal.
Perusahaan AI ini menyadari pentingnya data sintetis 12 hingga 18 bulan yang lalu, ketika mereka tidak lagi menggunakan keluaran model untuk pelatihan iterasi mandiri. Namun Meta berbeda karena mendapat manfaat dari model terbuka lainnya yang lebih baik.
Melihat pasca-pelatihan hari ini memperjelas bahwa masalah kerusakan model pada data sintetis terlalu dilebih-lebihkan. Keruntuhan model hanya terjadi ketika data asli dibuang dan hanya data baru yang dihasilkan yang tersisa di lingkungan yang diatur secara artifisial.
Kualitas data adalah raja
Sebagian besar laporan Llama 3.1 berisi rincian pengelolaan data, dengan setiap sub-bidang terkait memerlukan instruksi pengelolaan yang luas dan spesifik.
Hal ini konsisten dengan apa yang saya ketahui tentang tim pasca pelatihan yang dipimpin oleh John Schulman di OpenAI dan tim serupa lainnya - tentukan domain tertentu, dapatkan data yang relevan, dan model menjadi lebih baik.
Namun tanpa pemfilteran dan pengelolaan data yang ekstensif, metode RLHF di atas tidak akan berhasil.
Di Allen AI, kami mulai lebih memprioritaskan data dalam proses pasca pelatihan, dan Anda dapat langsung merasakan perubahan dalam kecepatan peningkatan model.
Studi Kasus - Nemotron dan Llama
Proses pasca pelatihan Llama adalah sebagai berikut:
Gambar dari Nemotron ini relatif sederhana:
Secara keseluruhan, kita dapat melihat kesamaan yang dimiliki sebagian besar metode.
Namun grafik di bawah ini, dan sebagian besar makalah penelitian industri, mengabaikan data tersebut.
Model seperti Llama 3.1 telah menyebutkan banyak detail dalam laporan, seperti regularisasi, penyesuaian fungsi kerugian, rata-rata model, dll., namun hal ini merupakan peningkatan kecil dalam performa model dan sebagian besar berada di luar cakupan siklus penyempurnaan inti. .
Pada titik waktu tertentu, detail-detail ini akan menjadi tidak berarti lagi.
Referensi:
https://www.interconnects.ai/p/frontier-model-post-training