Llama 8B menelusuri 100 kali dan melampaui GPT-4o! Pencarian inferensial dapat meningkatkan kinerja, "Hukum Penskalaan"

Llama 8B menelusuri 100 kali dan melampaui GPT-4o! Pencarian inferensial dapat meningkatkan kinerja, "Hukum Penskalaan" baru

2024-08-15

Laporan Kebijaksanaan Baru

Editor: Qiao Yang

[Pengantar Kebijaksanaan Baru]Makalah terbaru menunjukkan bahwa model generatif seperti LLM dapat ditingkatkan skalanya dengan penelusuran dan mencapai peningkatan kinerja yang sangat signifikan. Eksperimen pengulangan lainnya juga menemukan bahwa jika model Llama 3.1 dengan hanya parameter 8B dicari 100 kali, model tersebut dapat mencapai level yang sama dengan GPT-4o dalam tugas pembuatan kode Python.

Rich Sutton, pionir dalam pembelajaran penguatan dan profesor di Departemen Ilmu Komputer di Universitas Alberta di Kanada, menulis postingan blog berjudul "The Bitter Lesson" pada tahun 2019, yang menjadi salah satu diskusi klasik di bidang AI.

Faktanya, intuisi Rich Sutton yang tersirat sangat mirip dengan Scaling Law.

Alamat asli: https://www.cs.utexas.edu/~eunsol/courses/data/bitter_lesson.pdf

Artikel tersebut secara singkat mengulas jalur pengembangan AI di bidang catur, Go, pengenalan suara dan visi, dan mengemukakan pandangan berikut:

Salah satu pelajaran sulit yang harus kita pelajari adalah menyadari kekuatan pendekatan universal. Pendekatan ini dapat terus diperluas seiring dengan meningkatnya jumlah komputasi karena lonjakan daya komputasi yang tersedia. Dua metode yang tampaknya dapat diskalakan secara sewenang-wenang dengan cara ini adalah pencarian dan pembelajaran.

Namun, pandangan ini tidak persis sama dengan Scaling Law, dan kita tidak dapat menggunakannya sebagai dasar untuk meyakini bahwa model kecil ditakdirkan menjadi tidak relevan.

Seperti yang dijelaskan Sutton, ada dua tantangan utama menuju penskalaan: pembelajaran dan pencarian.

Hukum Penskalaan yang diusulkan oleh OpenAI menekankan hal pertama. Ceteris paribus, model yang lebih besar berperforma lebih baik karena lebih banyak pengetahuan dan pola yang dapat dipelajari dari set pelatihan.

Namun yang sering kita abaikan adalah yang terakhir. Metode pencarian juga dapat ditingkatkan dengan lancar seiring dengan peningkatan daya komputasi selama fase inferensi untuk menghasilkan jawaban kandidat yang lebih banyak atau berkualitas lebih tinggi.

Sebuah artikel baru-baru ini yang diterbitkan oleh para sarjana dari Stanford, Oxford, DeepMind dan institusi lain berfokus pada hal ini.

Alamat makalah: https://arxiv.org/abs/2407.21787

Dengan bertambahnya jumlah sampel berulang pada tahap inferensi, kinerja (yaitu cakupan masalah) model di bidang matematika, penalaran, dan kode seperti GSM8K, MATH, MiniF2F-Math, dan SWE-bench Lite telah ditingkatkan secara signifikan.

Bahkan nampaknya terdapat hubungan linier eksponensial antara keduanya, dan dapat dimodelkan dengan hukum pangkat eksponensial yang seolah-olah menjelaskan adanya hukum penskalaan pada tahap penalaran.

Terinspirasi oleh makalah ini, kedua insinyur tersebut mulai mencoba mereproduksinya - hasilnya adalah dengan melakukan penelusuran menggunakan 100 model Llama kecil, mereka dapat mengejar atau bahkan mengalahkan GPT-4o dalam tugas pemrograman Python.

Kedua penulis menggunakan metafora yang jelas: sebelumnya, dibutuhkan seekor bebek seukuran kuda untuk mendapatkan kemampuan batas; namun sekarang, kita dapat memilih untuk menggunakan 100 kuda seukuran bebek (atau, lebih tepatnya, alpaka Llama).

Kode sumber yang digunakan dalam percobaan telah diunggah ke GitHub, dan biaya reproduksinya cukup rendah.

https://Gist.github.com/charlesfrye/27f25188dbbcfdf20a83c0230020fe05

Untuk mencoba performa yang lebih tinggi, penulis menggunakan pustaka vLLM untuk mengimplementasikan inferensi batch dan memperluas kondisi perangkat keras hingga 10 GPU A100-40GB, dengan kecepatan output mencapai 40k token/s.

Metrik dan hasil penilaian

Penulis memilih tes benchmark yang tidak tercakup dalam makalah Large Language Monkeys yang disebutkan di atas-HumanEval.

Manfaat kumpulan data ini adalah kode yang dihasilkan dapat dievaluasi menggunakan pengujian yang berjalan tanpa keterlibatan LLM sebagai Hakim atau evaluasi manusia, sehingga memungkinkan pengukuran kebenaran yang lebih obyektif.

Performa model diukur dengan dua indikator: pass@k dan fail@k. Berdasarkan hasil laporan PapersWithCode, dalam inferensi sampel nol, skor pass@1 GPT-4o adalah 90,2%.

https://paperswithcode.com/sota/code-generasi-on-humaneval

Dengan menggunakan metode yang diusulkan dalam makalah di atas, ditambah sedikit penyesuaian cepat (tanpa menyesuaikan hyperparameter lainnya), skor pass@k Llama 3.1 8B telah meningkat secara signifikan.

Jika jumlah sampel yang diulang k adalah 100, performanya setara dengan GPT-4o (90,5% vs. 90,2%); jika k mencapai 1000, skornya adalah 95,1%, yang jauh lebih baik daripada GPT-4o.

Jika Anda menggunakan indikator fail@k (setara dengan 1-pass@k) dan mentransformasikan dua sumbu koordinat pada gambar di atas secara logaritmik, Anda dapat melihat kurva yang ditunjukkan pada gambar di bawah, yang tampaknya sepenuhnya sesuai dengan "hukum penskalaan ".

Perlu dicatat bahwa percobaan kecil ini bukanlah reproduksi kertas yang ketat, tetapi hanya mengekstraksi metode inti.

Namun, hasil ini semakin menekankan bahwa model yang lebih kecil diperkirakan dapat mengungguli model "big Mac" seperti GPT-4o saat menggunakan metode penelusuran untuk augmentasi tahap inferensi.

Masa depan pencarian

Alasan mengapa metode pencarian ini ampuh adalah karena metode ini dapat diperluas secara "transparan" seiring dengan meningkatnya jumlah penghitungan, dan juga dapat mengalihkan konsumsi sumber daya dari memori ke penghitungan untuk mencapai keseimbangan sumber daya lebih lanjut.

Pencapaian besar AI dalam matematika akhir-akhir ini, seperti level AI dan AI, tidak terlepas dari pencarian yang digunakan di dalamnya.

Namun, penerapan pencarian terlebih dahulu memerlukan evaluasi hasil yang berkualitas tinggi. Model DeepMind menerjemahkan masalah matematika yang diungkapkan dalam bahasa alami ke dalam ekspresi formal, sehingga menerima pengawasan terperinci dari kompiler/verifikasi seperti Lean.

, yang dapat sangat meningkatkan tingkat paralelisme dan otomatisasi.

Menurut korespondensi Curry-Howard-Lambek, akan relatif mudah menggunakan program komputer untuk mengotomatiskan identifikasi dan evaluasi bukti matematis dan hasil pembuatan kode.

Namun pendekatan serupa mungkin gagal di bidang selain matematika dan pemrograman. Misalnya, untuk tugas NLP terbuka seperti "meringkas email", sulit melakukan pencarian yang efektif.

Dari perspektif ini, pencarian adalah hilir dari evaluasi. Secara kasar kita dapat berharap bahwa peningkatan kinerja model generatif di bidang tertentu akan berbanding lurus dengan kemampuan evaluasi dan pencarian.

Untuk mencapai tujuan ini, agen dalam lingkungan digital yang dapat diulang tampaknya merupakan arah yang menjanjikan.

Referensi:

https://modal.com/blog/llama-human-eval

berita

Llama 8B menelusuri 100 kali dan melampaui GPT-4o! Pencarian inferensial dapat meningkatkan kinerja, "Hukum Penskalaan" baru

Perkenalan

Informasi kontak saya