Pidato ICML2024 menjadi viral! Meta Zhu Zeyuan mengungkap dunia batin para model besar: berbeda dari pemikiran

Pidato ICML2024 menjadi viral! Meta Zhu Zeyuan mengungkap dunia batin para model besar: berbeda dari penalaran manusia

2024-08-05

Kolom AIxiv adalah kolom tempat Machine Heart menerbitkan konten akademis dan teknis. Dalam beberapa tahun terakhir, kolom Heart of the Machine AIxiv telah menerima lebih dari 2.000 laporan, mencakup laboratorium terkemuka dari universitas dan perusahaan besar di seluruh dunia, yang secara efektif mendorong pertukaran dan diseminasi akademis. Jika Anda memiliki karya luar biasa yang ingin Anda bagikan, silakan berkontribusi atau hubungi kami untuk pelaporan. Email pengiriman: [email protected]; [email protected]

Bagaimana model bahasa besar (LLM) memecahkan masalah matematika? Apakah melalui memori templat, atau apakah ia benar-benar belajar bernalar? Bagaimana proses aritmatika mental untuk model tersebut? Keterampilan penalaran apa yang bisa dipelajari? Sama seperti manusia, atau melebihi manusia? Akankah mempelajari satu jenis soal matematika saja akan membantu perkembangan kecerdasan umum? Mengapa LLM membuat kesalahan penalaran? Berapa kedalaman LLM yang diperlukan untuk melakukan penalaran?

Alamat makalah: https://arxiv.org/abs/2407.20311

Baru-baru ini, tim beranggotakan empat orang dari Meta FAIR, CMU dan MBZUAI, termasuk Ye Tian, Xu Zicheng, Li Yuanzhi, dan Zhu Zeyuan, merilis makalah arXiv terbaru "Fisika Model Bahasa Bagian 2.1: Matematika Sekolah Dasar dan Proses Penalaran Tersembunyi " menggunakan eksperimen terkontrol untuk menjawab pertanyaan cerdas atas permasalahan di atas. Pengguna Twitter @xlr8harder berkomentar, "Hasil ini akan mengakhiri perdebatan tentang apakah LLM memiliki kemampuan penalaran atau hanya burung beo acak."

Catatan Editor: Seluruh rangkaian "Fisika Model Bahasa" diundang untuk memberikan laporan khusus selama dua jam di Konferensi Puncak Pembelajaran Mesin Internasional ICML 2024 pada tanggal 22 Juli. adegan. Di sini saya persembahkan untuk Anda Bagian 2.1 dari seri ini.

Gambar 1

Penjelasan rinci tentang makalah tersebut

Pertama-tama, menurut konvensi seri ini, penulis percaya bahwa seseorang tidak boleh menebak-nebak cara berpikir dengan berbicara pada model besar seperti GPT-4. Hal ini mirip dengan perilaku hewan, yang mungkin dilakukan tetapi tidak cukup teliti secara ilmiah mengungkapkan pemikiran batin dari proses GPT-4.

Selain itu, dari perspektif data, hanya dengan mengakses sepenuhnya data pra-pelatihan model, kita dapat mengetahui pertanyaan mana yang telah dilihat oleh model dan pertanyaan mana yang telah dipelajari melalui inferensi. Bahkan jika suatu model mencapai skor tinggi pada GSM8k, yang merupakan kumpulan tolok ukur dari 8.000 soal matematika sekolah dasar, sulit untuk mengetahui apakah model tersebut telah melihat variasi dari soal-soal tersebut (seperti variasi dalam berbagai bahasa atau penulisan ulang GPT-4).

Untuk mencapai tujuan ini, penulis membuat iGSM, serangkaian pertanyaan pemikiran sintetik yang menyimulasikan tingkat matematika sekolah dasar, dan membiarkan model dilatih sebelumnya di iGSM dari awal untuk mengontrol jenis pertanyaan yang dihadapi model. Perlu dicatat bahwa iGSM tidak berisi informasi akal sehat, hanya penambahan, pengurangan, dan perkalian dalam rentang mod 23, dan semua perhitungan dilakukan langkah demi langkah menggunakan CoT. Dengan iGSM, eksperimen terkontrol dapat dilakukan yang secara khusus mempelajari kemampuan inferensi model sambil mengabaikan faktor lain (seperti aritmatika bilangan bulat besar). Gambar 2 menunjukkan contoh sederhana.

Gambar 2

Dengan menggunakan kumpulan data ini, penulis terlebih dahulu menguji performa GPT2 (versi RoPE). Menggunakan op untuk mewakili jumlah langkah operasi matematika yang diperlukan untuk menyelesaikan masalah, penulis menemukan bahwa ketika dilatih pada pertanyaan dengan op≤21, model tidak hanya dapat mencapai akurasi 99%, tetapi juga mencapai hasil yang lebih baik pada pertanyaan yang lebih sulit (seperti sebagai op=32 ), mempertahankan tingkat akurasi 83% (lihat Gambar 3). Hal ini menunjukkan bahwa model telah mempelajari beberapa keterampilan penalaran, dan belum pernah melihat soal dengan op>21. (Omong-omong, GPT-4o hanya dapat menangani pertanyaan dengan op=10 pada kumpulan data ini. Apa pun di luar kesulitan ini seperti menebak-nebak. Kita akan membahas masalah ini di akhir artikel.)

Jadi keterampilan penalaran seperti apa yang telah dipelajari model tersebut? Setidaknya ada dua cara berpikir untuk menyelesaikan masalah matematika iGSM. Salah satunya adalah apa yang penulis sebut "Penalaran Tingkat 0 ", yaitu, "perhitungan dengan kekerasan dapat dihitung". Karena variabel dalam pertanyaan mungkin memiliki ketergantungan yang kompleks, beberapa dapat dihitung secara langsung, sementara yang lain perlu dihitung terlebih dahulu. Misalnya, jika Xiao Zhang memiliki buah 3 kali lebih banyak daripada Xiao Wang, maka ia harus menghitung terlebih dahulu berapa banyak apel dan pir Xiao Wang punya. Dan hanya setelah menyimpulkannya, kita bisa mulai menghitung jumlah buah untuk Xiao Zhang. "Penalaran tingkat 0" adalah menghitung semua variabel sebanyak mungkin, setiap kali menemukan variabel yang dapat dihitung secara acak, menghitung hasilnya, dan melanjutkan.

Sesuai dengan ini adalah "Penalaran Tingkat 1 ": Melalui penyortiran topologi, mulailah dari masalah dan kerjakan mundur untuk menentukan variabel mana yang perlu dihitung, lalu mulai dari simpul daun dan hitung ke atas untuk mengupayakan" jawaban terpendek ". Penyelesaian masalah matematika pada umumnya biasanya menggunakan penalaran tingkat 1 dan tidak menghitung “variabel yang tidak diperlukan”. Misalnya, Xiao Zhang memiliki buah tiga kali lebih banyak daripada Xiao Wang. Jika Anda bertanya pada Xiao Zhang berapa banyak buah yang dimilikinya, maka jumlah apel Xiao Li adalah variabel yang tidak perlu, sedangkan jumlah apel dan pir Xiao Wang sama-sama diperlukan.

Seperti yang ditunjukkan pada Gambar 3, penulis menemukan bahwa GPT-2 dapat mempelajari penalaran tingkat 1 dan memberikan jawaban terpendek hampir setiap saat. Ini sangat sederhana! Karena sebelum model menghasilkan kalimat pertama, seluruh pengurutan topologi harus sudah dilakukan dalam pikirannya - jika tidak, bagaimana model mengetahui variabel mana yang tidak diperlukan? Jika model menghasilkan "Xiao Li punya 7 apel" dari awal, tidak ada cara untuk kembali dan jawaban terpendek tidak dapat diperoleh.

gambar 3

Jadi, bagaimana model mempelajari "penalaran tingkat 1"? Untuk tujuan ini, penulis melakukan studi probing pada parameter internal model (lihat Gambar 4). Kesimpulannya menunjukkan (lihat makalah untuk detail metode probe) bahwa sebelum model menghasilkan kalimat pertama, model telah ditentukan variabel A mana yang "diperlukan" melalui aritmatika mental (nece (A)=True). Pada saat yang sama, setelah setiap kalimat diucapkan, model juga secara mental menghitung semua variabel "yang dapat dihitung" berikutnya A (cannext (A)=True). Oleh karena itu, model hanya perlu terus melakukan operasi logika AND pada nece dan cannext, dan proses penghitungan lengkap dapat diberikan langkah demi langkah mulai dari node daun.

Khususnya, kemampuan aritmatika mental yang kompleks ini tidak muncul di set pelatihan. Model hanya diekspos ke data iGSM dan hanya melihat bagian "bahasa" (tanya jawab), namun secara mandiri mempelajari proses berpikir mirip manusia (proses mental) dan sampai pada solusi optimal!Dengan kata lain, penelitian ini membantah laporan kami seminggu yang lalu di "Bahasa ≠ Berpikir, model besar tidak dapat mempelajari penalaran: artikel Alam membuat komunitas AI meledak" dan membuktikannya dengan menggunakan metode ilmiah.Model berukuran besar memang bisa belajar berpikir melalui bahasa。

Yang lebih menakjubkan lagi adalah model tersebut belajar lebih dari itu. Pada Gambar 4, penulis juga menemukan bahwa model secara mental menghitung banyak informasi yang tidak berguna untuk menyelesaikan masalah. Misalnya, setelah hubungan variabel baru saja dideskripsikan, atau bahkan sebelum pertanyaan diajukan, model sudah mengetahui apakah terdapat ketergantungan rekursif antara dua variabel A dan B - meskipun variabel tersebut tidak relevan untuk menyelesaikan masalah. Bagi manusia, kita biasanya memulai dari pertanyaan dan bekerja mundur, mengabaikan variabel yang tidak perlu, namun model bahasa seperti GPT-2 akan menyisir seluruh grafik hubungan untuk menangani pertanyaan apa pun yang mungkin diajukan di masa mendatang. Penulis menyebut kemampuan ini “Penalaran Tingkat 2」。

Meskipun Penalaran Tingkat 2 tidak diperlukan untuk pemecahan masalah, ini tentu saja merupakan keterampilan yang lebih umum. Model ini memanfaatkan kemampuan paralel untuk melakukan penyortiran informasi sebab-akibat dalam jumlah besar. Kemampuan ini dikuasai oleh model bahasa ketika belajar memecahkan masalah. Belum ada (data) yang mengajarkannya untuk melakukan hal tersebut. Penulis berspekulasi bahwa hal ini mungkin merupakan asal usul istilah "universal" dalam kecerdasan umum buatan (AGI), yaitu model bahasa dapat mempelajari kemampuan yang lebih umum di luar keterampilan yang diajarkan oleh kumpulan data.

Gambar 4

Selanjutnya, penulis melihat mengapa model melakukan kesalahan. Singkatnya, pada kumpulan data iGSM, model hampir hanya membuat dua jenis kesalahan: satu menghitung variabel yang tidak perlu, dan yang lainnya menghitung variabel yang saat ini tidak dapat dihitung, seperti yang ditunjukkan pada Gambar 5.

Mengenai yang pertama, penulis menemukan bahwa jika model membuat kesalahan perhitungan mental sebelum menghasilkan jawaban dan secara keliru percaya bahwa variabel A tertentu "perlu" (nece (A) = Benar), maka model tersebut kemungkinan akan menghitung A secara paksa. saat menghasilkan jawabannya. Temuan ini sangat menarik dan menunjukkan bahwa banyak kesalahan yang terjadi secara sistematis dan model yakin bahwa model tersebut akan membuat kesalahan (melalui probe) bahkan sebelum model tersebut membuka mulutnya sebelum token pertama dihasilkan. Jenis kesalahan ini tidak ada hubungannya dengan keacakan dalam proses pembuatan model atau pencarian berkas.

Adapun yang terakhir, penulis juga mengaitkannya dengan kesalahan aritmatika mental, dan akan menggunakan seluruh makalah Bagian 2.2 lanjutan untuk secara khusus meningkatkan kemampuan aritmatika mental model, sehingga pada akhirnya meningkatkan akurasi pemecahan masalah. Makalah ini belum dirilis, dan kami akan terus memperhatikan dan melaporkannya ke akun publik.

Gambar 5

Kesimpulan selanjutnya adalah penulis membantah “hanya yang besar” yang ditekankan dalam hukum penskalaan model besar, yaitu kinerja model hanya berkaitan dengan jumlah parameter, dan tidak ada hubungannya dengan lebar atau kedalaman. Pandangan ini pertama kali diajukan oleh makalah Scaling Law OpenAI dan telah diikuti di hampir semua penelitian berikutnya.

Penulis melakukan eksperimen terkontrol melalui kumpulan data iGSM, seperti yang ditunjukkan pada Gambar 6. Dengan membandingkan model yang lebih kecil dan lebih dalam dengan model yang lebih besar dan lebih luas, kami menemukan bahwa untuk memecahkan masalah matematika di iGSM,Kedalaman model jelas lebih penting daripada lebarnya . Misalnya, model 20 lapisan dengan 9 kepala berkinerja jauh lebih baik daripada model 4 lapisan dengan 30 kepala, meskipun model 4 lapisan dengan 30 kepala memiliki parameter dua kali lebih banyak.

Lebih jauh lagi, penulis menemukanKetergantungan pada kedalaman muncul dari kompleksitas aritmatika mental model . Melalui studi penyelidikan pada kedalaman model yang berbeda, penulis menemukan bahwa untuk variabel A yang jauh dari masalah, aritmatika mental nece (A) seringkali memerlukan lebih banyak lapisan. Secara khusus, jika jarak antara variabel A dan variabel masalah adalah t, maka diperlukan t langkah aritmatika mental untuk mengetahui bahwa nece (A)=True. Semakin besar t maka semakin banyak lapisan yang dibutuhkan model, seperti ditunjukkan pada Gambar 6.

Penulis menekankan bahwa ketergantungan model pada kedalaman tidak dapat diimbangi dengan Chain-of-Thought (CoT). Faktanya, penyelesaian masalah matematika di iGSM telah menggunakan CoT semaksimal mungkin, yaitu semua perhitungan dipecah menjadi langkah demi langkah. Meski begitu, model tersebut masih perlu melakukan aritmatika mental untuk merencanakan langkah pertama CoT yang harus dilakukan - dan proses aritmatika mental ini mungkin masih memerlukan beberapa langkah. Hal ini menjelaskan ketergantungan model pada kedalaman.

Gambar 6

Singkatnya, tidak seperti lebih dari 99% makalah yang mempelajari proses perilaku LLM, penulis artikel ini mengambil pendekatan baru dan mengungkap proses mental LLM ketika memecahkan masalah matematika, yang memberikan wawasan baru tentang kecerdasan LLM. perspektif.

Di akhir artikel, penulis menunjukkan bahwa GPT-4 hanya dapat melakukan hingga 10 langkah penalaran pada kumpulan data iGSM. Hal ini menunjukkan bahwa bahkan model paling canggih saat ini, yang seharusnya memanfaatkan semua data Internet, masih tidak dapat menyelesaikan lebih dari 10 langkah inferensi secara akurat. Hal ini menyiratkan bahwa data pra-pelatihan yang digunakan oleh model besar yang ada mungkin masih memiliki banyak ruang untuk perbaikan. Melalui metode artikel ini, mungkin ada kemungkinan baru untuk membuat data yang disintesis secara artifisial untuk meningkatkan kemampuan penalaran model dan kemampuan menyortir informasi.

berita

Pidato ICML2024 menjadi viral! Meta Zhu Zeyuan mengungkap dunia batin para model besar: berbeda dari penalaran manusia

Perkenalan

informasi kontak saya