Model besar memiliki pemahaman bahasanya sendiri! Makalah MIT mengungkap proses berpikir model besar |. ICML 24

Model besar memiliki pemahaman bahasanya sendiri! Makalah MIT mengungkapkan proses berpikir model besar |. ICML 24

2024-08-17

Crecy berasal dari Kuil Aofei
Qubit |. Akun publik QbitAI

Model besar dapat membentuk pemahaman Anda sendiri tentang dunia nyata!

Sebuah studi di MIT menemukan bahwa ketika seorang model menjadi lebih mampu, pemahamannya terhadap realitas mungkin lebih dari sekadar peniruan.

Misalnya, jika model besar tidak pernah mencium bau, apakah berarti ia tidak dapat memahami bau?

Penelitian telah menemukan bahwa ia dapat secara spontan mensimulasikan beberapa konsep agar mudah dipahami.

Penelitian ini bermaksud demikianModel berukuran besar diharapkan dapat memberikan pemahaman yang lebih mendalam tentang bahasa dan dunia di masa depan, makalah telah diterima oleh ICML 24.

Penulis makalah ini adalah mahasiswa doktoral Tiongkok Charles Jin dan pembimbingnya Profesor Martin Rinard dari MIT Computer and Artificial Intelligence Laboratory (CSAIL).

Selama penelitian, penulis meminta model besar untuk hanya mempelajari teks kode, dan menemukan bahwa model tersebut secara bertahap memahami makna di baliknya.

Profesor Rinard mengatakan bahwa penelitian ini secara langsung menargetkan isu inti kecerdasan buatan modern—

Apakah kemampuan model besar hanya muncul dari korelasi statistik skala besar, atau apakah model tersebut menghasilkan pemahaman yang berarti tentang permasalahan dunia nyata yang ingin diatasi?

△Sumber: situs resmi MIT

Di saat yang sama, penelitian ini juga memicu banyak diskusi.

Beberapa netizen mengatakan bahwa meskipun model berukuran besar mungkin memahami bahasa secara berbeda dari manusia, penelitian ini setidaknya menunjukkan bahwa model tersebut melakukan lebih dari sekadar menghafal data pelatihan.

Biarkan model besar mempelajari kode murni

Untuk mengeksplorasi apakah model besar dapat menghasilkan pemahaman tingkat semantik, penulis membangun aKode program serta masukan dan keluarannyakumpulan data sintetis.

Program kode ini ditulis menggunakan program yang disebutKarelIni ditulis dalam bahasa pengajaran dan terutama digunakan untuk mewujudkan tugas navigasi robot di dunia grid 2D.

Dunia grid ini terdiri dari grid 8x8, setiap grid dapat berisi rintangan, penanda atau ruang terbuka. Robot dapat berpindah antar grid dan melakukan operasi seperti menempatkan/mengambil penanda.

Bahasa Karel berisi lima operasi primitif - bergerak (satu langkah maju), belok kiri (belok kiri 90 derajat), belok kanan (belok kanan 90 derajat), pickMarker (ambil penanda), putMarker (penanda tempat). operasi primitif.

Penulis secara acak menghasilkan set pelatihan yang berisi 500.000 program Karel, masing-masing durasi program antara 6 dan 10.

Setiap sampel pelatihan terdiri dari tiga bagian: 5 status masukan, 5 status keluaran, dan kode program lengkap. Status masukan dan keluaran dikodekan ke dalam string dalam format tertentu.

Dengan menggunakan data ini, penulis melatih varian model CodeGen dari arsitektur Transformer standar.

Selama proses pelatihan, model dapat mengakses informasi input dan output serta awalan program di setiap sampel, namunTidak dapat melihat lintasan lengkap dan status peralihan dari eksekusi program。

Selain set pelatihan, penulis juga membuat set pengujian yang berisi 10.000 sampel untuk mengevaluasi performa generalisasi model.

Untuk mempelajari apakah model bahasa memahami semantik di balik kode dan pada saat yang sama memahami secara mendalam "proses berpikir" model, penulis merancang kombinasi detektor termasuk pengklasifikasi linier dan MLP lapisan tersembunyi tunggal/ganda.

Masukan dari detektor adalah keadaan tersembunyi dari model bahasa dalam proses pembuatan token program, dan target prediksi adalah keadaan antara eksekusi program, termasuk orientasi robot, offset relatif terhadap posisi awal, dan apakah menghadap ke depan. Menuju hambatan (obstacle) ketiga ciri tersebut.

Selama proses pelatihan model generatif, penulis mencatat ketiga fitur di atas setiap 4000 langkah, dan juga mencatat keadaan tersembunyi model generatif untuk membentuk kumpulan data pelatihan untuk detektor.

Tiga tahap pembelajaran model besar

Dengan mengamati bagaimana keragaman, kebingungan, dan indikator lain dari program yang dihasilkan oleh model bahasa berubah seiring dengan proses pelatihan, penulis membagi proses pelatihan menjadi tiga tahap -

Tahap mengoceh: Program keluaran sangat berulang dan akurasi detektor tidak stabil.
Tahap perolehan tata bahasa: Keberagaman program meningkat dengan cepat, akurasi pembangkitan sedikit meningkat, dan kebingungan berkurang, menunjukkan bahwa model bahasa telah memperoleh struktur sintaksis program.
Tahap akuisisi semantik: Tingkat keragaman program dan penguasaan struktur sintaksis stabil, tetapi akurasi pembangkitan dan kinerja detektor meningkat pesat, menunjukkan bahwa model bahasa telah memperoleh semantik program.

Secara khusus, tahap Babbling menempati 50% pertama dari keseluruhan proses pelatihan. Misalnya, ketika pelatihan mencapai sekitar 20%, apa pun spesifikasi yang dimasukkan, model hanya akan menghasilkan program tetap - "pickMarker" yang diulang sebanyak 9 kali.

Tahap perolehan tata bahasa berada pada 50% hingga 75% dari proses pelatihan. Kebingungan model pada program Karel telah menurun secara signifikan, menunjukkan bahwa model bahasa telah mulai beradaptasi lebih baik dengan karakteristik statistik program Karel, namun keakuratannya program yang dihasilkan belum mengalami kemajuan yang signifikan (Dari sekitar 10% menjadi sekitar 25%), masih belum dapat menyelesaikan tugas secara akurat.

Tahap akuisisi semantik adalah 25% terakhir, dan keakuratan program telah meningkat secara dramatis, dari sekitar 25% menjadi lebih dari 90%, dan program yang dihasilkan dapat menyelesaikan tugas yang diberikan secara akurat.

Eksperimen lebih lanjut menemukan bahwa detektor tidak hanya dapat memprediksi langkah waktu sinkronisasi pada waktu t, tetapi jugaMemprediksi status eksekusi program pada langkah waktu berikutnya。

Misalnya, asumsikan bahwa model generatif menghasilkan token "bergerak" pada waktu t dan akan menghasilkan "turnLeft" pada waktu t+1.

Sedangkan keadaan program pada waktu t adalah robot menghadap utara dan terletak pada koordinat (0,0), sedangkan robot pada waktu t+1 adalah robot menghadap barat, dengan posisi tidak berubah.

Jika detektor berhasil memprediksi dari keadaan tersembunyi model bahasa pada waktu t bahwa robot akan menghadap ke barat pada waktu t+1, berarti sebelum menghasilkan "turnLeft", keadaan tersembunyi tersebut sudah berisi perubahan keadaan yang disebabkan oleh hal ini. operasi. informasi.

Fenomena ini menunjukkan bahwa model tidak hanya memiliki pemahaman semantik dari bagian program yang dihasilkan, tetapi pada setiap langkah generasi, model tersebut telah mengantisipasi dan merencanakan konten yang akan dihasilkan selanjutnya, menunjukkan gambaran awal.Keterampilan penalaran berorientasi masa depan。

Namun penemuan ini membawa pertanyaan baru pada penelitian ini——

Apakah peningkatan akurasi yang diamati dalam eksperimen benar-benar merupakan peningkatan pada model generatif, atau merupakan hasil inferensi detektor itu sendiri?

Untuk mengatasi keraguan ini, penulis menambahkanEksperimen intervensi deteksi semantik。

Ide dasar dari percobaan ini adalah untuk mengubah aturan interpretasi semantik dari operasi program, yang dibagi menjadi dua metode: "flip" dan "adversarial".

"Flip" adalah pembalikan paksa dari arti instruksi. Misalnya, "turnRight" secara paksa diartikan sebagai "turn left." Namun, hanya "turnLeft" dan "turnRight" yang dapat melakukan pembalikan semacam ini;

"adversarial" secara acak mengacak semantik yang sesuai dengan semua instruksi. Metode spesifiknya adalah seperti yang ditunjukkan pada tabel di bawah.

Jika keadaan tersembunyi dari model generatif hanya mengkodekan struktur sintaksis program dan bukan informasi semantik, maka detektor harus tetap dapat mengekstrak informasi semantik yang diubah dari keadaan tersembunyi dengan kinerja yang setara.

Sebaliknya, jika kinerja detektor turun secara signifikan, berarti peningkatan kinerja yang ditunjukkan oleh detektor tersebut memang karena keadaan tersembunyi model generatif mengkodekan semantik sebenarnya.

Hasil eksperimen menunjukkan bahwa kinerja detektor turun secara signifikan pada kedua semantik baru tersebut.

Hal ini terutama terlihat jelas dalam mode "permusuhan", yang juga konsisten dengan kekhasan bahwa semantik dalam mode ini sangat berbeda dari semantik aslinya.

Hasil ini sangat mengesampingkan kemungkinan bahwa detektor "mempelajari pemetaan semantiknya sendiri" dan selanjutnya menegaskan bahwa model generatif memang memahami makna kode.

Alamat kertas:
https://icml.cc/virtual/2024/poster/34849
Tautan referensi:
[1]https://news.mit.edu/2024/llms-mengembangkan-pemahaman-sendiri-tentang-realitas-seiring-meningkatkan-kemampuan-bahasa-0814
[2]https://www.reddit.com/r/LocalLLaMA/comments/1esxkin/llms_mengembangkan_pemahaman_mereka_sendiri_tentang_realitas/

berita

Model besar memiliki pemahaman bahasanya sendiri! Makalah MIT mengungkapkan proses berpikir model besar |. ICML 24

Biarkan model besar mempelajari kode murni

Tiga tahap pembelajaran model besar

Perkenalan

Informasi kontak saya