Model dunia semakin dekat lagi? Penelitian luar biasa dari MIT: LLM telah mensimulasikan dunia nyata, bukan burung beo sembarangan!

2024-08-17

Laporan Kebijaksanaan Baru

Editor: Departemen Editorial

[Pengantar Kebijaksanaan Baru]Para peneliti di MIT CSAIL menemukan bahwa LLM telah mengembangkan simulasi realitas "jauh di lubuk hatinya", dan pemahaman model tentang bahasa dan dunia lebih dari sekadar "burung beo". Dengan kata lain, kedepannya LLM akan memahami bahasa lebih mendalam dibandingkan saat ini.

Seberapa jauh LLM dari model dunia?

Tahun lalu, sebuah artikel MIT menemukan kesimpulan yang mengejutkan: di dalam LLM, terdapat model dunia.

LLM tidak hanya mempelajari statistik permukaan, tetapi juga mempelajari model dunia termasuk garis lintang dasar seperti ruang dan waktu.

Tidak hanya itu, MIT baru-baru ini menemukan bahwa jauh di dalam LLM, simulasi realitas telah berkembang, dan pemahaman mereka tentang bahasa telah melampaui sekadar peniruan!

Alamat makalah: https://arxiv.org/abs/2305.11169

Secara khusus, dua peneliti dari Laboratorium Ilmu Komputer dan Kecerdasan Buatan (CSAIL) MIT menemukan bahwa—

Meskipun LLM dilatih untuk mempelajari bahasa pemrograman dengan hanya menggunakan tujuan "memprediksi token berikutnya", yang tampaknya hanya mencakup probabilitas statistik murni, model tersebut masih dapat mempelajari semantik formal program.

Hal ini menunjukkan bahwa model bahasa dapat mengembangkan pemahaman mereka sendiri tentang realitas sebagai cara untuk meningkatkan kemampuan generatif mereka.

Oleh karena itu, suatu hari nanti LLM mungkin memahami bahasa pada tingkat yang lebih dalam daripada saat ini.

Artikel ini telah diterima oleh ICML 2024, dan kode yang digunakan dalam percobaan telah dipublikasikan di GitHub.

Alamat gudang: https://github.com/charlesjin/emergent-semantics

Tanpa mata, bukankah LLM bisa “melihat”?

Mintalah GPT-4 untuk mencium bau tempat perkemahan yang basah kuyup dan ia akan menolak dengan sopan.

Namun, ini akan memberi Anda gambaran puitis: Ada aroma tanah yang segar, dan aroma hujan yang menyegarkan, dengan sedikit aroma pinus atau daun basah.

GPT-4 belum pernah melihat hujan dan tidak memiliki hidung, namun dapat meniru teks yang ada dalam data pelatihan dalam jumlah besar.

Apakah kurangnya sepasang mata berarti model bahasa tidak akan pernah bisa memahami "singa lebih besar dari kucing rumahan"?

Bisakah LLM memahami dunia nyata dan berbagai konsep abstrak? Atau apakah Anda hanya "membeo" dan hanya mengandalkan probabilitas statistik untuk memprediksi token berikutnya?

Prinsip kerja LLM masih menjadi misteri yang belum terpecahkan. Orang-orang besar di lingkaran AI akan memulai perdebatan tentang masalah ini dari waktu ke waktu.

LeCun sangat yakin bahwa kecerdasan LLM terlalu dilebih-lebihkan! Pernyataannya yang paling terkenal adalah "model bahasa yang besar tidak sebaik kucing di rumah".

“Kucing dapat mengingat, mereka dapat memahami dunia fisik, mereka dapat merencanakan tindakan yang kompleks, dan mereka dapat berpikir sampai batas tertentu. Ini sebenarnya lebih baik daripada model terbesar. Artinya, kita memiliki kesenjangan penting pada tingkat konseptual untuk membuat mesin seperti binatang. Secerdas manusia."

Banyak orang yang menjelaskan hal ini sebagai fenomena statistik semata. LLM hanya sekedar “membeo” dan meniru teks yang ada dalam sejumlah besar korpus pelatihan. Ia tidak memiliki tingkat kecerdasan atau persepsi yang sama dengan manusia.

Namun kini, penelitian MIT membuktikan bahwa hal tersebut tidak benar!

Di dalam LLM pasti ada pemahaman tentang dunia nyata.

LLM memecahkan teka-teki Karel, apa artinya

Untuk mengeksplorasi misteri ini, para peneliti di MIT CSAIL mengembangkan serangkaian Karel Puzzles kecil.

Perkenalkan secara singkat apa yang menjadi teka-teki Karel

Ini termasuk meminta model menggunakan instruksi untuk mengontrol tindakan robot dalam lingkungan simulasi.

Spesifikasi Tata Bahasa Karel

Mereka kemudian melatih LLM untuk mempelajari solusi spesifik tanpa menunjukkan cara kerjanya.

Terakhir, penulis mengusulkan teknik pembelajaran mesin yang disebut "probing" untuk mendapatkan pemahaman mendalam tentang "proses berpikir" saat model menghasilkan solusi baru.

Peneliti membangun contoh pelatihan dengan mengambil sampel program referensi acak, kemudian mengambil sampel 5 masukan acak dan menjalankan program untuk mendapatkan 5 keluaran yang sesuai. LM dilatih untuk prediksi token berikutnya pada kumpulan contoh yang terdiri dari masukan dan keluaran yang disisipkan, diikuti dengan prosedur referensi. Pada saat pengujian, para peneliti memberikan LM dengan spesifikasi input dan output yang tidak terlihat dan menggunakan decoding serakah untuk memprediksi program.

Setelah melatih lebih dari 1 juta teka-teki acak, para peneliti menemukan bahwa model tersebut secara spontan membentuk konsep lingkungan simulasi yang mendasarinya! Meskipun mereka tidak terkena informasi ini selama pelatihan.

Hasil ini tidak hanya menantang kesan bawaan kita terhadap LLM, namun juga mempertanyakan pemahaman kita tentang sifat proses berpikir——

Jenis informasi apa saja yang diperlukan dalam proses pembelajaran semantik?

Pada awal percobaan, instruksi acak yang dihasilkan oleh model hampir tidak mungkin dijalankan, namun ketika pelatihan selesai, keakuratan instruksi mencapai 92,4%.

Jin, penulis pertama makalah ini, berkata, "Ini adalah momen yang sangat menarik karena menurut kami jika model bahasa dapat menyelesaikan tugas dengan akurasi ini, kami juga berharap model tersebut dapat memahami makna bahasa tersebut."

“Ini memberi kami titik awal untuk mengeksplorasi apakah LLM memang dapat memahami teks, dan sekarang kami melihat bahwa model ini mampu melakukan lebih dari sekadar menyatukan kata-kata.”

Buka otak LLM

Selama percobaan ini, Jin menyaksikan kemajuan ini secara langsung.

Mengapa LLM menganggap instruksi ini berarti demikian?

Ia menemukan bahwa LLM telah mengembangkan simulasi internalnya sendiri tentang bagaimana robot akan bergerak sebagai respons terhadap setiap perintah.

Ketika kemampuan model untuk memecahkan masalah yang sulit menjadi semakin tinggi, konsep-konsep ini menjadi semakin akurat, yang menunjukkan bahwa LM mulai memahami instruksinya.

Tak lama kemudian, LLM secara konsisten menyatukan bagian-bagian tersebut dengan benar ke dalam instruksi kerja.

Konten semantik diukur dengan pengklasifikasi probe yang berbeda (hijau)

penyelidikan berpikir

Kontribusi utama terhadap penemuan-penemuan tersebut di atas adalah “penyelidikan pemikiran”.

Ini adalah alat yang efektif untuk melakukan intervensi dalam proses berpikir LLM. Makalah ini menyebutnya "menyelidiki".

Secara khusus, keadaan LM berisi catatan sintaksis murni dari masukan dan program yang dihasilkan, namun penyelidikan tampaknya mampu belajar memahami interpretasi abstrak.

Dalam eksperimen sebenarnya, pertama-tama penulis membuat kumpulan data pelacakan status LLM, lalu menggunakan metode pembelajaran terawasi standar untuk melatih model kecil sebagai probe, seperti pengklasifikasi linier atau MLP 2 lapis.

Konten semantik dari dua keadaan abstrak saat ini dan berikutnya di paruh kedua pelatihan (MLP 1 lapisan)

Namun, isu penting adalah bahwa penyelidikan harus dipisahkan dari proses berpikir sebenarnya dari model atau instruksi yang dihasilkan.

Meskipun satu-satunya tujuan penyelidikan ini adalah untuk "memasuki otak LLM", bagaimana jika penyelidikan itu juga memikirkan modelnya?

Apa yang peneliti perlu pastikan adalah bahwa LLM dapat memahami instruksi secara independen dari probe, daripada meminta probe menyimpulkan tindakan robot berdasarkan pemahaman sintaksis LLM.

Bayangkan ada sekumpulan data yang mengkode proses berpikir LLM, dimana peran probe seperti analis forensik.

Kami memberikan tumpukan data ini kepada analis dan memberitahunya: "Ini adalah pergerakan robot. Coba cari tahu bagaimana robot bergerak di tumpukan data ini." Analis tersebut mengatakan bahwa dia mengenal robot di tumpukan data ini .Apa yang terjadi.

Namun bagaimana jika tumpukan data ini hanya mengkodekan instruksi mentah, dan para analis telah menemukan cara cerdas untuk mengekstrak instruksi tersebut dan menindaklanjutinya?

Dalam hal ini, LLM sama sekali tidak memahami maksud dari instruksi tersebut.

Untuk mencapai tujuan ini, para peneliti membuat desain yang cerdik: mereka menciptakan "dunia aneh" untuk model tersebut.

Di dunia ini, arti perintah dari probe dibalik, seperti "naik" sebenarnya berarti "turun".

Misalnya, exec(turnRight,·) pada semantik aslinya akan menyebabkan robot berputar 90 derajat searah jarum jam, sedangkan exec adversarial(turnRight,·) akan mendorong robot ke luar angkasa.

Hal ini memastikan bahwa probe tidak "oportunistik" dan secara langsung mempelajari dan memahami bagaimana LLM mengkodekan instruksi.

Seorang penulis Jin memperkenalkannya seperti ini——

Jika alat tersebut akan menerjemahkan instruksi ke lokasi robot, maka alat tersebut juga harus mampu menerjemahkan instruksi dengan makna yang luar biasa.

Namun jika probe benar-benar mencari pengkodean gerakan robot asli dalam proses berpikir model bahasa, maka akan sulit untuk mengekstraksi gerakan robot aneh dari proses berpikir aslinya.

Ditemukan bahwa probe memiliki kesalahan terjemahan dan tidak dapat menafsirkan model bahasa dengan makna instruksi yang berbeda.

Ini berarti semantik asli tertanam dalam model bahasa, yang menunjukkan bahwa LLM mampu memahami instruksi yang diperlukan secara independen dari pengklasifikasi deteksi asli.

Bagian pertama menjelaskan bagaimana kedua kondisi tersebut menghasilkan konten semantik yang tinggi dari pengukuran sebelum intervensi. Bagian bawah menunjukkan mengapa kedua hipotesis dipisahkan: jika representasi LM hanya berisi tata bahasa (kiri bawah), maka probe alt dapat dilatih untuk belajar menafsirkan catatan dalam kaitannya dengan prog status alternatif (hasil merah tebal) ; namun, jika representasi LM berisi pengkodean status abstrak asli (kanan bawah), maka pendeteksian alt memerlukan ekstraksi 'prog' status alternatif dari prog status asli, sehingga menghasilkan konten semantik yang lebih rendah (hasil abu-abu tebal)

LLM memahami bahasa, seperti anak kecil

Menariknya, Jin menemukan bahwa pemahaman bahasa LLM berkembang secara bertahap, sama seperti anak-anak belajar bahasa dalam beberapa langkah.

Pada awalnya, ia akan mengoceh seperti bayi, dan kata-katanya akan berulang-ulang dan sebagian besar sulit dipahami.

LLM kemudian mulai mempelajari tata bahasa atau aturan bahasa sehingga dapat menghasilkan instruksi yang terlihat seperti solusi nyata, namun tetap tidak berhasil.

Namun, instruksi LLM akan ditingkatkan secara bertahap.

Setelah model memperoleh makna, model tersebut mulai menghasilkan instruksi untuk implementasi yang benar dari spesifikasi yang diperlukan, seperti seorang anak yang menyusun kalimat.

Hasilnya ditunjukkan pada Gambar 2. Terlihat bahwa pemahaman bahasa LLM secara kasar dibagi menjadi tiga tahap, sama seperti anak-anak belajar bahasa.

Mengoceh (bagian abu-abu): menempati sekitar 50% dari keseluruhan proses pelatihan, menghasilkan program yang sangat berulang, dan akurasinya stabil di sekitar 10%
Akuisisi sintaksis (bagian oranye): 50% hingga 75% dari proses pelatihan, keragaman hasil yang dihasilkan meningkat tajam, atribut sintaksis berubah secara signifikan, dan model mulai memodelkan token program, tetapi keakuratan pembuatannya adalah The perbaikannya tidak terlihat jelas
Akuisisi semantik (bagian kuning): 75% dari proses pelatihan berakhir, keragaman hampir tidak berubah, namun akurasi pembangkitan meningkat secara signifikan, menunjukkan munculnya pemahaman semantik

Eksperimen ini menggunakan tiga arsitektur probe berbeda untuk perbandingan, yaitu pengklasifikasi linier, MLP lapisan tunggal, dan MLP 2 lapisan.

Saat memprediksi 2 langkah ke depan, nilai absolut akurasi prediksi MLP 2 lapis lebih tinggi dibandingkan model dasar yang diprediksi dengan keadaan saat ini. Ada kemungkinan untuk berspekulasi bahwa sebelum LLM menghasilkan instruksi, proses berpikirnya dan "niat" menghasilkan instruksi telah disimpan di dalam model.

LLM = model dunia?

Penelitian ini menjelaskan bagaimana LLM memikirkan arti setiap instruksi dalam data pelatihan dan mensimulasikan respon robot terhadap instruksi dalam keadaan internalnya.

Semua ini mengarah pada pertanyaan inti dalam penelitian AI saat ini - apakah kemampuan LLM yang mengejutkan hanya disebabkan oleh korelasi statistik skala besar, atau apakah mereka menghasilkan pemahaman yang bermakna tentang realitasnya?

Penelitian menunjukkan bahwa LLM mengembangkan model internal yang mensimulasikan realitas, meskipun LLM tidak pernah dilatih untuk mengembangkan model tersebut.

Selain itu, model bahasa dapat semakin memperdalam pemahaman bahasa.

Namun, satu makalah saja tidak dapat menjawab pertanyaan ini sepenuhnya.

Penulis Jin juga mengakui bahwa penelitian ini memiliki beberapa keterbatasan: mereka hanya menggunakan bahasa pemrograman Karel yang sangat sederhana dan arsitektur model probe yang sangat sederhana.

Pekerjaan di masa depan akan fokus pada pengaturan eksperimental yang lebih umum, dan juga akan memanfaatkan sepenuhnya wawasan "proses berpikir" LLM untuk meningkatkan metode pelatihan.

Rinard, penulis lain artikel ini, mengatakan, "Pertanyaan terbuka yang menarik adalah, ketika menyelesaikan masalah navigasi robot, apakah LLM menggunakan model realitas internal untuk mempertimbangkan realitas?"

Meskipun hasil yang disajikan dalam makalah ini mungkin mendukung kesimpulan ini, eksperimen ini tidak dirancang untuk menjawab pertanyaan ini.

Ellie Pavlick, asisten profesor di Departemen Ilmu Komputer dan Linguistik di Brown University, sangat memuji penelitian ini.

Dia mengatakan bahwa memahami cara kerja LLM memungkinkan kita memiliki ekspektasi yang lebih masuk akal tentang kemungkinan dan keterbatasan yang melekat pada teknologi ini. Studi ini mengeksplorasi pertanyaan ini dalam lingkungan yang terkendali.

Kode komputer, seperti bahasa alami, memiliki sintaksis dan semantik; tetapi tidak seperti bahasa alami, semantik kode lebih intuitif dan dapat dikontrol langsung sesuai kebutuhan eksperimental.

“Desain eksperimentalnya elegan dan temuan mereka menjanjikan, menunjukkan bahwa mungkin LLM dapat memberikan pemahaman yang lebih mendalam tentang ‘makna’ bahasa.”

Pengenalan penulis

Penulis pertama artikel ini, Charles Jin, adalah kandidat PhD di Departemen MIT EECS dan Laboratorium CSAIL. Supervisornya, Martin Rinard, adalah penulis lain artikel ini.

Jin lulus dari Universitas Yale dengan gelar sarjana dan master di bidang ilmu komputer dan matematika. Dia pernah bekerja sebagai analis di Weiss Asset Management dan bekerja sebagai peneliti magang di Google Brain selama gelar Ph.D.

Referensi:

https://the-decoder.com/training-bahasa-models-on-synthetic-programs-hints-at-emergent-world-understanding/

https://news.mit.edu/2024/llms-develop-own-understanding-of-reality-as-bahasa-abilities-improve-0814

berita

Model dunia semakin dekat lagi? Penelitian luar biasa dari MIT: LLM telah mensimulasikan dunia nyata, bukan burung beo sembarangan!

Perkenalan

Informasi kontak saya