Pelatihan aksioma memungkinkan LLM mempelajari penalaran kausal: model 67 juta parameter sebanding dengan level parameter triliun GPT-4

2024-07-16

Laporan Jantung Mesin

Penyunting: Panda

Tunjukkan rantai sebab akibat ke LLM dan LLM dapat mempelajari aksiomanya.

AI telah membantu ahli matematika dan ilmuwan melakukan penelitian. Misalnya, ahli matematika terkenal Terence Tao telah berulang kali berbagi pengalaman penelitian dan eksplorasinya dengan bantuan alat AI seperti GPT. Agar AI dapat bersaing di bidang ini, kemampuan penalaran kausal yang kuat dan andal sangatlah penting.

Penelitian yang disajikan dalam artikel ini menemukan bahwa model Transformer yang dilatih dengan mendemonstrasikan aksioma transitivitas kausal pada grafik kecil dapat menggeneralisasi aksioma transitivitas pada grafik besar.

Dengan kata lain, jika Transformer belajar melakukan penalaran kausal sederhana, maka Transformer dapat digunakan untuk penalaran kausal yang lebih kompleks. Kerangka pelatihan aksioma yang diusulkan oleh tim merupakan paradigma baru pembelajaran penalaran kausal berdasarkan data pasif, yang dapat digunakan untuk mempelajari aksioma arbitrer selama demonstrasinya mencukupi.

perkenalan

Penalaran kausal dapat didefinisikan sebagai serangkaian proses penalaran yang sesuai dengan aksioma atau aturan yang telah ditentukan sebelumnya yang secara khusus membahas kausalitas. Misalnya, aturan pemisahan-d (pemisahan terarah) dan do-kalkulus dapat dipandang sebagai aksioma, sedangkan spesifikasi himpunan penumbuk atau himpunan halaman belakang dapat dipandang sebagai aturan yang diturunkan dari aksioma.

Biasanya, inferensi kausal menggunakan data yang berhubungan dengan variabel dalam suatu sistem. Aksioma atau aturan dapat diintegrasikan ke dalam model pembelajaran mesin dalam bentuk bias induktif melalui regularisasi, arsitektur model, atau pemilihan variabel tertentu.

"Tangga sebab akibat" Judea Pearl mendefinisikan kemungkinan jenis kesimpulan sebab akibat berdasarkan perbedaan jenis data yang tersedia (data observasi, data intervensi, data kontrafaktual).

Karena aksioma adalah landasan kausalitas, mau tak mau kita bertanya-tanya apakah kita bisa langsung menggunakan model pembelajaran mesin untuk mempelajari aksioma. Artinya, bagaimana jika cara mempelajari aksioma bukan dengan mempelajari data yang diperoleh melalui beberapa proses pembuatan data, namun secara langsung mempelajari demonstrasi simbolis dari aksioma (dan dengan demikian mempelajari penalaran sebab akibat)?

Dibandingkan dengan model kausal khusus tugas yang dibangun menggunakan distribusi data spesifik, model seperti ini memiliki keunggulan: model ini dapat memungkinkan inferensi kausal dalam berbagai skenario hilir yang berbeda. Pertanyaan ini menjadi penting karena model bahasa memperoleh kemampuan untuk mempelajari data simbolik yang diungkapkan dalam bahasa alami.

Faktanya, beberapa penelitian terbaru telah mengevaluasi apakah model bahasa besar (LLM) dapat melakukan inferensi kausal dengan membuat tolok ukur yang mengkodekan masalah inferensi kausal dalam bahasa alami.

Sebuah tim peneliti dari Microsoft, MIT, dan Institut Teknologi India Hyderabad (IIT Hyderabad) juga telah mengambil langkah penting ke arah ini: mengusulkan sebuahMetode pembelajaran penalaran kausal melalui pelatihan aksiomatik。

Judul Makalah : Mengajarkan Transformers Causal Reasoning Melalui Pelatihan Aksiomatik
Alamat makalah: https://arxiv.org/pdf/2407.07612

Pelatihan aksioma

Mereka berhipotesis bahwa aksioma sebab akibat dapat dinyatakan sebagai tupel simbolik berikut ⟨premis, hipotesis, hasil　. Diantaranya, hipotesis mengacu pada hipotesis, yaitu pernyataan kausal adalah premis, yang mengacu pada informasi relevan apa pun yang digunakan untuk menentukan apakah pernyataan itu "benar"; Hasilnya bisa berupa jawaban “ya” atau “tidak”.

Misalnya, aksioma collider dari makalah "Dapatkah model bahasa besar menyimpulkan sebab akibat dari korelasi?" dapat dinyatakan sebagai :, dan kesimpulannya adalah "ya".

Berdasarkan templat ini, sejumlah besar tupel sintetik dapat dihasilkan dengan memodifikasi nama variabel, nomor variabel, urutan variabel, dll.

Untuk menggunakan Transformer untuk mempelajari aksioma sebab akibat dan menerapkan pelatihan aksioma, tim menggunakan metode berikut untuk membuat kumpulan data, fungsi kerugian, dan penyematan posisi.

Pelatihan Aksiomatik: Kumpulan Data, Fungsi Kerugian, dan Kompilasi Posisi

data pelatihan

Berdasarkan aksioma tertentu, “hipotesis” dapat dipetakan ke label yang sesuai (Ya atau Tidak) berdasarkan “premis”. Untuk membuat kumpulan data pelatihan, tim menghitung semua kemungkinan tupel {(P, H, L)}_N di bawah pengaturan variabel tertentu X, Y, Z, A, dengan P adalah premis dan H adalah hipotesis, L adalah labelnya (Ya atau tidak).

Diberikan premis P berdasarkan beberapa diagram sebab akibat, jika hipotesis P dapat diturunkan dengan menggunakan aksioma tertentu (satu kali atau lebih), maka label L adalah Ya;

Misalnya, asumsikan bahwa grafik sebab akibat nyata yang mendasari suatu sistem memiliki topologi rantai: X_1 → X_2 → X_3 →・・・→ X_n. Maka premis yang mungkin adalah X_1 → X_2 ∧ X_2 → X_3, lalu asumsikan bahwa X_1 → Aksioma di atas dapat digunakan secara induktif berkali-kali untuk menghasilkan tupel pelatihan yang lebih kompleks.

Untuk pengaturan pelatihan, kumpulan data sintetik D dibuat menggunakan instance aksioma N yang dihasilkan oleh aksioma transitivitas. Setiap instance di D dikonstruksikan dalam bentuk (P_i, H_ij, L_ij), dimana n adalah jumlah node di setiap premis ke-i. P adalah premis, yaitu ekspresi bahasa alami dari struktur sebab akibat tertentu (seperti X menyebabkan Y, Y menyebabkan Z); diikuti dengan pertanyaan H (seperti apakah X menyebabkan Y?); atau tidak). Bentuk ini secara efektif mencakup semua pasangan node untuk setiap rantai unik dalam grafik sebab akibat tertentu.

fungsi kerugian

Dalam kumpulan data, fungsi kerugian ditentukan berdasarkan label kebenaran dasar dari setiap tupel, yang dinyatakan sebagai: Analisis menunjukkan bahwa penggunaan kerugian ini dapat memberikan hasil yang menjanjikan dibandingkan dengan prediksi token berikutnya.

pengkodean posisi

Selain fungsi pelatihan dan kerugian, pilihan pengkodean posisi merupakan faktor penting lainnya. Pengkodean posisi dapat memberikan informasi penting tentang posisi absolut dan relatif token dalam urutan.

Makalah terkenal "Hanya perhatian yang Anda butuhkan" mengusulkan strategi pengkodean posisi absolut yang menggunakan fungsi periodik (fungsi sinus atau kosinus) untuk menginisialisasi kode-kode ini.

Pengkodean posisi absolut memberikan nilai deterministik untuk semua posisi dengan panjang urutan apa pun. Namun, beberapa penelitian menunjukkan bahwa pengkodean posisi absolut sulit untuk mengatasi tugas generalisasi panjang Transformer. Dalam varian APE yang dapat dipelajari, setiap penyematan posisi diinisialisasi secara acak dan dilatih menggunakan model. Metode ini kesulitan dengan urutan yang lebih panjang dibandingkan selama pelatihan karena penyematan posisi baru masih belum terlatih dan belum diinisialisasi.

Menariknya, temuan terbaru menunjukkan bahwa menghapus penyematan posisi dari model autoregresif meningkatkan kemampuan generalisasi panjang model, dan bahwa mekanisme perhatian selama decoding autoregresif cukup untuk mengkodekan informasi posisi. Tim menggunakan pengkodean posisi yang berbeda untuk memahami dampaknya terhadap generalisasi dalam tugas kausal, termasuk pengkodean posisi yang dapat dipelajari (LPE), pengkodean posisi sinusoidal (SPE), dan tanpa pengkodean posisi (NoPE).

Untuk meningkatkan kemampuan generalisasi model, tim juga menggunakan gangguan data, termasuk gangguan panjang, nama node, urutan rantai, dan kondisi percabangan.

percobaan

Pertanyaan yang muncul lagi: jika model dilatih menggunakan data ini, dapatkah model tersebut belajar menerapkan aksioma tersebut ke skenario baru?

Untuk menjawab pertanyaan ini, tim melatih model Transformer dari awal menggunakan demonstrasi simbolis dari aksioma kausal independen ini.

Untuk mengevaluasi kinerja generalisasinya, mereka melatih rantai aksioma independen kausal sederhana berukuran 3-6 node dan kemudian menguji beberapa aspek kinerja generalisasi yang berbeda, termasuk kinerja generalisasi panjang (rantai ukuran 7-15), generalisasi nama (nama variabel yang lebih panjang), generalisasi berurutan (rantai dengan tepi terbalik atau node acak), generalisasi struktural (grafik dengan cabang). Gambar 1 menunjukkan cara untuk mengevaluasi generalisasi struktural Transformer.

Secara khusus, mereka melatih model berbasis decoder dengan 67 juta parameter berdasarkan arsitektur GPT-2. Model ini memiliki 12 lapisan perhatian, 8 kepala perhatian, dan 512 dimensi penyematan. Mereka melatih model dari awal pada setiap set data pelatihan. Untuk memahami dampak penyematan posisi, mereka juga mempelajari tiga pengaturan penyematan posisi: pengkodean posisi sinusoidal (SPE), pengkodean posisi yang dapat dipelajari (LPE), dan tanpa pengkodean posisi (NoPE).

Hasilnya ditunjukkan pada Tabel 1, Gambar 3 dan Gambar 4.

Tabel 1 menyajikan keakuratan model yang berbeda ketika dievaluasi pada rantai sebab akibat yang lebih besar yang tidak terlihat selama pelatihan. Terlihat bahwa performa model baru TS2 (NoPE) sebanding dengan GPT-4 dengan skala parameter triliun.

Gambar 3 menunjukkan hasil evaluasi kemampuan generalisasi pada rangkaian kausal dengan nama node yang lebih panjang (lebih panjang dari yang ada di set pelatihan) dan dampak penyematan posisi yang berbeda.

Gambar 4 mengevaluasi kemampuan generalisasi terhadap rangkaian sebab akibat yang lebih panjang dan tidak terlihat.

Mereka menemukan bahwa model yang dilatih pada rantai sederhana digeneralisasikan ke beberapa penerapan aksioma pada rantai yang lebih besar, namun gagal untuk menggeneralisasi ke skenario yang lebih kompleks seperti generalisasi sekuensial atau struktural. Namun, jika model dilatih pada kumpulan data campuran yang terdiri dari rantai sederhana serta rantai dengan tepi terbalik acak, model tersebut dapat digeneralisasikan dengan baik ke berbagai skenario evaluasi.

Memperluas hasil generalisasi panjang pada tugas NLP, mereka menemukan pentingnya penyematan posisi dalam memastikan generalisasi kausal pada panjang dan dimensi lainnya. Model berkinerja terbaik mereka tidak memiliki pengkodean posisi, namun mereka juga menemukan bahwa pengkodean sinusoidal bekerja dengan baik dalam beberapa situasi.

Metode pelatihan aksioma ini juga dapat digeneralisasikan ke permasalahan yang lebih sulit, seperti ditunjukkan pada Gambar 5. Artinya, berdasarkan premis yang berisi pernyataan independensi statistik, tujuan tugasnya adalah membedakan korelasi dari sebab akibat. Menyelesaikan tugas ini memerlukan pengetahuan tentang beberapa aksioma, termasuk pemisahan-d dan properti Markov.

Tim menghasilkan data pelatihan sintetik menggunakan metode yang sama seperti di atas, kemudian melatih model, dan menemukan bahwa Transformer yang dilatih pada demonstrasi tugas yang berisi 3-4 variabel dapat belajar menyelesaikan tugas grafik yang berisi 5 variabel. Dan dalam tugas ini, keakuratan model ini lebih tinggi dibandingkan LLM yang lebih besar seperti GPT-4 dan Gemini Pro.

Tim mengatakan: "Penelitian kami memberikan paradigma baru untuk model pengajaran untuk mempelajari penalaran kausal melalui demonstrasi simbolik aksioma, yang kami sebut pelatihan aksiomatik." Pembuatan data dan proses pelatihan metode ini bersifat universal: Selama aksioma bisa terjadi dinyatakan dalam format tupel simbolik, dapat dipelajari dengan menggunakan metode ini.

berita

Pelatihan aksioma memungkinkan LLM mempelajari penalaran kausal: model 67 juta parameter sebanding dengan level parameter triliun GPT-4

Perkenalan

informasi kontak saya