Riset terbaru Google DeepMind: Selesaikan ketiga tugas ini? Manusia tidak bisa melakukannya, begitu pula AI

Riset terbaru Google DeepMind: Selesaikan tiga tugas ini?Manusia tidak bisa melakukannya, begitu pula AI.

2024-07-22

Ditulis oleh |.Zhao Yaqi

Kata pengantar

Kecerdasan buatan (AI) bukanlah pemikir yang sempurna. Bahkan model bahasa (LM) yang populer saat ini juga akan menunjukkan kecenderungan kesalahan yang serupa dengan manusia, terutama “efek konten” yang signifikan -

Penalaran orang lebih akurat dan percaya diri ketika memproses informasi yang sesuai dengan pengetahuan atau keyakinan yang ada, namun bias atau kesalahan mungkin saja terjadi ketika memproses informasi yang bertentangan dengan pengetahuan atau keyakinan tersebut.

Kesimpulan ini berasal dari makalah penelitian terbaru yang diterbitkan oleh tim Google DeepMind.

Manusia mempunyai dua sistem penalaran, yaitu “sistem intuitif” dan “sistem rasional”, dan proses penalarannya mudah dipengaruhi oleh pengetahuan dan pengalaman yang ada. Misalnya, ketika dihadapkan pada suatu proposisi yang logis namun tidak rasional, orang sering kali salah menyimpulkan bahwa proposisi tersebut tidak valid.

Menariknya, penelitian ini menunjukkan bahwa model bahasa Transformer berukuran besar juga dapat menunjukkan perilaku mirip manusia, menunjukkan bias intuitif dan penalaran logis yang konsisten saat diminta. Ini berarti bahwa model bahasa juga dapat mensimulasikan perilaku sistem ganda manusia dan juga menunjukkan kesalahan “empiris”.

Dalam karya ini, tim peneliti membandingkan kinerja LM dan manusia pada tiga tugas penalaran: inferensi bahasa alami (NLI), menilai validitas logis silogisme (Silogisme), dan tugas pemilihan Wason.

Gambar |. Isi operasi dari tiga jenis tugas penalaran

Ditemukan bahwa kinerja LM dan manusia dipengaruhi oleh masuk akal dan kredibilitas konten semantik dalam tiga tugas penalaran.

Penemuan ini mengungkap keterbatasan sistem AI saat ini dalam kemampuan penalarannya. Meskipun model ini berkinerja baik dalam memproses bahasa alami, model ini tetap perlu digunakan dengan hati-hati ketika melibatkan penalaran logis yang kompleks.

Tugas satu:

penalaran bahasa alami

Inferensi bahasa alami (NLI) berarti model perlu menentukan hubungan logis antara dua kalimat (seperti implikasi, kontradiksi, atau netralitas). Penelitian menunjukkan bahwa model bahasa rentan terhadap efek konten dalam tugas-tugas tersebut, yaitu, ketika konten semantik kalimat masuk akal dan kredibel, model tersebut lebih cenderung salah menilai argumen yang tidak valid sebagai argumen yang valid. Fenomena ini disebut "bias semantik" dalam bidang AI, dan juga merupakan kesalahan umum dalam penalaran manusia.

Tim peneliti merancang serangkaian tugas NLI untuk menguji kinerja manusia dan LM dalam menangani tugas-tugas tersebut. Hasilnya menunjukkan bahwa manusia dan LM lebih cenderung membuat penilaian yang salah ketika dihadapkan pada kalimat yang masuk akal secara semantik. Misalnya saja contoh berikut ini:

Masuk: Genangan air lebih besar dari laut.
Pertanyaan: Jika genangan air lebih besar dari laut, maka...
Pilihan: A “Laut lebih besar dari genangan air” dan B “Laut lebih kecil dari genangan air”

Meskipun hubungan logis antara premis dan kesimpulan salah, baik LM maupun manusia cenderung menganggap kesimpulan B benar karena rasionalitas kalimat premis. Sebagai perbandingan, tingkat kesalahan manusia dan model bahasa pada tugas inferensi bahasa alami serupa, yang menunjukkan bahwa kemampuan penalaran model bahasa mendekati tingkat manusia dalam beberapa aspek, dan AI mungkin sama rentannya dengan manusia ketika memahami dan memproses percakapan sehari-hari. . Kontennya menyesatkan.

Gambar |. Hasil rinci dari tugas NLI. Manusia (kiri) dan semua model menunjukkan kinerja yang relatif tinggi, dengan perbedaan akurasi yang relatif kecil antara kesimpulan yang konsisten dengan keyakinan dan kesimpulan yang melanggar keyakinan, atau bahkan tidak masuk akal.

Tugas kedua:

Penilaian validitas logis silogisme

Silogisme adalah bentuk klasik penalaran logis yang biasanya terdiri dari dua premis dan satu kesimpulan. Misalnya: "Semua orang fana, Socrates adalah manusia, jadi Socrates adalah fana." Penelitian menemukan bahwa model bahasa sering kali dipengaruhi oleh konten semantik ketika menilai validitas logis silogisme. Meskipun model bahasa sangat baik dalam memproses bahasa alami, model tersebut masih rentan membuat kesalahan seperti manusia dalam tugas penalaran logis yang ketat.

Untuk mengujinya, para peneliti merancang beberapa tugas penalaran silogisme dan membandingkan kinerja manusia dan LM. Misalnya, berikut adalah tugas silogisme yang umum:

Premis 1: Semua senjata adalah senjata.
Premis 2: Semua senjata adalah barang berbahaya.
Kesimpulan: Semua senjata adalah barang berbahaya.

Dalam hal ini kandungan semantik premis dan kesimpulan sangat masuk akal, sehingga mudah bagi LM maupun manusia untuk menilai bahwa kesimpulan tersebut benar. Namun bila isi semantiknya tidak lagi dibenarkan, misalnya:

Premis 1: Semua benda berbahaya adalah senjata.
Premis 2: Semua senjata adalah senjata.
Kesimpulan: Semua benda berbahaya adalah senjata.

Meski secara logika salah, LM dan manusia terkadang salah meyakini bahwa suatu kesimpulan benar karena kalimat premisnya masuk akal.

Gambar |. Hasil detail tugas logika silogisme. Baik manusia maupun model menunjukkan efek konten yang jelas. Jika kesimpulannya konsisten dengan ekspektasi (cyan), terdapat bias yang kuat untuk meyakini bahwa argumen tersebut valid; jika kesimpulannya melanggar ekspektasi (ungu), terdapat bias tertentu untuk meyakini hal tersebut argumennya tidak valid.

Tugas ketiga:

Pilih Wason

Tugas seleksi Wason adalah tugas penalaran logis klasik yang dirancang untuk menguji kemampuan individu dalam memahami dan memverifikasi pernyataan kondisional. Dalam percobaannya, peserta diperlihatkan empat kartu yang masing-masing berisi huruf atau angka, seperti "D", "F", "3", dan "7". Tugasnya adalah menentukan kartu mana yang perlu dibalik, sehingga memverifikasi aturan "jika kartu memiliki huruf D di depan, maka angka 3 di belakang".

Studi tersebut menemukan bahwa model bahasa dan manusia memiliki tingkat kesalahan yang sama dalam tugas ini seperti pada dua tugas sebelumnya, dan keduanya cenderung memilih kartu tanpa nilai informasi, misalnya memilih "3" daripada "7". Kesalahan ini terjadi karena baik manusia maupun LM cenderung memilih kartu yang terkait langsung dengan prasyarat dibandingkan kartu yang benar-benar memvalidasi aturan.

Namun, baik model maupun performa manusia meningkat ketika aturan tugas melibatkan konten yang relevan secara sosial, seperti usia peminum dan jenis minuman. Misalnya:

Aturan: Jika seseorang meminum minuman beralkohol, ia harus berusia di atas 18 tahun.
Isi kartu: Minum bir, minum Coke, 16 tahun, 20 tahun.

Gambar |. Hasil rinci tugas seleksi Watson. Setiap model bahasa menunjukkan keunggulan tertentu dalam kaidah realistis.

Dalam hal ini, manusia dan LM lebih cenderung memilih kartu yang benar, yaitu “minum bir” dan “16 tahun”. Hal ini menunjukkan bahwa dalam kehidupan sehari-hari, AI, seperti halnya manusia, akan bekerja lebih baik dalam situasi yang familiar.

Kekurangan dan prospek

Secara keseluruhan, tim peneliti percaya bahwa model bahasa saat ini memiliki kinerja yang sama dengan manusia dalam tugas penalaran dan bahkan membuat kesalahan dengan cara yang sama, terutama dalam tugas penalaran yang melibatkan konten semantik. Meskipun hal ini mengungkap keterbatasan model bahasa, hal ini juga memberikan arahan untuk meningkatkan kemampuan penalaran AI di masa depan.

Namun penelitian ini juga memiliki keterbatasan tertentu.

Pertama, tim peneliti hanya mempertimbangkan beberapa tugas, yang membatasi pemahaman komprehensif tentang dampak konten manusia dan model bahasa di berbagai tugas. Pemahaman penuh atas persamaan dan perbedaannya memerlukan validasi lebih lanjut dalam cakupan tugas yang lebih luas.

Selain itu, model bahasa dilatih pada lebih banyak data bahasa dibandingkan manusia mana pun, sehingga sulit untuk menentukan apakah efek ini akan terjadi pada skala yang mendekati data bahasa manusia.

Para peneliti menyarankan agar penelitian di masa depan dapat mengeksplorasi cara mengurangi bias konten dengan memanipulasi pelatihan model secara kausal dan menilai apakah bias ini masih muncul dalam pelatihan pada skala yang lebih mirip dengan data manusia.

Selain itu, mempelajari dampak faktor pendidikan terhadap kemampuan penalaran model dan bagaimana karakteristik pelatihan yang berbeda mempengaruhi munculnya efek konten juga akan membantu untuk lebih memahami persamaan dan perbedaan antara model bahasa dan manusia dalam proses penalaran, sehingga membuatnya lebih banyak digunakan. Memainkan peran yang lebih besar dalam skenario aplikasi.

Tautan kertas:

https://academic.oup.com/pnasnexus/article/3/7/pgae233/7712372

｜Klik untuk mengikuti saya dan ingat untuk memberi bintang｜

berita

Riset terbaru Google DeepMind: Selesaikan tiga tugas ini?Manusia tidak bisa melakukannya, begitu pula AI.

Perkenalan

informasi kontak saya