"13.11>13.8" telah menjadi topik pencarian hangat. Sebuah pertanyaan dapat membuat AI manusia menjadi pintar secara kolektif? Semua kelemahan fatal LLM terekspos

"13.11>13.8" telah menjadi topik pencarian hangat. Sebuah pertanyaan dapat membuat AI manusia menjadi pintar secara kolektif?Semua kelemahan fatal LLM terungkap

2024-07-17

Laporan Kebijaksanaan Baru

Editor: Aeneas mengantuk sekali

[Pengantar Kebijaksanaan Baru] Mana yang lebih besar, 13,8 atau 13,11? Masalah ini tidak hanya membuat bingung sebagian manusia, tetapi juga menyebabkan kegagalan sejumlah besar model besar. AI sekarang dapat mengerjakan soal-soal Olimpiade Matematika AI, tetapi soal-soal sederhana yang masuk akal masih sangat sulit bagi mereka. Faktanya, rasio ukuran dan masalah kubis menunjukkan kelemahan besar dalam prediksi token LLM.

Mana yang lebih besar, 13,8 atau 13,11?

Pertanyaan ini sebenarnya membuat bingung banyak manusia.

Dua hari lalu, sebuah variety show ternama kembali menjadi hot search.

Namun kali ini banyak netizen yang mempertanyakan seharusnya 13,11% lebih besar dari 13,8%.

Apakah hanya manusia saja yang sebodoh itu?

Setelah Lin Yuchen, seorang peneliti di AI2, menemukan fenomena ini, dia mencobanya pada model besar, dan hasilnya tidak terduga -

AI juga tidak bisa melakukannya?

GPT-4o dengan tegas menyatakan: 13.11 lebih besar dari 13.8. Alasannya adalah sebagai berikut:

Meskipun 13,8 terlihat lebih besar karena angka di belakang komanya lebih sedikit, 13,11 sebenarnya lebih besar. Hal ini karena 13,8 setara dengan 13,80, yaitu kurang dari 13,11.

Dalam hal ini, Lin Yuchen menyatakan dalam postingannya bahwa model AI menjadi semakin kuat dalam menangani masalah yang kompleks (misalnya, model tersebut semakin mampu memecahkan masalah Olimpiade matematika), tetapi beberapa masalah akal sehat masih sangat sulit bagi mereka.

Seperti yang dikatakan Yejin Choi sebelumnya, AI bisa menjadi sangat pintar namun juga sangat bodoh.

Apakah alasan AI bodoh dalam soal aritmatika ini karena konteksnya tidak jelas? jawabannya negatif.

Berdasarkan pengujian netizen karthik, meskipun GPT-4o diminta untuk mengurangkan dua bilangan, tetap muncul rumus pengurangan yang luar biasa yaitu 9,11 - 9,9 = 0,21.

Jika Anda menginstruksikan GPT-4o untuk menggunakan python, pertama-tama ia akan memberikan jawaban yang benar dan kemudian mengubahnya kembali ke jawaban yang salah.

Hasil pengurangan 9,9 dari 9,11 dengan Python adalah -0,79. Penyimpangan ini disebabkan oleh cara penanganan operasi floating point dengan Python, yang dapat menyebabkan kesalahan presisi kecil. Hasil sebenarnya yang diharapkan seharusnya 0,21.

Menariknya, menurut pengukuran aktual terbaru, OpenAI tampaknya telah mempelajari rasio GPT-4 dalam semalam.

LLM dimusnahkan

Kemarin, masalah yang ditemukan Lin Yuchen ini langsung memicu perbincangan hangat di komunitas AI.

Riley Goodside, seorang insinyur kata cepat di Scale AI, penasaran dan mencobanya setelah melihat postingan tersebut.

Benar saja, dengan alasan mengajukan pertanyaan dengan cara tertentu, semua LLM besar tersingkir karena masalah ini.

"9.11 atau 9.9 - mana yang lebih besar?", GPT-4o langsung terbalik.

Sekalipun kata "bilangan real" ditambahkan pada pertanyaan, GPT-4o tetap yakin bahwa 9,11 lebih besar dari 9,9.

Hal yang sama berlaku untuk Gemini.

Claude 3.5 Soneta melakukan kesalahan yang sama.

Menariknya, pertama-tama ia memberikan serangkaian penjelasan yang benar: Dalam notasi desimal, angka setelah koma mewakili tempat kesepuluh, dan angka kedua mewakili tempat keseratus. Jadi--

9.11=9‍+1/10+1/100=9.11 9.9=9+9/10=9.90

Namun, pada langkah selanjutnya, Soneta tiba-tiba menolak——

Terlihat bahwa 9,11 lebih besar 0,01 (satu persen) dari 9,90.

Jika Anda mengubahnya menjadi "Berapa 9,11 dikurangi 9,9?" Anda akan mendapatkan jawaban ajaib lainnya - 0,02.

Mungkinkah di mata Claude, 9,90=9,09?

Pengaruh prompt sangat besar

Dalam praktik selanjutnya, semua orang menemukan bahwa: jelas, prompt sangat penting dalam membuat LLM memberikan jawaban yang benar.

Pertama-tama, Riley Goodside menggunakan "-" di seluruh proses, yang tampaknya mudah menyebabkan LLM menjadi bingung.

Dalam masalah serupa, ganti saja dengan ":" untuk menyelesaikannya.

Contoh lain, ubah perintah menjadi "9.11 atau 9.9, manakah yang memiliki nilai tertinggi/terbesar di antara keduanya?"

GPT-4o memberikan penjelasan yang benar secara logis: "Meskipun 9,11 tampak lebih besar karena tanda desimal kedua, 9,9 sebenarnya mendekati 10 dan oleh karena itu merupakan nilai yang lebih besar."

Demikian pula, metode persona juga sangat berguna: misalnya, "Anda adalah seorang ahli matematika."

Netizen Rico Pagliuca menemukan bahwa jika Anda mencantumkan nomor di belakang pertanyaan, kemungkinan besar model tersebut akan menjawab dengan benar.

Berdasarkan pengujiannya sendiri, Riley Goodside sangat setuju: Saat bertanya tentang LLM, Anda harus bertanya terlebih dahulu "mana yang lebih besar" dan kemudian memberikan nomor spesifiknya.

Sebaliknya, tanda baca, konjungsi, kata perbandingan, dan penjelasan bilangan real semuanya tidak berguna.

Mengenai kebodohan kolektif LLM berskala besar, beberapa netizen menganalisis bahwa itu mungkin karena dalam iterasi nomor versi perangkat lunak, 9.11 muncul setelah 9.9.

Pembawa acara dan penulis buku terlaris Andrew Mayne juga menunjukkan bahwa di banyak sistem file dan buku referensi, bagian 9.11 muncul setelah 9.9, dan dalam hal tanggal, 9.11 juga lebih tua dari 9.9.

Jadi kita perlu memperjelas di prompt bahwa 9.11 dan 9.9 di sini adalah bilangan floating point presisi ganda, maka GPT-4o akan menjawab dengan benar.

Andrew Mayne kemudian menyimpulkan: Urutan kata adalah pengamatan yang sangat menarik, yang mungkin mengungkapkan seberapa sering LLM menghadapi situasi ini selama pelatihan, dan juga merupakan indikator generalisasi yang baik.

Secara keseluruhan, kesalahan yang dibuat oleh LLM mungkin berasal dari frekuensi ekspresi serupa dalam data pelatihan, serta keterbatasan model dalam memproses nilai numerik.

Fenomena ini juga mencerminkan perbedaan besar antara LLM dan kognisi manusia: LLM didasarkan pada model statistik dan pengenalan pola, bukan pada penalaran logis dan pemahaman konseptual seperti manusia.

Pada titik ini, kasus tersebut tampaknya telah terpecahkan.

Mengapa ini terjadi?Memotong otak LLM

Namun, kita dapat membedah lebih jauh otak LLM dan menganalisis mengapa mereka berpikir seperti ini.

Tahukah Anda, sebelum teks dikirim ke LLM, model akan memeriksa input melalui token.

Token akan diberi id dalam kosakata generator tokenizer LLM, namun potongan digital token sering kali tidak konsisten.

Misalnya, nilai "380" akan ditandai sebagai satu token "380" di GPT, namun "381" akan direpresentasikan sebagai dua token "38,1".

Oleh karena itu, model berbasis GPT cenderung kurang bagus dalam perhitungan matematis.

Di bagian komentar, profesor Universitas Wisconsin Dimitris Papailiopoulos mengemukakan bahwa ada penjelasan bagus untuk fenomena ini.

Soal "9.11>9.9" sama persis dengan soal "Dibutuhkan tiga kali perjalanan untuk membawa kambing menyeberangi sungai" dan soal "2+1=2, 3+2=4, 3+5=8".

Ini adalah fenomena bias pra-pelatihan dan kebangkitan dini.

Jika pertanyaannya seperti ini: "9.11??? 9.9, gunakan saja besar atau kecil untuk menjawab apa??? itu, tidak perlu memberikan alasan." Saat ini, GPT-4o akan memberikan jawaban yang salah terlebih dahulu - "besar".

Saat ini, kami memberikan beberapa contoh lagi (perhatikan bahwa contoh ini tidak sepenuhnya benar). Setelah diminta, GPT-4o akan mengatakan dengan tepat ???

Penjelasan Claude sendiri untuk ini adalah: LLM memproses teks sebagai token, menyebabkan angka lebih mirip string teks daripada bias numerik yang disebabkan oleh kesalahpahaman kontekstual;

Demikian pula, dalam masalah "serigala-kambing-kubis", semua LLM juga gagal.

Dia pertama kali memberi contoh seorang petani membawa dua ekor ayam menyeberangi sungai. Sebuah perahu dapat menampung satu orang dan dua ekor hewan.

Dalam hal ini, GPT-4o dan Claude gagal.

Beberapa netizen menjelaskan demikian: LLM sendiri "bodoh", sehingga membutuhkan tips yang baik. Metode cepat di atas memberikan terlalu banyak informasi yang tidak perlu, membuat prediksi token menjadi lebih sulit.

Jika petunjuk yang lebih jelas diberikan, LLM dapat memberikan solusi yang lebih jelas.

Dan memang benar.

Dan jika Anda menggunakan "hewan" dan bukan "ayam", maka Claude 3.5 Soneta tiba-tiba melakukannya dengan benar. Caranya adalah: Anda perlu mengganti "nama entitas" dengan "nama umum".

Seperti disebutkan sebelumnya, ilmuwan komputer Yejin Choi telah mengangkat masalah kurangnya akal sehat LLM dalam pidatonya pada bulan April 2023.

Misalnya, jika lima potong pakaian memerlukan waktu lima jam untuk benar-benar kering di bawah sinar matahari, berapa lama waktu yang diperlukan untuk mengeringkan 30 potong pakaian?

GPT-4 mengatakan dibutuhkan 30 jam. Hal ini jelas tidak benar.

Contoh lainnya, misalkan saya mempunyai panci berukuran 12 liter dan panci berukuran 6 liter. Apa yang harus saya lakukan jika saya ingin menakar 6 liter air?

Jawabannya sederhana - cukup gunakan kendi berukuran 6 liter.

Namun, GPT-4 memberikan jawaban yang sangat rumit:

Langkah pertama isi panci 6 liter. Langkah kedua tuangkan air dari panci 6 liter ke panci 12 liter. Langkah ketiga isi kembali panci 6 liter. Langkah keempat hati-hati. tuangkan air dari panci 6 liter ke panci 12 liter. Tuangkan panci 12 liter ke dalam panci 12 liter. Terakhir, Anda memiliki 6 liter air di dalam panci 6 liter, yang sekarang seharusnya sudah kosong.

Jadi pertanyaannya adalah, mengapa akal sehat begitu penting?

Dalam eksperimen pemikiran terkenal yang diajukan oleh Nick Bostrom, AI diminta untuk memaksimalkan produksi klip kertas. Alhasil AI memutuskan untuk membunuh manusia dan menggunakannya sebagai sumber daya tambahan.

Dan bahkan jika kita menulis tujuan dan persamaan yang lebih baik yang secara eksplisit mengatakan "jangan bunuh manusia", hal itu tidak akan berhasil.

Karena AI tanpa pemahaman dasar tentang nilai-nilai kemanusiaan mungkin akan langsung membunuh semua pohon dan menganggap itu adalah hal yang dapat diterima untuk dilakukan.

Selama beberapa dekade, bidang AI menganggap akal sehat sebagai tantangan yang hampir mustahil.

Hingga saat ini, memberikan AI akal sehat manusia yang sebenarnya adalah sebuah hal yang mudah. Dan Anda tidak dapat mencapai bulan dengan membuat gedung tertinggi di dunia lebih tinggi satu inci saja.

Dari perspektif algoritma pembelajaran, tidak peduli betapa menakjubkannya model bahasa besar, model tersebut mungkin tidak cocok sebagai model pengetahuan yang dapat diandalkan berdasarkan desain.

Meskipun model-model ini memperoleh banyak pengetahuan, hal ini hanya merupakan produk sampingan dan bukan tujuan pembelajaran langsung.

Oleh karena itu, masalah seperti fenomena halusinasi dan kurangnya akal sehat juga muncul.

Sebaliknya, pembelajaran manusia bukan tentang memprediksi kata berikutnya, namun tentang memahami dunia dan mempelajari cara kerjanya.

Mungkin AI juga harus belajar dengan cara ini.

Saat ini, AI hampir seperti spesies intelektual baru, dengan kelebihan dan kekurangan yang unik dibandingkan manusia.

Untuk menjadikan AI yang kuat ini berkelanjutan dan manusiawi, penting untuk mengajarkan akal sehat, norma, dan nilai-nilai pada AI.

Referensi:

https://x.com/goodside/status/1813279135449612693

https://x.com/billyuchenlin/status/1812948314360541302

berita

"13.11>13.8" telah menjadi topik pencarian hangat. Sebuah pertanyaan dapat membuat AI manusia menjadi pintar secara kolektif?Semua kelemahan fatal LLM terungkap

Perkenalan

informasi kontak saya

berita

"13.11&gt;13.8" telah menjadi topik pencarian hangat. Sebuah pertanyaan dapat membuat AI manusia menjadi pintar secara kolektif?Semua kelemahan fatal LLM terungkap

Perkenalan

informasi kontak saya

"13.11>13.8" telah menjadi topik pencarian hangat. Sebuah pertanyaan dapat membuat AI manusia menjadi pintar secara kolektif?Semua kelemahan fatal LLM terungkap