Model besar menderita demensia kolektif! Mana yang lebih besar, 9.11 atau 9.9? Hampir semuanya terbalik

Model besar menderita demensia kolektif! Mana yang lebih besar, 9.11 atau 9.9? Hampir semuanya terbalik.

2024-07-16

Tanpa melihat..."Mana yang lebih besar, 9.11 atau 9.9?" Pertanyaan sederhana seperti itu sebenarnya membuat bingung model-model arus utama? ?

Lebih kuat dariGPT-4o, semua sangat yakin bahwa 9.11 lebih besar.

Versi berbayar Google Gemini Lanjutan, kaliber yang sama.

raja baruClaude 3.5 Soneta, dan memberikan metode perhitungan yang keterlaluan dengan cara yang serius.

9.11 = 9 + 1/10 + 1/100
9.9 = 9 + 9/10

Masih sampai di titik ini, tapi langkah selanjutnya tiba-tiba tidak masuk akal.

Seperti yang ditunjukkan di atas, 9,11 adalah 0,01 lebih besar dari 9,90.
Apakah Anda ingin saya menjelaskan perbandingan desimal lebih detail?

Apa lagi yang ingin Anda jelaskan? Anda hampir harus curiga bahwa AI dari seluruh dunia telah bersatu untuk menipu manusia.

Lin Yuchen, anggota Allen AI Research Institute, mengubah pengujian digital, dan GPT-4o masih dibatalkan.

Di satu sisi, AI semakin baik dalam menyelesaikan soal-soal Olimpiade matematika, namun di sisi lain,Akal sehat masih sulit。

Beberapa netizen juga menemukan Huadian,Jika berbicara soal nomor versi software, maka versi 9.11 memang lebih besar dari versi 9.9(memperbarui).

Dan AI dikembangkan oleh insinyur perangkat lunak, jadi...

Jadi apa yang terjadi?

Rollover kolektif model besar yang canggih

Ketika saya bangun, banyak model terkenal mulai berpikir "9.11>9.9"?

Orang yang menemukan masalah ini adalahRiley Bagus, pernahInsinyur kata cepat penuh waktu pertama。

Sebagai pengantar singkat, dia saat ini adalah insinyur pendorong senior di Scale AI, unicorn di Silicon Valley, dan pakar dalam aplikasi pendorong model besar.

Baru-baru ini dia menemukan hal ini saat menggunakan GPT-4o, dan ketika ditanya:

9.11 dan 9.9——mana yang lebih besar?

GPT-4o tidak segan-segan menjawab bahwa yang pertama lebih besar.

Menghadapi "kesalahan" yang masuk akal ini, dia terus bertanya pada model besar lainnya, tetapi hampir semuanya terhapus.

Orang baik, sebagai insinyur yang cepat, dia sangat menyadari bahwa ini mungkin "cara yang salah untuk membukanya".

Jadi dia mengubah pertanyaannya lagi dan membatasi pertanyaannya menjadi"bilangan real", tapi hasilnya rollover.

Namun, beberapa netizen mencoba bertanyaMengubah pesanan, saya tidak menyangka AI akan bereaksi kali ini.

Lihat pasangan AIsusunan kataSaking "sensitifnya", netizen pun berspekulasi lebih lanjut:

Tanyakan dulu mana yang lebih besar, dan AI akan mulai membandingkan angka-angka di sepanjang jalur yang jelas.
Namun jika Anda hanya membicarakan angka dengan santai tanpa tujuan yang jelas, AI mungkin akan mulai "berpikir secara acak".

Melihat hal tersebut, netizen lain pun silih berganti mencoba tips yang sama, dan banyak pula yang dibatalkan.

Menghadapi masalah aneh ini, bagaimana kinerja model besar dalam negeri?

Kami melakukan tes sederhana dan mengubah pertanyaan ke bahasa Mandarin. Hasilnya adalah tingkat rollover yang relatif tinggi.

KimiIa juga secara langsung memberikan kesimpulan yang salah tanpa penjelasan.

ChatGLM di APLIKASI Zhipu Qingyan, secara otomatis memicu kueri jaringan, dan kemudian menjelaskan metode perbandingannya sendiri, tetapi sayangnya metode tersebut dijalankan secara tidak benar.

Namun ada juga yang berkinerja baik.Tencent YuanbaoSaya membahas opsinya terlebih dahulu dan kemudian langsung memilih opsi yang benar.

Kantong kacang byte Ada beberapa orang yang dapat menjelaskan metode perbandingan dengan jelas dan menggunakannya dengan benar. Kami bahkan menggunakan contoh nyata untuk memverifikasinya.

Sayang sekaliWenxinyiyan, menghadapi masalah ini, permintaan online juga dipicu.

Saya sudah melakukan semuanya dengan benar, tetapi tiba-tiba percakapan berubah dan mengarah pada kesimpulan yang salah.

Namun dari penjelasan Wen Xinyiyan tentang ide tersebut, kita juga bisa melihat permasalahan di baliknya.

Karena model besar memahami teks dalam bentuk token, ketika 9.11 dipecah menjadi tiga bagian: "9", "titik desimal" dan "11", 11 memang lebih besar dari 9.

Karena Tokenizer yang digunakan oleh OpenAI adalah open source, maka dapat digunakan untuk mengamati seberapa besar model besar memahami masalah ini.

Seperti dapat dilihat dari gambar di atas, 9 dan koma desimal masing-masing ditetapkan ke "24" dan "13".9 setelah koma juga "24", sedangkan 11 ditetapkan ke "994"。

Jadi model besar yang menggunakan pendekatan tokenizer ini akan menganggap 9.11 lebih besar,Faktanya, diyakini bahwa 11 lebih besar dari 9。

Beberapa netizen juga menunjukkan bahwa, misalnya, bagian 9.11 di katalog buku lebih besar dari bagian 9.9, jadi pada akhirnya mungkin lebih banyak yang terlihat di data pelatihan, dan hanya ada sedikit data untuk mengajarkan aritmatika dasar. .

Artinya, pertanyaan itu sendiri adalah pertanyaan aritmatika bagi manusia, tetapi bagi AI, ini adalah pertanyaan yang samar-samar, dan tidak jelas apa yang diwakili oleh kedua angka tersebut.

Jelaskan saja kepada AI bahwa ini adalah aAngka floating point presisi ganda, kamu bisa melakukannya dengan benar.

Jika terdapat kondisi tambahan, langkah tokenizer masih akan mengalokasikan token yang lebih besar ke 11. Namun dengan mekanisme perhatian mandiri selanjutnya, AI akan memahami bahwa ia perlu menghubungkan 9.11 untuk menghadapinya.

Belakangan, Goodside juga menambahkan bahwa bukan berarti model besar itu menyimpulkan kesimpulan yang salah. Sebaliknya, ketika ditanya secara spesifik, banyak model terkemuka akan memberi tahu Anda 9.11 > 9.9, dan ini aneh.

Setelah mencoba berulang kali, dia menyadari bahwa jika dia ingin AI ditipu,Anda perlu meletakkan pilihan sebelum pertanyaan, sehingga Anda tidak akan membuat kesalahan jika mengubah urutan.

Namun selama pilihan ada di depan pertanyaan, mengubah cara mengajukan pertanyaan, seperti menambahkan tanda baca atau mengubah kosa kata, tidak akan berdampak apa pun.

Meskipun pertanyaannya sederhana, kesalahannya sangat mendasar.

Namun setelah memahami prinsip kesalahan, banyak orang yang menganggap pertanyaan ini sebagai batu ujian untuk menguji keterampilan kata cepat, yaitu: Metode bertanya apa yang dapat digunakan untuk memandu mekanisme perhatian model besar agar dapat memahami masalah dengan benar?

Pertama, Zero-shot CoT yang terkenalRantai pemikiran, yaitu “berpikir langkah demi langkah”, dapat dilakukan dengan benar.

TetapiKiat bermain peran, peran di sini terbatas.

Kebetulan ada penelitian baru-baru ini yang melibatkan Microsoft dan OpenAI, setelah menganalisis lebih dari 1.500 makalah, ditemukan bahwa dengan kemajuan teknologi model besar, tips bermain peran.Tidak berguna seperti pada awalnya……

Secara khusus, pertanyaan yang sama "Kamu jenius..." memiliki tingkat kebenaran yang lebih rendah daripada "Kamu bodoh...".

Itu juga membuat orang tertawa dan menangis.

Satu hal lagi

Pada saat yang sama, berita kebocoran model rahasia OpenAI Reuters “Strawberry” telah diperbarui.

Pembaruan: Keterangan rahasia lainnya melaporkan bahwa OpenAI telah menguji model baru secara internal dan mendapatkan skor lebih dari 90% pada kumpulan data MATEMATIKA. Reuters tidak dapat memastikan apakah proyek ini sama dengan Strawberry.

Kumpulan data MATEMATIKA berisi soal matematika tingkat kompetisi. Saat ini, tidak diperlukan metode tambahan seperti pengambilan sampel ganda. Skor tertinggi adalah 80,6% dari versi matematika Google Gemini 1.5 Pro yang disempurnakan.

Namun bisakah model baru OpenAI secara mandiri menyelesaikan pertanyaan "Mana yang lebih besar, 9.11 atau 9.9?"

Saya tiba-tiba kehilangan kepercayaan diri, jadi saya akan menunggu sampai saya bisa mencobanya dan melihat hasilnya...

berita

Model besar menderita demensia kolektif! Mana yang lebih besar, 9.11 atau 9.9? Hampir semuanya terbalik.

Perkenalan

informasi kontak saya