VLM secara kolektif "buta"? Tes penglihatan gagal total, GPT-4o dan Claude 3.5 keduanya gagal

VLM secara kolektif "buta"?Tes vision gagal total, GPT-4o dan Claude 3.5 keduanya gagal

2024-07-16

Laporan Kebijaksanaan Baru

Editor: Departemen Editorial

[Pengantar Kebijaksanaan Baru]Model bahasa visual yang besar secara kolektif "terbalik" pada tugas-tugas visual yang paling dasar. Bahkan pengenalan pola yang sederhana pun dapat membuat bingung.

Model bahasa putaran terbaru, seperti GPT-4o dan Gemini 1.5 Pro, didefinisikan sebagai "multi-modal asli" saat dirilis, mampu memahami berbagai bentuk masukan seperti gambar, audio, dan teks.

LLM multimodal ini menggunakan ekspresi seperti "kemampuan visual" dan "pemahaman visual" dalam pengantar yang relevan, pemasaran, dan bahkan makalah akademis.

Hal ini sepertinya berarti bahwa model tersebut dapat melihat dan memahami sesuatu dalam arti tertentu, dan kemampuan ini sudah menyamai kemampuan manusia.

Jadi mari kita buat ide: Jika model bahasa visual diuji penglihatannya, apakah mereka akan memiliki penglihatan standar 5.2 atau miopia parah, atau apakah mereka tidak dapat melihat apa pun?

Sebuah studi baru menunjukkan bahwa model bahasa berukuran besar sebenarnya tidak memiliki kemampuan visual seperti manusia yang diharapkan. Kenyataannya adalah, mereka hanya “buta”.

Para peneliti di Universitas Auburn dan Universitas Alberta menguji empat model multimodal canggih saat ini pada serangkaian tugas penglihatan yang sangat sederhana dan menemukan bahwa hasilnya tidak memuaskan.

Tugas-tugas ini sangat sederhana bagi manusia, seperti menentukan apakah dua bentuk saling tumpang tindih, berapa banyak segi lima dalam sebuah gambar, atau huruf mana dalam sebuah kata yang dilingkari.

Namun, penglihatan model-model canggih ini paling "rabun", dan detail yang terlihat sangat kabur. Yang terburuk, model tersebut bertindak seperti "orang buta yang cerdas" yang membuat beberapa tebakan.

Alamat makalah: https://arxiv.org/pdf/2407.06581

7 tugas utama

Sekarang, tes penglihatan resmi dimulai, dan VLM perlu menyelesaikan 7 tugas kecil.

Anh Nguye, salah satu penulis makalah ini, secara khusus menekankan, "Tujuh tugas kami sangat sederhana, dan akurasi kinerja manusia dapat mencapai 100%."

Jadi, bagaimana kinerja model AI ketika dihadapkan pada pertanyaan-pertanyaan yang bahkan siswa kelas satu pun dapat mengerjakannya dengan benar?

Tugas 1: Berapa banyak titik potong yang dimiliki kedua polyline tersebut?

Mengingat bahwa VLM telah berkinerja luar biasa dalam tes benchmark sebelumnya pada grafik, seperti skor Claude 3.5 Sonnet sebesar 94,7% di AI2D dan 90,8% di ChartQA, kita dapat berspekulasi bahwa masalah seperti ini seharusnya tidak menjadi masalah bagi mereka.

Seperti yang ditunjukkan pada gambar di bawah, total 150 grafik garis digambar pada kanvas putih, semuanya terdiri dari dua polyline, yang masing-masing ditentukan oleh tiga titik.

Koordinat x dari ketiga titik ini adalah tetap dan berjarak sama, dan koordinat y diperoleh melalui pengambilan sampel secara acak, sehingga menghasilkan dua polyline dengan bilangan perpotongan 0, 1, atau 2.

Eksperimen tersebut menggunakan dua frasa berbeda untuk menanyakan model besar, seperti, "Berapa kali garis biru dan merah berpotongan?" dan "Berapa kali garis biru dan merah berpotongan?"

Dengan menghitung akurasi rata-rata setiap model yang menjawab dua pertanyaan ini, kita dapat menghilangkan beberapa efek cepat dan mencapai hasil yang lebih akurat.

Sebagai perbandingan, Sonnet-3.5 berkinerja sedikit lebih baik dalam tugas ini, dengan akurasi rata-rata 77,33%, sementara model lain berkinerja lebih buruk.

Meskipun 77,33% terdengar seperti hasil yang bagus, karena hanya ada tiga kemungkinan jawaban: 0, 1, dan 2, tingkat tebakan acak yang benar adalah 33%.

Perlu dicatat bahwa VLM cenderung berkinerja lebih buruk ketika jarak antara dua polyline menjadi lebih sempit. Singkatnya, VLM tidak dapat mengidentifikasi dan menghitung perpotongan segmen garis dengan andal.

Tugas 2: Masalah perpotongan, singgung dan pemisahan lingkaran

Soal ini termasuk dalam kategori geometri SMP: perpotongan, singgung dan pemisahan lingkaran (tidak ada yang tidak akan mengingat punggung guru menggambar lingkaran dengan tangan bebas).

Namun, kami tidak akan menguji VLM dalam istilah ini, melainkan memberikan tes sederhana tentang bentuk yang tumpang tindih, yang bisa dibilang merupakan salah satu tugas penalaran visual paling sederhana yang bisa dibayangkan.

Sayangnya, tidak peduli apakah kedua lingkaran tersebut sedikit tumpang tindih, hanya bersentuhan, atau berada pada jarak tertentu, tidak peduli bagaimana situasinya, model tidak pernah mampu membuat penilaian yang tepat.

Sebagai perbandingan, jika kedua lingkaran berjauhan, GPT-4o benar lebih dari 95%, tetapi pada jarak nol atau sangat kecil, hanya 18% benar, yaitu kurang dari 50% benar. menilai saat menebak secara acak.

Gemini Pro 1.5 memiliki performa terbaik, dengan tingkat akurasi rata-rata 92,78, namun tingkat akurasi hanya 70% ketika jarak kedua lingkaran dekat.

Tugas 3: Mengidentifikasi huruf yang dilingkari

Gunakan lingkaran merah ⭕ untuk melingkari huruf-huruf dalam kata, satu per satu, dan tugas tersebut memerlukan VLM untuk mengidentifikasi huruf-huruf yang dilingkari.

Tentu saja tugas ini mudah bagi manusia, namun hipotesis penulis adalah jika penglihatan VLM kabur, VLM mungkin tidak dapat mengenali huruf yang dilingkari secara tepat karena jarak antar huruf yang berdekatan kecil.

Kata Acknowledgement, Subdermatoglyphic, dan string tHyUiKaRbNqWeOpXcZvM dipilih karena mengandung karakter dengan lebar dan tinggi berbeda. (Trivia, subdermatoglyphic adalah kata terpanjang tanpa huruf berulang)

Eksperimen tersebut menemukan bahwa meskipun VLM dapat secara akurat mengenali bentuk lingkaran merah dan mengeja kata dengan sempurna, "membaca huruf yang dilingkari" membuat semua model bingung. Misalnya, pengenalan VLM cenderung membuat kesalahan ketika huruf-hurufnya sedikit tertutup oleh oval merah.

Ketika terjadi kesalahan, VLM biasanya memprediksi huruf yang berdekatan dengan huruf yang dilingkari.

Terkadang model akan berhalusinasi dan, meskipun dapat mengeja kata dengan akurat, akan muncul karakter yang tidak ada dalam subdermatoglif (misalnya 9, n, ©).

Semua model kecuali GPT-4o memiliki performa yang sedikit lebih baik pada dua kata bahasa Inggris dibandingkan string acak (2 hingga 6 poin lebih baik). Hal ini menunjukkan bahwa pemahaman terhadap kata-kata tersebut dapat membantu VLM membuat tebakan yang lebih tepat.

Gemini-1.5 dan Sonnet-3.5 adalah dua model teratas (92,81% dan 89,22%), hampir 20 poin lebih tinggi dari GPT-4o dan Sonnet-3.

Secara keseluruhan, VLM mungkin dapat menebak huruf yang dilingkari berdasarkan ejaan kata, sehingga sedikit meningkatkan akurasi, namun tidak berarti VLM dapat melihat huruf dalam lingkaran merah.

Tugas 4: Masalah yang saling terkait

Selanjutnya VLM perlu menghadapi masalah “interlocking”, yaitu menghitung berapa banyak lingkaran yang saling bertautan pada gambar.

BGM seharusnya berbunyi di sini: Ahhhhh~ Lima Dering, Anda memiliki satu dering lebih banyak dari Empat Dering~

Hasil pengujian ini agak aneh: bila ada lima dering pada gambar, modelnya 100% benar; begitu ada satu dering lagi, VLM benar-benar bingung.

Gemini mengalami disorientasi dan menjawab salah sekali saja, Sonnet-3.5 menjawab benar sepertiga kalinya, dan GPT-4o menjawab benar hampir separuhnya.

Penulis mengusulkan bahwa keakuratan mengidentifikasi "lima cincin" sangat tinggi, dan ini terkait erat dengan simbol "lima cincin" yang umum di Olimpiade.

Seperti dapat dilihat pada Tabel 5, keempat model cenderung menghitung 5 lingkaran, yang jauh lebih besar daripada frekuensi penghitungan 5 segi lima.

Pengujian ini menunjukkan bahwa apa pun yang dilakukan model-model ini, ia tidak memiliki “penglihatan” seperti yang kita pahami sebagai manusia. Masalah utamanya adalah kinerjanya sangat tidak stabil, dengan perbedaan tingkat keberhasilan pengenalan yang sangat besar di antara gambar-gambar yang terdiri dari angka dan bentuk berbeda.

Tugas 5: Kotak Bersarang

Tugas 2 menunjukkan bahwa VLM mengalami kesulitan menghitung lingkaran yang berpotongan. Jadi apa yang akan terjadi pada kinerja VLM jika kotak-kotak tersebut seluruhnya bertumpuk di dalam kotak lain yang lebih besar sehingga ujung-ujungnya tidak berpotongan?

Seperti yang ditunjukkan pada gambar di bawah, pada kanvas berukuran C×C, penulis merender N∈{2,3,4,5} kotak bersarang.

Pertama-tama render persegi terluar menggunakan panjang sisi acak d∈{2,3,4}px. Kotak N-1 yang tersisa digambar menggunakan faktor reduksi 0,75×d dan ditempatkan pada koordinat acak untuk memastikan bahwa kotak tersebut tidak menyentuh kotak terluar.

Hasilkan 10 gambar untuk masing-masing dari 3 pengaturan ketebalan garis (di mana kotak memiliki posisi acak berbeda), dan ulangi proses untuk semua nilai N, sehingga menghasilkan total 120 gambar.

Dapat ditemukan bahwa menghitung jumlah kotak bersarang adalah tugas yang sulit diselesaikan oleh VLM secara akurat.

Akurasi model sangat bervariasi, dengan GPT-4o (48,33%) dan Gemini-1,5 (55,00%) tertinggal di belakang Gemini-1.5 (80,00%) dan Claude3.5 (87,50%) setidaknya sebesar 30 poin.

Tugas 6: Berapa banyak kolom dan baris yang dimiliki tabel?

Hasil tugas sebelumnya menunjukkan bahwa VLM tidak mampu menangani masalah seperti tumpang tindih (tugas 4) atau bersarang (tugas 5). Penulis memutuskan untuk mengubah arah VLM dan melihat kinerjanya pada masalah yang berkaitan dengan grafik yang berdekatan.

Penulis memasukkan kotak-kotak tersebut ke dalam kotak dan meminta VLM untuk menghitungnya. VLM ini telah bekerja dengan baik di DocVQA (akurasi ≥ 90%), yang berisi banyak pertanyaan dengan tabel, jadi tugas ini seharusnya sederhana untuk VLM.

Untuk mempermudah, penulis hanya meminta model untuk menghitung jumlah baris dan kolom pada tabel tertentu.

Ditemukan bahwa model tersebut tidak pernah dapat menghitung dengan benar jumlah baris dan kolom dari grid kosong.

Namun, kinerja semua VLM meningkat ketika sel kisi berisi teks, khususnya Soneta-3.5.

Tugas 7: Mengidentifikasi peta jalan

Tugas ini menguji kemampuan VLM untuk mengidentifikasi jalur berwarna khusus dan mengikuti garis berwarna tertentu dari titik awal tertentu ke tujuan, suatu kemampuan penting yang diperlukan untuk membaca dan memahami peta.

Seperti yang ditunjukkan pada gambar di bawah, buat peta kereta bawah tanah pada gambar berukuran C×C, dengan C∈{512, 1024}px.

Tuliskan 4 nama stasiun (A, B, C, D) pada 4 koordinat tetap. Bagilah kanvas menjadi kotak tak terlihat berukuran 18×18 sel dan inisialisasi 3 titik awal jalur C/18px dari setiap stasiun.

Gambarkan jalur yang dimulai dari stasiun acak dan titik awal acak menggunakan algoritma pencarian depth-first, di mana setiap langkah dapat memindahkan satu sel ke segala arah. Proses ini diulangi sehingga setiap stasiun memiliki N∈{1,2,3} jalur keluaran, dan total 180 peta digambar.

Diberikan dua stasiun yang ditunjuk, tugas ini memerlukan VLM untuk menghitung berapa banyak jalur dengan warna berbeda yang ada di antara kedua stasiun tersebut.

Hasil eksperimen menemukan bahwa meskipun hanya ada satu jalur warna antara dua stasiun, tidak ada model yang dapat mencapai akurasi 100%.

Akurasi tertinggi adalah Sonnet-3.5 yang bisa mencapai 95% jika hanya ada satu jalan, namun jika ada dua jalan, akurasinya dengan cepat turun menjadi hanya 50,18%.

Ketika kompleksitas jalur meningkat, dari 1 jalur menjadi 3 jalur, sebagian besar VLM akan menunjukkan penurunan kinerja yang signifikan.

"Kebutaan" VLM

Mengapa kinerja VLM sangat tidak stabil dalam tes kemampuan visual di atas?

Mungkin kita dapat menemukan petunjuk dari preferensi model terhadap "Cincin Olimpiade" di Tugas 4. Penjelasan yang paling masuk akal adalah:

Dalam data pelatihan VLM, gambar "cincin Olimpiade" muncul berulang kali dan dijelaskan secara rinci di banyak materi teks.

Namun, dalam data pelatihan VLM, 6 atau 7 cincin yang saling bertautan tidak dapat ditemukan, sehingga jawabannya tidak memuaskan.

Karena VLM mungkin tidak tahu apa yang mereka "lihat" sama sekali, dan mereka juga tidak benar-benar memahami apa itu loop, overlap, atau konsep lainnya.

Namun, meskipun kami menggunakan blind untuk mendeskripsikan performa model ini, kami masih melakukan antropomorfisasi model tersebut, seperti halnya perusahaan model besar yang mempromosikan "kemampuan visual" -nya.

Peneliti Nguyen juga mengatakan bahwa "kebutaan" memiliki banyak definisi bahkan untuk manusia, dan saat ini tidak ada kata yang dapat menggambarkan kebutaan/ketidakpekaan kecerdasan buatan terhadap gambar yang kami tampilkan.

Perilaku VLM adalah fungsi kompleks dari perintah masukan teks, masukan gambar, dan miliaran bobot, dan saat ini tidak ada teknologi yang dapat memvisualisasikan secara akurat apa yang dilihat model.

Dia berspekulasi bahwa model-model ini tidak sepenuhnya "buta". Mereka hanya dapat mengekstrak informasi visual "perkiraan" dan abstrak dari gambar, namun tidak dapat membuat penilaian visual, sehingga mereka berperilaku seolah-olah mereka memahami gambar tersebut tetapi tidak dapat benar-benar melihatnya.

Nguyen menggunakan sebuah contoh untuk mendukung hipotesis di atas:

Pengguna: Apa warna area di mana kedua lingkaran tersebut saling tumpang tindih? GPT-4o: Area tumpang tindih dua lingkaran berwarna pirus (berbayang cyan). Gemini-1.5: Area lingkaran hijau dan lingkaran biru yang tumpang tindih akan berwarna cyan. Soneta-3.5: Maaf, tapi hanya ada dua lingkaran terpisah di gambar, satu hijau dan satu biru, dan tidak ada area yang tumpang tindih.

Jelasnya, kecuali Soneta-3.5, GPT-4o dan Gemini-1.5 hanya "membayangkan" gambar daripada benar-benar "melihat" gambar tersebut.

Jadi, apakah penelitian ini berarti model AI “visual” ini tidak berguna?

Namun kenyataannya tidak. Masing-masing model ini telah menunjukkan akurasi tinggi pada berbagai tugas, seperti mengenali tindakan dan ekspresi manusia, objek sehari-hari, dan foto lingkungan.

Pentingnya penelitian ini adalah untuk mengecewakan kita dengan strategi pemasaran VLM yang terlalu “antropomorfik”.

Jika kita mendengarkan retorika pemasaran raksasa teknologi, kita mungkin berpikir bahwa model visual berukuran besar bisa "melihat".

Namun hanya dengan beberapa pengujian kecil, kita dapat dengan mudah menemukan perbedaan penting antara VLM dan manusia. Ini adalah "anthropomorphized", yang sebenarnya menyoroti sifatnya yang tidak manusiawi.

Referensi:

https://arxiv.org/abs/2407.06581

https://techcrunch.com/2024/07/11/apakah-model-visual-ai-benar-benar-buta/?_refluxos=a10

https://vlmsareblind.github.io/

berita

VLM secara kolektif "buta"?Tes vision gagal total, GPT-4o dan Claude 3.5 keduanya gagal

Perkenalan

informasi kontak saya