Informasi kontak saya
Surat[email protected]
2024-08-16
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
Dikontribusikan oleh kelompok penelitian Wang Dequan di Universitas Shanghai Jiao Tong
Qubit |. Akun publik QbitAI
Kelompok penelitian Profesor Wang Dequan di Universitas Shanghai Jiao Tong mengajukan pertanyaan seperti itu dalam penelitian terbarunya.
Bayangkan skenario ini: Seorang anak di taman kanak-kanak memegang gambar harimau dan bertanya kepada Anda: "Anak kucing ini lucu sekali. Apakah ini kucing betina?"
Anda mungkin tidak menjawab "ya" atau "tidak" secara langsung, tetapi pertama-tama tunjukkan "kontradiksi" dalam pertanyaan ini—Gambar ini adalah gambar harimau, bukan kucing。
Namun hanya ada sedikit penelitian sistematis sebelumnya mengenai bagaimana model besar akan merespons.
Anda harus tahu bahwa model AI yang tidak dapat mendeteksi "konflik instruksi" akan menghasilkan hasil untuk "pertanyaan yang seharusnya tidak memiliki jawaban", dan tidak peduli sisi konflik mana yang bias dari hasil yang dihasilkan, hal itu akan menyebabkan potensi bencana dan memengaruhi AI. keamanan dan Superalignment (Super Alignment).
Dalam studi terbaru ini, tim mengusulkanTolok ukur multimoda——set instruksi yang kontradiktif, dan merancang yang inovatifKerangka pembuatan kumpulan data otomatis, bernamaBuatOtomatis。
Tim menemukan bahwa model multi-modal besar sangat kurang dalam mendeteksi instruksi pengguna yang bertentangan, sehingga mereka mengusulkanMetode dorongan gairah kognitif(CAP), yang menyuntikkan kemampuan kognitif dari dunia luar sehingga meningkatkan kemampuan mendeteksi kontradiksi.
Makalah ini akan diterbitkan pada Konferensi Eropa tentang Computer Vision (ECCV) ke-18 pada bulan Oktober tahun ini.
Saat ini, model multimodal besar telah membuat kemajuan besar dalam penelitian ilmiah dan bidang aplikasi. Mereka dapat memproses berbagai tipe data termasuk teks dan gambar, menunjukkan kemampuan yang mirip dengan kognisi manusia.
Tim percaya bahwa keberhasilan model ini disebabkan oleh penelitian dan pengembangan yang ekstensif yang memungkinkan mereka mengikuti instruksi manusia dengan cermat, bahkan agak “tunduk”.
Selain itu, model-model ini sangat baik dalam konteks yang panjang. Model multi-modal besar seperti Claude 3 dan Gemini 1.5 Pro telah menunjukkan kemampuan yang kuat. Model seri Claude 3 menawarkan jendela konteks 200 ribu token, ukuran jendela konteks standar Gemini 1.5 Pro adalah 128 ribu, dan bahkan dapat mencapai 1 juta token selama fase pratinjau pribadi.
Kemajuan ini memungkinkan model multimodal besar bekerja dengan baik dalam menangani tugas-tugas kompleks dan memenuhi kebutuhan manusia untuk interaksi jangka panjang.
Namun, dengan semakin dalamnya interaksi multi-modal dan bertambahnya panjang konteks, masalah instruksi pengguna yang kontradiktif menjadi semakin menonjol.
Seperti ditunjukkan di bawah, ketika pengguna (seperti anak-anak atau pemula bahasa) menggunakan model ini, mereka sering kali tidak menyadari potensi konflik multimodal.
Pada saat yang sama, seiring dengan bertambahnya jumlah putaran dialog dan meluasnya jendela konteks, menjadi sulit bagi pengguna untuk mengingat semua detail, yang menyebabkan konflik antar instruksi.
Selain itu, seiring bertambahnya jumlah modalitas, konflik antar modalitas juga dapat terjadi. Ketika model-model ini kurang memiliki kesadaran diri dan kemampuan untuk membedakan kontradiksi, kinerja mereka akan menurun.
Untuk mengatasi tantangan ini, tim peneliti artikel ini mengusulkan uji benchmark multi-modal - "set instruksi yang kontradiktif” (Instruksi Kontradiktif Sendiri, SCI), digunakan untuk mengevaluasi kemampuan model besar multi-modal dalam mendeteksi instruksi yang bertentangan.
SCI berisi20.000 instruksi yang bertentanganDan8 tugas, didistribusikan secara meratabahasa - bahasaDanvisual-verbaldalam dua paradigma.
Di bagian atas diagram, paradigma bahasa-linguistik melibatkan konflik antara konteks dan arahan, seperti konflik aturan desain, konflik properti objek, arahan eksklusif, dan kosakata terlarang.
Di bagian bawah gambar: paradigma visual-linguistik mencakup konflik multimodal, seperti konflik pengenalan teks OCR, konflik diagram, konflik geometris, dan konflik semantik. Di antara delapan tugas, hanya konflik semantik yang melibatkan kumpulan data lain (ImageNet).
Sebagai contoh spesifik, ketika membangun konflik semantik, peneliti pertama-tama akan membuat teks yang sesuai berdasarkan gambar, dan kemudian mengganti informasi semantik utama dalam teks tersebut dengan semantik baru yang serupa tetapi berbeda.
Pada gambar di bawah ini, gambar tersebut berisi seekor burung unta (Ostrich). Penulis menambahkan pertanyaan “Apakah gambar tersebut menggambarkan ukuran burung unta?” untuk makna semantik dari gambar “burung unta”.
Selanjutnya, semantik kunci dari teks pertanyaan "burung unta" ini diganti dengan "Kiwi". Dengan cara ini, sepasang instruksi multimodal yang kontradiktif dibangun.
Sepanjang seluruh proses konstruksi SCI, penulis merancang kerangka kerja pembuatan kumpulan data otomatis yang inovatif—BuatOtomatis。
Itu membangun lingkaran multimodal melalui program dan model bahasa besar. Kerangka kerja ini memanfaatkan program dan model bahasa besar untuk memungkinkan pembuatan kumpulan data otomatis.
AutoCreate dimulai dengan beberapa data benih terkait tugas dan memelihara kumpulan benih. Dalam setiap siklus, AutoCreate mencakup dua cabang:cabang bahasa(kiri) dancabang visual(Kanan). Setiap cabang terdiri dari generator dan dekorator.
Terakhir, petugas kebersihan akan mengecualikan data yang tidak memenuhi kriteria. Setelah melewati pemeriksaan kualitas oleh pakar manusia, data ini akan dimasukkan kembali ke dalam kumpulan benih untuk putaran berikutnya.
AutoCreate sangat meningkatkan kecepatan konstruksi dan luasnya konten kumpulan data SCI.
Dengan menggunakan kumpulan data SCI, para peneliti mengevaluasi secara komprehensif kinerja model besar dalam menangani instruksi yang kontradiktif.
Hasil eksperimen menunjukkan bahwa model besar saat ini sering kali menunjukkan kekurangan tertentu ketika dihadapkan pada instruksi yang bertentangan.
Mereka dapat memproses informasi dan pengetahuan, tapiKurangnya kemampuan untuk mengevaluasi kewajaran instruksi, yang oleh tim peneliti disebut sebagai kemampuan "kognitif".
Kekurangan ini berasal dari kurangnya kesadaran diri dan ketidakmampuan mengenali ketidakkonsistenan dalam instruksi.
Oleh karena itu, para peneliti mengusulkan metode drop-in prompting sederhana yang disebut “Tip Kebangkitan Kognitif”(Dorongan Kebangkitan Kognitif, CAP)。
CAP meneruskan masukanTambahkan pengingat sederhana, kemampuan kognitif dapat disuntikkan dari dunia luar, sehingga meningkatkan kemampuan deteksi kontradiksi model besar, dan pada dasarnya tidak akan ada dampak negatifnya.
Temuan ini menunjukkan bahwa model multimodal besar saat ini memerlukan lebih banyak kesadaran diri dan kemampuan kognitif untuk menangani konflik instruksi yang kompleks dengan lebih baik.
Untuk lebih jelasnya, anak-anak yang berminat dapat melihat makalah aslinya.
Penulis pertama makalah ini adalah kandidat doktor di Universitas Shanghai Jiao TongGao Jin。
Minat penelitiannya meliputi visi komputer, model besar multimodal, ilmu kehidupan yang didukung oleh kecerdasan buatan, dan lain-lain.
Penulis koresponden makalah ini adalah asisten profesor tetap dan supervisor doktoral di Universitas Shanghai Jiao TongWang Dequan, dia lulus dari Universitas Fudan dengan gelar sarjana dan Ph.D. dari Universitas California, Berkeley, di mana dia belajar di bawah bimbingan Profesor Trevor Darrell.
Karya penelitiannya telah dipublikasikan di konferensi internasional ternama seperti CVPR, ICCV, ECCV, ICLR, ICML, ICRA, IROS, dll. Makalahnya telah dikutip lebih dari 10.000 kali di Google Scholar dalam lima tahun terakhir, dengan nilai H- indeks 20.
Tautan makalah: https://arxiv.org/abs/2408.01091
Tautan proyek: https://selfcontradiction.github.io/