Universitas Tsinghua memimpin peluncuran evaluasi multi-modal MultiTrust: Seberapa andalkah GPT-4?

2024-07-24

Kolom AIxiv adalah kolom tempat Machine Heart menerbitkan konten akademis dan teknis. Dalam beberapa tahun terakhir, kolom Heart of the Machine AIxiv telah menerima lebih dari 2.000 laporan, mencakup laboratorium terkemuka dari universitas dan perusahaan besar di seluruh dunia, yang secara efektif mendorong pertukaran dan diseminasi akademis. Jika Anda memiliki karya luar biasa yang ingin Anda bagikan, silakan berkontribusi atau hubungi kami untuk pelaporan. Email pengiriman: [email protected]; [email protected]

Pekerjaan ini diprakarsai oleh tim inovasi teori dasar yang dipimpin oleh Profesor Zhu Jun dari Universitas Tsinghua. Untuk waktu yang lama, tim ini telah berfokus pada isu-isu kemacetan saat ini dalam pengembangan kecerdasan buatan, mengeksplorasi teori-teori kecerdasan buatan asli dan teknologi-teknologi utama, dan berada pada level terdepan internasional dalam penelitian teori-teori keamanan permusuhan dan metode-metode algoritma cerdas. Mereka juga telah melakukan penelitian mendalam tentang ketahanan dan efektivitas pembelajaran mendalam. Masalah umum yang mendasar seperti efisiensi pemanfaatan data. Karya yang relevan memenangkan hadiah pertama Penghargaan Ilmu Pengetahuan Alam Kecerdasan Buatan Wu Wenjun, menerbitkan lebih dari 100 makalah CCF Kelas A, mengembangkan platform algoritma serangan balik dan pertahanan ARES open source (https://github.com/thu-ml/ares) , dan merealisasikan beberapa produk yang dipatenkan Mengubah pembelajaran dan penelitian menjadi aplikasi praktis.

Model Bahasa Besar Multimodal (MLLM) yang diwakili oleh GPT-4o telah menarik banyak perhatian karena kinerjanya yang luar biasa dalam berbagai modalitas seperti bahasa dan gambar. Mereka tidak hanya menjadi asisten tangan kanan pengguna dalam pekerjaan sehari-hari, namun juga secara bertahap merambah ke bidang aplikasi utama seperti mengemudi otonom dan diagnosis medis, sehingga memicu revolusi teknologi.

Namun, apakah model multimoda besar aman dan andal?

Gambar 1 Contoh serangan adversarial GPT-4o

Seperti yang ditunjukkan pada Gambar 1, dengan memodifikasi piksel gambar melalui serangan permusuhan, GPT-4o salah mengidentifikasi patung Merlion di Singapura sebagai Menara Eiffel di Paris atau Big Ben di London. Isi dari target kesalahan tersebut dapat dikustomisasi sesuka hati, bahkan melampaui batas aman aplikasi model.

Gambar 2 Contoh jailbreak Claude3

Dalam skenario serangan jailbreak, meskipun Claude berhasil menolak permintaan jahat dalam bentuk teks, ketika pengguna memasukkan gambar tambahan berwarna solid yang tidak terkait, model tersebut mengeluarkan berita palsu sesuai dengan permintaan pengguna. Artinya, model multi-modal yang besar memiliki lebih banyak risiko dan tantangan dibandingkan model bahasa yang besar.

Selain dua contoh tersebut, model multimodal besar juga memiliki berbagai ancaman keamanan atau risiko sosial seperti ilusi, bias, dan kebocoran privasi, yang akan sangat mempengaruhi keandalan dan kredibilitasnya dalam penerapan praktis. Apakah permasalahan kerentanan ini terjadi secara kebetulan atau tersebar luas? Apa perbedaan kredibilitas berbagai model multimoda besar, dan dari mana asalnya?

Baru-baru ini, para peneliti dari Universitas Tsinghua, Universitas Beihang, Universitas Shanghai Jiao Tong, dan Ruilai Intelligence bersama-sama menulis artikel setebal seratus halaman dan merilis tolok ukur komprehensif yang disebut MultiTrust, yang untuk pertama kalinya mengevaluasi secara komprehensif kelayakan model besar multimodal arus utama dari berbagai negara. dimensi dan perspektif, menunjukkan berbagai potensi risiko keamanan dan menginspirasi pengembangan model besar multi-modal selanjutnya.

Judul makalah: Tolok Ukur Kepercayaan Model Bahasa Besar Multimodal: Studi Komprehensif

Tautan makalah: https://arxiv.org/pdf/2406.07057

Beranda proyek: https://multi-trust.github.io/

Repositori kode: https://github.com/thu-ml/MMTrustEval

Kerangka Tolok Ukur MultiTrust

Dari pekerjaan evaluasi model besar yang ada, MultiTrust mengekstraksi lima dimensi evaluasi kredibilitas - kebenaran, keamanan, ketahanan, keadilan, dan perlindungan privasi), dan melakukan klasifikasi sekunder, dan menyusun tugas, indikator, dan kumpulan data dengan cara yang ditargetkan untuk disediakan evaluasi yang komprehensif.

Gambar 4Diagram kerangka kerja MultiTrust

Berfokus pada 10 sub-dimensi evaluasi yang dapat dipercaya, MultiTrust telah membangun 32 skenario tugas yang beragam, mencakup tugas-tugas diskriminasi dan pembangkitan, yang mencakup tugas-tugas teks murni dan tugas-tugas multi-modal. Kumpulan data yang sesuai dengan tugas tidak hanya diubah dan diadaptasi berdasarkan kumpulan data teks atau gambar publik, tetapi juga beberapa data yang lebih kompleks dan menantang dibangun melalui pengumpulan manual atau sintesis algoritma.

Gambar 5 Daftar tugas MultiTrust

Berbeda dari evaluasi model bahasa besar (LLM) yang kredibel, fitur multi-modal MLLM menghadirkan skenario dan kemungkinan risiko yang lebih beragam dan kompleks. Untuk melakukan evaluasi sistematis dengan lebih baik, tolok ukur MultiTrust tidak hanya dimulai dari dimensi evaluasi perilaku tradisional, namun juga secara inovatif memperkenalkan dua perspektif evaluasi yaitu risiko multi-modal dan dampak lintas-modal, yang secara komprehensif mencakup isu-isu baru yang ditimbulkan oleh modalitas baru. . tantangan baru.

Gambar 6 Diagram risiko risiko multimodal dan dampak lintas modal

Secara khusus, risiko multimodal mengacu pada risiko baru yang muncul dalam skenario multimodal, seperti kemungkinan jawaban yang salah ketika model memproses informasi visual yang menyesatkan, dan kesalahan penilaian dalam penalaran multimodal yang melibatkan masalah keselamatan. Meskipun model dapat mengidentifikasi alkohol dalam gambar dengan benar, dalam penalaran lebih lanjut, beberapa model tidak menyadari potensi risiko jika meminumnya bersamaan dengan obat sefalosporin.

Gambar 7 Model ini membuat kesalahan penilaian dalam penalaran yang melibatkan masalah keamanan

Dampak lintas-modal mengacu pada dampak penambahan modalitas baru pada kredibilitas modalitas asli. Misalnya, masukan gambar yang tidak relevan dapat mengubah perilaku kredibel dari jaringan tulang punggung model bahasa besar dalam adegan teks biasa, sehingga menghasilkan lebih banyak modalitas. ketidakpastian. Dalam serangan jailbreaking dan tugas kebocoran privasi kontekstual yang biasa digunakan untuk penilaian kredibilitas model bahasa besar, jika model diberikan gambar yang tidak ada hubungannya dengan teks, perilaku keamanan asli dapat dimusnahkan (Gambar 2).

Analisis hasil dan kesimpulan utama

Gambar 8 Daftar kredibilitas yang diperbarui secara real-time (bagian)

Para peneliti memelihara daftar kredibilitas model besar multi-modal yang diperbarui secara berkala, dan telah menambahkan model terbaru seperti GPT-4o dan Claude3.5. Secara keseluruhan, model komersial sumber tertutup lebih aman daripada model sumber terbuka arus utama. Di antara mereka, GPT-4 OpenAI dan Claude Anthropic menempati peringkat tertinggi dalam kredibilitas, sedangkan Microsoft Phi-3, yang menambahkan penyelarasan keamanan, menempati peringkat tertinggi di antara model sumber terbuka, tetapi masih ada kesenjangan tertentu dengan model sumber tertutup.

Model komersial seperti GPT-4, Claude, dan Gemini telah menerapkan banyak teknologi penguatan untuk keamanan dan kepercayaan, namun masih terdapat beberapa risiko keamanan dan kepercayaan. Misalnya, mereka masih menunjukkan kerentanan terhadap serangan permusuhan, serangan jailbreak multi-modal, dll., yang sangat mengganggu pengalaman dan kepercayaan pengguna.

Gambar 9 Gemini mengeluarkan konten berisiko di bawah serangan jailbreak multi-modal

Meskipun skor dari banyak model sumber terbuka pada daftar umum arus utama setara atau bahkan lebih baik daripada GPT-4, dalam pengujian tingkat kepercayaan, model ini masih menunjukkan kelemahan dan kerentanan dalam berbagai aspek. Misalnya, penekanan pada kemampuan umum (seperti OCR) selama fase pelatihan membuat penyematan teks yang sudah di-jailbreak dan informasi sensitif ke dalam masukan gambar menjadi sumber risiko yang lebih mengancam.

Berdasarkan hasil eksperimen pada efek lintas modal, penulis menemukan bahwa pelatihan dan inferensi multimodal melemahkan mekanisme penyelarasan yang aman dari model bahasa besar. Banyak model besar multi-modal akan menggunakan model bahasa besar yang selaras sebagai jaringan tulang punggung dan menyempurnakannya selama proses pelatihan multi-modal. Hasilnya menunjukkan bahwa model-model ini masih menunjukkan kerentanan keamanan yang besar dan risiko yang dapat dipercaya. Pada saat yang sama, dalam beberapa tugas penilaian keterpercayaan teks murni, memasukkan gambar selama penalaran juga akan berdampak dan mengganggu perilaku model yang dapat dipercaya.

Gambar 10 Setelah memperkenalkan gambar, model lebih cenderung membocorkan konten pribadi dalam teks

Hasil eksperimen menunjukkan bahwa terdapat korelasi tertentu antara kredibilitas model multi-modal besar dan kemampuan umumnya, namun masih terdapat perbedaan kinerja model dalam dimensi evaluasi kredibilitas yang berbeda. Algoritme terkait model besar multi-modal yang umum saat ini, seperti penyempurnaan kumpulan data yang dihasilkan dengan bantuan GPT-4V, RLHF untuk halusinasi, dll., tidak cukup untuk sepenuhnya meningkatkan kredibilitas model. Kesimpulan yang ada juga menunjukkan bahwa model multi-modal besar memiliki tantangan unik yang berbeda dari model bahasa besar, dan diperlukan algoritma yang inovatif dan efisien untuk perbaikan lebih lanjut.

Lihat makalah untuk hasil dan analisis terperinci.

arah masa depan

Temuan menunjukkan bahwa peningkatan kredibilitas model multimodal besar memerlukan perhatian khusus dari para peneliti. Dengan memanfaatkan solusi penyelarasan model bahasa yang besar, data dan skenario pelatihan yang terdiversifikasi, serta paradigma seperti Retrieval Enhanced Generation (RAG) dan Constitutional AI (Constitutional AI) dapat membantu peningkatan hingga batas tertentu. Namun peningkatan kredibilitas model multimodal besar lebih dari itu. Keselarasan antara modalitas dan ketahanan encoder visual juga merupakan faktor utama yang mempengaruhi. Selain itu, peningkatan kinerja model dalam aplikasi praktis melalui evaluasi dan optimalisasi berkelanjutan dalam lingkungan dinamis juga merupakan arah penting di masa depan.

Bersamaan dengan peluncuran tolok ukur MultiTrust, tim peneliti juga merilis perangkat evaluasi kepercayaan model besar multi-modal MMTrustEval. Integrasi model dan karakteristik modularitas evaluasinya menyediakan alat penting untuk penelitian kredibilitas model besar multi-modal. Berdasarkan pekerjaan dan perangkat ini, tim menyelenggarakan kompetisi data dan algoritme terkait keamanan model besar multi-modal [1,2] untuk mempromosikan penelitian yang dapat dipercaya pada model besar. Di masa depan, dengan kemajuan teknologi yang berkelanjutan, model multimodal besar akan menunjukkan potensinya di lebih banyak bidang, namun masalah kredibilitasnya masih memerlukan perhatian terus-menerus dan penelitian mendalam.

[1] Tantangan Keamanan Tim Merah Model Bahasa Besar Multimodal CCDM2024 http://116.112.3.114:8081/sfds-v1-html/main

[2] Kompetisi Algoritma Pazhou ke-3 - Teknologi penguatan keamanan algoritma model besar multi-modal https://iacc.pazhoulab-huangpu.com/contestdetail?id=668de7357ff47da8cc88c7b8&award=1,000,000

berita

Universitas Tsinghua memimpin peluncuran evaluasi multi-modal MultiTrust: Seberapa andalkah GPT-4?

Perkenalan

informasi kontak saya