berita

Untuk meningkatkan kinerja tugas deteksi GPT-4V dan Gemini, Anda memerlukan paradigma cepat ini

2024-07-22

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Kolom AIxiv adalah kolom tempat Machine Heart menerbitkan konten akademis dan teknis. Dalam beberapa tahun terakhir, kolom Heart of the Machine AIxiv telah menerima lebih dari 2.000 laporan, mencakup laboratorium terkemuka dari universitas dan perusahaan besar di seluruh dunia, yang secara efektif mendorong pertukaran dan diseminasi akademis. Jika Anda memiliki karya luar biasa yang ingin Anda bagikan, silakan berkontribusi atau hubungi kami untuk pelaporan. Email pengiriman: [email protected]; [email protected]

Penulis artikel ini berasal dari Universitas Zhejiang, Laboratorium Kecerdasan Buatan Shanghai, Universitas China Hong Kong, Universitas Sydney, dan Universitas Oxford. Daftar penulis: Wu Yixuan, Wang Yizhou, Tang Shixiang, Wu Wenhao, He Tong, Wanli Ouyang, Philip Torr, Jian Wu. Di antara mereka, penulis pendamping pertama Wu Yixuan adalah mahasiswa doktoral di Universitas Zhejiang, dan Wang Yizhou adalah asisten peneliti ilmiah di Laboratorium Kecerdasan Buatan Shanghai. Penulis koresponden Tang Shixiang adalah peneliti pascadoktoral di Chinese University of Hong Kong.

Model Bahasa Besar Multimodal (MLLM) telah menunjukkan kemampuan yang mengesankan dalam berbagai tugas, meskipun demikian, potensi model ini dalam tugas deteksi masih diremehkan. Ketika koordinat yang tepat diperlukan dalam tugas deteksi objek yang kompleks, halusinasi MLLM sering kali membuat mereka meleset dari objek sasaran atau memberikan kotak pembatas yang tidak akurat. Agar MLLM dapat dideteksi, pekerjaan yang ada tidak hanya memerlukan pengumpulan kumpulan data instruksi berkualitas tinggi dalam jumlah besar, namun juga penyempurnaan model sumber terbuka. Meskipun memakan waktu dan tenaga, hal ini juga gagal memanfaatkan kemampuan pemahaman visual yang lebih kuat dari model sumber tertutup.Untuk tujuan ini, Universitas Zhejiang, Laboratorium Kecerdasan Buatan Shanghai, dan Universitas Oxford mengusulkanRantai Alat Det , sebuah paradigma pendorong baru yang melepaskan kekuatan deteksi model bahasa besar multimodal. Model multimodal besar dapat belajar mendeteksi secara akurat tanpa pelatihan.Penelitian terkait telah dilakukanTermasuk ECCV 2024

Untuk memecahkan masalah MLLM dalam tugas deteksi, DetToolChain dimulai dari tiga poin: (1) Merancang perintah visual untuk deteksi, yang lebih langsung dan efektif daripada perintah tekstual tradisional untuk memungkinkan MLLM memahami informasi lokasi, (2) Memecahkan tugas deteksi yang tepat menjadi tugas-tugas kecil dan sederhana, dan (3) menggunakan rantai pemikiran untuk secara bertahap mengoptimalkan hasil deteksi dan sebisa mungkin menghindari ilusi model multi-modal yang besar.

Sesuai dengan wawasan di atas, DetToolChain berisi dua desain utama: (1) Serangkaian perintah pemrosesan visual yang komprehensif, yang digambar langsung dalam gambar dan secara signifikan dapat mengurangi kesenjangan antara informasi visual dan informasi tekstual. (2) Serangkaian alasan deteksi yang komprehensif mendorong untuk meningkatkan pemahaman spasial dari target deteksi dan secara bertahap menentukan lokasi target akhir yang tepat melalui rantai alat deteksi adaptif sampel.

Dengan menggabungkan DetToolChain dengan MLLM, seperti GPT-4V dan Gemini, berbagai tugas deteksi dapat didukung tanpa penyetelan instruksi, termasuk deteksi kosakata terbuka, deteksi target deskripsi, pemahaman ekspresi referensial, dan deteksi target berorientasi.



Judul makalah: DetToolChain: Paradigma Baru yang Mendorong untuk Melepaskan Kemampuan Deteksi MLLM

Tautan makalah: https://arxiv.org/abs/2403.12488

Apa itu DetToolChain?



Gambar 1 Kerangka keseluruhan DetToolChain

Seperti yang ditunjukkan pada Gambar 1, untuk gambar kueri tertentu, MLLM diinstruksikan untuk melakukan langkah-langkah berikut:

I. Pemformatan: Mengubah format masukan asli tugas menjadi templat instruksi yang sesuai sebagai masukan MLLM;

II. Pikirkan: Pisahkan tugas deteksi kompleks tertentu menjadi subtugas yang lebih sederhana dan pilih perintah yang efektif dari perangkat perintah deteksi;

III. Execute: Menjalankan perintah (prompt) tertentu secara berulang-ulang secara berurutan;

IV.Respon: Gunakan kemampuan penalaran MLLM sendiri untuk mengawasi seluruh proses deteksi dan mengembalikan respon akhir (jawaban akhir).

Perangkat Perintah Deteksi: Perintah Pemrosesan Visual



Gambar 2: Diagram skema petunjuk pemrosesan visual. Kami merancang (1) Penguat Regional, (2) Standar Pengukuran Spasial, (3) Pengurai Gambar Pemandangan untuk meningkatkan kemampuan deteksi MLLM dari berbagai perspektif.

Seperti yang ditunjukkan pada Gambar 2, (1) Penguat Regional bertujuan untuk meningkatkan visibilitas MLLM di wilayah yang diminati (ROI), termasuk memotong gambar asli ke dalam sub-wilayah yang berbeda, dengan fokus pada sub-wilayah tempat objek target berada. ; selain itu, fungsi amplifikasi Ini memungkinkan pengamatan yang lebih detail pada sub-wilayah tertentu dalam gambar.

(2) Standar Pengukuran Spasial memberikan acuan yang lebih jelas untuk pendeteksian target dengan cara melapisi penggaris dan kompas dengan skala linier pada gambar asli, seperti terlihat pada Gambar 2 (2). Penggaris dan kompas tambahan memungkinkan MLLM menghasilkan koordinat dan sudut yang akurat menggunakan referensi translasi dan rotasi yang ditumpangkan pada gambar. Pada dasarnya, garis bantu ini menyederhanakan tugas pendeteksian, memungkinkan MLLM membaca koordinat objek alih-alih memprediksinya secara langsung.

(3) Scene Image Parser menandai prediksi posisi atau hubungan objek, dan menggunakan informasi spasial dan kontekstual untuk memahami hubungan spasial gambar. Scene Image Parser dapat dibagi menjadi dua kategori:Pertama, untuk satu objek target , kami memberi label objek yang diprediksi dengan sentroid, lambung cembung, dan kotak pembatas dengan nama label dan indeks kotak. Penanda ini mewakili informasi lokasi objek dalam format berbeda, memungkinkan MLLM mendeteksi beragam objek dengan bentuk dan latar belakang berbeda, terutama objek dengan bentuk tidak beraturan atau objek yang sangat tersumbat. Misalnya, penanda lambung cembung menandai titik batas suatu objek dan menghubungkannya ke dalam lambung cembung untuk meningkatkan kinerja pendeteksian objek yang bentuknya sangat tidak beraturan.Kedua, untuk beberapa target , kami menghubungkan pusat objek yang berbeda melalui penanda grafik pemandangan untuk menyorot hubungan antar objek dalam gambar. Berdasarkan grafik adegan, MLLM dapat memanfaatkan kemampuan penalaran kontekstualnya untuk mengoptimalkan prediksi kotak pembatas dan menghindari halusinasi. Misalnya, seperti yang ditunjukkan pada Gambar 2 (3), Jerry ingin makan keju, jadi kotak pembatasnya harus sangat dekat.

Perangkat Anjuran Penalaran Deteksi: Anjuran Penalaran Deteksi



Untuk meningkatkan keandalan kotak prediksi, kami melakukan perintah inferensi deteksi (ditunjukkan pada Tabel 1) untuk memeriksa hasil prediksi dan mendiagnosis potensi masalah yang mungkin ada. Pertama, kami mengusulkan Pemandu Wawasan Masalah, yang menyoroti masalah sulit dan memberikan saran deteksi yang efektif serta contoh serupa untuk gambar kueri. Misalnya, untuk Gambar 3, Pemandu Wawasan Masalah mendefinisikan kueri sebagai masalah deteksi objek kecil dan menyarankan penyelesaiannya dengan memperbesar area papan selancar. Kedua, untuk memanfaatkan kemampuan spasial dan kontekstual yang melekat pada MLLM, kami merancang Penjelajah Hubungan Spasial dan Prediktor Objek Kontekstual untuk memastikan bahwa hasil deteksi konsisten dengan akal sehat. Seperti yang ditunjukkan pada Gambar 3, papan selancar mungkin muncul bersamaan dengan lautan (pengetahuan kontekstual), dan harus ada papan selancar di dekat kaki peselancar (pengetahuan spasial). Selain itu, kami menerapkan Promotor Verifikasi Mandiri untuk meningkatkan konsistensi tanggapan di berbagai putaran. Untuk lebih meningkatkan kemampuan penalaran MLLM, kami mengadopsi metode dorongan yang banyak digunakan, seperti debat dan self-debugging. Silakan lihat teks asli untuk penjelasan rinci.



Gambar 3 Petunjuk penalaran deteksi dapat membantu MLLM memecahkan masalah deteksi objek kecil, misalnya, menggunakan akal sehat untuk menemukan lokasi papan selancar di bawah kaki seseorang, dan mendorong model untuk mendeteksi papan selancar di lautan.



Gambar 4 Contoh DetToolChain yang diterapkan pada deteksi target berputar (kumpulan data HRSC2016)

Eksperimen: Anda dapat melampaui metode penyesuaian tanpa pelatihan



Seperti yang ditunjukkan pada Tabel 2, kami mengevaluasi metode kami pada deteksi kosakata terbuka (OVD), menguji hasil AP50 dari 17 kelas baru, 48 kelas dasar dan semua kelas dalam benchmark COCO OVD. Hasilnya menunjukkan bahwa dengan menggunakan DetToolChain kami, kinerja GPT-4V dan Gemini meningkat secara signifikan.



Untuk menunjukkan efektivitas metode kami dalam pemahaman ekspresi referensial, kami membandingkan metode kami dengan metode zero-shot lainnya pada kumpulan data RefCOCO, RefCOCO+, dan RefCOCOg (Tabel 5). Pada RefCOCO, DetToolChain meningkatkan kinerja baseline GPT-4V masing-masing sebesar 44,53%, 46,11%, dan 24,85% pada val, pengujian-A, dan pengujian-B, yang menunjukkan pemahaman dan kinerja ekspresi referensial DetToolChain yang unggul dalam kondisi zero-shot.