berita

Universitas Peking Wangxuan: Biarkan model besar multi-modal lebih memahami apa yang dilakukan manusia |

2024-08-13

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Hanya dengan menggunakan kata-kata cepat, model multi-modal besar dapat lebih memahami hubungan antar karakter dalam adegan.

Universitas Peking baru-baru ini mengusulkan metode Conditional Multi-Modal Prompt (CMMP), yang menggunakanTeknologi rekayasa kata yang cepatAjarkan model besar multi-modal untuk memahami hubungan interaksi karakter tingkat regional.



Dalam proses ini, bagian tersulitnya adalah mengajarkan model untuk mengenaliJenis interaksi karakter yang tidak terlihat

Tahukah Anda, sebagian besar penelitian yang ada berfokus pada lingkungan tertutup. Begitu menjadi lingkungan terbuka yang mendekati kenyataan, modelnya akan menjadi bingung!

Misalnya, pada gambar di bawah, detektor sebelumnya mengalami kesulitan dalam menyeimbangkan kategori yang terlihat dan tidak terlihat,menghasilkan rata-rata harmonik yang lebih rendah, dan berkinerja lebih buruk pada kategori yang tidak terlihat.

Sebaliknya, metode CMMP secara efektif memecahkan masalah keseimbangan ini, meningkatkan kinerja secara signifikan, dan menghasilkan kinerja canggih baru untuk kategori yang tidak terlihat.



Adapun cara metode CMMP menyelesaikan kategori yang tidak terlihat,sebuah kata

Isyarat visual-spasial digunakan dalam proses ekstraksi fitur untuk membantu mengidentifikasi konsep interaksi orang-objek yang tidak terlihat dan meningkatkan generalisasi ke kategori yang tidak terlihat melalui pembelajaran isyarat bersyarat.



Singkatnya, metode CMMP memberikan paradigma baru untuk menyempurnakan model multimodal besar untuk membuatnyadigeneralisasikanKemampuan deteksi hubungan interaksi karakter tingkat regional.

Penelitian di atas berasal dari Institut Teknologi Komputer Wangxuan Universitas Peking, dan makalah yang relevan telah diterima pada konferensi teratas ECCV 2024.

Kerangka kerja baru untuk deteksi interaksi manusia tanpa sampel

Tim mengusulkan kerangka kerja baru untuk deteksi HOI (Interaksi Manusia-Objek) tanpa sampel menggunakan CMMP.



Secara khusus, CMMP akan mendeteksi interaksi manusia tanpa sampelDibagi menjadi dua subtugas

  • Ekstraksi fitur visual untuk persepsi interaktivitas
  • Klasifikasi interaksi yang dapat digeneralisasikan

Kemudian untuk setiap subtugasdiusulkan secara terpisahPisahkan isyarat visual dan tekstual untuk menghilangkan ketergantungan di antara keduanya dan mengurangi penyebaran kesalahan.

Isyarat visual bersyarat (Pv) digunakan untuk memasukkan pengetahuan tentang persepsi spasial dan interaktivitas ke dalam encoder gambar, dibatasi oleh visual prior tingkat instance (Cins) dan pola interaksi spasial global (Cgsp). Isyarat bahasa bersyarat (PL) dibatasi oleh isyarat yang dirancang manusia (CL) melalui hilangnya regularisasi.

Ekstraksi fitur visual untuk persepsi interaktivitas

Pembuat enkode gambar dari model multimodal yang diadopsi oleh tim pada awalnya dilatih melalui pra-pelatihan pembelajaran kontrastif (CLIP) pada pasangan gambar-teks skala besar, dan kemampuannya mungkin terbatas pada pemahaman semantik tingkat pertama tingkat gambar.

Untuk memungkinkan pembuat enkode gambar membedakan semua interaktivitas manusia dalam gambar, tim mengusulkan untuk mengintegrasikan pengetahuan sebelumnya tentang perincian yang berbeda ke dalam isyarat visual bersyarat untuk memahaminya yang disesuaikan untuk tugas deteksi hubungan interaksi manusia.Semantik tingkat kedua regional

Khususnya para penelitiGunakan informasi tingkat contoh sebagai pengetahuan sebelumnyaGabungkan isyarat visual bersyarat.

Dengan adanya gambar masukan, detektor objek yang telah dilatih sebelumnya pertama kali digunakan untuk memperoleh semua pengetahuan sebelumnya di tingkat instans, termasuk kotak pembatas, skor keyakinan, dan pengkodean semantik dari instans yang terdeteksi.

Selain itu, untuk mendorong setiap instance agar menyadari potensi objek yang berinteraksi, tim menggabungkan pola interaksi spasial global dalam set pelatihan dengan visual prior tingkat instance.

Khususnya, untuk setiap pasangan orang yang berinteraksi dan diberi anotasi, para penelitiPertama-tama hitung fitur spasial univariat dan binernya.

Selanjutnya, algoritma clustering K-means digunakan untuk menentukan pusat cluster dan menggunakannya sebagai representasi pola spasial dari pasangan karakter yang berinteraksi.

Pola interaksi spasial global memberikan konfigurasi spasial representasional kategori independen sebagai jembatan pemahaman interaktivitas antara konsep interaksi karakter yang terlihat dan yang tidak terlihat.

Terakhir, para peneliti mengintegrasikan pengetahuan gabungan ke dalam encoder gambar melalui adaptor ringan.

Klasifikasi interaksi yang dapat digeneralisasikan

Untuk mempertahankan pengetahuan umum CLIP yang dapat digeneralisasikan sambil mempelajari representasi tugas khusus untuk deteksi interaksi manusia, tim mengadopsiPembelajaran Cepat Sadar Bahasa dengan Kendala Konsistensi

Batasan ini memastikan bahwa prototipe yang dipelajari dari kategori terlihat dan tidak terlihat mempertahankan batas pemisahan yang masuk akal dan tidak menyimpang secara berlebihan satu sama lain.

Khusus untuk setiap kategori tindakan, para penelitiPenggunaan pertamaPerintah yang dirancang secara manual memformatnya. Manfaatkan kata-kata konteks yang dapat dipelajari untuk menjadi jembatan antara semantik kategori yang terlihat dan yang tidak terlihat.

Representasi akhir dari kategori tersebut diperoleh dengan menggabungkan kata-kata konteks yang dapat dipelajari dengan vektor kata dari kalimat di atas dan kemudian meneruskannya melalui pembuat enkode teks.

Untuk lebih memanfaatkan ruang fitur yang dipelajari oleh encoder teks model multi-modal itu sendiri dan meningkatkan kemampuan generalisasi ke kategori yang tidak terlihat, para peneliti mengusulkanTips menggunakan desain manusiauntuk memandu ruang fitur isyarat bahasa yang dapat dipelajari.

Batasan ini memastikan bahwa prototipe kategori terlihat dan tidak terlihat mempertahankan batas pemisahan yang masuk akal dan tidak terlalu menyimpang satu sama lain.

Aplikasi timRegularisasi versus kerugian pembelajaranuntuk mengurangi perbedaan antara representasi fitur dan representasi fitur dari isyarat bahasa yang dirancang secara artifisial.

Pelatihan CMMP

Berdasarkan peta fitur yang peka terhadap interaktivitas dan kotak pembatas orang serta objek yang diekstraksi oleh detektor objek terlatih, tim pertama-tama menerapkan ROI-Pooling untuk mengekstraksi fitur di berbagai area.

Kemudian, fitur-fitur yang diekstraksi dari berbagai wilayah digabungkan dan prediksi kelas interaksi akhir dibuat melalui pengklasifikasi interaksi.

Keseluruhan model menggunakan kehilangan fokus dalam pelatihan klasifikasi interaktif, dan juga menerapkan kehilangan regularisasi bahasa.

Hasil percobaan

Pada tahap verifikasi hasil, tim menggunakanHICO-DET, kumpulan data yang umum digunakan untuk deteksi interaksi manusia, 600 kategori interaksi karakter tersebut terdiri dari 80 kategori objek dan 117 kategori verba.

Untuk memverifikasi kinerja model tanpa sampel, para peneliti mengevaluasi HICO-DETLima pengaturan tanpa sampel

Untuk mencapai perbandingan yang adil dengan metode yang ada, kami mempelajarinyaViT-B/16 digunakan secara defaultsebagai jaringan tulang punggung.

Seperti yang ditunjukkan pada tabel di bawah, hasil eksperimen menunjukkan bahwa CMMP bekerja dengan baik pada semua pengaturan tanpa sampel.Semua mencapai kinerja terbaik di kelas tak terlihat, yang membuktikan efektivitas pengenalan isyarat multimodal bersyarat.



Seperti yang ditunjukkan pada tabel untuk masing-masing jenisBaris terakhir menunjukkan, dengan memanfaatkan tulang punggung ViT-L/14 untuk memperluas CMMP agar sesuai dengan FLOP CLIP4HOI, metode baru ini mencapai kinerja terbaik di semua partisi.

Hal ini menunjukkan bahwa model tim memiliki kemampuan luar biasa dalam ekstraksi hubungan spasial fitur visual dan pembelajaran prototipe untuk klasifikasi interaktif.

Selain itu, metode sebelumnya menunjukkan perbedaan kinerja yang serius antara kategori terlihat dan tidak terlihat, yang menunjukkan kurangnya kemampuan generalisasi.

Model penelitian ini dapat meringankan masalah ini secara luas, danmenyamaratakanPotensi tinggi untuk mencapai kategori interaksi yang sebelumnya tidak terlihat menegaskan efektivitas isyarat multimodal dengan kendala.

Silakan merujuk ke kertas asli untuk lebih jelasnya.