Tim Universitas Zhejiang Li Xi: Sebuah metode baru untuk merujuk pada pemahaman ekspresi, ScanFormer menghilangkan redundansi dari kasar ke halus

2024-08-20

Kolom AIxiv adalah kolom tempat Machine Heart menerbitkan konten akademis dan teknis. Dalam beberapa tahun terakhir, kolom Heart of the Machine AIxiv telah menerima lebih dari 2.000 laporan, mencakup laboratorium terkemuka dari universitas dan perusahaan besar di seluruh dunia, yang secara efektif mendorong pertukaran dan diseminasi akademis. Jika Anda memiliki karya luar biasa yang ingin Anda bagikan, silakan berkontribusi atau hubungi kami untuk pelaporan. Email pengiriman: [email protected]; [email protected]

Penulis makalah ini semuanya berasal dari tim Profesor Li Xi dari Universitas Zhejiang. Penulis pertama makalah ini adalah mahasiswa doktoral Su Wei, dan penulis terkait adalah Profesor Li Xi (IET Fellow, National Distinguished Young Scholar). Dalam beberapa tahun terakhir, tim Profesor Li Xi telah menerbitkan lebih dari 180 karya penelitian terkait CV/AIGC di jurnal internasional resmi (seperti TPAMI, IJCV, dll.) dan konferensi akademik internasional terkemuka (ICCV, CVPR, ECCV, dll.), dan telah bekerja sama dengan universitas dan lembaga penelitian ilmiah ternama di dalam dan luar negeri.

Sebagai tugas bahasa visual dasar, pemahaman ekspresi rujukan (REC) menempatkan target yang dirujuk dalam gambar berdasarkan deskripsi bahasa alami. Model REC biasanya terdiri dari tiga bagian: encoder visual, encoder teks, dan interaksi lintas-modal, yang masing-masing digunakan untuk mengekstrak fitur visual, fitur teks, dan interaksi serta peningkatan fitur lintas-modal.

Sebagian besar penelitian saat ini berfokus pada perancangan modul interaksi lintas modal yang efisien untuk meningkatkan akurasi tugas, dan eksplorasi encoder visual masih kurang. Pendekatan yang umum adalah dengan menggunakan ekstraktor fitur yang telah dilatih sebelumnya tentang tugas klasifikasi dan deteksi, seperti ResNet, DarkNet, Swin Transformer atau ViT, dll. Model ini melintasi semua lokasi spasial gambar untuk mengekstrak fitur dengan cara jendela geser atau patch terbagi. Kompleksitas komputasinya akan meningkat pesat seiring dengan resolusi gambar, yang lebih terlihat jelas pada model berbasis Transformer.

Karena karakteristik redundansi spasial pada gambar, terdapat sejumlah besar area latar belakang dengan kandungan informasi rendah dan area yang tidak relevan dengan ekspresi referensial dalam gambar. Mengekstraksi fitur di area ini dengan cara yang sama akan meningkatkan kompleksitas komputasi, tetapi hal tersebut meningkatkan kompleksitas komputasi tidak berkontribusi pada ekstraksi fitur yang efektif. Cara yang lebih efisien adalah dengan memprediksi terlebih dahulu relevansi teks dan kekayaan konten area gambar, mengekstrak sepenuhnya fitur dari area latar depan terkait teks, dan mengekstrak secara kasar fitur dari area latar belakang. Untuk prediksi regional, cara yang lebih intuitif adalah dengan menggunakan piramida gambar untuk mengidentifikasi area latar belakang terlebih dahulu pada gambar berbutir kasar di bagian atas piramida, lalu secara bertahap menambahkan area latar depan berbutir halus beresolusi tinggi.

Berdasarkan analisis di atas, kami mengusulkanScanFormer, kerangka kerja sadar iterasi kasar hingga halus, memindai lapis demi lapis dalam piramida gambar, mulai dari gambar skala kasar beresolusi rendah, dan secara bertahap menyaring area yang tidak relevan/latar belakang yang mengacu pada ekspresi untuk mengurangi pemborosan komputasi, sehingga model dapat lebih fokus pada area latar depan/terkait tugas .

Judul makalah: ScanFormer: Merujuk Pemahaman Ekspresi dengan Pemindaian Berulang
Tautan makalah: https://arxiv.org/pdf/2406.18048

Pengenalan metode

1. Kerangka persepsi iterasi kasar hingga halus

Untuk menyederhanakan strukturnya, kami mengadopsi model ViLT [1] yang menyatukan modalitas teks dan visual, dan membaginya menjadi dua bagian, Encoder1 dan Encoder2, sepanjang dimensi kedalaman untuk tugas yang berbeda.

Pertama, ekstrak fitur teks dan simpan di KV Cache; lalu buat piramida gambar dan lakukan iterasi ke bawah dari atas piramida, patch yang dipilih pada skala saat ini akan dimasukkan, dan Encoder1 digunakan untuk memprediksi langkah berikutnya sesuai dengan setiap patch. Pemilihan patch berbutir halus pada satu skala. Secara khusus, semua patch pada gambar tingkat atas dipilih untuk memastikan bahwa model dapat memperoleh informasi gambar penuh berbutir kasar. Encoder2 selanjutnya mengekstrak fitur dan memprediksi kotak pembatas skala ini berdasarkan token [cls] skala saat ini.

Pada saat yang sama, fitur perantara Encoder1 dan Encoder2 akan disimpan di KV Cache untuk memfasilitasi penggunaan standar selanjutnya. Seiring dengan peningkatan skala, fitur-fitur terperinci diperkenalkan, prediksi posisi akan lebih akurat, dan sebagian besar patch yang tidak relevan dibuang untuk menghemat banyak perhitungan.

Selain itu, patch dalam setiap skala memiliki perhatian dua arah, memperhatikan semua patch dan fitur teks dari skala sebelumnya. Perhatian kausal lintas skala ini selanjutnya dapat mengurangi kebutuhan komputasi.

2. Pemilihan patch dinamis

Pemilihan setiap patch ditentukan oleh faktor seleksi yang dihasilkan oleh skala sebelumnya. Ada dua pilihan untuk lokasi aplikasi. Satu digunakan di semua kepala setiap lapisan MHSA di Encoder H kepala, sangat sulit untuk mendapatkan informasi gradien yang efektif untuk diperbarui, sehingga faktor pemilihan yang dipelajari tidak ideal; yang kedua langsung digunakan sebagai masukan dari Encoder, yaitu penyematan patch digunakan dalam posisi ini, lebih mudah dipelajari. Akhirnya, artikel ini Solusi ini juga diadopsi.

Selain itu, perlu diperhatikan bahwa meskipun penyematan patch masukan disetel ke 0, karena adanya MHSA dan FFN, fitur patch di lapisan berikutnya akan tetap menjadi non-0 dan memengaruhi fitur patch lainnya. Untungnya, jika terdapat banyak token identik dalam rangkaian token, penghitungan MHSA dapat disederhanakan dan percepatan inferensi aktual dapat dicapai. Selain itu, untuk meningkatkan fleksibilitas model, artikel ini tidak secara langsung menyetel penyematan patch ke 0, namun menggantinya dengan token konstan yang dapat dipelajari.

Oleh karena itu, masalah pemilihan patch diubah menjadi masalah penggantian patch. Proses pemilihan patch dapat dibagi menjadi dua langkah: penggantian token secara konstan dan penggabungan token. Patch yang tidak dipilih akan diganti dengan token konstan yang sama. Karena token yang tidak dipilih ini sama, menurut metode penghitungan perhatian perkalian titik berskala, token ini dapat digabungkan menjadi satu token dan dikalikan dengan jumlah total, yang setara dengan penjumlahan dimensi, sehingga metode perhatian perkalian titik adalah dihitung. Tidak ada perubahan, metode akselerasi umum masih tersedia.

Hasil percobaan

Metode ini mencapai kinerja serupa dengan yang canggih pada empat kumpulan data: RefCOCO, RefCOCO+, RefCOCOg, dan ReferItGame. Dengan melakukan pra-pelatihan pada kumpulan data berskala besar dan menyempurnakan kumpulan data tertentu, performa model dapat ditingkatkan lebih lanjut dan mencapai hasil yang serupa dengan model yang telah dilatih sebelumnya seperti MDETR [2] dan OFA [3].

Dalam hal kecepatan penalaran, metode yang diusulkan mencapai kecepatan penalaran waktu nyata sekaligus memastikan akurasi tugas yang tinggi.

Selain itu, pada bagian eksperimen juga dibuat statistik pemilihan patch model dan distribusi akurasi posisi pada setiap skala (skala1 dan skala2).

Seperti yang ditunjukkan pada gambar di sebelah kiri, seiring bertambahnya skala, fitur gambar berbutir halus ditambahkan, dan akurasi model meningkat secara bertahap. Oleh karena itu, Anda dapat mencoba menambahkan mekanisme keluar awal untuk keluar tepat waktu ketika keakuratan posisi memenuhi persyaratan, menghindari perhitungan lebih lanjut pada gambar resolusi tinggi, dan mencapai efek pemilihan resolusi yang sesuai berdasarkan sampel secara adaptif. Artikel ini juga melakukan beberapa upaya awal, termasuk menambahkan cabang prediksi seperti IoU, GIoU dan ketidakpastian, serta mengembalikan indikator keluar awal. Namun, ditemukan bahwa efeknya tidak ideal terus menjelajah.

Gambar di sebelah kanan menunjukkan situasi pemilihan patch pada skala yang berbeda. Di semua skala, patch yang dipilih memiliki proporsi yang relatif kecil, dan sebagian besar patch dapat dihilangkan, sehingga sumber daya komputasi dapat dihemat secara efektif. Untuk setiap sampel (gambar + ekspresi referensial), jumlah patch yang sebenarnya dipilih relatif kecil, sekitar 65% dari total.

Terakhir, bagian eksperimental menunjukkan beberapa hasil visualisasi. Seiring bertambahnya skala (merah → hijau → biru), akurasi posisi model secara bertahap meningkat. Selain itu, berdasarkan gambar yang direkonstruksi dari patch yang dipilih, terlihat bahwa model hanya memperhatikan informasi berskala kasar untuk area latar belakang, dan untuk area latar depan yang relevan, model dapat memperhatikan detail berbutir halus. informasi.

Literatur terkait:

[1].Kim W, Son B, Kim I. Vilt: Transformator penglihatan dan bahasa tanpa konvolusi atau pengawasan wilayah [C]//Konferensi internasional tentang pembelajaran mesin. PMLR, 2021: 5583-5594.

[2].Kamath A, Singh M, LeCun Y, dkk. Deteksi termodulasi Mdetr untuk pemahaman multimoda ujung ke ujung [C]//Prosiding konferensi internasional IEEE/CVF tentang visi komputer. 2021: 1780-1790.

[3].Wang P, Yang A, Men R, dkk. Ofa: Menyatukan arsitektur, tugas, dan modalitas melalui kerangka pembelajaran urutan-ke-urutan sederhana [C]//Konferensi internasional tentang pembelajaran mesin. PMLR, 2022: 23318-23340.

berita

Tim Universitas Zhejiang Li Xi: Sebuah metode baru untuk merujuk pada pemahaman ekspresi, ScanFormer menghilangkan redundansi dari kasar ke halus

Perkenalan

Informasi kontak saya