berita

SOTA baru multimodal 2B! Huake dan Universitas Teknologi China Selatan merilis Mini-Monkey, yang berspesialisasi dalam "pengirisan untuk meningkatkan resolusi"

2024-08-12

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


Laporan Kebijaksanaan Baru

Editor: LRST Jadi ngantuk

[Pengantar Kebijaksanaan Baru]Mini-Monkey adalah model bahasa skala besar multi-modal ringan yang secara efektif mengurangi efek aliasing yang disebabkan oleh strategi segmentasi gambar tradisional dengan menggunakan strategi segmentasi adaptif multi-skala (MSAC) dan mekanisme kompresi skala (SCM). -pemrosesan gambar resolusi dan tugas pemahaman dokumen. Ini mencapai hasil terdepan dalam berbagai tolok ukur, menunjukkan potensinya di bidang pemahaman multimodal dan intelijen dokumen.

Baru-baru ini, peningkatan kemampuan model besar multi-modal untuk memproses gambar beresolusi tinggi telah menarik perhatian yang semakin besar di bidang ini.

Sebagian besar metode berfokus pada peningkatan kemampuan model besar multi-modal untuk memahami detail gambar melalui strategi segmentasi dan penggabungan ulang gambar.

Namun, karena operasi segmentasi gambar, tidak dapat dihindari menyebabkan fragmentasi target dan area yang terhubung, yang mempengaruhi kemampuan pengenalan MLMM untuk target yang kecil atau berbentuk tidak beraturan. Fenomena ini sangat jelas terlihat dalam tugas pemahaman dokumen, karena sisi teks sering terputus.

Menanggapi tantangan ini, Universitas Sains dan Teknologi Huazhong dan Universitas Teknologi China Selatan baru-baru ini bersama-sama merilis Mini-Monkey model besar multi-modal, yang menggunakan strategi adaptif multi-skala yang dapat dicolokkan (MSAC) ke model besar multi-modal yang ringan. .

Mini-Monkey secara adaptif menghasilkan representasi multi-skala, memungkinkan model memilih objek yang tidak tersegmentasi dari berbagai skala, dan performanya mencapai SOTA baru dari model besar multi-modal 2B.


Alamat makalah: https://arxiv.org/pdf/2408.02034

Alamat proyek: https://github.com/Yuliang-Liu/Monkey

Untuk mengurangi overhead komputasi yang disebabkan oleh MSAC, kami mengusulkan mekanisme kompresi skala (SCM) untuk mengompresi token gambar secara efektif.

Mini-Monkey tidak hanya mencapai kinerja terdepan dalam berbagai tugas intelijen dokumen, tetapi juga mencapai peningkatan kinerja yang konsisten dalam tugas pemahaman model multi-modal secara umum, mencapai kinerja SOTA 2B.

Di OCRBench, Mini-Monkey mencetak 802 poin, lebih baik dibandingkan model dengan parameter lebih besar seperti GLM-4v-9B.


Gambar 3 Diagram blok metode: H-Attn mewakili bobot perhatian yang tinggi; L-Attn mewakili bobot perhatian yang rendah; token dengan bobot perhatian yang lebih rendah akan disaring; lapisan LLM bersama mewakili lapisan blok yang menggunakan LLM di SCM

Latar belakang penelitian

Model bahasa besar multimodal (MLMM) telah menarik banyak perhatian dalam beberapa tahun terakhir. Para peneliti secara aktif mencari cara efektif untuk mengintegrasikan encoder visual dengan LLM.

Beberapa metode, seperti Flamingo, BLIP-2, MiniGPT4 dan Qwen-VL dan LLaVA, telah mencapai pencapaian ini, namun model bahasa besar multi-modal sebelumnya belum mencapai pemahaman adegan mendetail dengan baik karena resolusi pemrosesan yang terbatas.


Gambar 1 Efek aliasing akibat segmentasi pada objek universal: (a) citra masukan; (b) strategi perluasan segmentasi; (c) strategi perluasan segmentasi yang tumpang tindih; (d) Strategi segmentasi adaptif multiskala

Para peneliti mulai memecahkan masalah ini dengan memperluas resolusi masukan gambar. Strategi mengiris adalah salah satu metode yang paling umum digunakan. Misalnya Monkey, LLaVA 1.6, InternVL 1.5 dan LLama3-V, dll.

Meskipun ada kemajuan signifikan dalam model bahasa multimodal berskala besar, tantangan tetap ada dalam pemahaman adegan secara mendetail karena strategi segmentasi.

Operasi segmentasi pada gambar mau tidak mau akan mensegmentasi objek dan wilayah yang terhubung, sehingga melemahkan kemampuan MLLM untuk mengidentifikasi objek kecil atau objek yang bentuknya tidak beraturan, terutama dalam konteks pemahaman dokumen.

Strategi ini akan memperkenalkan dua jenis inkoherensi semantik:

1. Jika suatu objek atau karakter tersegmentasi, maka objek atau karakter tersebut mungkin tidak dapat dikenali. Misalnya, hidung yang tersegmentasi terlihat sangat mirip dengan monyet, seperti yang ditunjukkan pada Gambar 1(b);

2. Jika suatu kata atau kalimat tersegmentasi maka akan menimbulkan kerusakan semantik pada kata atau kalimat yang tersegmentasi tersebut. Misalnya, kata "Ruang Kelas" mungkin dipecah menjadi "Kelas" dan "Ruang", yang akan menyebabkan kerusakan semantik pada kata-kata yang tersegmentasi.

Untuk mempermudah, penulis menyebut masalah ini sebagai efek gigi gergaji. Ide yang sangat jelas adalah dengan menggunakan strategi segmentasi yang tumpang tindih untuk memecahkan masalah ini, seperti yang ditunjukkan pada Gambar 1(c).

Namun, penulis menemukan bahwa strategi segmentasi yang tumpang tindih menimbulkan ilusi tertentu yang mengakibatkan penurunan kinerja, bukan peningkatan.

Ide metode

Penulis mengusulkan Mini-Monkey, model bahasa skala besar multi-modal ringan yang dirancang untuk mengurangi efek gigi gergaji yang disebabkan oleh strategi segmentasi. Diagram blok metode ditunjukkan pada Gambar 2.


Gambar 2 Efek bergerigi akibat cropping pada gambar teks.

Berbeda dengan metode yang sudah ada yang melakukan segmentasi langsung pada gambar masukan, Mini-Monkey mengadopsi pendekatan plug-and-play yang disebut Multi-Scale Adaptive Segmentation Strategy (MSAC).

MSAC dapat secara efektif melengkapi fitur pada skala yang berbeda, seperti yang ditunjukkan pada Gambar 1(d).

Strategi segmentasi adaptif multi-skala (MSAC)

MSAC pertama-tama melakukan operasi pelapisan pada jerat ini, membaginya menjadi tiga kelompok berdasarkan rasio aspeknya. Penulis akan memilih rasio aspek untuk setiap lapisan. Lapisan yang berbeda memberikan informasi yang berbeda kepada model.

Lapisan detail bertanggung jawab untuk memberikan informasi rinci. Ini membatasi resolusi gambar maksimum dan resolusi gambar minimum, membuat gambar sebesar mungkin dan membuat objek dalam gambar lebih jelas. Karena strategi segmentasi yang digunakan untuk memotong gambar, gambar yang dihasilkan oleh lapisan ini mungkin memiliki inkonsistensi semantik.

Oleh karena itu, penulis menggunakan lapisan adaptif bersama dengan lapisan detail untuk memungkinkan model memilih objek yang tidak tersegmentasi dari berbagai skala. Lapisan adaptif akan secara adaptif menghasilkan rasio aspek sesuai dengan lapisan detail, memastikan bahwa garis segmentasi pada lapisan detail tidak tumpang tindih dengan garis segmentasi pada lapisan adaptif, sehingga mencegah objek yang sama tersegmentasi dua kali pada lapisan berbeda. Proses ini memastikan bahwa lapisan detail dan lapisan adaptasi memberikan informasi semantik dan fitur visual yang berbeda pada model.

mekanisme kompresi skala

MSAC mungkin menimbulkan beberapa overhead komputasi tambahan. Oleh karena itu, penulis mengusulkan mekanisme kompresi skala (SCM) untuk situasi di mana terdapat kendala overhead komputasi. SCM adalah mekanisme yang tidak memerlukan pelatihan dan parameter untuk mengurangi overhead komputasi.

Penulis memilih token visual dari lapisan adaptif, token visual dari lapisan global, dan token teks untuk fokus pada penanda visual dari lapisan detail, lalu membuat peta perhatian, lalu mengekstrak fitur visual dari K teratas dari peta perhatian.

LLM yang terlatih dapat secara efisien memilih fitur visual yang diperlukan berdasarkan masalah masukan. Oleh karena itu, SCM menggunakan lapisan pertama dan kedua LLM untuk memilih token visual tanpa menghasilkan parameter tambahan apa pun.

Model besar multimodal 2B terkuat dari Mini-Monkey

Penulis menguji metode mereka pada pemahaman multi-modal umum dan pemahaman dokumen. Hasil eksperimen menunjukkan bahwa Mini-Monkey mencapai kinerja terbaik pada pemahaman multi-modal umum dan pemahaman dokumen secara bersamaan dengan parameter 2B.


Tabel 1 Hasil pemahaman multimodal secara umum


Tabel 2 Hasil pemahaman dokumen

Penulis membandingkan MSAC yang diusulkan dengan metode yang sudah ada. Baris pertama adalah metode segmentasi dinamis, baris kedua adalah metode segmentasi resolusi tetap, baris ketiga adalah segmentasi tumpang tindih, dan baris keempat adalah Strategi S2 multiskala.


Tabel 3 membandingkan dengan strategi segmentasi yang berbeda

MSAC dapat diterapkan pada arsitektur multi-modal yang berbeda, menstabilkan dan meningkatkan

Pada saat yang sama, penulis juga menerapkan MSAC ke metode perbandingan lainnya, dan terlihat bahwa terdapat peningkatan yang konsisten dalam tugas pemahaman multimodal umum dan pemahaman dokumen.


Tabel 4 menerapkan MSAC pada kerangka kerja yang berbeda

Secara efektif meringankan "gejala sisa" yang disebabkan oleh segmentasi untuk meningkatkan resolusi

Pada saat yang sama, penulis juga memberikan beberapa analisis kualitatif, seperti yang ditunjukkan pada Gambar 4. Penulis mengajukan pertanyaan tentang lokasi yang tersegmentasi, seperti “ruang kelas” dan “sekolah” yang tersegmentasi.

Terlihat bahwa Mini-Monkey dapat secara efektif meringankan "gejala sisa" yang disebabkan oleh peningkatan resolusi segmentasi melalui MSAC.


Gambar 4 Hasil kualitatif: (a) gambar masukan dan Ground Truth; (b) hasil menggunakan strategi segmentasi yang tumpang tindih, OSC mewakili strategi segmentasi yang tumpang tindih; (c) hasil internv2-2b dan internv2-26b;

Perbandingan visual

Mini-Monkey dapat secara akurat mengekstraksi konten teks dalam buku-buku kuno yang ambigu, sementara MiniCPM-V 2.6 dan InternVL2-2B melewatkan banyak teks. GPT4-O menolak menjawab:


(a) Gambar masukan


(b) Mimi-Monkey: mengenali semua teks secara akurat


(c) MiniCPM-V 2.6: Banyak teks yang terlewat.


(d) InternVL2-2B: Hilang seluruh kalimat teks yang relatif tidak jelas


(e)GPT-4o: Menolak menjawab

Meringkaskan

Metode yang menggunakan segmentasi untuk memperluas resolusi sering kali menyegmentasikan objek dan wilayah yang terhubung, yang membatasi pengenalan objek dan teks yang kecil atau berbentuk tidak beraturan. Masalah ini terutama terlihat pada MLLM ringan.

Dalam penelitian ini, penulis mengusulkan Mini-Monkey, model besar multi-modal 2B yang mencapai kinerja SOTA, yang bertujuan untuk mengatasi keterbatasan strategi segmentasi yang ada guna meningkatkan kemampuan MLLM dalam memproses gambar resolusi tinggi.

Mini-Monkey mengadopsi strategi segmentasi adaptif multi-skala (MSAC) untuk menghasilkan representasi multi-skala, memungkinkan model untuk memilih objek yang tidak tersegmentasi pada skala berbeda, sehingga mengurangi masalah ini.

Pada saat yang sama, penulis juga memverifikasi efektivitas strategi segmentasi adaptif multi-skala pada model besar multi-modal arsitektur lain, memberikan solusi sederhana dan efektif untuk mengurangi "gejala sisa" yang disebabkan oleh peningkatan resolusi rencana segmentasi .

Referensi:

[1] Chen Z, Wang W, Tian H, dkk. Seberapa jauh kita ke gpt-4v? menutup kesenjangan dengan model multimoda komersial dengan rangkaian sumber terbuka[J]. arXiv pracetak arXiv:2404.16821, 2024.

[2] Li J, Li D, Savarese S, dkk. Blip-2: Bootstrapping pra-pelatihan gambar bahasa dengan enkoder gambar beku dan model bahasa besar[C]//Konferensi internasional tentang pembelajaran mesin. PMLR, 2023: 19730-19742.

[3] Liu Y, Yang B, Liu Q, dkk. Textmonkey: Model multimodal besar bebas ocr untuk memahami dokumen[J]. arXiv pracetak arXiv:2403.04473, 2024.

[4] Bai J, Bai S, Yang S, et al. Qwen-vl: Model bahasa-visi luas yang belum pernah ada sebelumnya dengan kemampuan serbaguna[J]. arXiv preprint arXiv:2308.12966, 2023.

[5] Dubey A, Jauhri A, Pandey A, dkk. Kawanan Model Llama 3[J]. pracetak arXiv arXiv:2407.21783, 2024.