Dengan mengabaikan encoder visual, model besar multi-modal "versi asli" ini juga sebanding dengan metode mainstream

Dengan mengabaikan encoder visual, model besar multi-modal "versi asli" ini juga sebanding dengan metode arus utama

2024-07-16

Kolom AIxiv adalah kolom tempat Machine Heart menerbitkan konten akademis dan teknis. Dalam beberapa tahun terakhir, kolom Heart of the Machine AIxiv telah menerima lebih dari 2.000 laporan, mencakup laboratorium terkemuka dari universitas dan perusahaan besar di seluruh dunia, yang secara efektif mendorong pertukaran dan diseminasi akademis. Jika Anda memiliki karya luar biasa yang ingin Anda bagikan, silakan berkontribusi atau hubungi kami untuk pelaporan. Email pengiriman: [email protected]; [email protected]

Diao Haiwen adalah mahasiswa doktoral di Universitas Teknologi Dalian, dan pembimbingnya adalah Profesor Lu Huchuan. Saat ini bekerja magang di Institut Penelitian Kecerdasan Buatan Zhiyuan Beijing, di bawah bimbingan Dr. Wang Xinlong. Minat penelitiannya adalah visi dan bahasa, transfer model besar yang efisien, model besar multi-modal, dll. Rekan penulis Cui Yufeng lulus dari Universitas Beihang dan merupakan peneliti algoritme di Pusat Visi Institut Penelitian Kecerdasan Buatan Zhiyuan Beijing. Minat penelitiannya adalah model multimodal, model generatif, dan visi komputer, dan karya utamanya meliputi seri Emu.

Baru-baru ini, penelitian mengenai model multimoda besar sedang berjalan lancar, dan industri semakin banyak berinvestasi dalam hal ini. Model-model panas telah diluncurkan di luar negeri, seperti GPT-4o (OpenAI), Gemini (Google), Phi-3V (Microsoft), Claude-3V (Anthropic), dan Grok-1.5V (xAI), dll. Pada saat yang sama, GLM-4V domestik (Wisdom Spectrum AI), Step-1.5V (Step Star), Emu2 (Beijing Zhiyuan), Intern-VL (Shanghai AI Laboratory), Qwen-VL (Alibaba), dll. sedang mekar penuh.

Model bahasa visual (VLM) saat ini biasanya mengandalkan encoder visual (Vision Encoder, VE) untuk mengekstrak fitur visual, dan kemudian menggabungkan instruksi pengguna dengan model bahasa besar (LLM) untuk memproses dan menjawab encoder visual dan pemisahan pelatihan Model bahasa besar. Pemisahan ini menyebabkan encoder visual menimbulkan masalah bias induksi visual saat berinteraksi dengan model bahasa besar, seperti resolusi gambar dan rasio aspek yang terbatas, serta prior semantik visual yang kuat. Karena kapasitas encoder visual terus meningkat, efisiensi penerapan model besar multi-modal dalam memproses sinyal visual juga sangat terbatas. Selain itu, cara menemukan konfigurasi kapasitas optimal encoder visual dan model bahasa besar menjadi semakin kompleks dan menantang.

Dengan latar belakang ini, beberapa ide mutakhir segera muncul:

Bisakah kita menghapus encoder visual, yaitu langsung membuat model multi-modal asli yang besar tanpa encoder visual?
Bagaimana cara mengembangkan model bahasa besar secara efisien dan lancar menjadi model besar multi-modal asli tanpa pembuat enkode visual?
Bagaimana cara menjembatani kesenjangan kinerja antara kerangka kerja multimodal asli tanpa encoder dan paradigma multimodal berbasis encoder arus utama?

Adept AI merilis rangkaian model Fuyu pada akhir tahun 2023 dan melakukan beberapa upaya terkait, tetapi tidak mengungkapkan strategi pelatihan, sumber daya data, dan informasi peralatan apa pun. Pada saat yang sama, terdapat kesenjangan kinerja yang signifikan antara model Fuyu dan algoritma arus utama dalam indikator evaluasi teks visual publik. Selama periode yang sama, beberapa eksperimen percontohan yang kami lakukan menunjukkan bahwa meskipun skala data pra-pelatihan ditingkatkan secara besar-besaran, model besar multi-modal asli tanpa encoder masih menghadapi masalah pelik seperti kecepatan konvergensi yang lambat dan kinerja yang buruk.

Menanggapi tantangan ini, tim visi Zhiyuan Research Institute bekerja sama dengan universitas dalam negeri seperti Universitas Teknologi Dalian dan Universitas Peking untuk meluncurkan generasi baru model bahasa visual bebas kode EVE. Melalui strategi pelatihan yang disempurnakan dan pengawasan visual tambahan, EVE mengintegrasikan representasi visual-linguistik, penyelarasan, dan inferensi ke dalam arsitektur decoder murni terpadu. Dengan menggunakan data yang tersedia untuk umum, EVE berkinerja baik pada berbagai tolok ukur visual-linguistik, bersaing dengan metode multimodal berbasis encoder arus utama dengan kapasitas serupa dan secara signifikan mengungguli Fuyu-8B. EVE diusulkan untuk menyediakan jalur yang transparan dan efisien untuk pengembangan arsitektur multi-modal asli untuk decoder murni.

Alamat makalah: https://arxiv.org/abs/2406.11832
Kode proyek: https://github.com/baaivision/EVE
Alamat model: https://huggingface.co/BAAI/EVE-7B-HD-v1.0

1. Ikhtisar Teknis

Model bahasa visual asli: mematahkan paradigma tetap model multi-modal arus utama, menghilangkan encoder visual, dan dapat menangani rasio aspek gambar apa pun. Model ini secara signifikan lebih baik daripada model Fuyu-8B yang serupa dalam berbagai tolok ukur bahasa visual, dan mendekati arsitektur bahasa visual berbasis encoder visual mainstream.
Biaya data dan pelatihan yang rendah: Pra-pelatihan model EVE hanya menyaring data publik dari OpenImages, SAM dan LAION, dan menggunakan 665.000 data instruksi LLaVA dan tambahan 1,2 juta data dialog visual untuk membuat versi Resolved reguler dan tingkat tinggi versi EVE-7B. Pelatihan memerlukan waktu sekitar 9 hari untuk diselesaikan pada dua node 8-A100 (40G), atau 5 hari pada empat node 8-A100.
Eksplorasi yang transparan dan efisien: EVE berupaya mengeksplorasi jalur yang efisien, transparan, dan praktis menuju model bahasa visual asli, memberikan ide-ide baru dan pengalaman berharga untuk pengembangan generasi baru arsitektur model bahasa visual dekoder murni untuk multi-modal masa depan. model membuka arah baru untuk eksplorasi.

2. Struktur model

Pertama, ini diinisialisasi melalui model bahasa Vicuna-7B, sehingga memiliki pengetahuan bahasa yang kaya dan kemampuan mengikuti instruksi yang kuat. Atas dasar ini, encoder visual yang dalam dihilangkan, lapisan pengkodean visual yang ringan dibuat, masukan gambar dikodekan secara efisien dan tanpa kehilangan, dan dimasukkan ke dalam dekoder terpadu bersama dengan perintah bahasa pengguna. Selain itu, lapisan penyelarasan visual melakukan penyelarasan fitur dengan encoder visual umum untuk meningkatkan pengkodean dan representasi informasi visual yang lebih detail.

2.1 Lapisan Penanaman Patch

Pertama-tama gunakan satu lapisan konvolusional untuk mendapatkan peta fitur 2D dari gambar, lalu lakukan downsampling melalui lapisan pengumpulan rata-rata;
Gunakan modul perhatian silang (CA1) untuk berinteraksi dalam bidang reseptif terbatas guna meningkatkan fitur lokal setiap patch;
Gunakan token <CLS> dan gabungkan dengan modul perhatian silang (CA2) untuk memberikan informasi global untuk setiap fitur patch berikutnya;
Token <SPL> yang dapat dipelajari disisipkan di akhir setiap baris fitur patch untuk membantu jaringan memahami struktur spasial dua dimensi gambar.

2.2 Lapisan Penyelarasan Patch

Rekam bentuk 2D dari patch yang valid; buang <CLS>/
token, dan gunakan lapisan penggabungan adaptif untuk mengembalikan ke bentuk dua dimensi asli;
Melalui modul perhatian silang hierarki (CA3), fitur visual jaringan multi-lapis diintegrasikan untuk mencapai keselarasan halus dengan keluaran encoder visual.

3. Strategi pelatihan

Tahap pra-pelatihan dipandu oleh model bahasa besar: membangun hubungan awal antara visi dan bahasa, meletakkan dasar untuk pra-pelatihan berskala besar yang stabil dan efisien;
Tahap pra-pelatihan generatif: meningkatkan lebih lanjut kemampuan model untuk memahami konten visual-linguistik dan mencapai transisi yang mulus dari model bahasa murni ke model multi-modal;
Tahap penyesuaian yang diawasi: standarisasi lebih lanjut kemampuan model untuk mengikuti instruksi bahasa dan mempelajari pola dialog untuk memenuhi persyaratan berbagai tolok ukur bahasa visual.

Pada tahap pra-pelatihan, 33 juta data publik dari SA-1B, OpenImages, dan LAION disaring, dan hanya sampel gambar dengan resolusi lebih tinggi dari 448×448 yang dipertahankan. Secara khusus, untuk mengatasi masalah redundansi yang tinggi pada gambar LAION, 50.000 cluster dihasilkan dengan menerapkan pengelompokan K-means pada fitur gambar yang diekstraksi dengan EVA-CLIP, dan 300 gambar yang paling dekat dengan setiap pusat cluster dipilih, dan terakhir memilih 15 juta sampel gambar LAION. Selanjutnya, deskripsi gambar berkualitas tinggi dibuat ulang menggunakan Emu2 (17B) dan LLaVA-1.5 (13B).
Pada tahap penyetelan halus yang diawasi, kumpulan data penyempurnaan LLaVA-mix-665K digunakan untuk melatih versi standar EVE-7B, dan kumpulan data campuran seperti AI2D, Synthdog, DVQA, ChartQA, DocVQA, Vision-Flan dan Bunny-695K terintegrasi untuk melatih EVE-7B versi resolusi tinggi.

4. Analisis kuantitatif

Model EVE secara signifikan mengungguli model Fuyu-8B yang serupa dalam berbagai tolok ukur bahasa visual, dan berperforma setara dengan berbagai model bahasa visual berbasis encoder arus utama. Namun, karena penggunaan data bahasa visual dalam jumlah besar untuk pelatihan, terdapat tantangan dalam merespons instruksi tertentu secara akurat, dan kinerjanya dalam beberapa pengujian benchmark perlu ditingkatkan. Yang menarik adalah melalui strategi pelatihan yang efisien, EVE tanpa encoder dapat mencapai kinerja yang sebanding dengan model bahasa visual berbasis encoder, yang secara mendasar memecahkan masalah fleksibilitas ukuran input, efisiensi penerapan, dan modalitas model arus utama.

Dibandingkan dengan model dengan pembuat enkode, yang rentan terhadap masalah seperti penyederhanaan struktur bahasa dan hilangnya banyak pengetahuan, EVE telah menunjukkan peningkatan kinerja secara bertahap dan stabil seiring bertambahnya ukuran data, secara bertahap mendekati tingkat kinerja model berbasis encoder. Hal ini mungkin terjadi karena pengkodean dan penyelarasan modalitas visual dan bahasa dalam jaringan terpadu lebih menantang, sehingga model bebas encoder tidak terlalu rentan terhadap overfitting dibandingkan model dengan encoder.

5. Bagaimana pendapat teman-temanmu?

Ali Hatamizadeh, peneliti senior di NVIDIA, mengatakan bahwa EVE menyegarkan dan berupaya mengusulkan narasi baru, yang berbeda dari konstruksi standar evaluasi yang kompleks dan peningkatan model bahasa visual yang progresif.

Armand Joulin, peneliti utama di Google Deepmind, mengatakan membangun model bahasa visual decoder murni adalah hal yang menarik.

Insinyur pembelajaran mesin Apple, Pangeran Canuma, mengatakan bahwa arsitektur EVE sangat menarik dan merupakan tambahan yang bagus untuk rangkaian proyek MLX VLM.

6. Pandangan Masa Depan

Sebagai model bahasa visual asli tanpa encoder, EVE saat ini telah mencapai hasil yang menggembirakan. Sepanjang jalur ini, ada beberapa arah menarik yang perlu ditelusuri di masa depan:

Peningkatan kinerja lebih lanjut: Eksperimen menemukan bahwa pra-pelatihan yang hanya menggunakan data visual-linguistik secara signifikan mengurangi kemampuan bahasa model (skor SQA turun dari 65,3% menjadi 63,0%), namun secara bertahap meningkatkan kinerja multi-modal model. Hal ini menunjukkan bahwa terdapat bencana internal yang melupakan pengetahuan bahasa ketika model bahasa besar diperbarui. Disarankan untuk mengintegrasikan data pra-pelatihan bahasa murni secara tepat atau menggunakan strategi campuran para ahli (MoE) untuk mengurangi interferensi antara modalitas visual dan bahasa.
Visi arsitektur tanpa encoder: Dengan strategi dan pelatihan yang tepat dengan data berkualitas tinggi, model bahasa visual tanpa encoder dapat menyaingi model dengan encoder. Jadi dengan kapasitas model yang sama dan data pelatihan yang besar, bagaimana performa keduanya? Kami berspekulasi bahwa dengan memperluas kapasitas model dan jumlah data pelatihan, arsitektur tanpa encoder dapat mencapai atau bahkan melampaui arsitektur berbasis encoder, karena arsitektur berbasis encoder memasukkan gambar hampir tanpa kehilangan dan menghindari bias apriori dari encoder visual.
Konstruksi model multi-modal asli: EVE sepenuhnya mendemonstrasikan cara membangun model multi-modal asli secara efisien dan stabil, yang membuka cara yang transparan dan layak untuk mengintegrasikan lebih banyak modalitas (seperti audio, video, pencitraan termal, kedalaman, dll.) di masa depan. Ide intinya adalah untuk menyelaraskan modalitas ini melalui model bahasa besar yang dibekukan sebelum memperkenalkan pelatihan terpadu berskala besar, dan memanfaatkan encoder modal tunggal yang sesuai dan penyelarasan konsep bahasa untuk pengawasan.

berita

Dengan mengabaikan encoder visual, model besar multi-modal "versi asli" ini juga sebanding dengan metode arus utama

Perkenalan

informasi kontak saya