informasi kontak saya
Surat[email protected]
2024-07-16
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
Kolom AIxiv adalah kolom tempat Machine Heart menerbitkan konten akademis dan teknis. Dalam beberapa tahun terakhir, kolom Heart of the Machine AIxiv telah menerima lebih dari 2.000 laporan, mencakup laboratorium terkemuka dari universitas dan perusahaan besar di seluruh dunia, yang secara efektif mendorong pertukaran dan diseminasi akademis. Jika Anda memiliki karya luar biasa yang ingin Anda bagikan, silakan berkontribusi atau hubungi kami untuk pelaporan. Email pengiriman: [email protected]; [email protected]
Diao Haiwen adalah mahasiswa doktoral di Universitas Teknologi Dalian, dan pembimbingnya adalah Profesor Lu Huchuan. Saat ini bekerja magang di Institut Penelitian Kecerdasan Buatan Zhiyuan Beijing, di bawah bimbingan Dr. Wang Xinlong. Minat penelitiannya adalah visi dan bahasa, transfer model besar yang efisien, model besar multi-modal, dll. Rekan penulis Cui Yufeng lulus dari Universitas Beihang dan merupakan peneliti algoritme di Pusat Visi Institut Penelitian Kecerdasan Buatan Zhiyuan Beijing. Minat penelitiannya adalah model multimodal, model generatif, dan visi komputer, dan karya utamanya meliputi seri Emu.
Baru-baru ini, penelitian mengenai model multimoda besar sedang berjalan lancar, dan industri semakin banyak berinvestasi dalam hal ini. Model-model panas telah diluncurkan di luar negeri, seperti GPT-4o (OpenAI), Gemini (Google), Phi-3V (Microsoft), Claude-3V (Anthropic), dan Grok-1.5V (xAI), dll. Pada saat yang sama, GLM-4V domestik (Wisdom Spectrum AI), Step-1.5V (Step Star), Emu2 (Beijing Zhiyuan), Intern-VL (Shanghai AI Laboratory), Qwen-VL (Alibaba), dll. sedang mekar penuh.
Model bahasa visual (VLM) saat ini biasanya mengandalkan encoder visual (Vision Encoder, VE) untuk mengekstrak fitur visual, dan kemudian menggabungkan instruksi pengguna dengan model bahasa besar (LLM) untuk memproses dan menjawab encoder visual dan pemisahan pelatihan Model bahasa besar. Pemisahan ini menyebabkan encoder visual menimbulkan masalah bias induksi visual saat berinteraksi dengan model bahasa besar, seperti resolusi gambar dan rasio aspek yang terbatas, serta prior semantik visual yang kuat. Karena kapasitas encoder visual terus meningkat, efisiensi penerapan model besar multi-modal dalam memproses sinyal visual juga sangat terbatas. Selain itu, cara menemukan konfigurasi kapasitas optimal encoder visual dan model bahasa besar menjadi semakin kompleks dan menantang.
Dengan latar belakang ini, beberapa ide mutakhir segera muncul:
Adept AI merilis rangkaian model Fuyu pada akhir tahun 2023 dan melakukan beberapa upaya terkait, tetapi tidak mengungkapkan strategi pelatihan, sumber daya data, dan informasi peralatan apa pun. Pada saat yang sama, terdapat kesenjangan kinerja yang signifikan antara model Fuyu dan algoritma arus utama dalam indikator evaluasi teks visual publik. Selama periode yang sama, beberapa eksperimen percontohan yang kami lakukan menunjukkan bahwa meskipun skala data pra-pelatihan ditingkatkan secara besar-besaran, model besar multi-modal asli tanpa encoder masih menghadapi masalah pelik seperti kecepatan konvergensi yang lambat dan kinerja yang buruk.
Menanggapi tantangan ini, tim visi Zhiyuan Research Institute bekerja sama dengan universitas dalam negeri seperti Universitas Teknologi Dalian dan Universitas Peking untuk meluncurkan generasi baru model bahasa visual bebas kode EVE. Melalui strategi pelatihan yang disempurnakan dan pengawasan visual tambahan, EVE mengintegrasikan representasi visual-linguistik, penyelarasan, dan inferensi ke dalam arsitektur decoder murni terpadu. Dengan menggunakan data yang tersedia untuk umum, EVE berkinerja baik pada berbagai tolok ukur visual-linguistik, bersaing dengan metode multimodal berbasis encoder arus utama dengan kapasitas serupa dan secara signifikan mengungguli Fuyu-8B. EVE diusulkan untuk menyediakan jalur yang transparan dan efisien untuk pengembangan arsitektur multi-modal asli untuk decoder murni.
1. Ikhtisar Teknis
2. Struktur model
Pertama, ini diinisialisasi melalui model bahasa Vicuna-7B, sehingga memiliki pengetahuan bahasa yang kaya dan kemampuan mengikuti instruksi yang kuat. Atas dasar ini, encoder visual yang dalam dihilangkan, lapisan pengkodean visual yang ringan dibuat, masukan gambar dikodekan secara efisien dan tanpa kehilangan, dan dimasukkan ke dalam dekoder terpadu bersama dengan perintah bahasa pengguna. Selain itu, lapisan penyelarasan visual melakukan penyelarasan fitur dengan encoder visual umum untuk meningkatkan pengkodean dan representasi informasi visual yang lebih detail.
2.1 Lapisan Penanaman Patch
2.2 Lapisan Penyelarasan Patch
3. Strategi pelatihan
4. Analisis kuantitatif
Model EVE secara signifikan mengungguli model Fuyu-8B yang serupa dalam berbagai tolok ukur bahasa visual, dan berperforma setara dengan berbagai model bahasa visual berbasis encoder arus utama. Namun, karena penggunaan data bahasa visual dalam jumlah besar untuk pelatihan, terdapat tantangan dalam merespons instruksi tertentu secara akurat, dan kinerjanya dalam beberapa pengujian benchmark perlu ditingkatkan. Yang menarik adalah melalui strategi pelatihan yang efisien, EVE tanpa encoder dapat mencapai kinerja yang sebanding dengan model bahasa visual berbasis encoder, yang secara mendasar memecahkan masalah fleksibilitas ukuran input, efisiensi penerapan, dan modalitas model arus utama.
Dibandingkan dengan model dengan pembuat enkode, yang rentan terhadap masalah seperti penyederhanaan struktur bahasa dan hilangnya banyak pengetahuan, EVE telah menunjukkan peningkatan kinerja secara bertahap dan stabil seiring bertambahnya ukuran data, secara bertahap mendekati tingkat kinerja model berbasis encoder. Hal ini mungkin terjadi karena pengkodean dan penyelarasan modalitas visual dan bahasa dalam jaringan terpadu lebih menantang, sehingga model bebas encoder tidak terlalu rentan terhadap overfitting dibandingkan model dengan encoder.
5. Bagaimana pendapat teman-temanmu?
Ali Hatamizadeh, peneliti senior di NVIDIA, mengatakan bahwa EVE menyegarkan dan berupaya mengusulkan narasi baru, yang berbeda dari konstruksi standar evaluasi yang kompleks dan peningkatan model bahasa visual yang progresif.
Armand Joulin, peneliti utama di Google Deepmind, mengatakan membangun model bahasa visual decoder murni adalah hal yang menarik.
Insinyur pembelajaran mesin Apple, Pangeran Canuma, mengatakan bahwa arsitektur EVE sangat menarik dan merupakan tambahan yang bagus untuk rangkaian proyek MLX VLM.
6. Pandangan Masa Depan
Sebagai model bahasa visual asli tanpa encoder, EVE saat ini telah mencapai hasil yang menggembirakan. Sepanjang jalur ini, ada beberapa arah menarik yang perlu ditelusuri di masa depan: