berita

sumber terbuka model bahasa visual generasi kedua alibaba cloud tongyi qianwen qwen2-vl

2024-09-02

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

it house melaporkan pada tanggal 2 september bahwa alibaba cloud tongyi qianwen hari ini mengumumkan open source model bahasa visual generasi kedua qwen2-vl, dan meluncurkan dua ukuran 2b dan 7b serta model versi terukurnya. pada saat yang sama, api model andalan qwen2-vl-72b telah diluncurkan di platform alibaba cloud bailian, dan pengguna dapat menghubunginya secara langsung.

menurut pengenalan resmi alibaba cloud, dibandingkan dengan model generasi sebelumnya, kinerja dasar qwen2-vl telah ditingkatkan secara komprehensif:

ia dapat memahami gambar dengan resolusi dan rasio aspek berbeda, mencapai kinerja terdepan di dunia dalam pengujian benchmark seperti docvqa, realworldqa, dan mtvqa;

memahami video berdurasi lebih dari 20 menit, dan mendukung tanya jawab, dialog, pembuatan konten, dan aplikasi berbasis video lainnya;

ia memiliki kemampuan kecerdasan visual yang kuat dan dapat mengoperasikan ponsel dan robot secara mandiri. dengan kemampuan penalaran dan pengambilan keputusan yang kompleks, qwen2-vl dapat diintegrasikan ke dalam ponsel, robot, dan perangkat lain untuk melakukan operasi otomatis berdasarkan lingkungan visual dan instruksi teks. ;

memahami teks multibahasa dalam gambar dan video, termasuk bahasa mandarin, inggris, sebagian besar bahasa eropa, jepang, korea, arab, vietnam, dan banyak lagi.

qwen2-vl melanjutkan struktur seri vit plus qwen2. ketiga model ukuran semuanya menggunakan vit skala 600m untuk mendukung input gambar dan video terpadu.

namun agar model dapat memahami informasi visual dan memahami video dengan lebih jelas, tim melakukan beberapa peningkatan pada arsitektur:

pertama, dukungan penuh untuk resolusi dinamis asli tercapai. berbeda dengan model generasi sebelumnya, qwen2-vl dapat menangani input gambar dengan resolusi berapa pun. gambar dengan ukuran berbeda akan diubah menjadi sejumlah token dinamis, dengan minimal hanya 4 token. desain ini mensimulasikan cara alami persepsi visual manusia, memastikan tingkat konsistensi yang tinggi antara masukan model dan informasi gambar asli, dan memberi model kemampuan yang kuat untuk memproses gambar dengan ukuran berapa pun, memungkinkannya melakukan pemrosesan gambar dengan lebih fleksibel dan secara efisien.

yang kedua adalah dengan menggunakan metode multi-modal rotation position embedding (m-rope). penyematan posisi rotasi tradisional hanya dapat menangkap informasi posisi rangkaian satu dimensi. m-rope memungkinkan model bahasa berskala besar untuk secara bersamaan menangkap dan mengintegrasikan informasi posisi rangkaian teks satu dimensi, gambar visual dua dimensi, dan tiga dimensi. video, memberikan model bahasa kemampuan yang kuat. pemrosesan multimodal dan kemampuan penalaran memungkinkan model untuk lebih memahami dan memodelkan data multimodal yang kompleks.

api model andalan qwen2-vl-72b di antara beberapa model qwen2-vl yang bersumber terbuka kali ini telah diluncurkan di platform alibaba cloud bailian. pengguna dapat langsung memanggil api tersebut melalui platform alibaba cloud bailian.

pada saat yang sama, tim tongyi qianwen memiliki qwen2-vl-2b dan qwen2-vl-7b yang bersifat open source di bawah protokol apache 2.0. kode sumber terbuka tersebut telah diintegrasikan ke dalam hugging face transformers, vllm, dan kerangka kerja pihak ketiga lainnya. pengembang dapat mengunduh dan menggunakan model melalui hugging face dan moda modelscope, atau menggunakan model melalui halaman dialog utama situs resmi tongyi dan aplikasi tongyi.