berita

Tonton film 2 jam dalam 4 detik! Alibaba merilis model besar multi-modal universal mPLUG-Owl3 |

2024-08-19

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Setelah menonton film berdurasi 2 jam dalam 4 detik, pencapaian baru tim Alibaba resmi terungkap——

bangunModel besar multimoda universal mPLUG-Owl3, khusus digunakan untuk memahami banyak gambar dan video panjang.



Secara khusus, menggunakan LLaVA-Next-Interleave sebagai patokan, mPLUG-Owl3Latensi Token Pertama menyusut 6 kali lipat, dan jumlah gambar yang dapat dimodelkan oleh satu A100 telah meningkat 8 kali lipat, mencapai400 gambar, menurut pengujian sebenarnya, Anda dapat menonton film berdurasi 2 jam dalam 4 detik.

Dengan kata lain, efisiensi penalaran model telah meningkat pesat.

DanTanpa mengorbankan akurasi model

mPLUG-Owl3 juga mencapai banyak tolok ukur dalam berbagai skenario yang terlibat dalam model besar multi-modal, termasuk bidang gambar tunggal, multi-gambar, dan video.SOTA



Penulis makalah ini berasal dariTim MPLUG Alibaba, mereka telah terlibat secara mendalam dalam basis model multimodal yang besar, dan sebelumnya mereka juga mengusulkan:

  • Seri mPLUG berbasis multimodal yang efisien
  • Basis model bahasa besar multimodal modular seri mPLUG-Owl
  • Basis pemahaman dokumen seri mPLUG-DocOwl

Mari kita lihat teknologi hitam apa yang dibawa oleh rilis mPLUG-Owl3 ini.

Gameplay Tidak Terkunci

Tim mendemonstrasikan beberapa penggunaan umum mPLUG-Owl3.

Peningkatan pengambilan multimodal

Secara umum, merupakan praktik umum untuk menambah pengetahuan yang belum dipelajari model melalui sistem pengambilan. Hal ini memerlukan model untuk secara akurat memahami pengetahuan multimodal yang masuk dan menggunakannya untuk menjawab pertanyaan.

Dalam contoh berikut, mPLUG-Owl3 tidak hanya dapat membalas dengan benar berdasarkan pengetahuan yang diperoleh, tetapi juga memberikannyaPengetahuan apa yang menjadi dasar penilaian?, dan memberikan dasar penilaian rinci. Ini sangat ramah bagi personel R&D hilir untuk pengembangan dan debugging.

Bagian pencarian: Di bawah ini adalah beberapa pengetahuan multimodal yang dapat Anda gunakan untuk mengambil keputusan.

Ajukan pertanyaan: Berdasarkan pengamatan anda terhadap keempat foto anjing di atas, dapatkah anda mengklasifikasikan anjing pada gambar 5? Berikan alasan.

menjawab: Berdasarkan pengamatan keempat foto anjing tersebut, anjing pada gambar 5 dapat digolongkan sebagai Irish Terrier. Anjing pada gambar 1 digambarkan sebagai Irish Terrier dan anjing pada gambar 5 memiliki ciri fisik yang mirip dengan anjing pada gambar 1…



Penalaran multi-grafik

Situasi seperti ini sering terjadi dalam hidup——

Banyak pengguna tidak hanya melakukan percakapan seputar satu gambar, namun pengguna mungkin memiliki beberapa materi, dan model harus dapat memahami dengan benar hubungan antara konten dalam materi yang berbeda.

Pada contoh di bawah, mPLUG-Owl3 dapat mengaktifkan pengetahuan akal sehat model bahasa melalui apa yang dilihatnya dalam dua gambar, dan alasan di sekitar dua gambar tersebut.

Ajukan pertanyaan: Apakah hewan di sebelah kiri dapat bertahan hidup di lingkungan sebelah kanan? Jawaban dan penjelasan diperlukan.

menjawab(Jawaban yang benar ditandai dengan warna hijau): Ide umumnya adalah ia tidak dapat bertahan hidup karena lingkungan terlalu dingin.



Pada contoh lain, mPLUG-Owl3 tidak hanya dapat mendeteksi perbedaan gaya antara dua gambar, tetapi juga menyadari bahwa meskipun karakter dalam kedua gambar tersebut memiliki gaya yang berbeda, namun sebenarnya karakter tersebut sama.

pertanyaan pertama kali: Gaya seni apa yang digambarkan dalam gambar dan apa perbedaannya?

menjawab: Gambar pertama bergaya piksel, gambar kedua bergaya kartun... (berikan alasannya)

pertanyaan kedua: Siapa yang muncul di kedua lukisan tersebut? Apa karakteristik mereka?

menjawab: Dalam kedua lukisan tersebut, muncul seorang pria bertopi koboi, dan ia digambarkan dalam dua gaya berbeda.



Pemahaman video panjang

Menonton video yang sangat panjang adalah tugas yang sebagian besar model saat ini tidak dapat selesaikan secara end-to-end. Jika didasarkan pada kerangka Agen, sulit untuk menjamin kecepatan respons.

mPLUG-Owl3 dapat menonton film berdurasi 2 jam, danMulai menjawab pertanyaan pengguna dalam 4 detik

Baik pengguna menanyakan pertanyaan tentang klip yang sangat detail di awal, tengah, dan akhir film, mPLUG-Owl3 dapat menjawabnya dengan lancar.



Bagaimana kamu melakukannya?

Berbeda dengan model tradisional, mPLUG-Owl3Tidak perlu terlebih dahulu menggabungkan urutan visual ke dalam urutan teks model bahasa

Dengan kata lain, apa pun yang dimasukkan (lusinan gambar atau video berdurasi jam), hal ini tidak menggunakan kapasitas rangkaian model bahasa, sehingga menghindari overhead komputasi yang besar dan penggunaan memori video yang disebabkan oleh rangkaian visual yang panjang.

Seseorang mungkin bertanya, bagaimana informasi visual diintegrasikan ke dalam model bahasa?



Untuk mencapai hal ini, tim mengusulkan aModul Hyper Attention yang ringan, yang dapat memperluas Blok Transformer yang sudah ada yang hanya dapat memodelkan teks menjadi modul baru yang dapat melakukan interaksi fitur grafis dan teks serta pemodelan teks.



Dengan menyebar secara jarang ke seluruh model bahasa4Blok Transformer, mPLUG-Owl3 dapat meningkatkan LLM menjadi LLM multimodal dengan biaya yang sangat kecil.

Setelah fitur visual diekstraksi dari visual encoder, dimensinya diselaraskan dengan dimensi model bahasa melalui pemetaan linier sederhana.

Selanjutnya, fitur visual hanya akan berinteraksi dengan teks di empat lapisan Blok Transformer ini. Karena token visual belum mengalami kompresi apa pun, informasi terperinci dapat disimpan.

Lihatlah di bawahBagaimana Hyper Attention dirancang?

Untuk memungkinkan model bahasa memahami fitur visual, Hyper Attention memperkenalkan aPerhatian SilangDalam pengoperasiannya, fitur visual digunakan sebagai Kunci dan Nilai, dan keadaan tersembunyi model bahasa digunakan sebagai Kueri untuk mengekstrak fitur visual.

Dalam beberapa tahun terakhir, penelitian lain telah mempertimbangkan penggunaan Cross-Attention untuk fusi multi-modal, seperti Flamingo dan IDEFICS, namun upaya ini gagal mencapai kinerja yang baik.

Dalam laporan teknis tentang mPLUG-Owl3, timMembandingkan desain Flamingo, untuk menjelaskan lebih lanjut Hyper AttentionPoin teknis utama



Pertama-tama, Hyper Attention tidak mengadopsi desain kaskade Cross-Attention dan Self-Attention, tetapi tertanam di blok Self-Attention.

Keuntungannya adalah mengurangi jumlah parameter tambahan baru yang diperkenalkan, membuat model lebih mudah untuk dilatih, dan efisiensi pelatihan dan inferensi dapat lebih ditingkatkan.

Kedua, pemilihan Hyper AttentionLayerNorm untuk model bahasa bersama, karena keluaran distribusi oleh LayerNorm adalah distribusi stabil yang telah dilatih oleh lapisan Attention. Berbagi lapisan ini sangat penting untuk pembelajaran yang stabil dari Cross-Attention yang baru diperkenalkan.

Faktanya, Hyper Attention mengadopsi strategi Cross-Attention dan Self-Attention paralel, menggunakan Query bersama untuk berinteraksi dengan fitur visual, dan mengintegrasikan kedua fitur tersebut melalui Gerbang Adaptif.

Hal ini memungkinkan Query untuk secara selektif memilih fitur visual yang relevan berdasarkan semantiknya sendiri.

Penemuan Tim, Gambarposisi relatif terhadap teks dalam konteks aslinyaSangat penting bagi model untuk lebih memahami masukan multimodal.

Untuk memodelkan properti ini, mereka memperkenalkan posisi rotasi interleaved multi-modal yang mengkode MI-Rope untuk memodelkan informasi posisi untuk Kunci visual.

Secara khusus, mereka merekam terlebih dahulu informasi posisi setiap gambar dalam teks asli, dan menggunakan posisi ini untuk menghitung penyematan Tali yang sesuai, dan setiap tambalan dari gambar yang sama akan membagikan penyematan ini.

Selain itu, mereka juga melakukan Cross-AttentionMasker perhatian diperkenalkan, sehingga teks sebelum gambar dalam konteks aslinya tidak dapat melihat ciri-ciri yang sesuai dengan gambar berikutnya.

Singkatnya, poin desain Hyper Attention ini telah membawa peningkatan efisiensi lebih lanjut pada mPLUG-Owl3 dan memastikan bahwa mPLUG-Owl3 tetap memiliki kemampuan multimodal kelas satu.



Hasil percobaan

Dengan melakukan eksperimen pada berbagai kumpulan data, mPLUG-Owl3Sebagian besar tolok ukur multimodal gambar tunggalSemua dapat mencapai hasil SOTA, dan banyak pengujian bahkan dapat melampaui model dengan ukuran model lebih besar.



pada saat yang sama,Dalam evaluasi multi-gambar, mPLUG-Owl3 juga melampaui LLAVA-Next-Interleave dan Mantis, yang secara khusus dioptimalkan untuk pemandangan multi-gambar.



Selain itu, di LongVideoBench (52,1 poin), model evaluasi khususMemahami video panjangIni melampaui model-model yang ada dalam daftar.



Tim R&D juga mengusulkan hal menarikMetode evaluasi urutan visual yang panjang

Seperti yang kita ketahui bersama, dalam skenario interaksi manusia-komputer yang sebenarnya, tidak semua gambar menyajikan masalah bagi pengguna. Konteks historis akan diisi dengan konten multi-modal yang tidak relevan dengan masalah tersebut.

Untuk mengevaluasi performa model pada input urutan visual yang panjangKemampuan anti-interferensi, mereka membangunnya berdasarkan MMBench-devKumpulan data evaluasi baru

Dengan memasukkan gambar yang tidak relevan untuk setiap sampel evaluasi siklus MMBench dan mengganggu urutan gambar, pertanyaan kemudian diajukan tentang gambar asli untuk melihat apakah model dapat merespons dengan benar dan stabil. (Untuk pertanyaan yang sama, empat sampel dengan urutan pilihan dan gambar interferensi berbeda akan dibuat, dan hanya satu jawaban benar yang akan dicatat jika semuanya dijawab dengan benar.)

Eksperimen dibagi menjadi beberapa level sesuai dengan jumlah gambar masukan.

Terlihat bahwa model tanpa pelatihan multi-graf seperti Qwen-VL dan mPLUG-Owl2 dengan cepat gagal.



LLAVA-Next-Interleave dan Mantis, yang telah dilatih dengan banyak gambar, dapat mempertahankan kurva atenuasi yang serupa dengan mPLUG-Owl3 di awal, tetapi seiring dengan bertambahnya jumlah gambar50Pada tingkat sebesar ini, model-model tersebut tidak dapat lagi menjawab dengan benar.

Dan mPLUG-Owl3 tetap bertahan400 gambarMasih bisa mempertahankanakurasi 40%.

Namun, ada satu hal yang perlu dikatakan. Meskipun mPLUG-Owl3 mengungguli model yang ada, keakuratannya masih jauh dari mencapai tingkat yang sangat baik. Hanya dapat dikatakan bahwa metode evaluasi ini mengungkapkan kemampuan anti-interferensi dari semua model dalam rangkaian panjang yang diperlukan untuk lebih ditingkatkan di masa depan.

Untuk lebih jelasnya, silakan merujuk ke kertas dan kode.