Informasi kontak saya
Surat[email protected]
2024-08-12
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
Sejak Sora dirilis, bidang pembuatan video AI menjadi lebih "sibuk". Dalam beberapa bulan terakhir, kita menyaksikan Jimeng, Runway Gen-3, Luma AI, dan Kuaishou Keling bergantian meledak.
Berbeda dengan masa lalu, di mana Anda dapat mengetahui secara sekilas bahwa model-model tersebut dihasilkan oleh AI, kumpulan model video berukuran besar ini mungkin adalah yang “terbaik” yang pernah kami lihat.
Namun, performa luar biasa dari model bahasa besar video (LLM) tidak terlepas dari kumpulan data video yang besar dan dianotasi dengan baik, yang memerlukan biaya yang sangat tinggi. Baru-baru ini, sejumlah metode inovatif telah muncul di bidang penelitian yang tidak memerlukan pelatihan tambahan: menggunakan model bahasa gambar besar yang terlatih untuk memproses tugas video secara langsung, sehingga melewati proses pelatihan yang "mahal".
Selain itu, sebagian besar LLM video yang ada mempunyai dua kelemahan utama: (1) mereka hanya dapat menangani input video dengan jumlah frame terbatas, sehingga menyulitkan model untuk menangkap konten spasial dan temporal yang halus dalam video; ) mereka tidak memiliki desain pemodelan temporal, tetapi hanya memasukkan fitur video ke dalam LLM, sepenuhnya mengandalkan kemampuan LLM untuk memodelkan gerakan.
Menanggapi permasalahan di atas,Peneliti Apple mengusulkan SlowFast-LLaVA (disingkat SF-LLaVA). Model ini didasarkan pada arsitektur LLaVA-NeXT yang dikembangkan oleh tim Byte. Model ini tidak memerlukan penyesuaian tambahan dan dapat langsung digunakan.. Terinspirasi oleh jaringan dua aliran yang sukses di bidang pengenalan tindakan, tim peneliti merancang mekanisme input SlowFast baru untuk video LLM.
Sederhananya, SF-LLaVA akan memahami detail dan gerakan dalam video melalui dua kecepatan menonton berbeda (Lambat dan Cepat).
Jalur lambat: mengekstrak fitur pada kecepatan bingkai rendah sambil mempertahankan detail spasial sebanyak mungkin (misalnya, mempertahankan token 24x24 setiap 8 bingkai)
Jalur cepat: dijalankan pada kecepatan frame tinggi, namun kurangi resolusi video dengan langkah pengumpulan spasial yang lebih besar untuk menyimulasikan konteks temporal yang lebih besar dan lebih fokus pada pemahaman koherensi tindakan.
Ini setara dengan model yang memiliki dua "mata": yang satu melihat perlahan dan memperhatikan detail; yang lain melihat dengan cepat dan memperhatikan gerakan. Hal ini memecahkan masalah dari sebagian besar LLM video yang ada dan dapat menangkap semantik spasial yang mendetail dan konteks temporal yang lebih panjang.
Tautan makalah: https://arxiv.org/pdf/2407.15841
Hasil eksperimen menunjukkan bahwa SF-LLaVA melampaui metode bebas pelatihan yang ada dengan keunggulan signifikan di semua pengujian benchmark. Dibandingkan dengan model SFT yang disempurnakan secara cermat, SF-LLaVA dapat mencapai performa yang sama atau bahkan lebih baik.
Arsitektur model
Seperti yang ditunjukkan pada gambar di bawah, SF-LLaVA mengikuti proses LLM video bebas pelatihan standar. Dibutuhkan video V dan soal Q sebagai input dan output jawaban A yang sesuai.
Sebagai masukan, N frame diambil sampelnya secara seragam dari setiap video dengan ukuran dan panjang berapa pun, I = {I_1, I_2, ..., I_N}, dan tidak diperlukan kombinasi atau susunan khusus dari frame video yang dipilih. Fitur frekuensi yang diekstraksi secara independen dalam unit bingkai adalah F_v ∈ R^N×H×W, dengan H dan W masing-masing adalah tinggi dan lebar fitur bingkai.
Hasil percobaan
Tim peneliti melakukan evaluasi kinerja komprehensif SF-LLaVA, membandingkannya dengan model bebas pelatihan SOTA saat ini (seperti IG-VLM dan LLoVi) dalam beberapa tugas menjawab pertanyaan video. Selanjutnya, mereka membandingkannya dengan video LLM seperti VideoLLaVA dan PLLaVA yang diawasi fine-tuned (SFT) pada kumpulan data video.
Buka tanya jawab video
Seperti yang ditunjukkan pada tabel di bawah, dalam tugas menjawab pertanyaan video terbuka, kinerja SF-LLaVA lebih baik dibandingkan metode tanpa pelatihan yang ada di semua tolok ukur. Khususnya, ketika dilengkapi dengan LLM dengan ukuran parameter masing-masing 7B dan 34B, SF-LLaVA 2,1% dan 5,0% lebih tinggi dibandingkan IGVLM pada MSRVTT-QA, 5,7% dan 1,5% lebih tinggi pada TGIF-QA, dan 5,7% dan 1,5% lebih tinggi pada ActivityNet -2,0% dan 0,8% lebih tinggi pada QA.
Bahkan dibandingkan dengan metode SFT yang disempurnakan, SF-LLaVA menunjukkan kinerja yang sebanding di sebagian besar benchmark, hanya pada benchmark ActivityNet-QA, PLLaVA dan LLaVA-NeXT-VideoDPO sedikit lebih baik.
Tanya Jawab video pilihan ganda
Seperti dapat dilihat dari tabel di bawah, SF-LLaVA mengungguli metode bebas pelatihan lainnya dalam menjawab pertanyaan video pilihan ganda di semua tolok ukur. Dalam kumpulan data EgoSchema yang memerlukan penalaran jangka panjang yang kompleks, versi SF-LLaVA7B dan 34B masing-masing mendapat skor 11,4% dan 2,2% lebih tinggi dibandingkan model IG-VLM.
Meskipun VideoTree memimpin dalam uji benchmark, karena merupakan model berpemilik berdasarkan GPT-4, kinerjanya jauh lebih tinggi dibandingkan LLM sumber terbuka. Dibandingkan dengan metode SFT, model SF-LLaVA 34B juga mencapai hasil yang lebih baik pada EgoSchema, yang menegaskan kemampuan kuat desain SlowFast untuk menangani video berdurasi panjang.
Pembuatan Teks
Vinsensius Video
Seperti yang ditunjukkan pada Tabel 3, SF-LLaVA juga menunjukkan beberapa keunggulan untuk tugas video pembuatan teks. SF-LLaVA-34B melampaui semua tolok ukur bebas pelatihan dalam kinerja keseluruhan. Meski dari segi orientasi detail, SF-LLaVA sedikit kalah dengan LLaVA-NeXT-Image. Berdasarkan desain SlowFast, SF-LLaVA dapat mencakup konteks temporal yang lebih panjang dengan token visual yang lebih sedikit, sehingga kinerjanya sangat baik dalam tugas pemahaman temporal.
Selain itu, SF-LLaVA-34B juga mengungguli sebagian besar metode SFT dalam hal performa video Vincent.
Untuk lebih jelasnya silakan mengacu pada kertas aslinya.