AI juga bisa "menyegarkan TikTok"! Universitas Tsinghua memimpin dalam merilis model baru untuk pemahaman modal penuh video pendek |

2024-07-31

Laporan Kebijaksanaan Baru

Editor: LRST Jadi ngantuk

[Pengantar Kebijaksanaan Baru] Model bahasa besar audio dan video sering kali gagal memberikan peran penuh pada ucapan saat memproses konten video. Model video-SALMONN berinovasi melalui tiga bagian: pengkodean audio dan video serta penyelarasan temporal, Q-Former kausal multi-resolusi, fungsi hilangnya keragaman, dan pelatihan data audio dan video campuran yang tidak berpasangan. Model ini tidak hanya berkinerja baik pada tugas-tugas modalitas tunggal, tetapi juga menunjukkan kinerja luar biasa dalam tugas-tugas audio-visual gabungan, membuktikan kelengkapan dan keakuratannya.

Jika Anda ingin memahami video pendek, selain konten visual, informasi pendengaran seperti suara dan audio, seperti video musik, efek suara, konten suara, dll, juga memainkan peran penting dalam memahami video pendek.

Model bahasa besar audio-visual (av-LLM) telah mengalami kemajuan yang signifikan dalam beberapa tahun terakhir, namun ucapan, sebagai pembawa utama bahasa manusia dalam video, masih belum sepenuhnya dieksplorasi dalam model ini. Ucapan tidak hanya memberikan informasi linguistik dan semantik yang kaya, namun juga membantu memahami emosi dan makna mendasar dalam video.

Pada saat yang sama, sinyal ucapan juga berisi informasi paralinguistik yang kaya, seperti nada dan nada, serta beragam atribut pembicara (seperti usia, jenis kelamin, aksen, dan identitas), yang merupakan elemen yang sangat diperlukan dalam pemahaman video.

Namun, meningkatkan kemampuan bicara model bahasa besar audiovisual untuk tujuan umum sangatlah menantang, memerlukan pemodelan halus sementara dan interaksi kompleks dengan modalitas lain pada skala waktu kasar (misalnya subjek video) dan interaksi halus (misalnya gerakan bibir).

Baru-baru ini, makalah "video-SALMONN: Model Bahasa Besar Audio-Visual yang Ditingkatkan Ucapan" yang diterbitkan di ICML 2024 menjadi model skala besar pertama yang mengintegrasikan semua elemen audio dan video dalam video (gambar alami, teks, ucapan, peristiwa audio, musik).

link kertas video-SALMONN : https://openreview.net/pdf?id=nYsh5GFIqX

Tautan makalah SALMONN: https://arxiv.org/abs/2310.13289

Halaman Github：https://github.com/bytedance/SALMONN

Melalui contoh berikut, mari kita lihat bagaimana video-SALMONN menafsirkan konten video melalui informasi suara-audio-video!

Pertama, ini klip klasik dari “Titanic”

Biarkan video-SALMONN berbicara tentang mengapa video ini sangat romantis:

pertanyaan:

Silakan gabungkan video, audio, dan dialog karakter untuk menjelaskan mengapa video tersebut romantis

menjawab:

Video tersebut memperlihatkan adegan romantis antara seorang pria dan seorang wanita di atas perahu. Pria itu memeluk wanita itu dan mereka menyaksikan matahari terbenam bersama. Musik latarnya berupa lagu yang menambah suasana romantis. Wanita mengatakan "Aku terbang" dan "Jack", yang menunjukkan bahwa mereka bahagia dan menikmati momen tersebut. Latar belakang perahu dan matahari terbenam menciptakan suasana asri dan damai sehingga menambah nuansa romantis dalam video. Bahasa tubuh dan ekspresi wajah pria dan wanita juga menunjukkan rasa cinta dan kasih sayang mereka satu sama lain. Secara keseluruhan, video tersebut dengan sempurna menangkap momen romantis dan intim di antara keduanya.

Selain mendeskripsikan adegan yang dilihatnya, video-SALMONN juga mengintegrasikan musik yang didengarnya dan dialog karakter ke dalam deskripsinya.

Yang lebih mengejutkan lagi, video-SALMONN juga bisa mengetahui bahwa itu adalah seorang wanita yang mengatakan "Saya terbang".

Selain itu, video-SALMONN juga dapat menyimpulkan bahwa nama pria tersebut adalah "Jack".

Kita semua tahu bahwa dua baris dialog inilah yang menciptakan adegan klasik ini, dan video-SALMONN baru saja menangkap inti dari adegan ini!

Berikut klip animasi lainnya dari “Zootopia”:

Simak bagaimana video-SALMONN memahami hal-hal lucu tentang sloth:

pertanyaan:

Ada kelinci, rubah dan kemalasan di tempat kejadian. Apa yang dikatakan kemalasan? Mengapa sloth menarik?

menjawab:

Kemalasan mengatakan "Nick" di akhir video. Sloth ini lucu karena merupakan hewan yang bergerak lambat dan terlihat sangat malas dalam video, membutuhkan waktu lama untuk melakukan sesuatu. Hal ini kontras dengan sifat aktif dan energik hewan lain, seperti kelinci dan rubah, sehingga membuat kungkang menonjol dan menambah humor. Selain itu, gerakan lambat dan ekspresi wajah sloth dalam video tersebut menambah efek komedi.

Contoh ini menunjukkan pengenalan pembicara melalui kombinasi audio dan video. Dengan hanya pendengaran kita tidak mengetahui kalau si sloth sedang berbicara. Hanya dengan penglihatan saja kita tidak mengetahui apa yang diucapkan si sloth. Hanya dengan kombinasi audio dan visual saja yang bisa kami benar-benar memahami videonya!

Dan meme yang sangat populer ini:

Tanya video-SALMONN kenapa video ini lucu:

pertanyaan:

Bisakah Anda menjelaskan mengapa video ini lucu?

menjawab:

Video tersebut lucu karena memperlihatkan seorang pria memasang wajah lucu lalu berkata "baik". Kontras antara ekspresi seriusnya dan kata "baik" menimbulkan humor dan rasa terkejut. Selain itu, efek suara pria bersendawa dan letupan keras menambah nilai hiburan video tersebut.

Mari kita lihat lagi klip dokumenter National Geographic untuk melihat bagaimana memahami pembicaraan dapat membantu:

Izinkan saya bertanya jenis hiu apa yang ada di video-video SALMONN:

pertanyaan:

Jenis hiu apa yang ada di video tersebut?

Jawab dengan masukan audio:

Hiu dalam video tersebut adalah hiu paus

Jawab tanpa input audio:

Hiu dalam video tersebut adalah hiu putih besar

Menonton videonya saja, saya benar-benar tidak tahu jenis hiu apa itu tanpa sepengetahuan profesional, sehingga model hanya bisa menebak-nebak, mana yang rawan halusinasi.

Namun setelah mendengarkan penjelasan audionya, video-SALMONN dapat mengetahui secara akurat bahwa video tersebut tentang hiu paus, jadi tidak perlu menebak-nebak.

Ada juga video klip percakapan para petinggi:

Tidak hanya memahami isi pembicaraan, video-SALMONN juga menghubungkan pembicara dan isi pembicaraan:

Pertanyaan:

Berdasarkan video dan suaranya, apakah pria atau wanita yang terbang ke Florence dalam video tersebut?

menjawab:

Itu adalah seorang wanita yang terbang ke Florence‍‍

Contoh ini lebih lanjut menunjukkan pemahaman komprehensif video-SALMONN tentang ucapan dalam video.

Jika Anda langsung memasukkan teks transkripsi ucapan, model tidak mungkin mengetahui siapa yang terbang ke Florence, namun video-SALMONN dapat menggabungkan konten ucapan dan informasi pembicara secara dekat.

Berikutnya adalah bagian praktisnya: mari kita lihat bagaimana video-SALMONN mencapai pemahaman komprehensif tentang suara-audio-video!

Teknologi inti

model video-SALMONN

Menghadapi tantangan pemahaman ucapan dalam model audio dan video besar, video-SALMONN memiliki tiga bagian inovasi berikut yang memungkinkannya menangani berbagai elemen dasar video seperti gambar alami, rangkaian bingkai visual, ucapan, peristiwa audio, dan elemen musik:

Bagian 1: Pengodean audio dan video serta penyelarasan waktu

video- SALMONN menggunakan encoder ucapan Whisper dan encoder audio BEATs untuk mendapatkan urutan vektor pengkodean ucapan dan audio masing-masing (50 vektor untuk setiap detik audio), dan juga menggunakan encoder visual InstructBLIP untuk mendapatkan visual dengan kecepatan pengambilan sampel video dari 2 FPS. Urutan vektor pengkodean (2 frame per 1 detik video, sesuai dengan 64 vektor).

Dalam dimensi waktu, ketiga urutan disejajarkan dan disambung setiap 0,5 detik berdasarkan bingkai video (sinkronisasi halus temporal), karena urutan audio ucapan sedikit lebih pendek daripada urutan visual, dan zero padding ditambahkan ke bagian pendek.

Bagian 2: Q-Former kausal multi-resolusi

Struktur Q-Former multi-resolusi kausal (MRC) adalah inti inovatif dari video-SALMONN, yang tidak hanya secara spasial menyelaraskan fitur masukan audio-visual yang disinkronkan waktu dengan representasi tekstual pada berbagai skala waktu berbeda, memuaskan tugas-tugas yang bergantung pada video berbeda persyaratan elemen, dan untuk memperkuat kausalitas temporal peristiwa antara bingkai video yang berurutan, struktur perhatian diri kausal dengan topeng kausal khusus diperkenalkan.

Struktur MRC Q-Mantan

Pertama, MRC Q-Former membagi urutan input ke dalam jendela dengan panjang berbeda. Kemudian, di dalam setiap jendela, Q-Former digunakan untuk memetakan representasi multimodal yang disambung ke ruang representasi semantik. Terakhir, keluaran vektor oleh setiap jendela Q-Former di setiap tingkat resolusi digabungkan untuk membentuk urutan vektor dalam ruang semantik.

Dengan memastikan bahwa jumlah vektor keluaran dan rasio panjang jendela adalah konstan, MRC Q-Former memastikan bahwa urutan keluaran pada tingkat resolusi yang berbeda dapat langsung disambung dalam dimensi fitur dan digunakan sebagai masukan ke model bahasa besar.

Melalui pelatihan, Q-Former beresolusi tinggi dapat menangkap informasi terperinci, seperti konten ucapan dan hubungan antara ucapan dan gerakan bibir. Q-Former beresolusi rendah dapat secara efektif mengekstrak informasi tingkat video, dan keseluruhan konten video dan Pemahaman yang lebih baik tentang hubungan antara beberapa frame.

(Catatan: Struktur MRC Q-Former juga cocok untuk multi-resolusi di ruang angkasa. Makalah ini mengusulkan metode sorotan gambar untuk pertama kalinya, yang dapat membagi gambar menjadi rangkaian sub-gambar dengan presisi berbeda sebagai masukan, sehingga sangat meningkatkan kinerja pemahaman gambar)

Bagian 3: Fungsi hilangnya keragaman dan pelatihan tentang data audio dan video campuran yang tidak berpasangan

Selain itu, untuk menghindari dominasi frame tertentu dalam video, video-SALMONN mengusulkan dan menggunakan fungsi hilangnya keragaman baru berdasarkan entropi silang, yang mendorong model untuk mengeksplorasi bagian berbeda dari keseluruhan rangkaian.

Pada saat yang sama, untuk mencegah dominasi satu modalitas dalam data audio dan video berpasangan (misalnya, audio non-ucapan dalam video seringkali hanya memberikan sejumlah kecil informasi tambahan dan mudah diabaikan), video-SALMONN menggunakan strategi mixing audio dan video yang tidak berpasangan. Pelatihan dilakukan agar video-SALMONN harus memperhatikan informasi dua modalitas secara bersamaan.

Hasil utama

Makalah Video-SALMONN mengusulkan tolok ukur evaluasi pidato-audio-visual (SAVE) untuk pengujian, dan menunjukkan kinerja yang sangat baik dalam tugas-tugas pidato, audio non-ucapan, gambar dan video.

Tugas tes SAVE meliputi pengenalan suara (ASR), deskripsi audio (AAC), deskripsi gambar (IC), pengenalan teks visual (OCR), tanya jawab gambar (VQA), tanya jawab video (Video QA) dan visual dan pendengaran lainnya modalitas input tunggal. Tugasnya juga mencakup pengenalan suara audio-visual (AVSR), menjawab pertanyaan audio dan video (AVQA), deteksi sumber suara audio dan video (AVSSD) dan pencocokan audio dan video (AVM), empat input umum audio dan video. tugas persepsi.

Diantaranya, AVQA adalah set pengujian yang baru diusulkan, dan AVM adalah tugas baru yang diusulkan, yang memerlukan model untuk menentukan apakah audio dan video cocok.

Pertama-tama, video-SALMONN mencapai hasil yang sama atau bahkan lebih baik dalam tugas masukan modal tunggal dibandingkan model yang hanya dapat memproses masukan modal visual atau pendengaran.

Dibandingkan dengan Video-LLaMA, model besar yang juga dapat memproses audio dan video, video-SALMONN tidak hanya meningkatkan kemampuannya untuk memahami masukan ucapan, namun juga jauh melebihi kinerjanya dalam berbagai tugas modal tunggal.

Dalam tugas memahami input gabungan audio dan video, video-SALMONN telah menunjukkan kinerja yang jauh lebih unggul dibandingkan model lainnya.

Berkat kemampuannya memahami ucapan, video-SALMONN secara signifikan melampaui model besar serupa Video-LLaMA di AVQA.

Lebih penting lagi, video-SALMONN menunjukkan kemampuan kemunculan tanpa sampel yang sangat baik untuk penalaran gabungan ucapan-audio-visual pada AVM dan AVSSD, dua tugas yang sama sekali tidak terlatih.

Munculnya kemampuan penalaran bersama ini mengharuskan model memberikan perhatian yang sama terhadap masukan informasi visual dan pendengaran secara bersamaan, dan dapat memahami hubungan kompleks antara audio dan visual.

Namun, model sumber terbuka yang ada tidak dapat sepenuhnya memahami audio, atau hanya dapat mendeskripsikan setiap modalitas masukan secara terpisah.

Kesimpulan

Peluncuran video-SALMONN akan membantu meningkatkan kelengkapan dan keakuratan teknologi pemahaman video, dan menghadirkan peluang baru dalam analisis konten video, pengenalan emosi, interaksi multi-modal, dan bidang lainnya.

Model ini tidak hanya sangat penting dalam penelitian akademis, namun juga memberikan dukungan teknis yang kuat untuk aplikasi praktis.

Referensi:

https://openreview.net/pdf?id=nYsh5GFIqX

berita

AI juga bisa "menyegarkan TikTok"! Universitas Tsinghua memimpin dalam merilis model baru untuk pemahaman modal penuh video pendek |

Perkenalan

informasi kontak saya