berita

Video pembelajaran kontekstual! Model besar belajar "meniru kucing dan menggambar harimau", dari MSRA

2024-07-17

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Dikontribusikan oleh tim Vid-ICL
Qubit |. Akun publik QbitAI

Bisakah pembuatan video juga mengacu pada "konteks"? !

MSRA mengusulkanPembelajaran konteks video(Video In-Context Learning, Vid-ICL), biarkan model besar belajar gaya "meniru kucing dan menggambar harimau"generasi imitasi

Vid-ICL menggunakan video sampel untuk memandu pembuatan model dalam skenario baru, sehingga hasil yang dihasilkan dapat "meniru" tugas yang diselesaikan dalam video sampel dalam skenario baru.

Misalnya, perspektif kamera video sampel bergerak ke bawah (kiri), dan video yang dihasilkan juga menggerakkan perspektif ke bawah (kanan):



Contoh objek video bergerak ke atas (kiri), dan video yang dihasilkan juga bergerak ke atas (kanan):



Pengambilan objek juga dapat disimulasikan:



△Kiri: Contoh video, lengan robot mengambil objek; Kanan: Video yang dihasilkan

Membuka laci juga bisa dilakukan seperti pada contoh:



△Kiri: Contoh video, buka laci tengah; Kanan: Hasilkan video

Dalam skenario kipas listrik yang sama, gunakan contoh video yang berbeda untuk memandu model menghasilkan efek seperti:



△Kiri: contoh video, kamera dipindahkan ke kiri: video yang dihasilkan



△Kiri: Contoh video, kamera dipindahkan ke kanan; Kanan: Video yang dihasilkan

Perlu Anda ketahui bahwa dalam model dunia yang ideal, interaksi antara model dan lingkungan luar harus beragam.Sebagian besar pekerjaan yang ada berfokus pada penggunaanTeks sebagai mode interaksi utama, yang membuatnya sulit untuk mengontrol detail dan keragaman hasil yang dihasilkan.

DanVideo sangat konkrit dan universal, mampu menyampaikan berbagai informasi seperti contoh menyelesaikan berbagai tugas, termasuk memindahkan atau meraih benda.

Metode Vid-ICL yang diusulkan oleh tim peneliti memberikan alternatif selain bahasa dan gambar.antarmuka baru, membuat interaksi antara model dan dunia nyata menjadi lebih beragam.



Selain video yang dihasilkan yang ditunjukkan di atas,Vid-ICL juga dapat digabungkan dengan emulator, gunakan video yang dihasilkan dan status saat ini untuk memprediksi tindakan yang sesuai untuk interaksi yang benar dengan lingkunganMewujudkan interaksi dengan lingkungan nyata

Gambar di bawah menunjukkan Vid-ICL berinteraksi dengan lingkungan nyata. Mulai dari status pada t=0, ia berinteraksi dengan simulator RoboDesk untuk menyelesaikan tugas "Push_red". Vid-ICL memberikan kontrol yang lebih tepat atas interaksi lingkungan:



Teman baik, film "Iron Armor" telah menjadi kenyataan.

Bagaimana sebenarnya cara kerja Vid-ICL?

Interpretasi kerangka Vid-ICL

Vid-ICL beroperasi dengan video sebagai unit dasarnya.

Secara khusus, mengingat klip video kueri dan k contoh klip video, tujuan Vid-ICL adalah menghasilkan klip video yang pertama-tama harusPertahankan koherensi persepsi dengan klip video kueriPada saat yang sama dalam semantik(seperti pergerakan kamera, aksi)Di atas sesuai dengan contoh video



  • Pelatihan model autoregresif

Vid-ICL menggunakan Transformer sebagai struktur model.

Sebagai arsitektur dasar model teks besar, Transformer telah menunjukkan kemampuan yang kuat dalam penalaran konteks bahasa dan tugas pembuatan. Pelatihan informasi visual Transformator Generatif terdiri dari dua tahap:

Pertama, latih encoder visual, seperti VQ-VAE, untuk mengubah setiap gambar menjadi token diskrit;

Kedua, setiap sampel pelatihan dibuat sebagai rangkaian token, dan tujuan dekoder Transformer adalah memulihkan rangkaian token ini.

Dalam hal implementasi spesifik, Vid-ICLMenggunakan arsitektur Llama,menggunakanNormalisasi RMSNormDanPenyematan posisi rotasi (RoPE), latih dekoder Transformer secara autoregresif. Selama fase pelatihan, setiap urutan diambil sampelnya dari video mentah tanpa menggabungkan klip video dari video yang berbeda.

  • Kemampuan sampel nol

Tim peneliti membuat observasi penting dalam artikel ini:

Model dapat dimulai dari data video tanpa bentuk konteks eksplisit, mis.Mempelajari kemampuan penalaran kontekstual secara spontan dari klip video berturut-turut, yaitu, "kemampuan sampel nol" untuk Pembelajaran Dalam Konteks Video.

Hal ini dapat disebabkan oleh dua faktor utama. Pertama, tidak ada pembatas khusus yang disisipkan di antara setiap frame video, yang memungkinkan model secara implisit memperlakukan rangkaian video berkelanjutan sebagai video contoh + video kueri selama pelatihan. Artinya model telah belajar memproses rangkaian struktur contoh-kueri yang serupa.

Kedua, karakteristik autoregresif Transformer memungkinkannya memperluas kemampuan prediksi urutan video dari satu adegan ke adegan di mana contoh dan pertanyaan berasal dari video yang berbeda, dan dengan mulus menggeneralisasi paradigma pembelajaran konteks teks ke pembelajaran konteks video.

  • Integrasikan modalitas lain

Meskipun Vid-ICL berfokus pada video sebagai contoh, Vid-ICL dapat diperluas ke modalitas lain seperti teks.

Untuk melakukannya, cukup ubah deskripsi teks asli menjadi representasi laten melalui model bahasa yang telah dilatih sebelumnya, lalu gunakan representasi laten ini sebagai awalan saat melatih Transformer dan melakukan penalaran kontekstual, dan menyelaraskannya ke dalam ruang laten Transformer melalui lapisan proyeksi.

Eksperimen menunjukkan bahwa Vid-ICLDapat menerima teks dan video sebagai contoh, dan menambahkan teks dapat lebih meningkatkan kualitas hasil yang dihasilkan.

  • Ukuran data dan model

Terlihat bahwa Vid-ICL dapat mempelajari informasi semantik yang terdapat dalam video contoh dan memigrasikannya ke adegan baru untuk pembuatannya. Hal ini memerlukan data pelatihan terutama berisi video dengan hubungan sebab akibat yang jelas dan interaktivitas yang kuat.

Oleh karena itu, peneliti memilih dua dataset sebagai sumber data pelatihan utama: Ego4d dan Kinetics-600.

Selain itu, untuk meningkatkan keragaman konten video, sebagian kecil data di Webvid juga ditambahkan ke set pelatihan.

Tim juga memverifikasi bahwa karena informasi semantik yang terkandung dalam video Internet relatif kabur dan berbeda, ukuran data dapat ditingkatkan hanya dengan menambahkan lebih banyak video Internet.tidak membantu meningkatkan kinerja kontekstual model

Dalam hal ukuran model, tim melatih model dalam tiga ukuran: 300M, 700M, dan 1,1B, dan menemukan bahwa kualitas dan performa kontekstual video yang dihasilkan oleh model tersebut mengikuti Hukum Penskalaan.

Hasil percobaan

Vid-ICL sebagian besar lolosBerikan contoh video dengan semantik berbeda untuk video kueri yang sama, untuk mengevaluasi efektivitas dan keakuratan pembelajaran konteks video.

Misalnya, untuk video kueri memindahkan suatu objek ke kiri, video yang berbeda dapat dihasilkan dengan memberikan contoh video bergerak ke kiri, bergerak acak, dan bergerak berlawanan arah, dan evaluasi hasil yang dihasilkan dapat digunakan. untuk menentukan apakah model tersebut benar-benar menghasilkan contoh.

Dalam hal hasil kualitatif, gambar di bawah menunjukkan video yang dihasilkan dalam contoh video yang berbeda (untuk contoh lebih lanjut, silakan merujuk ke teks asli makalah).

Hal ini dapat diamati:

1) UntukPembuatan video tunggalKualitasnya, Vid-ICL menjaga koherensi video yang dihasilkan dan video kueri, dan keduanya memiliki kualitas generasi yang baik;

2) UntukKonsistensi semantik antara video yang dihasilkan dan video contoh, dapat diamati bahwa semua video yang dihasilkan mengikuti proses video contoh, yang menunjukkan bahwa Vid-ICL memiliki kemampuan untuk secara spontan memperoleh informasi semantik dari video contoh dan menghasilkan video yang sesuai.

Seperti yang ditunjukkan pada gambar di bawah, untuk klip video kueri yang sama, Vid-ICL memilih untuk memindahkan video yang dihasilkan berdasarkan pergerakan lensa pada contoh video.



Dari segi hasil kuantitatif, tim peneliti mengusulkan indikator evaluasi otomatis dalam dua aspek:

1)Kualitas videoDi sisi lain, indikator yang didasarkan pada pencocokan piksel atau distribusi pada tugas visual tradisional digunakan, seperti PSNR, FID, dll.;

2)konsistensi semantikdi atas, dua indikator berdasarkan akurasi klasifikasi digunakan: akurasi klasifikasi video dan akurasi klasifikasi probe.

Pada indikator yang berbeda, Vid-ICL menunjukkan hasil yang lebih baik dibandingkan model baseline. Terlihat bahwa dengan panduan video contoh serupa, Vid-ICL menghasilkan video yang lebih realistis dan konsisten secara semantik.



Silakan merujuk ke kertas asli untuk lebih jelasnya.

Beranda proyek: https://aka.ms/vid-icl
Tautan makalah: https://arxiv.org/abs/2407.0735