Video kontekstuaalinen oppiminen! Suuri malli oppii "matkimaan kissaa ja piirtämään tiikeriä", MSRA

Video kontekstuaalinen oppiminen! Suuri malli oppii "matkimaan kissaa ja piirtämään tiikeriä" MSRA:lta

2024-07-17

Osallistuja Vid-ICL-tiimi
Qubits |. Julkinen tili QbitAI

Voiko videon luominen viitata myös "kontekstiin"? !

MSRA ehdottaaVideokontekstin oppiminen(Video In-Context Learning, Vid-ICL), anna suuren mallin oppia "matkimaan kissaa ja piirtämään tiikeriä"jäljitelmän sukupolvi。

Vid-ICL ohjaa mallivideon avulla mallin luomista uusissa skenaarioissa, jotta luodut tulokset voivat "jäljitellä" mallivideoissa suoritettuja tehtäviä uusissa skenaarioissa.

Esimerkiksi esimerkkivideokameran perspektiivi liikkuu alaspäin (vasemmalle), ja luotu video siirtää perspektiiviä myös alaspäin (oikealle):

Esimerkkivideoobjekti liikkuu ylöspäin (vasemmalle), ja luotu video liikkuu myös ylöspäin (oikealle):

Objektien tarttumista voidaan myös simuloida:

△ Vasen: Esimerkkivideo, robotin käsi tarttuu esineisiin Oikealla: Luotu video

Laatikon avaaminen voidaan tehdä myös esimerkin mukaisesti:

△ Vasen: Esimerkkivideo, avaa keskimmäinen laatikko Oikea: Luo video

Käytä samassa sähkötuulettimen skenaariossa erilaisia esimerkkivideoita ohjaamaan mallia luomaan tehosteita, kuten:

△ Vasen: näytevideo, kamera siirretty oikealle: luotu video

△ Vasen: Esimerkkivideo, kamera siirretty oikealle: Luotu video

Sinun on tiedettävä, että ideaalisessa maailmanmallissa mallin ja ulkoisen ympäristön välisen vuorovaikutuksen tulee olla monipuolista.Suurin osa olemassa olevista töistä keskittyy käyttöönTeksti ensisijaisena vuorovaikutusmuotona, mikä vaikeuttaa luotujen tulosten yksityiskohtien ja monimuotoisuuden hallintaa.

jaVideo on erittäin konkreettinen ja universaali, joka pystyy välittämään monenlaista tietoa, kuten esimerkkejä erilaisten tehtävien suorittamisesta, mukaan lukien liikkuminen tai esineiden tarttuminen.

Tutkimusryhmän ehdottama Vid-ICL-menetelmä tarjoaa vaihtoehdon kielelle ja kuville.uusi käyttöliittymä, jolloin mallin ja todellisen maailman välinen vuorovaikutus monipuolistuu.

Yllä näytetyn videon lisäksiVid-ICL voidaan myös yhdistää emulaattoreihin, käyttää luotua videota ja nykyistä tilaa ennustaaksesi vastaavat toimet oikean vuorovaikutuksen saamiseksi ympäristön kanssaYmmärrä vuorovaikutus todellisen ympäristön kanssa。

Alla oleva kuva näyttää Vid-ICL:n vuorovaikutuksessa todellisen ympäristön kanssa Alkaen tilasta t=0, se on vuorovaikutuksessa RoboDesk-simulaattorin kanssa suorittaakseen "Push_red"-tehtävän. Vid-ICL tarjoaa tarkemman hallinnan ympäristön vuorovaikutuksiin:

Hyvä kaveri, elokuva "Iron Armor" on tullut todeksi.

Miten Vid-ICL tarkalleen ottaen toimii?

Vid-ICL-kehyksen tulkinta

Vid-ICL toimii videolla perusyksikkönä.

Erityisesti ottaen huomioon kyselyvideoleikkeen ja k esimerkkivideoleikkeen, Vid-ICL:n tavoitteena on luoda videoleike, jonka pitäisi ensinSäilytä havainnon johdonmukaisuus kyselyvideoleikkeillä，Samaan aikaan semantiikassa(kuten kameran liike, toiminta)Yllä oleva on yhdenmukainen esimerkkivideon kanssa。

Autoregressiivinen mallikoulutus

Vid-ICL käyttää muuntajaa mallirakenteena.

Suurten tekstimallien perusarkkitehtuurina Transformer on osoittanut tehokkaita kykyjä kielikontekstin päättelyssä ja luontitehtävissä. Visuaalisen tiedon generatiivisen muuntajan koulutus koostuu kahdesta vaiheesta:

Kouluta ensin visuaalinen kooderi, kuten VQ-VAE, muuttamaan jokainen kuva erilliseksi tunnisteeksi;

Toiseksi jokainen harjoitusnäyte on konstruoitu merkkisekvenssiksi, ja Transformer-dekooderin tavoitteena on palauttaa tämä merkkisekvenssi.

Mitä tulee erityiseen toteutukseen, Vid-ICLLaama-arkkitehtuuria käyttäen,käyttääRMSNormin normalisointijaKiertoasennon upotus (RoPE), harjoittele Transformer-dekooderia autoregressiivisellä tavalla. Harjoitteluvaiheessa jokainen sekvenssi otetaan näytteistä raakavideosta ilman, että videoleikkeitä yhdistetään eri videoista.

Nolla näytteenottokyky

Tutkimusryhmä tekee keskeisen huomion tässä artikkelissa:

Malli voi alkaa videodatasta ilman selkeää kontekstimuotoa, ts.Spontaanisti oppineet kontekstuaaliset päättelykyvyt peräkkäisistä videoleikkeistä, eli "nolla-näyteominaisuus" videon konteksti-oppimiseen.

Tämä voidaan selittää kahdella keskeisellä tekijällä. Ensinnäkin jokaisen videokehyksen väliin ei lisätä erityisiä erottimia, minkä ansiosta malli voi implisiittisesti käsitellä jatkuvia videojaksoja esimerkkivideoina + kyselyvideoina harjoituksen aikana. Tämä tarkoittaa, että malli on oppinut käsittelemään samankaltaisten esimerkkikyselyrakenteiden sekvenssejä.

Toiseksi Transformerin autoregressiiviset ominaisuudet mahdollistavat sen, että se laajentaa yksittäisen kohtauksen videosekvenssin ennustuskyvyn kohtauksiin, joissa esimerkit ja kyselyt tulevat eri videoista, ja yleistää saumattomasti tekstikontekstin oppimisen paradigman videokontekstin oppimiseen.

Integroi muut tavat

Vaikka Vid-ICL keskittyy esimerkkinä videoon, sitä voidaan laajentaa muihin menetelmiin, kuten tekstiin.

Voit tehdä tämän muuntamalla alkuperäisen tekstin kuvauksen piileväksi esitykseksi valmiiksi opetetun kielimallin avulla ja käyttämällä sitten tätä piilevää esitystä etuliitteenä, kun harjoitat Transformeria ja suoritat kontekstuaalista päättelyä, ja kohdista se Transformerin piilevään tilaan. projektiokerroksen läpi.

Kokeet osoittavat, että Vid-ICLVoi vastaanottaa sekä tekstiä että videota esimerkkinä, ja tekstin lisääminen voi parantaa luotujen tulosten laatua entisestään.

Tiedot ja mallin koko

Voidaan nähdä, että Vid-ICL voi oppia esimerkkivideoiden sisältämän semanttisen tiedon ja siirtää sen uusiin kohtauksiin sukupolvea varten. Tämä edellyttää, että harjoitusdata sisältää pääasiassa selkeitä syy-suhteita ja vahvaa interaktiivisuutta.

Siksi tutkijat valitsivat kaksi tietojoukkoa tärkeimmiksi harjoitustietolähteiksi: Ego4d ja Kinetics-600.

Lisäksi videosisällön monimuotoisuuden lisäämiseksi pieni osa Webvidin tiedoista lisätään myös koulutussarjaan.

Tiimi varmisti myös, että koska Internet-videoiden sisältämä semanttinen tieto on suhteellisen epämääräistä ja poikkeavaa, tiedon kokoa voidaan kasvattaa yksinkertaisesti lisäämällä Internet-videoita.ei auta parantamaan mallin kontekstuaalista suorituskykyä。

Mallin koon suhteen tiimi koulutti kolmen koon malleja: 300M, 700M ja 1.1B, ja havaitsi, että mallin luomien videoiden laatu ja kontekstuaalinen suorituskyky noudattivat skaalauslakia.

Kokeelliset tulokset

Vid-ICL syöttää pääosinTarjoa esimerkkivideoita, joissa on eri semantiikka samalle kyselyvideolle, arvioida videokontekstin oppimisen tehokkuutta ja tarkkuutta.

Esimerkiksi kyselyvideolle objektin siirtämisestä vasemmalle voidaan luoda erilaisia videoita antamalla esimerkkivideoita vasemmalle liikkumisesta, satunnaisesta liikkumisesta ja vastakkaiseen suuntaan, ja voidaan käyttää syntyneiden tulosten arviointia. määrittääksesi, onko malli todella luonut aiheeseen liittyviä videoita.

Laadullisten tulosten osalta alla oleva kuva näyttää luodut videot eri esimerkkivideoiden alla (katso lisää esimerkkejä paperin alkuperäisestä tekstistä).

Se voidaan havaita:

1) vartenYksi videosukupolviLaatu, Vid-ICL ylläpitää luodun videon ja kyselyvideon johdonmukaisuutta, ja molemmilla on hyvä sukupolven laatu;

2) vartenSemanttinen johdonmukaisuus luotujen ja esimerkkivideoiden välillä, voidaan havaita, että kaikki luodut videot noudattavat esimerkkivideon prosessia, joka osoittaa, että Vid-ICL pystyy spontaanisti hankkimaan esimerkkivideon semanttisen tiedon ja generoimaan vastaavan videon.

Kuten alla olevasta kuvasta näkyy, Vid-ICL valitsee saman kyselyn videoleikkeen siirtämisen luotua videota vastaavasti esimerkkivideon linssin liikkeen perusteella.

Kvantitatiivisten tulosten osalta tutkimusryhmä ehdotti automaattisia arviointiindikaattoreita kahdessa suhteessa:

1）Videon laatuToisaalta käytetään pikselien yhteensovittamiseen tai jakeluun perustuvia indikaattoreita perinteisissä visuaalisissa tehtävissä, kuten PSNR, FID jne.;

2）semanttinen johdonmukaisuusedellä käytetään kahta luokittelutarkkuuteen perustuvaa indikaattoria: videoluokituksen tarkkuus ja anturin luokittelutarkkuus.

Eri indikaattoreilla Vid-ICL näyttää parempia tuloksia kuin perusmalli. Voidaan nähdä, että vastaavien esimerkkivideoiden ohjauksessa Vid-ICL luo realistisempia ja semanttisesti johdonmukaisempia videoita.

Katso lisätietoja alkuperäisestä paperista.

Hankkeen kotisivu: https://aka.ms/vid-icl
Paperilinkki: https://arxiv.org/abs/2407.0735

uutiset