uutiset

Lisää nopeat ja hitaat silmät videomalliin, Applen uusi harjoitukseton menetelmä ylittää kaiken SOTAn sekunneissa

2024-08-12

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Soran julkaisun jälkeen tekoälyvideoiden luominen on muuttunut "kiireisemmäksi". Viime kuukausina olemme nähneet Jimengin, Runway Gen-3:n, Luma AI:n ja Kuaishou Kelingin vuorotellen räjähtävän.

Toisin kuin aikaisemmin, jolloin voit yhdellä silmäyksellä todeta, että mallit ovat tekoälyn luomia, tämä suurikokoisten videomallien erä saattaa olla "paras" mitä olemme koskaan nähneet.

Video suurten kielimallien (LLM) hämmästyttävä suorituskyky on kuitenkin erottamaton suuresta ja hienosti merkitystä videotietojoukosta, joka vaatii erittäin korkeita kustannuksia. Viime aikoina tutkimusalalle on ilmaantunut useita innovatiivisia menetelmiä, jotka eivät vaadi lisäkoulutusta: koulutettujen kuvasuurten kielten mallien käyttö videotehtävien suoraan prosessoimiseksi ohittaen näin "kallis" koulutusprosessin.

Lisäksi useimmat olemassa olevat video-LLM:t kärsivät kahdesta suuresta puutteesta: (1) ne pystyvät käsittelemään vain rajoitettua määrää kehyksiä, mikä tekee mallin vaikeaksi siepata videon hienovaraista tilallista ja ajallista sisältöä (2 ) niistä puuttuu ajallinen mallinnus, vaan ne yksinkertaisesti syöttävät videoominaisuuksia LLM:ään luottaen täysin LLM:n kykyyn mallintaa liikettä.

Vastauksena yllä oleviin kysymyksiin,Applen tutkijat ehdottivat SlowFast-LLaVAa (lyhyesti SF-LLaVA). Tämä malli perustuu Byte-tiimin kehittämään LLaVA-NeXT-arkkitehtuuriin. Se ei vaadi ylimääräistä hienosäätöä ja sitä voidaan käyttää heti.. Menestyneen kaksivirtaisen verkon innoittamana toiminnantunnistuksen alalla tutkimusryhmä suunnitteli uuden SlowFast-syöttömekanismin video-LLM:lle.

Yksinkertaisesti sanottuna SF-LLaVA ymmärtää videoiden yksityiskohdat ja liikkeet kahdella eri katselunopeudella (hidas ja nopea).

Hidas polku: poimi ominaisuuksia pienellä kuvataajuudella säilyttäen samalla mahdollisimman paljon avaruudellisia yksityiskohtia (esimerkiksi 24 × 24 merkkiä joka 8. kuva)

Nopea polku: käytä korkealla kuvanopeudella, mutta pienennä videon resoluutiota suuremmalla spatiaalisen yhdistämisaskeleen avulla simuloidaksesi laajempaa ajallista kontekstia ja keskittyäksesi enemmän toimien johdonmukaisuuden ymmärtämiseen.

Tämä vastaa mallia, jossa on kaksi "silmää": toinen katsoo hitaasti ja kiinnittää huomiota yksityiskohtiin, toinen katsoo nopeasti ja kiinnittää huomiota liikkeisiin. Tämä ratkaisee useimpien olemassa olevien video-LLM:ien ongelmakohdat ja voi kaapata sekä yksityiskohtaisen spatiaalisen semantiikan että pidemmän ajallisen kontekstin.



Paperilinkki: https://arxiv.org/pdf/2407.15841

Kokeet osoittavat, että SF-LLaVA ylittää olemassa olevat harjoitusvapaat menetelmät merkittävillä eduilla kaikissa vertailutesteissä. Huolellisesti hienosäädettyyn SFT-malliin verrattuna SF-LLaVA voi saavuttaa saman suorituskyvyn tai jopa paremman.



Mallin arkkitehtuuri

Kuten alla olevasta kuvasta näkyy, SF-LLaVA noudattaa tavallista harjoituksetonta video-LLM-prosessia. Se ottaa videon V ja kysymyksen Q syötteenä ja tulostaa vastaavan vastauksen A.



Tuloa varten jokaisesta videosta otetaan tasaisesti näyte N ruutua, minkä kokoisia ja pituisia tahansa, I = {I_1, I_2, ..., I_N}, eikä valittujen videokehysten erityistä yhdistelmää tai järjestelyä tarvita. Kehysyksikön itsenäisesti erotettu taajuusominaisuus on F_v ∈ R^N×H×W, missä H ja W ovat vastaavasti kehyksen ominaisuuden korkeus ja leveys.





Kokeelliset tulokset

Tutkimusryhmä suoritti kattavan SF-LLaVA:n suorituskykyarvioinnin vertaamalla sitä nykyisiin SOTA-harjoitteluvapaisiin malleihin (kuten IG-VLM ja LLoVi) useissa videokysymyksiin vastaamisessa. Lisäksi he vertasivat sitä video-LLa:n, kuten VideoLLaVA:n ja PLLaVA:n, kanssa, joita valvottiin hienosäädettynä (SFT) videotietosarjoissa.

Avaa video Q&A

Kuten alla olevasta taulukosta näkyy, avoimessa videokysymysten vastaustehtävässä SF-LLaVA toimii paremmin kuin nykyiset harjoitusvapaat menetelmät kaikissa vertailuissa. Erityisesti, kun SF-LLaVA on varustettu LLM:illä, joiden parametrikoko on 7B ja 34B, SF-LLaVA on 2,1 % ja 5,0 % korkeampi kuin IGVLM MSRVTT-QA:ssa, 5,7 % ja 1,5 % korkeampi TGIF-QA:ssa ja 5,7 % ja 1,5 % korkeampi ActivityNet -2,0 % ja 0,8 % korkeampi QA.

Jopa hienosäädettyyn SFT-menetelmään verrattuna SF-LLaVA näyttää vertailukelpoista suorituskykyä useimmissa vertailuissa, vain ActivityNet-QA-vertailussa PLLaVA ja LLaVA-NeXT-VideoDPO ovat hieman parempia.



Monivalintavideo Q&A

Kuten alla olevasta taulukosta voidaan nähdä, SF-LLaVA ylittää muut harjoitusvapaat menetelmät monivalintavideokysymyksiin vastaamisessa kaikissa vertailuissa. Monimutkaista pitkän aikavälin päättelyä vaativassa EgoSchema-tietojoukossa SF-LLaVA7B- ja 34B-versiot saivat 11,4 % ja 2,2 % korkeammat pisteet kuin IG-VLM-malli.

Vaikka VideoTree johtaa vertailutestissä, koska se on patentoitu malli, joka perustuu GPT-4:ään, sen suorituskyky on paljon parempi kuin avoimen lähdekoodin LLM. SFT-menetelmään verrattuna SF-LLaVA 34B -malli saavuttaa myös parempia tuloksia EgoSchemalla, mikä vahvistaa SlowFast-suunnittelun vahvan kyvyn käsitellä pitkiä videoita.

Tekstin luominen



Vincent video

Kuten taulukosta 3 näkyy, SF-LLaVA näyttää myös joitain etuja tekstin luontivideon tehtävässä. SF-LLaVA-34B ylitti kaikki harjoitusvapaat vertailuarvot yleisessä suorituskyvyssä. Vaikka yksityiskohtien suunnassa SF-LLaVA on hieman huonompi kuin LLaVA-NeXT-Image. SlowFast-suunnitteluun perustuen SF-LLaVA voi kattaa pidemmän ajallisen kontekstin vähemmillä visuaalisilla tunnuksilla, joten se toimii erityisen hyvin ajallisen ymmärtämisen tehtävissä.

Lisäksi SF-LLaVA-34B ylittää useimmat SFT-menetelmät Vincent-videon suorituskyvyn suhteen.



Katso lisätietoja alkuperäisestä paperista.