uutiset

AI voi myös "päivittää TikTokin"! Tsinghuan yliopisto ottaa johtoaseman uuden mallin julkaisussa ICML 2024:n lyhytvideoiden ymmärtämiseen

2024-07-31

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


Uusi viisausraportti

Toimittaja: LRST Niin unelias

[Johdatus uuteen viisauteen] Äänen ja videon suuret kielimallit eivät usein pysty antamaan täysimääräistä roolia puheelle videosisällön käsittelyssä. Video-SALMONN-malli innovoi kolmen osan kautta: äänen ja videon koodaus ja ajallinen kohdistus, moniresoluutioinen kausaalinen Q-Former, monimuotoisuushäviötoiminto ja sekoitettu pariton ääni- ja videodatan koulutus. Malli ei ainoastaan ​​suoriudu hyvin yksimuotoisissa tehtävissä, vaan se osoittaa myös erinomaista suorituskykyä yhteisissä audiovisuaalisissa tehtävissä, mikä todistaa sen kattavuuden ja tarkkuuden.

Jos haluat ymmärtää lyhyitä videoita, visuaalisen sisällön lisäksi myös kuulotiedot, kuten ääni ja ääni, kuten videomusiikki, äänitehosteet, äänisisältö jne., ovat avainasemassa lyhyiden videoiden ymmärtämisessä.

Audiovisuaaliset suuret kielimallit (av-LLM) ovat edistyneet merkittävästi viime vuosina, mutta puhetta, joka on tärkein ihmisen kielen kantaja videoissa, ei ole vieläkään täysin tutkittu näissä malleissa. Puhe ei ainoastaan ​​tarjoa rikasta kielellistä ja semanttista tietoa, vaan auttaa myös ymmärtämään videon tunteita ja taustalla olevaa merkitystä.

Samaan aikaan puhesignaalit sisältävät myös runsaasti paralingvististä tietoa, kuten äänenkorkeutta ja äänenkorkeutta, sekä erilaisia ​​puhujan attribuutteja (kuten ikä, sukupuoli, aksentti ja identiteetti), jotka ovat välttämättömiä elementtejä videon ymmärtämisessä.

Yleiskäyttöisten audiovisuaalisten suurten kielimallien puhekyvyn parantaminen on kuitenkin äärimmäisen haastavaa, sillä se vaatii ajallisesti hienoa mallintamista ja monimutkaista vuorovaikutusta muiden modaliteettien kanssa sekä karkealla (esim. videokohde) että hienolla (esim. huulten liikkeet) aikaskaalalla.

Äskettäin ICML 2024:ssä julkaistusta artikkelista "video-SALMONN: Speech-Enhanced Audio-Visual Large Language Models" tuli ensimmäinen laajamittainen malli, joka integroi kaikki videon ääni- ja videoelementit (luonnolliset kuvat, teksti, puhe, äänitapahtumat, musiikki) malli.


video-SALMONN paperilinkki: https://openreview.net/pdf?id=nYsh5GFIqX

SALMONN-paperilinkki: https://arxiv.org/abs/2310.13289

Githubin sivu: https://github.com/bytedance/SALMONN

Katsotaanpa seuraavien esimerkkien avulla, kuinka video-SALMONN tulkitsee videosisältöä ääni-ääni-videotietojen avulla!

Ensinnäkin tässä klassinen leike "Titanicista"

Anna video-SALMONN puhua siitä, miksi tämä video on niin romanttinen:


kysymys:

Yhdistä video, ääni ja hahmodialogi selittääksesi, miksi video on romanttinen

vastaus:

Videolla näkyy romanttinen kohtaus miehen ja naisen välillä veneessä. Mies piti naista sylissään ja he katselivat yhdessä auringonlaskua. Taustamusiikki on laulu, joka lisää romanttista tunnelmaa. Naiset sanovat "lennän" ja "Jack", mikä osoittaa, että he ovat onnellisia ja nauttivat hetkestä. Veneen tausta ja auringonlasku luovat kauniin ja rauhallisen ympäristön, joka lisää videon romanttista tunnelmaa. Miesten ja naisten kehonkieli ja ilme välittävät myös heidän rakkauttaan ja kiintymystä toisiaan kohtaan. Kaiken kaikkiaan video vangitsee täydellisesti romanttisen ja intiimin hetken näiden kahden välillä.

Sen lisäksi, että video-SALMONN kuvasi näkemiään kohtauksia, hän integroi kuvaukseensa myös kuulemansa musiikin ja hahmojen dialogin.

Vielä yllättävämpää on, että video-SALMONN voi myös tietää, että se oli nainen, joka sanoi "Lenen".

Lisäksi video-SALMONN voi myös päätellä, että miehen nimi on "Jack".

Me kaikki tiedämme, että juuri nämä kaksi dialogin riviä loivat tämän klassisen kohtauksen, ja video-SALMONN vain vangitsi tämän kohtauksen olemuksen!

Tässä on toinen animoitu leike "Zootopiasta":

Katso, kuinka video-SALMONN ymmärtää laiskiaisten hauskoja asioita:


kysymys:

Kohtauksessa on jänis, kettu ja laiskiainen. Mitä laiskiainen sanoi? Miksi laiskot ovat kiinnostavia?

vastaus:

Laiskiainen sanoo "Nick" videon lopussa. Laiskiainen on hauska, koska se on hitaasti liikkuva eläin ja näyttää videolla erittäin laiskalta ja kestää kauan tehdä asioita. Tämä on ristiriidassa muiden eläinten, kuten kanien ja kettujen, aktiivisen ja energisen luonteen kanssa, mikä tekee laiskuudesta erottuvan ja lisää huumoria. Lisäksi videon laiskiaisen hidastettu liike ja ilmeet lisäävät videon komediaa.

Tämä esimerkki osoittaa puhujan tunnistamisen vain kuulolla, emme tiedä, mitä laiskuus sanoi yhdistelmä, voimmeko todella ymmärtää videon!

Ja tämä erittäin suosittu meemi:

Kysy videolta SALMONN, miksi tämä video on hauska:


kysymys:

Voitko selittää miksi tämä video on hauska?

vastaus:

Video on hauska, koska siinä näkyy, kuinka mies tekee hauskat kasvot ja sanoo sitten "kiva". Hänen vakavan ilmeensä ja sanan "kiva" välinen kontrasti luo huumoria ja yllätyksen tunteen. Lisäksi videon viihdearvoa lisäävät miehen röyhtäilyn ja kovien poksahtamisen äänitehosteet.

Katsotaanpa vielä kerran National Geographicin dokumenttileike nähdäksesi, kuinka puheen ymmärtäminen voi auttaa:

Saanen kysyä sinulta, millainen hai on video-SALMONN-videolla:


kysymys:

Millainen hai videolla on?

Vastaus äänitulolla:

Videon hai on valashai

Vastaus ilman äänituloa:

Videon hai on suuri valkohai

Pelkästään videota katsoessani en todellakaan tiedä millainen hai se on ilman ammatillista tietämystä, joten malli voi vain arvailla, mikä on altis hallusinaatioille.


Mutta kuultuaan ääniselvityksen, video-SALMONN voi tietää tarkasti, että video on valashaista, joten sinun ei tarvitse arvata.

Siellä on myös videopätkä isojen poikien keskustelusta:

Se ei vain ymmärrä keskustelun sisältöä, vaan video-SALMONN yhdistää myös puhujan ja keskustelun sisällön:


Kysymys:

Oliko videon ja äänen perusteella Firenzeen lentänyt mies vai nainen?

vastaus:

Se oli nainen, joka lensi Firenzeen

Tämä esimerkki osoittaa edelleen video-SALMONNin kattavan puheen ymmärtämisen videoissa.

Jos syötät suoraan puheen transkription tekstin, mallin on mahdotonta tietää, kuka lensi Firenzeen, mutta video-SALMONN voi yhdistää puhesisällön ja puhujan tiedot tiiviisti.

Seuraavaksi on käytännön osio: katsotaan kuinka video-SALMONN saavuttaa kokonaisvaltaisen puhe-audio-video-ymmärryksen!

Ydintekniikka


video-SALMONN malli

Vastaamaan puheen ymmärtämisen haasteeseen suurissa ääni- ja videomalleissa, video-SALMONN sisältää seuraavat kolme innovaatioosaa, jotta se pystyy käsittelemään erilaisia ​​videon peruselementtejä, kuten luonnollisia kuvia, visuaalisia kehysjaksoja, puhetta, äänitapahtumia ja musiikkielementtejä:

Osa 1: Äänen ja videon koodaus ja aikakohdistus

video-SALMONN käyttää Whisper-puhekooderia ja BEATs-äänikooderia saadakseen puheen ja äänen koodausvektorisekvenssit (50 vektoria jokaista äänen sekuntia kohden), ja käyttää myös visuaalista InstructBLIP-kooderia saadakseen visuaalisen kuvan videon näytteenottotaajuudella. 2 FPS Koodausvektorisekvenssi (2 kuvaa sekunnissa videota, mikä vastaa 64 vektoria).

Aikaulottuvuudessa kolme sekvenssiä kohdistetaan ja silmukoidaan 0,5 sekunnin välein videokehyksen perusteella (ajallinen hienojakoinen synkronointi), koska puheäänisekvenssi on hieman visuaalista sekvenssiä lyhyempi ja siihen on lisätty nollatäyte. lyhyt osa.

Osa 2: Moniresoluutioinen kausaalinen Q-Former

Moniresoluutioinen kausaalinen (MRC) Q-Former -rakenne on video-SALMONNin innovatiivinen ydin, joka ei ainoastaan ​​kohdista aikasynkronoidut audiovisuaaliset syöttöominaisuudet tilallisesti tekstiesitykseen useilla eri aikaskaaloilla, mikä tyydyttää eri videoihin perustuvia tehtäviä. elementtivaatimukset, ja tapahtumien ajallisen kausaalisuuden vahvistamiseksi peräkkäisten videokehysten välillä otetaan käyttöön kausaalinen itsehuomiorakenne erityisellä kausaalimaskilla.


MRC Q-Entinen rakenne

Ensin MRC Q-Former jakaa syöttösekvenssin eripituisiin ikkunoihin. Sitten kussakin ikkunassa Q-Formeria käytetään yhdistämään monimuotoinen esitys semanttiseen esitystilaan. Lopuksi kunkin ikkunan Q-Formerin antamat vektorit kullakin resoluutiotasolla ketjutetaan muodostamaan vektorisekvenssi semanttisessa avaruudessa.

Varmistamalla, että lähtövektorien määrä ja ikkunan pituussuhde ovat vakioita, MRC Q-Former varmistaa, että eri resoluutiotasoilla olevat tulossekvenssit voidaan yhdistää suoraan piirreulottuvuuksiin ja sitä käytetään suuren kielimallin syötteenä.

Harjoittelun avulla korkearesoluutioinen Q-Former voi kaapata hienojakoista tietoa, kuten puheen sisällön ja puheen ja huulten liikkeiden välisen yhteyden videon ja useiden kehysten välisten suhteiden parempi ymmärtäminen.

(Huomaa: MRC Q-Former -rakenne soveltuu myös moniresoluutioon avaruudessa. Paperissa ehdotetaan ensimmäistä kertaa kuvan kohdevalomenetelmää, joka voi jakaa kuvan syötteenä eri tarkkoihin osakuvasarjoihin, mikä parantaa huomattavasti kuvan ymmärtämisen suorituskyky)

Osa 3: Diversity loss -toiminto ja koulutus parittoman ääni- ja videodatan kanssa

Lisäksi välttääkseen tietyn kehyksen dominanssin videossa video-SALMONN ehdottaa ja käyttää uutta ristientropiaan perustuvaa diversiteettihäviöfunktiota, joka kannustaa mallia tutkimaan koko sarjan eri osia.

Samaan aikaan, jotta vältettäisiin yksittäisen modaliteetin hallitseminen parillisissa ääni- ja videotiedoissa (esimerkiksi ei-puheääni videoissa tarjoaa usein vain hyvin pienen määrän apuinformaatiota ja jätetään helposti huomiotta), video-SALMONN käyttää strategiaa sekoittaa paritonta ääntä ja videota Harjoittelu suoritetaan siten, että video-SALMONN joutuu kiinnittämään huomiota kahden modaliteetin tietoihin samanaikaisesti.

Päätulokset

Video-SALMONN-paperi ehdottaa puhe-audio-visuaalisen arvioinnin (SAVE) vertailuarvoa testaukseen ja osoittaa erinomaisen suorituskyvyn puhe-, ei-puhe-ääni-, kuva- ja videotehtävissä.

SAVEn testitehtäviin kuuluvat puheentunnistus (ASR), äänikuvaus (AAC), kuvan kuvaus (IC), visuaalinen tekstintunnistus (OCR), kuvakysymys ja vastaus (VQA), videokysymys ja vastaus (Video QA) ja muut visuaaliset ja kuulolliset Yksittäisen tulon toiminnot sisältävät myös audiovisuaalisen puheentunnistuksen (AVSR), ääni- ja videokyselyn vastaamisen (AVQA), ääni- ja videoäänilähteen tunnistuksen (AVSSD) sekä äänen ja videon sovituksen (AVM), neljä yhteistä äänen ja videon tuloa. havaintotehtävät.

Niistä AVQA on äskettäin ehdotettu testisarja ja AVM on äskettäin ehdotettu tehtävä, joka vaatii mallin määrittämään, vastaavatko ääni ja kuva.


Ensinnäkin video-SALMONN saavuttaa samat tai jopa paremmat tulokset yksimodaalisissa syöttötehtävissä kuin mallit, jotka pystyvät käsittelemään vain visuaalista tai kuultavaa modaalisyötettä.

Verrattuna Video-LLaMAan, suureen malliin, joka pystyy käsittelemään myös ääntä ja videota, video-SALMONN ei ainoastaan ​​lisää kykyään ymmärtää puhesyötettä, vaan myös ylittää huomattavasti suorituskykynsä erilaisissa yksimodaalisissa tehtävissä.


Äänen ja videon yhteistulon ymmärtämisessä video-SALMONN on osoittanut paljon parempia suorituskykyä kuin muut mallit.


Puheen ymmärtämiskykynsä ansiosta video-SALMONN ylittää merkittävästi samanlaisen suuren Video-LLaMA-mallin AVQA:ssa.

Vielä tärkeämpää on, että video-SALMONN osoittaa erinomaiset nollanäytteen muodostumisominaisuudet yhteiseen puhe-audio-visuaaliseen päättelyyn AVM:llä ja AVSSD:llä, jotka ovat kaksi täysin kouluttamatonta tehtävää.


Näiden yhteisten päättelykykyjen syntyminen edellyttää, että malli kiinnittää yhtä aikaa syötettävään visuaaliseen ja auditiiviseen informaatioon samanaikaisesti ja pystyy ymmärtämään audion ja visuaalisen monimutkaiset yhteydet.


Nykyiset avoimen lähdekoodin mallit eivät kuitenkaan pysty täysin ymmärtämään ääntä tai voivat kuvata vain jokaista yksittäistä tulomuotoa erikseen.

Johtopäätös

Video-SALMONNin lanseeraus auttaa parantamaan videon ymmärtämisteknologian kattavuutta ja tarkkuutta sekä tuo uusia mahdollisuuksia videon sisältöanalyysiin, tunteiden tunnistamiseen, multimodaaliseen vuorovaikutukseen ja muille aloille.


Tällä mallilla ei ole vain suuri merkitys akateemisessa tutkimuksessa, vaan se tarjoaa myös vahvan teknisen tuen käytännön sovelluksiin.

Viitteet:

https://openreview.net/pdf?id=nYsh5GFIqX