uutiset

MotionClone: ​​Ei vaadi koulutusta, videoliikkeiden kloonaus yhdellä napsautuksella

2024-07-15

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

AIxiv-sarake on sarake, jossa Machine Heart julkaisee akateemista ja teknistä sisältöä. Viime vuosina Heart of the Machine AIxiv -kolumni on saanut yli 2 000 raporttia, jotka kattavat tärkeimpien yliopistojen ja yritysten huippulaboratoriot ympäri maailmaa ja edistävät tehokkaasti akateemista vaihtoa ja levittämistä. Jos sinulla on erinomaista työtä, jonka haluat jakaa, ole hyvä ja osallistu tai ota meihin yhteyttä raportoidaksesi. Lähetyssähköposti: [email protected]; [email protected]

Harjoitusta tai hienosäätöä ei tarvita, ja viitevideon liike voidaan kloonata kehotussanan määrittelemään uuteen kohtaukseen, olipa kyseessä globaali kameran liike tai paikallinen kehon liike, se voidaan tehdä yhdellä napsautuksella.



Paperi: https://arxiv.org/abs/2406.05338

Kotisivu: https://bujiazi.github.io/motionclone.github.io/

Koodi: https://github.com/Bujiazi/MotionClone

Tässä artikkelissa ehdotetaan uutta MotionClone-nimistä kehystä. Kaikki viitevideot voivat poimia liiketietoja ilman mallin harjoittelua tai hienosäätöä mukautetulla liikkeellä (teksti2video).



Aiempaan tutkimukseen verrattuna MotionClonella on seuraavat edut:

Ei vaadi koulutusta tai hienosäätöä: Aiemmat lähestymistavat vaativat usein koulutusmalleja liikemerkkien koodaamiseen tai videon diffuusiomallien hienosäätöä tiettyihin liikekuvioihin sopiviksi. Liikemerkkien koodaamiseen tarkoitetuilla koulutusmalleilla on huono yleistyskyky liikkua harjoitusalueen ulkopuolella, ja olemassa olevien videon luontimallien hienosäätö voi vahingoittaa perusmallin taustalla olevaa videon luomisen laatua. MotionClone ei vaadi lisäkoulutusta tai hienosäätöä, mikä parantaa liikkeen yleistysominaisuuksia säilyttäen samalla perusmallin sukupolven laadun suurimmassa määrin.

Parempi liikkeen laatu: Olemassa olevien avoimen lähdekoodin Wensheng-videomallien on vaikea luoda suuria ja järkeviä liikkeitä. MotionClone ottaa käyttöön pääkomponentin ajallisen huomion liikeohjauksen, joka parantaa huomattavasti luotujen videoiden liikeamplitudia ja varmistaa samalla tehokkaasti liikkeiden rationaalisuuden.

Parempi spatiaalinen sijaintisuhde: Välttääkseen spatiaalisen semanttisen ristiriidan, joka voi aiheutua suorasta liikekloonauksesta, MotionClone ehdottaa spatiaalisen semanttisen tiedon ohjausta, joka perustuu ristiin huomioivaan maskiin auttamaan paikkallisen semanttisen tiedon ja spatiotemporaalisen liikeinformaation yhdistämisessä oikein.

Liiketiedot temporaalisen huomion moduulissa



Tekstimuotoisessa videotyössä temporaalisen huomion moduulia (Temporal Attention) käytetään laajasti mallintamaan videoiden kehysten välistä korrelaatiota. Koska huomiokartan pistemäärä ajallisen huomion moduulissa edustaa kehysten välistä korrelaatiota, intuitiivinen ajatus on, onko mahdollista replikoida kehysten välisiä yhteyksiä rajoittamalla huomiopisteitä liikekloonauksen saavuttamiseksi.

Kokeiluissa on kuitenkin havaittu, että täydellisen huomiokartan suora kopioiminen (pelkkä ohjaus) voi saavuttaa vain erittäin karkean liikkeensiirron. Tämä johtuu siitä, että suurin osa huomion painotuksista vastaa kohinaa tai erittäin hienovaraista liiketietoa, jota on vaikea yhdistää. teksti toisaalta määrättyjen uusien skenaarioiden yhdistelmä peittää mahdollisesti tehokkaan liikeohjauksen.

Tämän ongelman ratkaisemiseksi MotionClone esittelee pääkomponentin temporal-attention guidance -mekanismin (Primary temporal-attention guidance), joka käyttää vain ajallisen huomion pääkomponentteja ohjatakseen harvoin videon tuottamista, mikä suodattaa kohinaa ja hienovaraisia ​​liiketietoja , saavuttaa tehokkaan liikkeen kloonauksen uusissa tekstin määrittelemissä skenaarioissa.



spatiaalinen semanttinen korjaus

Pääkomponentin ajallinen huomioliikeohjaus voi saavuttaa viitevideon liikkeen kloonauksen, mutta se ei voi varmistaa, että liikkuva kohde on yhdenmukainen käyttäjän tarkoituksen kanssa, mikä heikentää videon luomisen laatua ja johtaa jopa liikkuvan kohteen vääristymiseen joissakin tapauksia.

Yllä olevien ongelmien ratkaisemiseksi MotionClone ottaa käyttöön spatiaalisen semanttisen opastusmekanismin (Location-aware semanttic guidance), jakaa videon etu- ja takatausta-alueen Cross Attention Maskin kautta ja varmistaa spatiaalisen semantiikan rajoittamalla vastaavasti videon semanttista tietoa. videon etu- ja takatausta Rationaalinen asettelu edistää ajallisen liikkeen ja tilasemantiikan oikeaa yhdistämistä.

MotionClonen toteutustiedot



DDIM-inversio: MotionClone käyttää DDIM-inversiota kääntääkseen tuloviitevideon piilevään tilaan saavuttaakseen viitevideon ajallisen huomion pääkomponentin poistamisen.

Ohjausvaihe: Jokaisen kohinan vaimentamisen aikana MotionClone ottaa samanaikaisesti käyttöön pääkomponentin ajallisen huomion liikeohjauksen ja spatiaalisen semanttisen tiedon ohjauksen, jotka yhdessä tarjoavat kattavan liike- ja semanttisen ohjauksen ohjattavaa videontuotantoa varten.

Gaussin maski: Spatiaalisessa semanttisessa ohjausmekanismissa Gaussin ytimen funktiota käytetään sumentamaan ristiin huomioiva maski mahdollisen rakenneinformaation vaikutuksen eliminoimiseksi.

Testaukseen käytettiin 30 videota DAVIS-tietojoukosta. Kokeilutulokset osoittavat, että MotionClone on saavuttanut merkittäviä parannuksia tekstin sovituksessa, ajoituksen johdonmukaisuudessa ja useissa käyttäjäkyselyn indikaattoreissa, mikä ylittää aiemmat liikkeensiirtomenetelmät. Tarkat tulokset näkyvät alla olevassa taulukossa.



MotionClonen ja olemassa olevien liikkeensiirtomenetelmien sukupolvitulosten vertailu näkyy alla olevassa kuvassa. Voidaan nähdä, että MotionClonella on johtava suorituskyky.



Yhteenvetona voidaan todeta, että MotionClone on uusi liikkeensiirtokehys, joka voi tehokkaasti kloonata viitevideon liikkeen käyttäjän antaman kehotteen määrittelemään uuteen kohtaukseen ilman koulutusta tai hienosäätöä. Videomallit tarjoavat plug and play -toiminnon urheilun räätälöinti.

MotionClone esittelee tehokkaan pääkomponentin liikeinformaation ohjauksen ja spatiaalisen semanttisen ohjauksen, joka perustuu olemassa olevan perusmallin sukupolven laadun säilyttämiseen. Samalla kun se varmistaa semanttisen kohdistuskyvyn tekstin kanssa, se parantaa merkittävästi liikkeen johdonmukaisuutta referenssivideon kanssa ja saavuttaa korkean laadun. - ohjattava videon tuotanto.

Lisäksi MotionClone voi mukautua suoraan rikkaisiin yhteisömalleihin monipuolisen videon luomisen saavuttamiseksi, ja sillä on erittäin korkea skaalautuvuus.