notizia

MotionClone: ​​nessuna formazione richiesta, clonazione dei movimenti video con un clic

2024-07-15

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

La rubrica AIxiv è una rubrica in cui Machine Heart pubblica contenuti accademici e tecnici. Negli ultimi anni, la rubrica Heart of the Machine AIxiv ha ricevuto più di 2.000 segnalazioni, riguardanti i migliori laboratori delle principali università e aziende di tutto il mondo, promuovendo efficacemente gli scambi accademici e la divulgazione. Se hai un lavoro eccellente che desideri condividere, non esitare a contribuire o contattarci per segnalarlo. E-mail di presentazione: [email protected] [email protected];

Non è richiesta alcuna formazione o messa a punto e il movimento del video di riferimento può essere clonato nella nuova scena specificata dalla parola di comando. Che si tratti del movimento globale della telecamera o del movimento locale del corpo, è possibile farlo con un clic.



Articolo: https://arxiv.org/abs/2406.05338

Pagina iniziale: https://bujiazi.github.io/motionclone.github.io/

Codice: https://github.com/Bujiazi/MotionClone

Questo articolo propone un nuovo framework chiamato MotionClone. Dato qualsiasi video di riferimento, le informazioni sul movimento corrispondenti possono essere estratte senza formazione del modello o messa a punto; queste informazioni sul movimento possono guidare direttamente la generazione di nuovi video insieme ai suggerimenti di testo con movimento personalizzato (text2video).



Rispetto alla ricerca precedente, MotionClone presenta i seguenti vantaggi:

Non è richiesta alcuna formazione o messa a punto: gli approcci precedenti spesso richiedevano modelli di formazione per codificare segnali di movimento o mettere a punto modelli di diffusione video per adattarsi a modelli di movimento specifici. I modelli di addestramento per codificare i segnali di movimento hanno una scarsa capacità di generalizzazione del movimento al di fuori del dominio di addestramento e la messa a punto dei modelli di generazione video esistenti può danneggiare la qualità di generazione video sottostante del modello di base. MotionClone non richiede l'introduzione di alcuna formazione aggiuntiva o messa a punto, migliorando le capacità di generalizzazione del movimento pur mantenendo nella massima misura la qualità di generazione del modello base.

Maggiore qualità del movimento: è difficile per i modelli video Wensheng open source esistenti generare movimenti ampi e ragionevoli. MotionClone introduce la guida al movimento dell'attenzione temporale della componente principale per migliorare notevolmente l'ampiezza del movimento dei video generati garantendo allo stesso tempo la razionalità dei movimenti.

Migliore relazione di posizione spaziale: al fine di evitare la mancata corrispondenza semantica spaziale che può essere causata dalla clonazione diretta del movimento, MotionClone propone una guida alle informazioni semantiche spaziali basata su maschere di attenzione incrociata per assistere nel corretto accoppiamento delle informazioni semantiche spaziali e delle informazioni sul movimento spaziotemporale.

Informazioni sul movimento nel modulo di attenzione temporale



Nel lavoro video generato da testo, il modulo di attenzione temporale (Temporal Attention) è ampiamente utilizzato per modellare la correlazione tra fotogrammi dei video. Poiché il punteggio della mappa dell'attenzione nel modulo dell'attenzione temporale rappresenta la correlazione tra i fotogrammi, un'idea intuitiva è se sia possibile replicare le connessioni tra i fotogrammi vincolando i punteggi dell'attenzione per ottenere la clonazione del movimento.

Tuttavia, gli esperimenti hanno scoperto che la copia diretta della mappa completa dell'attenzione (controllo semplice) può ottenere solo un trasferimento del movimento molto approssimativo. Questo perché la maggior parte dei pesi nell'attenzione corrispondono al rumore o alle informazioni di movimento molto sottili, che sono difficili da combinare con testo da un lato, la combinazione di nuovi scenari prescritti, dall’altro, maschera una guida al movimento potenzialmente efficace.

Per risolvere questo problema, MotionClone introduce il meccanismo di guida dell'attenzione temporale del componente principale (guida dell'attenzione temporale primaria), che utilizza solo i componenti principali dell'attenzione temporale per guidare scarsamente la generazione del video, filtrando così il rumore e le informazioni di movimento sottili , ottenendo un'efficace clonazione del movimento in nuovi scenari specificati dal testo.



correzione semantica spaziale

La guida al movimento dell'attenzione temporale della componente principale può ottenere la clonazione del movimento del video di riferimento, ma non può garantire che il soggetto in movimento sia coerente con l'intenzione dell'utente, il che ridurrà la qualità della generazione video e porterà addirittura al disallineamento del soggetto in movimento in alcuni casi. casi.

Per risolvere i problemi di cui sopra, MotionClone introduce un meccanismo di guida semantica spaziale (guida semantica sensibile alla posizione), divide le aree di sfondo anteriore e posteriore del video attraverso una maschera di attenzione incrociata e garantisce la semantica spaziale vincolando rispettivamente le informazioni semantiche di lo sfondo anteriore e posteriore del video La disposizione razionale favorisce il corretto accoppiamento tra movimento temporale e semantica spaziale.

Dettagli di implementazione di MotionClone



Inversione DDIM: MotionClone utilizza l'inversione DDIM per invertire il video di riferimento in ingresso nello spazio latente per ottenere l'estrazione della componente principale dell'attenzione temporale del video di riferimento.

Fase di guida: durante ogni denoising, MotionClone introduce simultaneamente la guida al movimento dell'attenzione temporale della componente principale e la guida alle informazioni semantiche spaziali, che lavorano insieme per fornire una guida completa al movimento e alla semantica per la generazione di video controllabile.

Maschera gaussiana: nel meccanismo di guida semantica spaziale, la funzione del kernel gaussiano viene utilizzata per offuscare la maschera di attenzione incrociata per eliminare l'influenza di potenziali informazioni strutturali.

Per i test sono stati utilizzati 30 video del set di dati DAVIS. I risultati sperimentali mostrano che MotionClone ha ottenuto miglioramenti significativi nell'adattamento del testo, nella coerenza temporale e negli indicatori di sondaggio multiutente, superando i precedenti metodi di trasferimento del movimento. I risultati specifici sono mostrati nella tabella seguente.



Il confronto tra i risultati della generazione di MotionClone e i metodi di trasferimento del movimento esistenti è mostrato nella figura seguente. Si può vedere che MotionClone ha prestazioni leader.



Per riassumere, MotionClone è un nuovo framework di trasferimento del movimento che può clonare efficacemente il movimento nel video di riferimento nella nuova scena specificata dalla parola data dall'utente senza la necessità di formazione o messa a punto. I modelli video forniscono plug-and-play personalizzazione sportiva.

MotionClone introduce un'efficiente guida alle informazioni sul movimento dei componenti principali e una guida semantica spaziale sulla base del mantenimento della qualità di generazione del modello base esistente, garantendo al tempo stesso la capacità di allineamento semantico con il testo, migliora significativamente la coerenza del movimento con il video di riferimento e raggiunge un'elevata qualità -generazione video controllabile.

Inoltre, MotionClone può adattarsi direttamente a ricchi modelli di comunità per ottenere una generazione di video diversificata e ha una scalabilità estremamente elevata.