Alibaba lancia la "versione di Sora di Magic Pen Ma Liang", che fa girare i gatti con un semplice tocco, 20 video dimostrativi e 10 pagine di report

Alibaba ha rilasciato la "versione di Sora di Magic Pen Ma Liang", che fa girare i gatti con un semplice tocco, 20 video dimostrativi e 10 pagine di relazioni tecniche

2024-08-03

Cose intelligenti (account pubblico:zhidxcom）
autore vaniglia
modificare Li Shuiqing

Il campo della generazione di video tramite intelligenza artificiale è in forte espansione e nuovi prodotti video come Wensheng e Tusheng in patria e all’estero stanno emergendo in un flusso infinito. A causa della "involuzione" dei principali produttori, l'attuale modello di generazione video è vicino all'effetto "falso e reale" in tutti gli aspetti.

Ma allo stesso tempo, la precisione e la capacità di seguire le istruzioni della maggior parte dei modelli di generazione video devono ancora essere migliorate. La generazione di video è ancora un processo "scheda da disegno", che spesso richiede agli utenti di generarli più volte per ottenere risultati che soddisfino le loro esigenze. . Ciò causa anche problemi come costi eccessivi di potenza di calcolo e spreco di risorse.

Come migliorare la precisione della generazione video, ridurre il numero di "carte da disegno" e utilizzare meno risorse possibile per ottenere video che soddisfino le esigenze?

Zhidongxi ha riferito il 3 agosto che il team Alibaba è stato recentemente lanciatoModello di generazione video Tora, può essere basato suTracce, immagini, testoO una combinazione di questi, genera rapidamente video di controllo del movimento precisi con pochi tratti e supporta ancheControllo del primo e dell'ultimo fotogramma, portando la controllabilità della generazione video a un altro livello.

//oss.zhidx.com/uploads/2024/08/66acd09cc2d2b_66acd09cbf165_66acd09cbf141_Opening.mp4

Torà lo èIl primo modello quadro DiT orientato alla traiettoria, sfruttando la scalabilità di DiT, il movimento dell'oggetto generato da Tora non solo può seguire accuratamente la traiettoria, ma anche simulare efficacemente la dinamica del mondo fisico. Il documento correlato è stato pubblicato su arXiv l'1 agosto.

▲ Carta tora

Tora attualmente fornisce solo dimostrazioni video e la home page del progetto mostra che in futuro rilascerà demo online e codici di inferenza e formazione.

Indirizzo cartaceo:

https://arxiv.org/abs/2407.21705

indirizzo del progetto:

https://ali-videoai.github.io/tora_video/

1. Tre ingressi combinati modali per controllare accuratamente le traiettorie di movimento

Supporto ToràTracce, testi, immaginiLe tre modalità, o i loro ingressi combinati, consentono un controllo dinamico e preciso di contenuti video di diverse durate, proporzioni e risoluzioni.

L'input della traiettoria può essere costituito da una varietà di linee rette e curve, che hanno direzioni, ed è anche possibile combinare più traiettorie in direzioni diverse. Ad esempio, puoi utilizzare una curva a forma di S per controllare la traiettoria di un oggetto fluttuante e utilizzare descrizioni testuali per controllarne la velocità. Nel video qui sotto, le parole suggerite utilizzate utilizzano avverbi come "lento", "elegante" e "delicatamente".

//oss.zhidx.com/uploads/2024/08/66acd0922df15_66acd0921dea0_66acd0921de7e_curve trajectory.mp4

La stessa traiettoria può anche spostarsi ripetutamente su un asse, creando un'immagine che oscilla avanti e indietro.

//oss.zhidx.com/uploads/2024/08/66acd09e8ab1e_66acd09e86884_66acd09e86862_Traccia avanti e indietro.mp4

Disegnare traiettorie diverse sulla stessa immagine consente inoltre a Tora di generare video con direzioni di movimento diverse.

//oss.zhidx.com/uploads/2024/08/66acd0948ef53_66acd0948af6b_66acd0948af47_same picture.mp4

Sulla base dello stesso input di traiettoria, Tora genererà diverse modalità di movimento in base alle differenze tra i soggetti.

//oss.zhidx.com/uploads/2024/08/66acd09285368_66acd09281598_66acd09281575_circle.mp4

Ciò che è diverso dall'attuale funzione comune del pennello di movimento è che anche se non è presente alcuna immagine di input, Tora può generare il video corrispondente in base alla combinazione di traiettoria e testo.

Ad esempio, i due video 1 e 3 nel video qui sotto vengono generati senza fotogrammi iniziali, solo traiettorie e testo.

//oss.zhidx.com/uploads/2024/08/66acd09712f12_66acd0970ea1c_66acd0970e9fa_track text.mp4

Tora supporta anche il controllo del primo e dell'ultimo fotogramma, ma in questo caso appare sul documento solo come immagine e non viene fornita alcuna dimostrazione video.

▲Tora controlla il primo e l'ultimo fotogramma

Quindi, se ci sono solo due input modali di testo e immagine, è possibile ottenere lo stesso effetto? Con questa domanda in mente, ho provato ad inserire gli stessi fotogrammi iniziali e le stesse parole in altri generatori video AI.

Da sinistra a destra e dall'alto verso il basso nel video qui sotto ci sono i video generati da Tora, Vidu, Qingying e Keling. Si può vedere che quando la traiettoria è una linea retta, la generazione video senza input della traiettoria soddisfa a malapena i requisiti.

//oss.zhidx.com/uploads/2024/08/66acd5287df2f_66acd5287a1b5_66acd5287a197_鱼.mp4

Ma quando la traiettoria di movimento richiesta diventa una curva, l’input tradizionale di testo e immagine non può soddisfare la domanda.

//oss.zhidx.com/uploads/2024/08/66acd51822425_66acd5181dfab_66acd5181df87_花.mp4

2. Basato suApriSoraFramework, innovativi due moduli di elaborazione del movimento

Torà adottatoApriSoraCome modello di base dell'architettura DiT, OpenSora è un framework modello di generazione video progettato e reso open source dalla startup AI Luchen Technology.

Per ottenere la generazione di video con controllo della traiettoria basata su DiT, Tora introduce due nuovi moduli di elaborazione del movimento:Estrattore di traiettoria(Estrattore di traiettoria) efusione della guida del movimento(Motion-guidance Fuser), utilizzato per codificare la traiettoria fornita in patch di movimento spazio-temporali multi-livello.

La figura seguente mostra l'architettura complessiva di Tora. Questo approccio è coerente con la scalabilità di DiT, consentendo la creazione di video ad alta risoluzione controllati dal movimento che durano più a lungo.

▲Architettura generale di Tora

In,Estrattore di traiettoriaUtilizzando un VAE (codificatore automatico variazionale) di movimento 3D, il vettore di traiettoria viene incorporato nello stesso spazio latente delle patch video, che possono conservare efficacemente le informazioni di movimento tra fotogrammi consecutivi, quindi vengono utilizzati strati convoluzionali impilati per estrarre le caratteristiche di movimento gerarchiche.

fusione della guida del movimentoQuindi, viene utilizzato uno strato di normalizzazione adattivo per inserire senza soluzione di continuità queste condizioni di movimento multilivello nei blocchi DiT corrispondenti per garantire che la generazione video segua sempre la traiettoria definita.

Per combinare la generazione di video basata su DiT con le traiettorie, gli autori hanno esplorato tre varianti dell'architettura di fusione, inserendo patch di movimento in ciascun blocco STDiT, con Adaptive Norm che ha dimostrato le migliori prestazioni.

▲Tre progetti architettonici del dispositivo di fusione per la guida del movimento

Durante il processo formativo specifico, l'autore ha adottato diverse strategie formative per diverse condizioni di input.

Nell'addestramento sulla traiettoria, Tora utilizza un metodo di addestramento a due fasi per l'apprendimento della traiettoria. La prima fase estrae il flusso ottico denso dal video di addestramento. La seconda fase seleziona casualmente da 1 a N oggetti dal flusso ottico in base ai risultati della segmentazione del movimento e al flusso ottico punteggi. I campioni di traiettoria vengono infine perfezionati applicando un filtro gaussiano.

Nell'addestramento delle immagini, Tora segue la strategia di mascheramento adottata da OpenSora per supportare la regolazione visiva. I fotogrammi vengono sbloccati in modo casuale durante il processo di addestramento. Le patch video dei fotogrammi non mascherati non sono influenzate da alcun rumore, il che consente a Tora di integrare testo, immagini e traiettorie senza alcun rumore. rumore.

Confrontando quantitativamente con modelli avanzati di generazione video controllabili con movimento, Tora presenta un vantaggio prestazionale crescente rispetto ai metodi basati su UNet man mano che aumenta il numero di fotogrammi generati, mantenendo una maggiore stabilità del controllo della traiettoria.

▲Confronto tra Tora e altri modelli di generazione video controllabili

Ad esempio, in base allo stesso input, il video generato da Tora è più fluido di quello generato dai modelli DragNUWA e MotionCtrl e segue la traiettoria del movimento in modo più accurato.

//oss.zhidx.com/uploads/2024/08/66acd0bd4936e_66acd0bd456db_66acd0bd456b9_Comparison video.mp4

3. I “futuri” sono stati realizzati e Alibaba continua a fare progettiIntelligenza artificialevideo

I lettori di generazione di video AI sono in pieno svolgimento e Alibaba ha continuamente assediato la traccia video AI. Rispetto a Sora e ad altri modelli generali che si concentrano sulla durata e sulla qualità della generazione video, il progetto del team di Alibaba sembra concentrarsi maggiormente sull'applicazione specifica dell'algoritmo in diverse forme di generazione video.

Nel gennaio di quest'anno, Tongyi Qianwen ha lanciato il "National Dance King" ed è diventato famoso con "Terracotta Warriors and Horses Dance Object 3"; a febbraio, Alibaba ha rilasciato il framework per la generazione di video di ritratti EMO, che può far apparire le persone nella foto con una sola immagine.

A quel tempo, Zhidongzhi ha contato il layout di Alibaba nei video AI e ha scoperto che aveva lanciato almeno 7 nuovi progetti in quattro mesi, coprendo video di Vincent, video di Tusheng, danze di personaggi, ritratti parlanti, ecc. (Appare l'IA domestica a livello divino! Gao Qiqiang si trasforma in Luo Xiang, Cai Xukun diventa il re del rap e si collega a Sora)

Ora, sei mesi dopo, EMO si è trasformata da “futuro” in una funzione di “canto ed esibizione nazionale” nell’app Tongyi, disponibile per tutti. Alibaba ha anche rilasciato altri progetti video AI.

1、AtomoVideo: Generazione di immagini in video ad alta fedeltà

AtomoVideo è stato rilasciato il 5 marzo. È un framework video Tusheng ad alta fedeltà Basato sull'iniezione di immagini multi-granularità e su set di dati e strategie di formazione di alta qualità, può mantenere un'alta fedeltà tra il video generato e l'immagine di riferimento fornita, mentre. ottenere una ricca intensità di esercizio e una buona coerenza temporale.

▲AtomoVideo genera effetti video

Home page del progetto:https://atomo-video.github.io/

2、EasyAnimate-v3: Immagine singola+Genera video lunghi ad alta risoluzione dal testo

EasyAnimate è un processo di elaborazione di generazione video lanciato da Alibaba il 12 aprile e portato alla versione v3 in soli 3 mesi. Introduce un modulo di movimento estendendo il framework DiT, che migliora la capacità di catturare le dinamiche temporali e garantisce la fluidità e la coerenza dei video generati. Può generare video di circa 6 secondi con diverse risoluzioni e un frame rate di 24 fps.

▲EasyAnimate v3 genera effetti video

Home page del progetto:https://github.com/aigc-apps/EasyAnimate

Conclusione:Intelligenza artificialeLa generazione video è ora più controllabile

Quando la lunghezza e la qualità della generazione di video AI avranno raggiunto un certo livello, come rendere i video generati più controllabili e più in linea con le esigenze è una proposta importante al momento.

Con la continua ottimizzazione di precisione, controllabilità ed efficienza nell’utilizzo delle risorse, l’esperienza di utilizzo dei prodotti di generazione video AI introdurrà una nuova fase e il prezzo diventerà più conveniente, consentendo a più creatori di partecipare.

notizia

Alibaba ha rilasciato la "versione di Sora di Magic Pen Ma Liang", che fa girare i gatti con un semplice tocco, 20 video dimostrativi e 10 pagine di relazioni tecniche

introduzione

le mie informazioni di contatto