sora è stata nuovamente superata! il modello video meta ai esplode, rendendo l'editing video più semplice di p-pictures

sora è stata nuovamente superata! il modello video meta ai esplode, rendendo l'editing video più semplice rispetto alle immagini p

2024-10-05

recentemente zuckerberg è stato impegnato a "rubare le luci della ribalta" in tutto il mondo.

non molto tempo fa ha iniziato la sua "seconda attività imprenditoriale" e ci ha appena mostrato i più potenti occhiali ar meta orion, che ha perfezionato per dieci anni. sebbene si tratti solo di un prototipo di macchina che scommette sul futuro, ha rubato le luci della ribalta visionpro di apple.

ieri sera, meta ha rubato ancora una volta la scena nella traccia del modello di generazione video.

meta ha detto che il nuovo meta movie gen èi "media foundation models" più avanzati fino ad oggi.

tuttavia, prendiamo prima una precauzione. i funzionari di meta non hanno ancora fornito un calendario di apertura chiaro.

i funzionari affermano di comunicare e collaborare attivamente con professionisti e creatori nel settore dell'intrattenimento e si prevede che lo integreranno nei prodotti e servizi di meta l'anno prossimo.

riassumo brevemente le caratteristiche di meta movie gen:

ha funzioni come la generazione di video personalizzata, l'editing video preciso e la generazione di audio.

supporta la generazione di video lunghi ad alta definizione 1080p, 16 secondi e 16 fotogrammi al secondo

in grado di generare fino a 45 secondi di audio di alta qualità e alta fedeltà

inserisci testo semplice per ottenere funzionalità di editing video sofisticate e precise

la demo è stata eccellente, ma non si prevede che il prodotto sarà ufficialmente disponibile al pubblico fino al prossimo anno

dì addio al "mimo" e concentrati su funzioni ampie e complete

suddiviso, movie gen ha quattro funzioni principali: generazione di video, generazione di video personalizzata, editing video preciso e generazione di audio.

la funzione video vincent è stata a lungo una caratteristica standard dei modelli di generazione video. tuttavia, meta movie gen può generare video ad alta definizione con proporzioni diverse in base alle esigenze dell'utente, il che è il primo nel suo genere nel settore.

riepilogo dell'inserimento del testo: un bradipo con occhiali da sole rosa giace su una ciambella galleggiante in una piscina. il bradipo tiene in mano una bevanda tropicale. il mondo è tropicale. la luce del sole proietta un'ombra.

riepilogo dell'immissione di testo: la telecamera è dietro un uomo. l'uomo è a torso nudo e indossa un panno verde intorno alla vita. è scalzo. con un oggetto infuocato in ciascuna mano, crea ampi movimenti circolari. sullo sfondo c'è un mare calmo. l'atmosfera è affascinante, con la danza del fuoco.

inoltre, meta movie gen fornisce funzioni di editing video avanzate, consentendo agli utenti di realizzare attività di editing video complesse tramite un semplice inserimento di testo.

dallo stile visivo del video, agli effetti di transizione tra i videoclip, alle operazioni di editing più dettagliate, questo modello ti dà anche abbastanza libertà.

in termini di generazione di video personalizzati,anche meta movie gen fa un grande passo avanti.

gli utenti possono caricare le proprie immagini e utilizzare meta movie gen per generare video personalizzati mantenendo carattere e movimento.

riepilogo dell'inserimento del testo: una cowgirl che indossa pantaloni di jeans è su un cavallo bianco in una vecchia città del western. una cintura di pelle le stringe la vita. il cavallo è maestoso, con il suo mantello che brilla alla luce del sole. le montagne rocciose sono sullo sfondo.

dalle lanterne kongming alle bolle colorate trasparenti, puoi sostituire facilmente lo stesso oggetto in un video con una sola frase.

inserimento di testo: trasforma la lanterna in una bolla che vola nell'aria.

anche se quest'anno sono stati presentati molti modelli video, la maggior parte di essi può solo generare "mimi". è un peccato abbandonarli se sono di cattivo gusto. meta movie gen non ha "ripetuto gli stessi errori".

inserimento di testo: un bellissimo pezzo orchestrale che evoca un senso di meraviglia.

gli utenti possono fornire file video o contenuto di testo e consentire a meta movie gen di generare l'audio corrispondente in base a questi input. (ps: fate attenzione al doppiaggio dell'atterraggio dello skateboard)

inoltre, non solo può creare un singolo effetto sonoro, ma anche creare musica di sottofondo o addirittura una colonna sonora completa per l'intero video, migliorando così notevolmente la qualità complessiva del video e l'esperienza visiva del pubblico.

dopo aver visto la demo, lex fridman ha espresso brevemente la sua ammirazione.

molti netizen ancora una volta hanno "spinto" sora, il futuro di openai, ma non soloi netizen che aspettavano con impazienza hanno iniziato ad attendere con ansia l'apertura delle qualifiche per l'esperienza di prova.

yann lecun, capo scienziato di meta ai, ha anche promosso online la piattaforma meta movie gen.

vale la pena guardare la torta dipinta da meta

quando è stato lanciato meta movie gen, il team di ricerca meta ai ha pubblicato contemporaneamente anche un documento tecnico di 92 pagine.

secondo i rapporti, il team di ricerca sull’intelligenza artificiale di meta utilizza principalmente due modelli di base per ottenere queste estese funzioni: i modelli movie gen video e movie gen audio.

tra questi, movie gen video è un modello base con parametri 30b, che viene utilizzato per la generazione di testo in video e può generare video hd di alta qualità fino a 16 secondi.

la fase di pre-addestramento del modello utilizza una grande quantità di dati di immagini e video per comprendere vari concetti del mondo visivo, tra cui il movimento degli oggetti, l'interazione, la geometria, il movimento della telecamera e le leggi fisiche.

per migliorare la qualità della generazione video, il modello viene anche supervisionato e ottimizzato (sft) utilizzando un piccolo set di video e didascalie di testo di alta qualità accuratamente selezionati.

il rapporto mostra che il processo di post-formazione è una fase importante nella formazione del modello movie gen video, che può migliorare ulteriormente la qualità della generazione video, in particolare le funzioni di personalizzazione e modifica di immagini e video.

vale la pena ricordare che il gruppo di ricerca ha anche confrontato il modello movie gen video con i modelli di generazione video tradizionali.

poiché sora non è attualmente aperta, i ricercatori possono utilizzare solo i video e i suggerimenti rilasciati pubblicamente per il confronto. per altri modelli, come runway gen3, lumalabs e keling 1.5, i ricercatori scelgono di generare video stessi tramite interfacce api.

e poiché i video pubblicati da sora hanno risoluzioni e durate diverse, i ricercatori hanno ritagliato i video da movie gen video per garantire che i video avessero la stessa risoluzione e durata quando confrontati.

i risultati mostrano,l'effetto di valutazione complessivo di movie gen video è significativamente migliore rispetto a runway gen3 e lumalabs, ha un leggero vantaggio rispetto a openai sora ed è equivalente a keling 1.5.

in futuro, meta prevede inoltre di rilasciare pubblicamente numerosi benchmark, tra cui movie gen video bench, movie gen edit bench e movie gen audio bench, per accelerare la ricerca sui modelli di generazione video.

il modello movie gen audio è un modello di parametri 13b per la generazione di video e testo-audio, in grado di generare fino a 45 secondi di audio di alta qualità e alta fedeltà, inclusi effetti sonori e musica, e sincronizzato con il video.

il modello adotta un modello generativo basato sul flow matching e un'architettura del modello del trasformatore di diffusione (dit) e aggiunge ulteriori moduli condizionali per fornire il controllo.

anche il gruppo di ricerca di meta ha introdotto una tecnologia di espansione audio che consente al modello di generare un audio coerente oltre il limite iniziale di 45 secondi. vale a dire, il modello può generare audio corrispondente indipendentemente dalla durata del video.

ieri tim brooks, capo di openai sora, ha annunciato ufficialmente le sue dimissioni e si è unito a google deepmind, gettando ancora una volta una nebbia sul futuro incerto del progetto sora.

secondo bloomberg, il vicepresidente di meta connor hayes ha affermato che meta movie gen attualmente non ha piani di prodotto specifici. hayes ha rivelato una ragione significativa per il ritardo nel lancio.

meta movie gen attualmente utilizza parole di testo per generare un video che spesso richiede decine di minuti di attesa, il che influisce notevolmente sull'esperienza dell'utente.

meta spera di migliorare ulteriormente l'efficienza della generazione video e di lanciare il servizio video sul terminale mobile il prima possibile per soddisfare meglio le esigenze dei consumatori.

infatti, se guardiamo la forma del prodotto,il design funzionale di meta movie gen si concentra sull'essere ampio e completo enon esiste una "gamba zoppa" come gli altri modelli video.

il difetto più evidente è che ha lo stesso sapore di "futuro" di sora.

l'ideale è molto pieno, la realtà è molto scarna.

si potrebbe dire che proprio mentre sora viene attualmente superato dai grandi modelli domestici, quando verrà lanciato meta movie gen, il panorama competitivo nel campo della generazione di video potrebbe cambiare di nuovo.

ma almeno per ora, la torta dipinta da meta è abbastanza da mandare giù.

notizia

sora è stata nuovamente superata! il modello video meta ai esplode, rendendo l'editing video più semplice rispetto alle immagini p

introduzione

le mie informazioni di contatto