È passato mezzo anno, dov'è finito il video AI?

2024-07-23

Messa a fuoco fissa (dingjiaoone) originale

Autore |.Wang Lu

Editore |. Wei Jia

Da quando Sora è apparso all'inizio di quest'anno, le persone in patria e all'estero hanno voluto usare l'intelligenza artificiale per sovvertire Hollywood. Il recente circolo di video sull'intelligenza artificiale è stato molto vivace. I prodotti sono stati rilasciati uno dopo l'altro e tutti chiedono a gran voce di mettersi al passo Sora.

Due start-up straniere di video AI stanno prendendo l'iniziativa. Luma, una società di tecnologia di intelligenza artificiale di San Francisco, ha lanciato il modello di generazione video Dream Machine e ha rilasciato un video promozionale a livello di film Runway, una startup nota nel campo dei video AI, ha anche annunciato che aprirà i test del modello Gen-3 Alpha ad alcuni utenti, affermando che può produrre dettagli come luci e ombre.

Per non essere da meno in Cina, Kuaishou ha lanciato il client Web Keling, che consente agli utenti di generare contenuti video lunghi fino a 10 secondi e dispone anche di funzioni di controllo del primo e dell'ultimo fotogramma e di controllo dell'obiettivo della fotocamera. Anche il suo cortometraggio fantasy originale sull'intelligenza artificiale "Lo strano specchio delle montagne e dei mari: Chopping Waves" viene trasmesso su Kuaishou, con tutte le immagini generate dall'intelligenza artificiale. Anche il cortometraggio di fantascienza AI "Sanxingdui: Future Apocalypse" è stato recentemente trasmesso ed è stato prodotto per il prodotto video AI di Byte Jimeng.

La rapida velocità di aggiornamento dei video basati sull'intelligenza artificiale ha portato molti netizen a dire: "Potrebbe esserci un altro sciopero generale a Hollywood".

Oggi, secondo statistiche incomplete, sulla pista video dell’intelligenza artificiale ci sono giganti nazionali ed esteri della tecnologia e di Internet come Google, Microsoft, Meta, Alibaba, Byte e Meitu, nonché aziende emergenti come Runway e Aishi Technology da "Fix Focus", solo nazionale, circa 20 aziende hanno lanciato prodotti/modelli video AI auto-sviluppati.

I dati del Toubao Research Institute mostrano che la dimensione del mercato cinese della generazione di video AI nel 2021 è di 8 milioni di yuan e si prevede che questa dimensione del mercato raggiungerà 9,279 miliardi di yuan nel 2026. Molte persone nel settore credono che la traccia video generata introdurrà un momento di metà viaggio nel 2024.

A quale stadio di sviluppo hanno raggiunto le Sora nel mondo? Chi è il più forte? L’intelligenza artificiale può abbattere Hollywood?

Assedio di Sora: sebbene esistano molti prodotti, ce ne sono pochi che possono essere utilizzati

Sono tanti i prodotti/modelli lanciati nel tracciato video AI, ma quelli realmente utilizzabili dal pubblico sono molto limitati. , il rappresentante di spicco all'estero è Sora, che sei mesi dopo è ancora in fase di test interno ed è aperto solo ai team di sicurezza e ad alcuni artisti visivi, designer e produttori cinematografici. La situazione interna è simile. Il prodotto video AI "Xunguang" di Alibaba Damo Academy e il modello video AI UniVG di Baidu sono entrambi in fase di test interno. Per quanto riguarda il popolare Kuaishou Keling, gli utenti devono fare la fila per fare domanda se vogliono usarlo Questo è stato discusso. Ho acquistato la maggior parte dei prodotti.

Tra i restanti prodotti video AI disponibili, alcuni hanno fissato soglie di utilizzo e gli utenti devono pagare o conoscere determinate tecnologie.Ad esempio, se non hai una conoscenza minima del codice di Open-Sora di Luchen Technology, gli utenti non saranno in grado di iniziare.

"Fix Focus" ha selezionato i prodotti video AI rilasciati in patria e all'estero e ha scoperto che i metodi operativi e le funzioni di ciascuno sono simili. L'utente utilizza prima il testo per generare istruzioni e allo stesso tempo seleziona la dimensione del fotogramma e l'immagine chiarezza, stile di generazione, secondi di generazione e altre funzioni e infine fa clic su Genera con un clic.

La difficoltà tecnica dietro queste funzionalità varia. Il più difficile è,La risoluzione e i secondi del video generato, questo è anche il fulcro della competizione tra le aziende nella traccia video AI durante la promozione.È strettamente correlato alla qualità dei materiali e alla quantità di potenza di calcolo utilizzata nel processo di formazione.

Il ricercatore di intelligenza artificiale Cyrus ha dichiarato a "Fixed Focus" che attualmente la maggior parte dei video AI in patria e all'estero supporta la generazione di 480p/720p e alcuni supportano video ad alta definizione 1080p.

Ha introdotto che più materiali di alta qualità e maggiore è la potenza di calcolo, il modello addestrato può generare video di qualità superiore, ma ciò non significa che materiali e potenza di calcolo di alta qualità possano generare materiali di alta qualità. Tuttavia, se un modello addestrato con materiali a bassa risoluzione è costretto a generare un video ad alta risoluzione, collasserà o si ripeterà, ad esempio avendo più mani e gambe. Questo tipo di problema può essere risolto ingrandendo, riparando e ridisegnando, ma l'effetto e il dettaglio sono nella media.

Molte aziende considerano anche la generazione di secondi lunghi un punto di forza.

La maggior parte dei video AI domestici supportano 2-3 secondi, che è considerato un prodotto relativamente potente se può raggiungere 5-10 secondi. Ci sono anche alcuni prodotti molto lunghi, come Jimeng, che può durare fino a 12 secondi, ma nessuno di questi sono buoni quanto Sora. Ha detto che viene generato il video più lungo di 60 secondi, ma poiché non è ancora aperto all'uso, le prestazioni specifiche non possono essere verificate.

La lunghezza della bobina leggera non è sufficiente, anche il contenuto video generato deve essere ragionevole. Zhang Heng, capo ricercatore di Pomegranate AI, ha dichiarato a "Dingjiao": Tecnicamente, l'IA può essere costretta a produrre continuamente. Non è esagerato affermare che anche se genera un video per un'ora, non è un problema, ma nella maggior parte dei casi ciò che vogliamo non è un pezzo di sorveglianza. Il video non è un'animazione di paesaggio in loop, ma un cortometraggio con bellissime immagini e storie.

"Fixed Focus" ha testato 5 popolari prodotti AI video Wensheng gratuiti in Cina, vale a dire Jimeng di Byte, Morph Studio di Morph AI, PixVerse di Aishi Technology, Yiying AI di MewXAI e Vega AI di Right Brain Technology, fornendo loro le stesse istruzioni di testo : "Una bambina vestita di rosso ha dato da mangiare delle carote a un coniglietto bianco nel parco."

La velocità di generazione di diversi prodotti è simile, impiegando solo 2-3 minuti, ma la chiarezza e la durata sono piuttosto diverse e la precisione è ancora più "una danza caotica".

Yiying AI

Vega AI

un sogno

Trasformazione

Versetto Pix

I vantaggi e gli svantaggi di ciascuno sono evidenti. Anche se il gioco era di breve durata, la qualità del gioco non era alta. Anche la bambina, il personaggio principale, si deformava direttamente nelle fasi successive. La qualità delle immagini di PixVerse è relativamente scarsa.

In confronto, il contenuto generato da Morph è accurato, ma solo per soli 2 secondi. Anche la qualità delle immagini di Yiying è buona, ma non comprende bene il testo e perde direttamente l'elemento chiave del coniglio, e il video generato non è abbastanza realistico ed è più in stile fumetto.

In breve, nessun prodotto può fornire un video che soddisfi i requisiti.

Sfide video AI: accuratezza, coerenza, ricchezza

L'esperienza del "messa a fuoco fissa" è molto diversa dai video promozionali rilasciati da varie aziende Se il video AI vuole essere veramente commercializzato, c'è ancora molta strada da fare.

Zhang Heng ha detto a "Fixed Focus" che da un punto di vista tecnico, considerano principalmente i livelli dei diversi modelli video AI da tre dimensioni:Precisione, coerenza, ricchezza.

Come comprendere queste tre dimensioni, Zhang Heng ha fornito un esempio.

Ad esempio, genera un video di "due ragazze che guardano una partita di basket nel parco giochi".

L'accuratezza si riflette, in primo luogo, nell'accurata comprensione della struttura del contenuto, ad esempio, se nel video compaiono due ragazze, in secondo luogo, nell'accuratezza del controllo del processo, ad esempio, dopo che è stato effettuato un tiro, la palla da basket dovrebbe cadere gradualmente; dalla rete; infine, la modellazione dei dati statici è accurata. Ad esempio, quando c'è un'ostruzione nella lente, il pallone da basket non può trasformarsi in un pallone da calcio.

La coerenza si riferisce alla capacità di modellazione dell’intelligenza artificiale nello spazio e nel tempo, che include anche l’attenzione del soggetto e l’attenzione a lungo termine.

L'obiettivo principale può essere compreso nel fatto che, durante il processo di visione di una partita di basket, le due bambine devono rimanere sempre nell'immagine e non possono correre distrattamente durante l'esercizio, i vari elementi nel video; non devono essere persi. Non devono inoltre essere presenti anomalie come deformazioni.

Ricchezza significa che anche l’intelligenza artificiale ha una propria logica e può generare alcuni dettagli ragionevoli anche senza istruzioni di testo.

Fondamentalmente, nessuno degli strumenti video AI presenti sul mercato può raggiungere pienamente le dimensioni sopra indicate, e ogni azienda propone costantemente soluzioni.

Ad esempio, in termini di coerenza dei personaggi, che è molto importante nel video, Meng e Keling hanno pensato di utilizzare Tusheng Video sostituisce Vincent Video. Cioè, l'utente utilizza prima il testo per generare immagini, quindi utilizza le immagini per generare video o fornisce direttamente una o due immagini e l'intelligenza artificiale le collega in un video in movimento.

"Ma questa non è una nuova svolta tecnologica, e i video di Tusheng sono meno difficili dei video di Vincent", ha detto Zhang Heng a "Dingzhong". Il principio dei video di Vincent è che l'intelligenza artificiale analizza prima il testo inserito dall'utente e lo smonta in un componente rispecchia la descrizione, converti la descrizione in testo e poi convertila in immagini e otterrai i fotogrammi chiave intermedi del video. Collegando queste immagini, puoi ottenere un video continuo con l'azione. Tusheng Video equivale a dare all'IA un'immagine specifica che può essere imitata, e il video generato continuerà le caratteristiche del viso nell'immagine per ottenere la coerenza del protagonista.

Ha anche detto che negli scenari reali, l'effetto dei video di Tusheng è più in linea con le aspettative degli utenti, perché il testo ha una capacità limitata di esprimere i dettagli dell'immagine. Avere immagini come riferimento aiuterà a generare video, ma non è ancora disponibile in commercio. Intuitivamente, 5 secondi sono il limite superiore del video Tusheng. Se dura più di 10 secondi, potrebbe non significare molto o il contenuto verrà ripetuto oppure la struttura sarà distorta e la qualità diminuirà.

Al momento, molti cortometraggi e film televisivi che affermano di utilizzare l’intelligenza artificiale per l’intero processo di produzione utilizzano principalmente video Tusheng o video-to-video.

Anche la funzione dell'ultimo fotogramma di Jimeng utilizza il video Tusheng ed è stata provata appositamente la "messa a fuoco fissa". I risultati sono i seguenti:

Nel processo di combinazione, i personaggi appaiono deformati e distorti.

Cyrus ha anche affermato che i video dovrebbero essere coerenti. Molti strumenti video AI che supportano la conversione da immagine a video prevedono anche le azioni successive attraverso immagini a fotogramma singolo. Per quanto riguarda la correttezza della previsione, dipende ancora dalla fortuna.

Resta intesoQuando si tratta di ottenere la coerenza dei protagonisti di Vincent Video, ogni azienda non si affida esclusivamente alla generazione di dati.Zhang Heng ha affermato che la maggior parte dei modelli si basa sul modello DIT di grandi dimensioni originale sottostante, sovrapposto a varie tecnologie, come ControlVideo (un metodo di generazione di testo-video controllabile proposto dall'Harbin Institute of Technology e Huawei Cloud), approfondendo così la comprensione del protagonista da parte dell'intelligenza artificiale. La memoria dei lineamenti del viso impedisce al viso di cambiare molto durante il movimento.

Tuttavia è ancora in fase sperimentale. Anche con la sovrapposizione tecnica, il problema della coerenza dei caratteri non è stato completamente risolto.

Video AI, perché si evolve lentamente?

Nel campo dell’intelligenza artificiale, gli Stati Uniti e la Cina sono attualmente i più popolari.

Dal relativo rapporto "The World's Most Influential Artificial Intelligence Scholars in 2023" (denominato elenco "AI 2000 Scholars") si evince che tra le 1.071 istituzioni incluse nella classifica globale "AI 2000 Institutions" in Nel quadriennio dal 2020 al 2023, gli Stati Uniti ne hanno 443, seguiti dalla Cina con 137. A giudicare dalla distribuzione per paese di "AI 2000 Scholars" nel 2023, gli Stati Uniti hanno il maggior numero di persone selezionate, con 1.079 persone, che rappresentano per il 54,0% del totale mondiale, seguita dalla Cina con 280 persone Selezionate.

Negli ultimi due anni, oltre ai grandi progressi dell’intelligenza artificiale nelle immagini e nella musica vincenziana, anche i video dell’intelligenza artificiale, che sono i più difficili da sfondare, hanno fatto alcuni passi avanti.

Alla conferenza mondiale sull’intelligenza artificiale tenutasi di recente, Le Yuan, partner di Etian Capital, ha dichiarato pubblicamente che la tecnologia di generazione video ha fatto progressi ben oltre le aspettative negli ultimi due o tre anni. Liu Ziwei, professore assistente alla Nanyang Technological University di Singapore, ritiene che la tecnologia di generazione video sia attualmente nell'era GPT-3 e sia ancora a circa sei mesi di distanza dalla maturità.

Tuttavia, anche Leyuan lo ha sottolineatoIl suo livello tecnico è ancora insufficiente per supportare la commercializzazione su larga scala, le metodologie utilizzate e le sfide incontrate nello sviluppo di applicazioni basate su modelli linguistici sono applicabili anche ai campi di applicazione legati ai video.

L'emergere di Sora all'inizio dell'anno ha scioccato il mondo. Il suo nuovo modello di diffusione DiT basato sull'architettura del trasformatore apporta innovazioni tecnologiche nella diffusione e nella generazione, migliorando la qualità e il realismo della generazione di immagini, rendendo i video AI un importante passo avanti. Cyrus ha affermato che attualmente la maggior parte dei video di Vincent in patria e all'estero utilizzano una tecnologia simile.

Fonte immagine/sito ufficiale di Sora

In questo momento, tutti sono fondamentalmente gli stessi riguardo alla tecnologia di base. Anche se ogni azienda sta cercando innovazioni tecnologiche basate su questa, un volume maggiore sta formando dati per arricchire le funzioni del prodotto.

Quando si utilizza Jimeng di Byte e Morph Studio di Morph AI, gli utenti possono scegliere come spostare il video. Il principio alla base è che i set di dati sono diversi.

"In passato, le immagini utilizzate da varie aziende durante la formazione erano relativamente semplici. Per lo più evidenziavano quali elementi esistevano nell'immagine, ma non spiegavano quale obiettivo era stato utilizzato per riprendere quell'elemento. Ciò ha fatto sì che molte aziende scoprissero questa lacuna, quindi hanno utilizzato il 3D. Il set di dati video di rendering integra le funzionalità dell'obiettivo." Zhang Heng ha affermato che i dati attuali provengono da rendering dell'industria cinematografica e televisiva e di società di giochi.

Anche "messa a fuoco fissa" ha provato questa funzione, ma il cambio lente non era molto evidente.

Il motivo per cui Sora si è sviluppato più lentamente di GPT e Midjourney è perché ha un'altra sequenza temporale e l'addestramento dei modelli video è più difficile del testo e delle immagini. "Tutti i dati di formazione video che possono essere utilizzati ora sono stati esauriti e stiamo anche pensando ad alcuni nuovi modi per creare una serie di dati che possano essere utilizzati per la formazione", ha affermato Zhang Heng.

E ogni modello di video AI ha il proprio stile in cui è bravo. Ad esempio, i video di cibo e trasmissione di Kuaishou Keling sono migliori perché dietro di essi c'è una grande quantità di supporto di dati.

Shen Renkui, fondatore di Pomegranate AI, ritiene che le tecnologie video AI includano Text to video (testo in video), Image to video (immagine in video), Video to video (video in video) e Avatar to video (digital human), personalizzabile Le persone digitali con immagine e voce sono state utilizzate nel campo del marketing e hanno raggiunto il livello di utilizzo commerciale, mentre Vincent Video deve ancora risolvere i problemi di precisione e controllabilità.

In questo momento, che si tratti del cortometraggio di fantascienza AI "Sanxingdui: Future Apocalypse" coprodotto da Douyin e Bona, o del cortometraggio di fantascienza AI "Mountains and Seas Strange Mirror: Cutting Waves" originariamente creato da Kuaishou, sempre più grandi aziende modello sono attivamente alla ricerca di team di produzione cinematografica e televisiva. Per la cooperazione, è necessario promuovere i propri prodotti tecnologici e i lavori non sono fuori dal settore.

Nel campo dei video brevi l’intelligenza artificiale ha ancora molta strada da fare ed è addirittura prematuro affermare che ucciderà Hollywood.

*L'immagine del titolo proviene da Pexels.

notizia