notizia

La beta pubblica gratuita ha travolto il server e Sora ha ricevuto elogi per la sua sensazione fisica.

2024-07-24

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Autore丨Zimo

Dopo Sora, Runway e Pika, un altro prodotto AI basato su immagini e generato da video è esploso in popolarità: Dream Machine.

Dietro Dream Machine c'è un'azienda americana fondata nel 2021 chiamata Luma AI. Negli ultimi tre anni ha condotto con successo tre round di finanziamento, per un importo totale di finanziamento pari a 67,3 milioni di dollari. Il finanziamento di serie B più recente di 43 milioni di dollari è avvenuto nel gennaio di quest'anno, guidato dal noto istituto di venture capital a16z, con Nvidia che ha partecipato al secondo investimento, e la valutazione post-money ha raggiunto i 200-300 milioni di dollari.


Nel giugno di quest'anno, Dream Machine ha lanciato una beta pubblica gratuita in tutto il mondo. Ogni utente ha 30 opportunità di generare video gratuitamente ogni mese e ogni video dura 5 secondi. Per confrontare e competere con coloro che sono entrati per primi nel gioco, evidenzia le caratteristiche di "efficienza", "fisica" e "movimento dello specchio". Una delle caratteristiche principali è che può generare un video da 120 fotogrammi in soli 120 secondi (tuttavia, c'erano troppe persone in coda durante il periodo della beta pubblica e gli utenti generalmente riferivano che ci volevano 10-20 minuti per generare un video, e alcuni impiegano anche 2 ore). La simulazione del mondo fisico pone inoltre un'enfasi particolare sulla coerenza dei personaggi e può utilizzare le abilità naturali della macchina fotografica per rendere l'immagine più fluida e realistica, integrandosi con le emozioni espresse. Il brainstorming degli utenti rende i video generati pieni di creatività e immaginazione e anche la loro applicazione nella pubblicità, nell'insegnamento e nella formazione, nella creazione di storie e in altri campi ha svolto un ruolo significativo nella riduzione dei costi e nell'aumento dell'efficienza.

Quale prodotto di generazione video AI è il migliore?

In termini di design, la pagina di Dream Machine è intuitiva e semplice, con due funzioni: Vincent Video e Tusheng Video. Nei video Wensheng, le descrizioni in inglese avranno effetti migliori. Se vuoi che i video generati siano più in linea con le tue esigenze, devi utilizzare descrizioni di testo quanto più accurate e dettagliate possibile. Puoi anche aggiungere alcune parole sulle espressioni emotive rendere gli effetti più realistici.

Tuttavia, per gli utenti che non sono così forti nella creazione di testo, la funzione video Tusheng sarà più popolare, perché è più simile a un'elaborazione secondaria su un'opera. Basta caricare un'immagine e aggiungere una descrizione testuale basata sulla scena che hai in mente per animare l'immagine statica e raccontare la storia sotto forma di video.

Su Twitter possiamo vedere diversi video creativi condivisi dagli utenti, tra cui quelli divertenti che fanno muovere la Gioconda, utilizzando i selfie per ripristinare la scena quando si scattano i selfie, e teneri "resuscitando" persone importanti per ricreare la scena, ecc. Si può dire che gli strumenti di creazione dell’intelligenza artificiale e la ricca immaginazione degli utenti danno nuova vitalità alle opere.

In questo ambito il benchmarking è sempre stato un tema inscindibile. Da un punto di vista architettonico, Dream Machine e Sora utilizzano entrambi l'architettura Diffusion Transformer, e la correlazione sarà maggiore dal punto di vista dei contenuti generati, rispetto a Runway e Pika, la differenziazione di Dream Machine si riflette nella più ampia gamma di movimenti e; cambio dell'obiettivo Ci sono più angolazioni e più veloci, piuttosto che far muovere leggermente gli oggetti nel video, ma poiché il modello è ancora agli inizi, sorgono anche problemi di controllabilità. Ad esempio, durante i test sugli utenti, si è verificato un irragionevole fenomeno multi-testa quando si cambiavano le lenti degli animali. Nel complesso, ci sono molti punti che possono essere ottimizzati nei dati e nel modello.

Considerando la durata di una singola generazione di video, Dream Machine può generare un video di 5 secondi in 120 secondi, Runway è più veloce e può generare un video di 10 secondi in 90 secondi. Nell'ultima versione può essere esteso a 18 secondi, mentre Pika è ancora un video singolo. Può generare solo un video di 3 secondi. Sora, in quanto creatore, ha superato il limite di tempo e può generare un video di 1 minuto, ma ci vuole quasi un'ora per il rendering. . Confrontando i prezzi di diversi prodotti, dopo il periodo di prova gratuita, Dream Machine ha il prezzo complessivo più alto, mentre la versione professionale di Pika ha un prezzo 6 volte quello della versione standard e altri prodotti sono circa 2-3,5 volte.


(Confronto dei prezzi dei prodotti per la generazione di video AI)

Infine, a giudicare dall'effetto di generazione del video, lo stesso paragrafo di testo è espresso in diversi stili di video generati da diversi prodotti. Rispetto ad altri prodotti, la sensazione cinematografica e il realismo fisico sono una delle sensazioni comuni che gli utenti provano quando utilizzano Dream Machine. Le riprese video e la sensazione coinvolgente che genera sono più forti. Per riassumere, ci sono due possibili ragioni. Innanzitutto, il prodotto utilizza un gran numero di filmati durante l'addestramento del modello, il che rende il video generato pieno di immaginazione. Non si limita alle cose nell'immagine originale, ma ne aggiunge alcune aggiuntive scene, e anche L'elaborazione dei personaggi animati e l'aggiunta dei movimenti della bocca li fanno apparire più realistici, un altro punto è strettamente legato alla tecnologia e all'accumulo di esperienza dell'azienda dietro di essa nella modellazione 3D;

Le minifigure 3D di Vincent sono rese possibili dal suo accumulo di tecnologia.

Luma AI si è concentrata sulla generazione di contenuti 3D sin dalla sua fondazione. L'applicazione per modelli 3D Vincent Genie1.0, lanciata in precedenza, è diventata un successo globale. L'applicazione ha una versione web per PC e una versione APP mobile (denominata Luma AI) e può essere utilizzata anche sui server Discord ampiamente utilizzati all'estero.

Basta inserire una descrizione testuale e in 10 secondi possono essere generati quattro modelli 3D realistici, simili a una "piccola figura". Dopo aver selezionato in base alle preferenze personali, puoi anche modificare tu stesso la trama, inclusa quella originale, liscia e riflettente. Infine, può essere prodotto in più formati come fbx, gltf, obj, ecc., per ottenere una connessione perfetta con altri software di editing 3D (come Unity e Blender), consentendo al modello di muoversi, adattandosi perfettamente a giochi, animazioni e altro scene, realizzando veramente a valle Fornire potenziamento della scena.


La bassa soglia tecnica di Genie1.0 consente inoltre agli utenti di ricostruire scene 3D semplicemente girando videoclip. In base ai requisiti, scatta riprese a 360° dell'oggetto da tre angolazioni: guardando in alto, guardando in basso e guardando in alto. Dopo il caricamento, attendi qualche minuto affinché Genie 1.0 completi il ​​rendering 3D del video.

In termini di tecnologia, si può dire che Luma AI abbia portato il NeRF (Neural Radiation Field) all'estremo. Il NeRF tradizionale richiede l'uso di attrezzature professionali per scattare un gran numero di foto e le posizioni coordinate devono essere seguite rigorosamente. Al giorno d'oggi, grazie all'open source del codice sottostante, sono stati sviluppati modelli sempre più semplificati e le foto richieste e i requisiti dell'angolo di ripresa sono stati notevolmente ridotti. Genie1.0 ha raggiunto un livello superiore ed è diventata una guida che può essere utilizzato sempre e ovunque disponibile.

L'accumulo di tecnologia e prodotti 3D ha aiutato l'azienda a passare senza problemi dalla generazione 3D alla generazione video, ma, al contrario, la generazione video ha anche creato condizioni di alta qualità per il 3D. Nel concetto di Luma AI, lo scopo di realizzare prodotti di generazione video è aggiungere dimensioni 3D e temporali per creare meglio il 4D, e qui il video gioca un ruolo intermedio.

Possiamo combinare i due prodotti Genie1.0 e Dream Machine. Il primo può costruire modelli 3D attraverso video multi-angolo, mentre il secondo utilizza l'accumulo di modelli 3D per generare meglio i video. E poiché il 3D presenta limitazioni sui dati rispetto a immagini e video, se desideri creare un 3D migliore, hai bisogno di dati di modello più grandi per gestirlo. Per raggiungere l'obiettivo 4D finale, i dati multivista vengono raccolti dal video generato e quindi utilizzati per generare effetti 4D. Viene aperta una catena completa.

Dov'è la via d'uscita alla fine?

Da quest'anno il percorso della generazione di video con intelligenza artificiale è diventato gradualmente affollato, soprattutto le grandi società Internet, che si tratti di modelli autosviluppati o di investimenti, hanno preso alcune misure in questo campo. Man mano che il numero dei partecipanti continua ad aumentare, vengono gradualmente scoperti alcuni problemi, che si riflettono principalmente nella controllabilità e nella coerenza dei video generati.

Questi due problemi si verificano principalmente quando si cambia l'angolazione del video, come nella scena con più teste di animali menzionata in precedenza, e nella scena del ritratto poiché le espressioni facciali e i dettagli delle persone cambiano rapidamente e sono difficili da catturare, nel video quando si cambia l'angolo del viso, il viso potrebbe deformarsi nel secondo successivo, o addirittura non essere lo stesso viso, e questo è uno dei motivi per cui la durata del video è limitata. Quanto più tempo è necessario per generare un video, tanto più difficile è garantirne la coerenza.


(Nel video generato compaiono animali con più teste)

Questo problema critico ha preoccupato anche molti sviluppatori. Sebbene non esista ancora una soluzione perfetta, dalle loro azioni di sviluppo si può vedere che stanno già lavorando in questa direzione principale. Ad esempio, VideoCrafter2 sviluppato da Tencent AI Lab utilizza video di bassa qualità per garantire la coerenza del movimento delle cose nell'immagine. Il modello di generazione dei personaggi Vimi lanciato da SenseTime può imitare accuratamente le microespressioni dei personaggi, concentrandosi su due aspetti: Caratteri e controllabilità.

In termini di gruppi di pubblico, i prodotti di generazione di video AI sono attualmente rivolti principalmente agli utenti di fascia C. In questa fase, gli utenti stanno testando cose emergenti in termini di giocabilità e creatività, tuttavia, con l'aumento del numero di prodotti, questa mania svanisce farà affidamento anche sul supporto del lato B. Al momento, questo tipo di prodotti sta anche spingendo la domanda di API a continuare a crescere, offrendo alle aziende a valle maggiori possibilità, che si tratti di rielaborazione o di utilizzo diretto dei video generati, riducendo notevolmente i tempi e i costi di creazione.

Inoltre, Kuaishou ha recentemente collaborato con Bona per lanciare il primo cortometraggio originale cinese dell’AIGC, che ha anche sovvertito il pensiero creativo dell’industria cinematografica e televisiva tradizionale. La combinazione dei due hot track emergenti ha portato anche nuove scoperte negli scenari applicativi della generazione di video AI, e si apriranno più possibilità. Sebbene entrambi siano nelle prime fasi di sviluppo, né la tecnologia né i prodotti sono maturi, ma di fronte Considerando il duplice trend e sfruttando i due dividendi, il "co-branding" è destinato a guidare rapidamente il processo di sviluppo del settore.

L'innovazione dei prodotti creati dall'intelligenza artificiale porta creatività e sorprese illimitate nella vita delle persone e riduce anche le difficoltà e i costi di produzione. A giudicare dai prodotti attuali, sia Wensheng Video che Tusheng Video hanno creato un gameplay molto interessante e innovativo, in cui la creatività personale è il fattore chiave che guida un migliore output dell'IA. Sebbene alcuni problemi tecnici abbiano portato a bug occasionali e la forma del prodotto dipenda in gran parte dalle effettive capacità del modello, attraverso aggiornamenti iterativi, una sana concorrenza di mercato e la combinazione di tracce, credo che alla fine il modello sarà addestrato sempre più perfetto. Allo stesso tempo, guardiamo anche al futuro dei modelli di grandi dimensioni prodotti a livello nazionale per ritagliarsi una nicchia propria nel mercato globale.