Guerra di generazione video 2.0! Dachang impazzisce per il model

Guerra di generazione video 2.0!Dachang fa rotolare all'impazzata il modello in basso

2024-07-24

Cose intelligenti (account pubblico:zhidxcom）
autorevaniglia
modificareLi Shuiqing

Per parlare dei tracciati più apprezzati dai modelli di grandi dimensioni nel 2024, la generazione di video deve essere nella lista.

Dopo che Sora ha aperto una nuova era nella generazione di video con intelligenza artificiale a febbraio, il rilascio intensivo del modello a giugno di quest'anno ha spinto la guerra della generazione di video a un nuovo culmine.

"La prossima generazione di film e televisione basati sull'intelligenza artificiale è qui", "È così potente, è come se cantassi e poi apparissimo", "Finalmente c'è speranza di sbarazzarsi dell'era PPT", "Sembra che l'intelligenza artificiale verrà utilizzata per produrre presto MV. "...Tra i creatori o professionisti di video AI, l'emozione più comune che vediamo è" eccitazione ".

Dall'uscita di Sora, super8CasaLe aziende di intelligenza artificiale nazionali ed estere lanciano nuovi prodotti o modelli uno dopo l’altro, generando nuovi prodotti ad ogni turno.più di 10 secondiI video sono disponibili al pubblico e si dice che alcuni siano stati implementati da molto tempo2 minutiLa generazione di video ultra-lunga e il percorso di generazione di video AI hanno scatenato una calda guerra 2.0.

Da questa parte,byteSii il primo a lanciare il prodotto di generazione video AI Jimeng, che estende il tempo di generazione video dai comuni 3-4 secondi a 12 secondi;lavoratore veloceIl grande modello di Ke Ling è stato improvvisamente rilasciato e l'effetto sorprendente ha scatenato accese discussioni su Internet. Il numero di persone in fila era vicino a 1 milione.

▲Il numero di candidati in fila per Kuaishou Keling

Laggiù, le startupLuma AI"Abbandona la proiezione video 3D" e rilascia Dream Machine per entrare nel gioco con giocatori veterani di alto profilo;Pista di decolloPer non essere da meno, ha lanciato una nuova generazione di modelli Gen-3, spingendo le sue capacità di simulazione fisica a nuovi livelli.

▲Effetto di generazione video di terza generazione

Sul campo della battaglia finanziaria la guerra è altrettanto feroce. domestico,Tecnologia Aishi, Tecnologia ShengshuDa marzo ha ottenuto successivamente finanziamenti miliardari all'estero;PikaA giugno ha ricevuto finanziamenti per 80 milioni di dollari, raddoppiando la sua valutazione a 500 milioni di dollari.Pista di decolloÈ stato rivelato che sta preparando un finanziamento fino a 450 milioni di dollari USA.

Sora è come un blockbuster che ha sconvolto il mondo della generazione di video AI. Ora, dopo cinque mesi di intensa ricerca, qual è il progresso dei prodotti di generazione video AI in patria e all'estero? Possono competere con Sora? Quali sfide dovrà affrontare? Attraverso l'esperienza orizzontale dei prodotti disponibili e le discussioni con professionisti e creatori, Zhidongxi fornisce un'analisi approfondita di questi problemi.

Nella misurazione effettiva, posso sentire chiaramente che la velocità di generazione del video è diventata più veloce, il fenomeno del "rollover" è stato notevolmente ridotto e il semplice panning "stile PPT" si è evoluto in movimenti con angoli e cambiamenti nei movimenti. Dopo l'esperienza complessiva, i migliori risultati tra i prodotti gratuiti sono Jimeng e Keling, che sono i leader in termini di durata, stabilità e simulazione fisica.

In termini di finanziamenti, rispetto a prima del rilascio di Sora, la densità e l'importo dei finanziamenti relativi alla generazione di video AI sono aumentati in modo significativo, attirando oltre 4,4 miliardi in cinque mesi. Ha inoltre spinto altri prodotti nella fase "upstream e downstream". del processo di produzione video, come l'editing AI, l'illuminazione AI, ecc. sono favoriti dal capitale. Inoltre, ci sono molti nuovi giocatori che entrano nel gioco e alcuni hanno raccolto centinaia di milioni di fondi prima di rilasciare qualsiasi prodotto o tecnologia.

1. Battaglia tecnica: durata del rollio, alta definizione del rollio, simulazione fisica del rollio

Il 16 febbraio OpenAI ha rilasciato Sora, che da un giorno all'altro ha ribaltato il percorso della generazione di video AI. Tuttavia, cinque mesi dopo, Sora è ancora un prodotto futuro e sembra lontano il momento in cui sarà disponibile al grande pubblico.

Durante questo periodo, i principali produttori e start-up nazionali ed esteri si sono affrettati a rilasciare nuovi prodotti o aggiornamenti di modelli e la maggior parte di essi è stata aperta a tutti gli utenti. Molti di loro hanno ottenuto risultati sorprendenti. Ciò ha anche cambiato il modello dei video AI ancora una volta la generazione. Dopotutto, non importa quanto sia bravo Sora, qual è il valore se non puoi usarlo?

Secondo le statistiche incomplete di Zhidongxi, dal rilascio di Sora ce ne sono stati almeno8 caseL'azienda ha rilasciato nuovi prodotti o modelli, tutti tranne Vidu di Shengshu TechnologyDisponibile pubblicamente。

▲Rilascio del prodotto/aggiornamento del modello di generazione video AI (tabulazione intelligente est-ovest)

21 febbraioStabilità AI La versione web del prodotto di generazione video AI Stable Video è stata lanciata ufficialmente ed è aperta a tutti gli utenti. Sebbene il suo modello sottostante, Stable Video Diffusion, sia stato rilasciato come open source nel novembre dello scorso anno, ha ancora determinate soglie di distribuzione e utilizzo come modello. Dopo essere stato confezionato e rilasciato come versione web, più utenti possono iniziare in modo semplice e conveniente.

27 aprileTecnologia ShengshuIn collaborazione con l'Università di Tsinghua, Vidu ha rilasciato un ampio modello video di lunga durata, altamente coerente e altamente dinamico, che si dice sia in grado di generare video lunghi fino a 16 secondi e con una risoluzione di 1080P e possa imitare il mondo fisico reale .

A giudicare dalla demo rilasciata, Vidu ha effettivamente ottenuto buoni risultati in termini di chiarezza, libertà di movimento, simulazione fisica, ecc. Tuttavia, sfortunatamente, Vidu, come Sora, non è ancora stato rilasciato. Zhidongxi ha chiesto a Shengshu Technology e ha appreso che il prodotto inizierà i test interni nel prossimo futuro.

▲Dimostrazione video Vidu della tecnologia Shengshu

9 maggiobyteDreamina, la piattaforma di creazione AI di proprietà di Jiuying, è stata ribattezzata "Jimeng" e ha lanciato funzioni di disegno AI e generazione di video AI, supportando la generazione di video lunghi fino a 12 secondi.

6 giugnolavoratore veloce Il grande modello video AI Keling viene rilasciato e lanciato sull'app Kuaiying. Gli utenti devono solo compilare un questionario per richiederne l'uso. Keling Large Model si concentra sulla simulazione ad alta intensità delle caratteristiche del mondo fisico, come il problema del "mangiare gli spaghetti" che mette in difficoltà molte IA, e che si riflette nei casi video che fornisce.

Attualmente, Keling supporta la generazione di video di durata fissa di 5 secondi e 10 secondi. Secondo il sito ufficiale, il modello può generare video della durata massima di 2 minuti, con un frame rate di 30 fps e una risoluzione di 1080P. Funzioni come la continuazione del video verranno lanciate in futuro.

Il 13 giugno, una startup che in precedenza si concentrava principalmente sul 3D generato dall'intelligenza artificialeLuma AIAnnunciato il lancio dello strumento di generazione video Dream Machine, che supporta la generazione di video di 5 secondi da testo e immagini. Fornisce inoltre una funzione di estensione video in grado di estendere il video generato di 5 secondi alla volta.

17 giugnoPista di decollo Il modello di nuova generazione Gen-3 Alpha viene rilasciato e sarà disponibile per tutti gli utenti a pagamento il 2 luglio, con una quota di abbonamento minima di $ 15 al mese. Gen-3 attualmente supporta la generazione di video da 5 e 10 secondi basati su testo. Tusheng Video e altri strumenti controllabili non sono ancora disponibili.

▲Gen-3 Alpha genera effetti video

6 luglioFuturo intelligente(HiDream) ha rilasciato l'Intelligent Image Model 2.0 su WAIC, fornendo tre durate di generazione video di 5, 10 e 15 secondi e aggiungendo funzionalità come la generazione di incorporamento di testo, la generazione di video multi-scatto di script e la coerenza IP.

Il 17 luglio, una startup britannica di intelligenza artificiale che in precedenza si concentrava sulla ricostruzione 3D dell'intelligenza artificialeAI di Haiper, ha annunciato che il suo prodotto di generazione video AI Haiper è stato aggiornato alla versione 1.5, con la durata estesa a 8 secondi e fornendo funzioni come l'estensione video e il miglioramento della qualità dell'immagine.

La tabella seguente mostra il tempo di generazione, la risoluzione, il frame rate e altri parametri di questi modelli, nonché funzionalità aggiuntive oltre alla generazione di base.

▲Parametri del prodotto per la generazione video AI aggiornati (tabulazione intelligente est-ovest)

Dal punto di vista dei parametri, questi prodotti di generazione video AI hanno innanzitutto ottenuto progressi significativi nel tempo di generazione. Il tempo di generazione di base è stato esteso dai precedenti 2-4 secondi a 5 secondi e più della metà di essi supporta durate superiori a 10. secondi e alcuni Il prodotto fornisce funzionalità di estensione. Tra i prodotti attualmente disponibili gratuitamente, il video più lungo generato è di 12 secondi da Jimeng.

In termini di effetti visivi, la risoluzione e la frequenza dei fotogrammi sono state notevolmente migliorate. Esistono più prodotti che supportano 720P e versioni successive e anche la frequenza dei fotogrammi è più vicina a 24/30 fps. La maggior parte delle risoluzioni video generate dai prodotti precedenti erano circa 1024*. 576 e il frame rate era di circa 1024*576. La velocità è principalmente di 8-12 fps.

2. Guerra del prodotto:Prova pratica6 "punti liberi", "Dikkuai" è in testa

Quando Sora fu rilasciato per la prima volta, Zhixixi aveva un'esperienza approfondita con 8 strumenti di generazione video AI disponibili in Cina. A quel tempo, il divario era ancora relativamente evidente e c'erano molti "rollover". (È stata recensita la prima "versione cinese di Sora" dell'intera rete! Hanno gareggiato 15 aziende, con Byte in testa)

Quindi, dopo diversi mesi di aggiornamenti iterativi, come si comportano i giocatori che hanno inviato nuove risposte? Zhidongxi ha sperimentato i prodotti di generazione video AI appena rilasciati o aggiornati. Per ragioni di correttezza, abbiamo provato solo le funzionalità gratuite e selezionato i video generati per la prima volta.

Va notato che la stessa generazione del video ha un elemento di fortuna simile alle "carte da pesca", ed è anche strettamente correlata alla scrittura di parole rapide. Pertanto, un piccolo numero di casi non rappresenta pienamente l'abilità del modello.

Ho scelto il primo livelloscena di natura morta, la parola immediata è:Primo piano dei tulipani immersi nella calda luce del tramonto。

Stabile Il video mostra un'elevata stabilità in questo prompt e, allo stesso tempo, la chiarezza dell'immagine e la ricchezza dei colori sono relativamente elevate. In termini di movimento, il movimento dell'obiettivo è l'obiettivo principale.

▲Il video stabile genera video

La chiarezza dell'immagine di Dream Machine è ovviamente inferiore, ma la resa delle parole è ancora relativamente accurata e anche il movimento si basa principalmente sulla traduzione dell'obiettivo.

▲Dream Machine genera video

Il video generato da Haiper ha buoni effetti visivi, ma il raggio di movimento è leggermente inferiore.

▲Haiper genera video

Anche le prestazioni del modello grande di Zhixiang sono buone e l'immagine ha un forte effetto di profondità di campo. Tuttavia, se guardi da vicino i petali, scoprirai che ci sono difetti nei dettagli e instabilità.

▲ Video sulla generazione di modelli di grandi dimensioni Zhixiang

Ji Meng ha generato un'immagine con obiettivo fisso, in cui il movimento è dominato principalmente dallo scuotimento dei tulipani e l'effetto complessivo è relativamente stabile.

Il video generato da Keling mostra all'estremo la parola "primo piano". Allo stesso tempo, l'immagine ha un'alta definizione e raffigura la trama dei petali. Ma detto questo, come capire "primo piano dei tulipani" non è una domanda a risposta fissa, quindi è impossibile dire chi ha ragione e chi ha torto.

//oss.zhidx.com/uploads/2024/07/6696499b734af_6696499b690e6_6696499b690bc_Tulip-Keling.mp4

▲Keling genera video

Nel complesso, le prestazioni dei vari lettori nelle scene di natura morta sono molto stabili e l'usabilità dei video generati è molto elevata.

Ho scelto il secondo livelloscena animale, e aggiunti elementi di stilizzazione e azione dinamica. Le parole suggerite sono:Un canguro cartone animato che balla in discoteca . Questo è in realtà uno dei casi forniti da Sora. Per prima cosa, diamo un'occhiata alle prove di Sora.

//oss.zhidx.com/uploads/2024/07/6696464125de3_6696464116ab1_6696464116a7c_Dancing-kangaroo.mp4

▲Sora genera un caso video

Stabile Video "colpisci la strada" a questo livello. Il primo fotogramma dell'immagine è perfetto: potrebbe essere correlato al percorso scelto da Stable Video durante la generazione del video. Durante il processo di generazione, verranno prima generate 4 immagini che l'utente potrà scegliere, quindi genererà il video in base a immagine selezionata dall'utente - e poi il canguro. Tutto il suo corpo ha cominciato a torcersi e deformarsi.

La cosa più interessante è che i personaggi e gli animali antropomorfi sullo sfondo dell'immagine non hanno grossi problemi. Mi chiedo se sia stata l'azione del "ballo in discoteca" a bloccare Stable Video.

▲Il video stabile genera effetti video

La stabilità complessiva del video generato da Dream Machine è buona, ma manca stabilità in dettagli come i piedi e le mani del canguro. In termini di gamma di movimento, oltre al movimento del canguro stesso, subisce anche una transizione dell'obiettivo dal primo piano al panorama.

Ho provato di nuovo la funzione di estensione video di Dream Machine e il contenuto generato dall'estensione è 5 secondi dopo il video. Si può vedere che non si limita a un singolo scatto, ma passa da un corpo intero a un primo piano della parte superiore del corpo. Tuttavia, nel video esteso, sebbene i personaggi sullo sfondo siano più stabili, il canguro è ancora più instabile.

//oss.zhidx.com/uploads/2024/07/6695ec3b230c2_6695ec3b1f3da_6695ec3b1f39d_A-cartoon-kangaroo-disco-dances.-a318b1.mp4

▲Dream Machine genera effetti video

Il canguro generato da Haiper è in una certa misura distorto e non riflette la parola chiave "disco".

▲Haiper genera video

Il grande modello di Zhixiang si è ribaltato seriamente a questo livello, come Stable Video, il corpo principale dell'immagine era notevolmente distorto e non rifletteva l'effetto "discoteca".

▲Il modello di elefante intelligente genera effetti video

L'effetto visivo complessivo del video generato da Jimeng è relativamente buono, con elevata chiarezza e colori ricchi. In termini di stabilità, era relativamente normale nei primi secondi, ma negli ultimi 3 secondi circa si è verificata un'evidente distorsione e il grado di distorsione era simile a quello di Dream Machine.

In termini di comprensione semantica, l'immagine mostra alcuni movimenti "danzanti", ma ha poco a che fare con la "discoteca". Inoltre, il testo sullo sfondo dell'immagine assomiglia a "simboli di disegno fantasma".

//oss.zhidx.com/uploads/2024/07/6695ec2b3d230_6695ec2b38b00_6695ec2b38adc_IMENG.mp4

▲Effetti video generati dai sogni

I video generati da Keling sono nel complesso relativamente stabili e i problemi principali si concentrano sulle mani e sugli occhi. Ma in termini di comprensione semantica, la parola chiave "discoteca" non si riflette.

//oss.zhidx.com/uploads/2024/07/669649d2e096d_669649d2dbda7_669649d2dbd80_kangaroo-keling.mp4

▲Può essere utilizzato per generare effetti video

Nel complesso, Dream Machine, Ji Meng e Ke Ling hanno ottenuto risultati migliori a questo livello, ma nessuno di loro è riuscito a raggiungere il livello di Sora. Inoltre, questa parola tempestiva mostra anche le differenze estetiche di ciascun modello, inclusa la tendenza del colore, la scelta dello stile, il cambio delle lenti, ecc.

Il terzo livello è impostato suPrimo piano del personaggio, le parole rapide utilizzate sono:Primo piano di un astronauta che fluttua fuori dalla stazione spaziale con la Terra e la Luna sullo sfondo e le stelle riflesse sulla visiera del suo casco。

Stable Video ha funzionato bene a questo livello, descrivendo accuratamente parole chiave come "astronauta", "terra", "luna" e "riflesso delle stelle", e anche la sua stabilità era molto elevata. In termini di movimento, non si tratta di una semplice traslazione dell'obiettivo, ma del movimento del soggetto dell'immagine rispetto allo sfondo.

▲Il video stabile genera video

Dream Machine si è ribaltato, dimenticando completamente l '"astronauta" e ha dipinto una scena cosmica.

▲Dream Machine genera video

Haiper si è comportato bene in questo livello Anche se è mancata la parola "luna", sono state riflesse altre parole chiave e anche il riflesso nel casco era molto naturale.

▲Haiper genera video

Il modello grande di Zhixiang inizialmente si è rifiutato di generare la parola immediata, indicando che si trattava di contenuti sensibili. Dopo molti tagli, ho finalmente generato un video con "un primo piano di un uomo che fluttua fuori dalla stazione spaziale".

L'effetto complessivo dell'immagine è relativamente realistico. Sebbene la parola finale contenga solo la parola chiave "stazione spaziale" che riflette il contenuto, raffigura comunque elementi come la terra e le tute spaziali. Tuttavia, il protagonista non indossa un casco spaziale e non sa respirare e nemmeno parlare (doge).

▲Il modello di elefante intelligente genera effetti video

Ji Meng è relativamente bravo a ritrarre i dettagli dei personaggi. I volti e i costumi sono relativamente delicati e la stabilità è molto alta. Tuttavia, sembra che ci sia una seconda "Terra" sullo sfondo dell'immagine è più "primo piano" che "primo piano".

//oss.zhidx.com/uploads/2024/07/66964f26a7c3e_66964f26a3673_66964f26a3651_Astronaut-Jimeng.mp4

▲Video immediato sulla generazione dei sogni

All'inizio non c'erano personaggi nel video generato da Keling, poi l'astronauta è entrato lentamente nell'inquadratura, ma lo sfondo era fermo, il che sembrava avere un tocco di umorismo. Tuttavia, la precisione e la stabilità dell'immagine stessa sono ancora molto elevate, riflettendo ogni parola chiave e raffigurando anche la "stazione spaziale" che alcuni giocatori hanno mancato.

//oss.zhidx.com/uploads/2024/07/66965077c3056_66965077be925_66965077be8fa_Astronaut-Keling.mp4

▲Keling genera video

Sebbene le prestazioni complessive del livello del personaggio non siano stabili come la scena della natura morta, sono molto migliori rispetto al livello precedente. Ciò potrebbe essere correlato ai ricchi dati di allenamento e alla ridotta gamma di movimento. Quelli che si comportano meglio a questo livello sono Stable Video, Haiper, Ji Meng e Ke Ling.

Nel complesso, tra i 6 prodotti di generazione video AI che Zhidongxi ha sperimentato questa volta,Sogno, spirito Il vantaggio dell'effetto di generazione è relativamente evidente, sia in termini di durata che di stabilità, ha raggiunto buone capacità. Inoltre, anche prodotti nazionali come Morph Studio e NeverEnds sono molto efficaci, ma poiché non hanno avuto nuovi prodotti o aggiornamenti di modello dal rilascio di Sora, non rientrano nell'ambito di questa esperienza.

3. La battaglia per il capitale:5Profitto mensile44miliardi, emergono nuovi attori

Quando Sora fu rilasciato, scatenò ancora una volta una mania dell'intelligenza artificiale generativa proprio come l'originale GPT-4, innescando il limite giornaliero collettivo delle scorte di concept Vincent Video.

Anche il mercato primario sta inaugurando una nuova ondata di carnevale.Secondo le statistiche incomplete di Zhidongxi, almeno nei cinque mesi trascorsi dal rilascio di Sora5Ha vinto una startup nel percorso di generazione di video AIOltre 100 milioni di yuanIl finanziamento, per un totale di circa 1,2 miliardi di yuan, e si è scoperto che Runway stava negoziando 450 milioni di dollari (circa 3,268 miliardi di RMB) in nuovi finanziamenti.

▲Grandi investimenti e finanziamenti relativi alla generazione di video AI (Smart East-West Tabulation)

domestico,Tecnologia AishiHa raccolto fondi per due miliardi di dollari rispettivamente a marzo e aprile ed è stata favorita da investitori famosi come Ant. In precedenza, aveva ricevuto solo un round di finanziamento del valore di decine di milioni di yuan nell'agosto dello scorso anno.

Nel gennaio di quest'anno, Aishi Technology ha lanciato la versione estera del suo prodotto di generazione video AI PixVerse. A quel tempo, è diventato un potente cavallo oscuro in competizione con Pika e Runway. Dopo il rilascio di Sora, il suo fondatore Wang Changhu una volta disse che avrebbe recuperato il ritardo entro 3-6 mesi.

Sono passati cinque mesi e Aishi Technology non ha ancora rilasciato un aggiornamento iterativo del modello sottostante, ma ha successivamente lanciato nuove funzionalità come la coerenza dei caratteri e i pennelli di movimento. Zhidongxi ha chiesto informazioni sui progressi del suo prodotto e ha appreso che il suo modello di nuova generazione e le nuove funzioni "Vincent Videolungometraggio” sarà rilasciato questa settimana e può generareDurata 8 secondivideo e lattinaGenera 3-5 video audio continui contemporaneamente。

▲PixVerse lancia la funzione motion brush (Fonte: Aishi Technology)

Tecnologia Shengshu Ha inoltre ricevuto due round consecutivi di finanziamenti per un valore di centinaia di milioni di yuan in soli tre mesi, con Baidu Venture Capital che ha continuato a investire come vecchio azionista. In precedenza, Shengshu Technology ha ricevuto 2 round di finanziamento per un totale cumulativo di oltre 100 milioni di yuan.

Sabbia AI È una startup che è appena entrata negli occhi del pubblico di recente e non ha ancora rilasciato prodotti. Il 10 luglio, è stato rivelato che Sand AI ha ricevuto decine di milioni di dollari in finanziamenti di serie A guidati da Capital Today a maggio.

Sand AI è stata fondata nell'ottobre 2023 e sviluppa principalmente una tecnologia di generazione video simile a Sora.Vale la pena notare che il suo fondatoreCao YueSÌUno dei co-fondatori di Light Years Beyond, è stato capo del Visual Model Research Center dell'Istituto di ricerca Zhiyuan AI di Pechino e ricercatore leader di Microsoft Research Asia.

Le informazioni pubbliche mostrano che Cao Yue si è laureato sia con la laurea che con il dottorato presso l'Università di Tsinghua. Ha vinto il premio Marr per il miglior articolo all'ICCV, la principale conferenza sulla visione artificiale, ed è stato citato più di 40.000 volte in Google Scholar.

▲Cao Yue (fonte dell'immagine dalla sua home page personale)

AI di Haiper È anche una startup nuova nel settore della generazione di video. La società è stata fondata nel 2022 e ha sede a Londra, in Inghilterra. In precedenza si concentrava sulla ricostruzione 3D basata sull'intelligenza artificiale.

Secondo quanto riportato dai media stranieri a marzo, Haiper AI ha ricevuto 13,8 milioni di dollari (circa 100 milioni di RMB) in finanziamenti seed round, dopo aver raccolto in precedenza 5,4 milioni di dollari nell’aprile 2022.

Il team fondatore di Haiper AI è composto da due cinesi. Yishu Miao un tempo faceva parte del team globale di fiducia e sicurezza di TikTok, mentre Ziyu Wang ha lavorato come ricercatore presso DeepMind. Alla fine dell'anno scorso, il team AI di Haiper ha deciso di concentrarsi sulla generazione di video e a dicembre ha rilasciato una versione beta del suo primo prodotto di generazione di video con lo stesso nome.

▲Haiper rilascia una versione beta del suo prodotto con lo stesso nome

Pika A giugno, ha annunciato di aver ricevuto un nuovo round di finanziamento di circa 80 milioni di dollari (circa 581 milioni di RMB), con una valutazione raddoppiata a quasi 500 milioni di dollari. Nel novembre dello scorso anno, Pika ha annunciato di aver completato un finanziamento totale di 55 milioni di dollari, con una valutazione di 200-300 milioni di dollari.

2 luglio, "Vecchio giocatore" del brano di generazione video AIPista di decolloÈ stato rivelato che sta negoziando un nuovo finanziamento di 450 milioni di dollari (circa 3,268 miliardi di RMB), con una valutazione di 4 miliardi di dollari.

L’ultimo finanziamento di Runway è stato completato nel giugno dello scorso anno. Tra gli investitori figurano Google, NVIDIA, ecc., e ha raggiunto un finanziamento di 1,5 miliardi di dollari con 141 milioni di dollari, portando il finanziamento totale a 237 milioni di dollari. Se questo round di finanziamento verrà realizzato, sia l’importo del finanziamento che la valutazione saranno più che raddoppiati.

In generale, negli ultimi mesi dopo l'uscita di Sora, sul mercato primario hanno continuato ad apparire nuovi finanziamenti per la generazione di video AI. Non solo la frequenza è diventata più frequente, ma anche l'importo dei singoli finanziamenti è aumentato in modo significativo ha superato il finanziamento totale precedente. Anche se alcune startup non dispongono di rilasci di prodotti o aggiornamenti di modelli, ciò non ferma l’entusiasmo degli investitori.

4. 150 giorni di guerra video AI, da “PPT” a “video” reale

Durante i 150 giorni di "invisibilità" di Sora, sotto l'"assedio" di molti importanti produttori e startup, il divario tra i tradizionali prodotti di generazione video AI e Sora è stato notevolmente ridotto, e c'è un punto cruciale:Pronto all'usoe anche molte funzionalità sono ancora gratuite.

Al momento, il prodotto principale per la generazione di video AI ha raggiunto una buona durata e stabilità e il focus della prossima iterazione è la simulazione fisica. A giudicare dalle demo visualizzate ufficialmente, Gen-3, Keling, Jimeng e Vidu simulano in larga misura il mondo reale e i casi selezionati sono quasi gli stessi di quelli rilasciati da Sora.

Quindi, dal punto di vista di un creatore, com'è l'attuale esperienza con il prodotto?

recentemente,Il regista e creatore di film e televisione AI Chen Kun(Xianren Yikun) ha prodotto un remake del trailer del suo cortometraggio drammatico AI "Mountains and Seas" e lo ha confrontato con la versione originale.

Alla première del cortometraggio, ha detto a Zhixixi e ad altri media che i progressi dell'intelligenza artificiale in sei mesi sono ancora molto evidenti, soprattutto insimulazione fisicaIn termini di aspetti, a suo avviso, è stato raggiunto "intergenerazionale"Iterazione. Nello specifico, in questa fase, i modelli di generazione video come Keling hanno raggiunto l'alta definizione nativa e non sono più guidati da contenuti di immagini suddivisi. I movimenti principali del corpo sono ragionevoli, la gamma di movimenti non è solo ampia ma fluida, e rispondono positivamente alle parole suggerite. Ma allo stesso tempo, la tecnologia di generazione di video AI deve ancora affrontare diversi importanti punti critici: coerenza del personaggio, coerenza della scena, performance del personaggio, interazione dell'azione e gamma di movimento.

▲Confronto tra il remake e il trailer originale del trailer di "Montagne e mari".

Dal punto di vista applicativo, l’intelligenza artificiale è ancora in procinto di mettersi al passo con il cinema e la televisione tradizionali in scene come la produzione cinematografica e televisiva.

In un processo di produzione completo, l’intelligenza artificiale è ancora un mezzo ausiliario piuttosto che lo strumento principale, come script, doppiaggio, montaggio, post-produzione, ecc. Attualmente non esiste un prodotto in grado di raggiungere il livello di produttività.

Tuttavia, in termini di costi, compreso il rapporto di efficienza umana, i processi basati sull’intelligenza artificiale sono stati notevolmente compressi, raggiungendo il livello dei processi di produzione tradizionali.Sotto 1/4。

▲Chen Kun è stato intervistato alla proiezione

Al WAIC 2024,Xie Xuzhang, co-fondatore di Aishi TechnologyTan ha affermato che ciò che oggi chiamiamo "generazione video" è in realtà solo la generazione di materiale video, che è solo una piccola parte dell'intero processo di produzione video. Non sono presenti audio, editing, transizioni, script, ecc., né da a Dal punto di vista tecnico o commerciale, la strada da percorrere è molto lunga.

Questa è anche un’altra direzione importante per lo sviluppo dei video AI, oltre a continuare a iterare il modello sottostante per superare i punti critici esistenti nella generazione di video.

Sono molte anche le aziende sul mercato che stanno sperimentando diversi processi di produzione video, e sono favorite anche dal mercato primario.Solo nell’ultima settimana sono stati introdotti strumenti di editing video basati sull’intelligenza artificialeDidascalie, l'ambiente virtuale AI fornisce strumenti di illuminazione e composizioneBiebleHa ricevuto finanziamenti rispettivamente di 60 milioni di dollari e 4,75 milioni di dollari.

Conclusione:Intelligenza artificialeGenerazione video, in attesa di unoMomento GPT-4

Il rilascio di Sora ha acceso l'entusiasmo di team e imprenditori nazionali e stranieri. Tuttavia, nel complesso è ancora nelle fasi iniziali, il percorso tecnico non ha ancora raggiunto un consenso e gli effetti generati sono ancora lontani dagli standard commerciali. Per quanto riguarda la fase specifica, molte persone del settore la paragonano alle fasi iniziali dei modelli linguistici e di immagine, come "l'era GPT-3", "la vigilia del 2022 per la generazione di immagini", ecc.

Ma quello che è certo è che la tecnologia di generazione video basata sull’intelligenza artificiale si sta sviluppando a un ritmo esponenziale e escono costantemente nuovi prodotti e tecnologie. Sebbene esistano alcuni punti critici e sfide tecniche, con l’iterazione della tecnologia e la promozione del mercato, si prevede che questo campo otterrà ulteriori scoperte e applicazioni.

La guerra per la generazione di video tramite intelligenza artificiale non è solo una competizione tecnologica, ma anche una competizione di capitali. Dovremo aspettare e vedere chi avrà l'ultima risata in questa tempesta di guadagni.

notizia

Guerra di generazione video 2.0!Dachang fa rotolare all'impazzata il modello in basso

introduzione

le mie informazioni di contatto