Chi può superare Sora in termini di esperienza pratica nello srotolamento di grandi modelli di video AI domestici?

2024-08-10

Il giornalista di copertina Xiong Yingying

All'inizio di quest'anno, l'azienda americana OpenAI ha rilasciato il modello di generazione video AI Sora, che ha colpito come un tuono la terra, offrendo nuove possibilità alle applicazioni dell'intelligenza artificiale. A quel tempo, molti netizen lamentavano il fatto che il divario tra noi e la tecnologia AI straniera stesse diventando sempre più ampio.

Tuttavia, in soli sei mesi, "Sora domestico" come Keling, PixVerse V2, Qingying e Vidu sono stati rilasciati uno dopo l'altro e sono aperti agli utenti gratuitamente.

Quale modello di video domestico è il migliore? Mentre la tecnologia continua a fare passi da gigante, chi può prendere l’iniziativa nella commercializzazione?

Entro questo mese verranno lanciati 4 prodotti “domestici Sora”.

Esperienza di test reale del reporter

Mentre la guerra dei prezzi tra i grandi produttori nazionali e i modelli di grandi dimensioni è feroce, alcune aziende si stanno concentrando sul campo della generazione di video AI e stanno compiendo sforzi segreti. Secondo statistiche incomplete, ad oggi, ci sono più di 10 modelli di video AI domestici su larga scala. Solo nel luglio di quest'anno sono stati lanciati online 4 modelli di "Sora domestica".

Il 6 luglio è stata lanciata ufficialmente la pagina web Kuaishou Keling AI, che fornisce funzioni video Wensheng e video Tusheng, che possono generare video fino a 10 secondi. Ha inoltre aggiunto funzioni come il controllo del movimento della telecamera e la personalizzazione del primo e dell'ultimo fotogramma.

Il 24 luglio, Aishi Technology ha rilasciato ufficialmente PixVerse V2, che sarà aperto a livello globale contemporaneamente. Questo modello può generare più clip video contemporaneamente e può raggiungere una generazione di video di 8 secondi per un singolo clip e di 40 secondi per più clip.

Successivamente, anche Qingying, creato dalla Zhipu AI Company, e Vidu, sviluppato indipendentemente dalla Shengshu Technology, furono rilasciati uno dopo l'altro. Tra questi, Qingying si concentra sulla generazione rapida entro 30 secondi. Vidu aggiunge la generazione di videoclip in stile animazione oltre al comune stile realistico;

I modelli di generazione video su larga scala delle quattro società sopra menzionate sono attualmente aperti alla sperimentazione. Dopo essersi registrati rapidamente tramite telefono, e-mail, ecc., anche i giornalisti hanno avuto un'esperienza pratica.

Per testare la funzione "Immagine video", il giornalista ha caricato la stessa immagine di una rosa che non è ancora sbocciata su quattro grandi siti web di modelli e ha inserito la parola "fiore che sboccia". Sia Qingying che Vidu hanno generato rose animate con successo video di fiori che sbocciano. Nel video generato da PixVerse e Keling si vedono i fiori oscillare, ma non c'è alcun effetto dinamico di "sbocciatura". Ma quando il giornalista ha cambiato la parola in "un fiore che sboccia lentamente", Keling ha anche generato con successo un video di una rosa che sboccia. Si può vedere che esistono differenze nella capacità dei diversi modelli di grandi dimensioni di elaborare e comprendere il linguaggio.

Schermate video generate da quattro modelli domestici di grandi dimensioni

A giudicare dalla velocità di generazione del video, Vidu ha ottenuto il tempo più veloce, generando un video di 3 secondi in meno di 1 minuto. Gli altri tre modelli di grandi dimensioni hanno completato la generazione del video in 5 minuti. Sebbene Qingying pubblicizzi "generazione rapida in 30 secondi", forse perché ci sono troppe persone che la provano, la pagina di generazione mostra "è prevista una coda di 3 minuti".

A giudicare dal feedback dell'esperienza degli utenti della rete sulle piattaforme social, tutti i modelli principali presentano più o meno problemi come distorsione dei personaggi e immagini mancanti.

"Ci sono molti che aspettano e vedono, ma pochi che agiscono."

Gli investimenti nel campo dei modelli di grandi dimensioni tendono ad essere cauti

Quando Sora è nata, all’inizio dell’anno, su Internet circolavano ancora voci pessimiste, che credevano che la Cina fosse molto indietro rispetto agli Stati Uniti nel campo dell’intelligenza artificiale. In soli sei mesi, in Cina sono emersi numerosi modelli video di intelligenza artificiale che competono con Sora.

Tianyancha mostra che Zhipu AI, fondata nel 2019, ha completato i finanziamenti di serie C ed è attualmente valutata oltre 10 miliardi. Sebbene Aishi Technology e Shenshu Technology siano state fondate solo nel 2023, hanno completato rispettivamente tre e quattro round di finanziamento. Ciò significa che il circolo degli investitori è ancora molto entusiasta di investire in modellini di piste da corsa di grandi dimensioni?

“Fondamentalmente vediamo ancora di più e investiamo molto poco”. Guo Tao, un angel investor ed esperto nel campo dell’intelligenza artificiale, ha affermato che attualmente i maggiori investitori sono diverse importanti società Internet, che hanno investito ampiamente in diversi modelli di grandi dimensioni. progetti. Da un lato i grandi produttori possono trovare alcuni scenari applicativi per i modelli video di grandi dimensioni nelle loro attività esistenti, dall'altro, se questi modelli di grandi dimensioni hanno una certa sovrapposizione con l'attività propria dell'azienda, possono essere utilizzati come integrazione; la linea di prodotti; i grandi produttori possono anche attraverso le risorse ecologiche esistenti, queste grandi aziende modello saranno in una certa misura potenziate.

La società Zhipu AI ha raccolto oltre 100 milioni di yuan in più round di finanziamento

Nel complesso, gli istituti di investimento nazionali mantengono ancora un atteggiamento conservatore e cauto nei confronti di modelli di grandi dimensioni come Vincent Video e Tush Video. La ragione principale di ciò è che la loro commercializzazione deve affrontare molte sfide.

Secondo Guo Tao, che si tratti di Sora o di una grande modella domestica, i video generati presentano ancora alcuni difetti. Ad esempio, i personaggi generati dall'intelligenza artificiale a volte hanno un dito in più, non possono colpire il canestro durante il tiro, ecc. Ciò dimostra che il modello di grandi dimensioni non ha una comprensione sufficiente della relazione spaziale tra gli oggetti e che anche il modello dell'algoritmo deve essere ulteriormente migliorato.

Oltre ai problemi tecnici che devono ancora essere risolti, il principale punto dolente nella commercializzazione di modelli video AI di grandi dimensioni è la mancanza di scenari applicativi maturi.

"Ad esempio, la stessa Kuaishou ha una piattaforma e dei contenuti e, relativamente parlando, ha determinati scenari di applicazione. Molte società di self-media potrebbero usarla, ha detto Guo Tao, ma per alcune società puramente tecniche è ancora difficile trovarle." Uno scenario di domanda particolarmente buono e rigido in cui gli utenti sono disposti a pagare.

La piattaforma accelera l'esplorazione della commercializzazione

Si prevede che il mercato dei micro-cortometraggi assumerà un ruolo guida nello sbarco

Anche se ci sono sfide nella commercializzazione, le grandi piattaforme modello in patria e all’estero stanno esplorando e tentando attivamente la commercializzazione.

Il giornalista ha notato che attualmente anche i modelli video domestici di intelligenza artificiale hanno iniziato a pagare dal lato dei consumatori. Il 24 luglio, il post ufficiale su WeChat di Keling AI ha rivelato che il numero di utenti che hanno richiesto le autorizzazioni ha superato 1 milione. Lo stesso giorno è stato lanciato contemporaneamente il sistema di abbonamento a pagamento, comprendente tre categorie di abbonamento: oro, platino e diamante. Il prezzo dell'abbonamento annuale varia da oltre 500 yuan a oltre 5.000 yuan.

PixVerse adotta un modello di pagamento in abbonamento, che comprende la versione base, la versione standard e la versione illimitata, con prezzi unitari che vanno da 5 yuan a 60 yuan.

Tuttavia, molti addetti ai lavori del settore hanno affermato che attualmente i grandi modelli di intelligenza artificiale hanno costi di potenza di calcolo molto elevati e che le abitudini di pagamento degli utenti non si sono ancora formate e che la concorrenza sul mercato è estremamente feroce. Non è facile ottenere redditività facendo affidamento esclusivamente sul pagamento C-side.

Secondo i resoconti dei media, nel giugno di quest'anno, il marchio di giocattoli per bambini di fama mondiale "Toys R Us" ha collaborato con OpenAI per utilizzare il film commerciale di 1 minuto "The Origin of Toys R Us" prodotto da Sora. Il film ha permesso a Sora di farlo generare pubblicità commerciali fattibili. La sessualità è ulteriormente dimostrata.

A luglio è stato lanciato ufficialmente il primo micro-cortometraggio fantasy nazionale dell'AIGC "Mountains and Seas Strange Mirror: Breaking the Waves". Il dramma ha 5 episodi e una durata di 15 minuti. Nel dramma, il ragazzo protagonista è tagliente , il fantastico Kunpeng e la strana bestia, ecc., sono tutti generati dall'intelligenza artificiale.

Poiché sempre più società e piattaforme di produzione iniziano a esplorare il percorso di integrazione di "AI + micro-cortometraggi", i modelli di video AI di grandi dimensioni potrebbero essere i primi ad essere commercializzati nel mercato dei micro-cortometraggi.

Segnalazione/feedback

notizia

Chi può superare Sora in termini di esperienza pratica nello srotolamento di grandi modelli di video AI domestici?

Introduzione

Le mie informazioni di contatto