sora fa cilecca dopo l'esplosione, il modello video domestico prende il sopravvento e abbassa la soglia

sora ha fatto cilecca dopo l'esplosione e il modello video domestico ha preso il sopravvento e ha abbassato la soglia

2024-09-11

sembra ieri che l'esplosione del settore causata dal lancio del modello video vincent di openai sora non è stata ancora ufficialmente aperta al pubblico. al contrario, i modelli video domestici su larga scala verranno rilasciati in modo intensivo nel 2024. sebbene la tecnologia sia costantemente aggiornata, la maggior parte dei prodotti finiti richiede ancora editing e sintesi manuali nella fase successiva, il che influisce sulla velocità di implementazione della tecnologia sul lato applicativo. .

sulla base di ciò, l'11 settembre, shengshu technology ha rivelato un aggiornamento funzionale, la prima funzione al mondo di "coerenza del soggetto", che consente la generazione coerente di qualsiasi soggetto, rendendo la generazione di video più stabile e controllabile. il cosiddetto "riferimento al soggetto" consente agli utenti di caricare un'immagine di qualsiasi soggetto. l'intelligenza artificiale può bloccare l'immagine del soggetto, cambiare arbitrariamente le scene tramite descrittori e produrre un video con lo stesso soggetto.

secondo tang jiayu, ceo di shengshu technology, brevi video, animazioni, spot pubblicitari e altri lavori cinematografici e televisivi richiedono che il sistema narrativo abbia "soggetti coerenti, scene coerenti e stili coerenti" nell'arte della narrazione raggiungere l’integrità narrativa. è necessario ottenere un controllo completo su questi elementi fondamentali.

genera video di 32 secondi con un clic

l'ultima volta che shengshu technology ha rilasciato una dichiarazione pubblica è stato nell'aprile di quest'anno, il professor zhu jun, vice preside dell'istituto di intelligenza artificiale dell'università di tsinghua, cofondatore e capo scienziato della shengshu technology, ha rilasciato un documento duraturo, altamente coerente. e il modello video altamente dinamico chiamato vidu, puoi generare video lunghi fino a 16 secondi con un clic. con questo aggiornamento tecnico, i video vidu possono essere generati fino a 32 secondi.

nel 2024, l'intero percorso dei modelli di grandi dimensioni si calmerà gradualmente dopo la follia dell'anno precedente e i modelli di grandi dimensioni video saranno considerati l'unico modo per passare ai modelli di grandi dimensioni multimodali o agi. le società di brevi video rappresentate da kuaishou e byte's douyin, le principali società internet rappresentate da alibaba e tencent e le startup rappresentate da shengshu technology, zhipu ai, aishi technology, ecc. hanno tutte successivamente rilasciato importanti prodotti modello video.

secondo le statistiche di debon securities, dal rilascio di sora, più di una dozzina di aziende in patria e all'estero hanno rilasciato o aggiornato modelli di generazione video. oggettivamente il divario tra paesi nazionali ed esteri si sta gradualmente riducendo. le funzioni di base come la durata e la risoluzione dei video sono replicabili. in futuro, la concorrenza potrebbe spostarsi verso l'acquisizione degli utenti e il miglioramento della permanenza. da un punto di vista soggettivo, debon securities ritiene che la qualità dei video generati dai modelli di grandi dimensioni sia migliorata in modo significativo, ma è ancora lontana dal simulatore del mondo fisico. le immagini video nel campo video di vincent sono generalmente chiare, ma ci sono grandi differenze nella gamma di movimento e nel recupero fisico. questa è anche una delle considerazioni per questo aggiornamento di funzione.

tang jiayu ha affermato che l'attuale tempo di generazione di vidu di 32 secondi viene generato end-to-end con un clic e non viene generato mediante giunzione e inserimento di fotogrammi. la differenza è che il modello ha una maggiore capacità di comprimere le informazioni a lungo termine, compresa la rappresentazione delle informazioni, che in realtà sono più intrinsecamente legate alla comprensione del mondo fisico e alla relazione tra input semantici. pertanto, migliorare la durata richiede il miglioramento delle capacità di comprensione astratta, compressione e comprensione del mondo, comprese le sue capacità di generazione.

l'artista aigc shi yuxiang, che ha creato il cortometraggio animato "summer gift", ritiene che l'industria sia attualmente relativamente tollerante nei confronti dei video ai e che i dettagli che possono essere migliorati includono l'elaborazione di lenti complesse, l'elaborazione di lenti multi-carattere e alcuni scene con c'è la gestione della messa in scena della scena, ecc. rispetto alla funzione video di base per la generazione di immagini, la funzione di "riferimento al soggetto" elimina i vincoli delle immagini statiche, migliora la coerenza della creazione e consente di risparmiare quasi il 70% del carico di lavoro di generazione delle immagini.

li ning, fondatore di light chi matrix e giovane regista, ha utilizzato vidu per pre-creare un video clip del protagonista maschile del film, in cui tutte le scene dei personaggi sono state generate solo da tre foto finali di trucco del protagonista maschile, chiudi primo piano, campo medio e campo lungo. li ning ha affermato che il precedente processo di creazione di film con intelligenza artificiale utilizzava principalmente il tradizionale processo di disegno basato su testo e video basato su disegni. era difficile controllare la continuità degli storyboard. era difficile mantenere coerente la forma complessiva dei personaggi ha richiesto molta energia per eseguire il debug delle immagini nella fase iniziale. allo stesso tempo, l'immagine è anche soggetta a una serie di problemi come luci e ombre dell'obiettivo fuori controllo, sfocatura dell'immagine e persino deformazione come la lunghezza dell'aumento del video, questi problemi sono ulteriormente amplificati. la funzione "riferimento soggetto" di vidu migliora significativamente la coerenza complessiva dei personaggi. non richiede più la generazione di un gran numero di immagini nella fase iniziale. anche i movimenti dei personaggi e le transizioni delle immagini sono più naturali, il che può aiutare la creazione di lunghe narrazioni.

in sostanza, l'aggiornamento della funzione di "riferimento al soggetto" mira a migliorare la qualità della generazione di modelli video di grandi dimensioni, l'efficienza della combinazione della tecnologia con settori specifici e ad accelerare l'implementazione dell'intelligenza artificiale in applicazioni specifiche. al momento, shengshu technology ha lanciato un programma di partnership e invita ad aderire organizzazioni pubblicitarie, cinematografiche e televisive, di animazione, di giochi e altre organizzazioni del settore.

l'attuale modello di business del modello video di shengshu technology è suddiviso in modello di abbonamento saas e interfaccia api. questo è anche il metodo di test commerciale comunemente adottato nel campo dei modelli di grandi dimensioni. per quanto riguarda il rapporto di distribuzione specifico tra la fascia b e la fascia c, tang jiayu ha affermato che dal punto di vista del reddito, il reddito proveniente dal mercato della fascia b è maggiore. a un mese dal lancio dei prodotti di fascia c, la curva di crescita è stata molto elevata. dopo un giudizio approfondito, il lato b è relativamente chiaro e diretto e contiene una domanda relativamente stabile, quindi il lato b sarà l'obiettivo a lungo termine dell'azienda. tuttavia, i prodotti di fascia c sono ancora in fase di continua esplorazione.

quando il ceo di zhipu, zhang peng, aveva precedentemente rilasciato zhipu qingying (ying), ha parlato dell'esplorazione della commercializzazione nel settore. ha affermato che in questa fase, che si tratti di toc o tob, è ancora relativamente presto per spostarsi esclusivamente su larga scala commercializzazione. la cosiddetta strategia di tariffazione è più un tentativo iniziale. osserveremo anche il feedback del mercato e degli utenti e apporteremo adeguamenti tempestivi.

qual è il futuro dei mockup video?

oltre agli upgrade e agli aggiornamenti a livello funzionale specifico, attualmente esiste un consenso generale nel settore sul fatto che la multimodalità è la tendenza generale, mentre i modelli video di grandi dimensioni sono uno stato graduale.

a questo proposito, zhang peng ha affermato che la generazione video non esiste isolatamente, ma è inserita nell'intero percorso di sviluppo della tecnologia e del prodotto. zhipu ritiene che sia un collegamento nel percorso multimodale o multimodale agi. dal punto di vista del prodotto, la generazione video diventerà anche un prodotto indipendente per raggiungere la commercializzazione e generare valore. tang jiayu ha anche detto ai giornalisti che lo strato inferiore di shengshu è un modello generale di grandi dimensioni e che la generazione del video è solo una fase intermedia.

nel processo di spostamento verso la multimodalità, il rilascio intensivo di più modelli video causerà problemi di omogeneità? a questo proposito, tang jiayu ha detto ai giornalisti che sul percorso tecnico, il numero degli studenti è ora in uno stato di convergenza, ma l'omogeneità non significa che tutti i progressi e le capacità siano uguali. ad esempio, gli attuali modelli linguistici coinvolgeranno tutti l’architettura transformer, ma in realtà openai è ancora chiaramente in vantaggio. perché in base all'architettura ci sono ancora molti collegamenti nel mezzo, ad esempio come scalare in modo efficace, come comprimere efficacemente i video, ecc., e ci sono molte competenze ed esperienze pratiche. le competenze e le difficoltà degli algoritmi, comprese le difficoltà di ingegneria degli algoritmi, sono tutti fattori che portano alle differenze negli attuali modelli video di grandi dimensioni.

per quanto riguarda la commercializzazione, tang jiayu ritiene che il settore sia relativamente simile in termini di scelte commerciali. anche aziende come sora e runway stanno abbracciando attivamente hollywood o impegnandosi in collaborazioni pubblicitarie, perché questi campi sono aree in cui la tecnologia è naturalmente facile da implementare. l’intero settore sta sfruttando le proprie caratteristiche per andare avanti. il settore dei video generati dall’intelligenza artificiale è ancora nelle prime fasi di sviluppo e i principali attori internazionali stanno andando avanti insieme per espandere il mercato.

per quanto riguarda l'intensa situazione di rilascio nel campo dei modelli video, zhang peng ritiene che la controllabilità sia qualcosa per cui l'industria deve compiere grandi sforzi per raggiungere. da un lato, a livello tecnico, la controllabilità del video stesso è un requisito molto importante. in secondo luogo, dal punto di vista della sicurezza, poiché il segnale video contiene più contenuti e dettagli, è necessario garantire che il contenuto generato soddisfi i requisiti, infine, affinché il contenuto generato sia commercialmente applicabile, anche la controllabilità è una condizione necessaria - sia it è necessario esprimere con precisione l'intenzione del creatore e lasciare che tutti ne paghino.

una volta soddisfatte le condizioni di base, le attuali aspettative del settore per i modelli video di grandi dimensioni si sono concentrate maggiormente sulla sostituzione dell'intelligenza artificiale dei metodi di ripresa video lunghi dal lancio di sora. zhang peng ritiene che dal punto di vista dello sviluppo tecnologico questa sia una direzione importante e abbia un significato positivo per i cambiamenti nell'industria cinematografica e televisiva. ma al momento i modelli video di grandi dimensioni non sono sufficienti per essere utilizzati direttamente nel processo di produzione per il pubblico, ma possono essere utilizzati per lavori ausiliari, anche per creazioni su piccola scala, e c’è ancora molta strada da fare prima di cambiare veramente i requisiti elevati come la produzione cinematografica.

per quanto riguarda sora, che ha raggiunto il suo apice al debutto e non è stato ancora aperto al pubblico, l'industria lo considera ancora un obiettivo da recuperare. tuttavia, a causa dell'opacità dei dettagli tecnici, le aziende devono esplorare molti aspetti in proprio . per quanto riguarda la "scomparsa" di sora, tang jiayu ha detto ai giornalisti che le ragioni possono essere diverse: il video non è l'attuale linea principale di openai, alcuni problemi di copyright dei dati non sono stati risolti, altri problemi sono sorti durante il processo di generazione, che richiede una certa quantità; di tempo e costi da risolvere. non coerente con le priorità aziendali.

zhang peng e zhipu hanno sempre affrontato oggettivamente il divario con i massimi livelli mondiali. allo stesso tempo, crede che questa strada debba essere percorsa da soli. in molti casi, anche le aziende cinesi stanno recuperando terreno a modo loro per generare costi di potenza di calcolo per il video abbassarlo e aumentare la velocità di risposta in modo che tutti possano usarlo. "mentre perseguiamo il progresso tecnologico, perseguiamo contemporaneamente anche la divulgazione della tecnologia", ha affermato zhang peng.

(questo articolo proviene da china business news)

segnalazione/feedback

notizia

sora ha fatto cilecca dopo l'esplosione e il modello video domestico ha preso il sopravvento e ha abbassato la soglia

introduzione

le mie informazioni di contatto