fiera dei servizi 2024｜la tecnologia shengshu risolve il problema dell'incoerenza nella generazione di modelli video di grandi dimensioni

2024-09-15

"quando inseriamo un'istruzione nell'intelligenza artificiale e lasciamo che generi un video, infatti, l'appello principale è sperare che l'intelligenza artificiale ci aiuti a completare una narrazione completa. per raggiungere questo obiettivo, dobbiamo mantenere gli elementi fondamentali unificati e controllabili, " ha affermato alla recente fiera internazionale per il commercio dei servizi in cina del 2024 (di seguito denominata "fiera dei servizi"), tang jiayu, presidente e ceo di shengshu technology, ha fornito una soluzione: la funzione di riferimento del soggetto del video modello di grandi dimensioni vidu può realizzare il controllo di qualsiasi soggetto generazione coerente. per raggiungere questo obiettivo, l'industria ha provato metodi come "l'intelligenza artificiale prima genera immagini, poi le immagini generano video", ma la funzione di riferimento del soggetto non solo riduce il carico di lavoro, ma rompe anche le restrizioni sui contenuti video mediante immagini divise. le scoperte tecnologiche hanno dato maggiore spazio all'immaginazione nella commercializzazione di modelli video di grandi dimensioni.

quando i modelli linguistici di grandi dimensioni sono diventati popolari, shenshu technology ha preso di mira il percorso multimodale e ha lanciato le funzionalità wensheng video nel gennaio 2024. secondo il piano di shengshu technology, le funzionalità video richiedono una durata maggiore e una maggiore coerenza per essere sviluppate, ma il debutto di sora ha anticipato i piani della startup.

vidu è stato rilasciato alla fine di aprile, supportando la generazione di video ad alta definizione da 16 secondi con un clic. a giugno supportava la generazione di video di 32 secondi con un clic, generando effetti sonori e ricostruendo video 4d da un. singolo video generato. alla fine di luglio, vidu è stato lanciato ufficialmente a livello globale, aprendo i video di tuxing, funzioni di coerenza dei ruoli e capacità di generazione di video fino a 8 secondi.

questa volta, tang jiayu si è concentrato sull'introduzione dell'ultima funzione di "riferimento al soggetto" di vidu alla fiera dei servizi del 2024. il cosiddetto riferimento al soggetto consente agli utenti di caricare un'immagine di qualsiasi soggetto e vidu può bloccare l'immagine del soggetto, cambiare arbitrariamente le scene tramite descrittori e produrre un video con lo stesso soggetto, dove "qualsiasi" è la parola chiave, che cioè, che si tratti di una persona, di animali, di merci, di personaggi di animazione o di soggetti di fantasia, la loro coerenza e controllabilità possono essere garantite nella generazione di video.

un giornalista del beijing business daily ha appreso che prima del lancio di questa funzione, il modello video di grandi dimensioni non era privo di soluzioni per raggiungere questo obiettivo. si potevano raggiungere anche capacità come "tusheng video" e "coerenza dei caratteri".

prendendo come esempio il metodo di generare prima immagini dall'intelligenza artificiale e quindi generare video dalle immagini, è possibile utilizzare strumenti di disegno ai come midjourney per generare immagini divise. innanzitutto, mantenere il soggetto coerente a livello di immagine, quindi convertirle immagini in clip video e modificarli e sintetizzarli.

ma il problema è che la coerenza del disegno dell’ia non è perfetta e spesso necessita di essere risolta attraverso ripetute modifiche e ridisegni parziali. ancora più importante, l'effettivo processo di produzione video coinvolge molte scene e obiettivi. quando questo metodo gestisce scene con obiettivi multicomponente, il carico di lavoro del disegno è enorme, e può rappresentare oltre la metà dell'intero processo, così come il contenuto video finale. manca di creatività e flessibilità a causa dell'eccessivo affidamento ai colpi divisi.

la funzione "riferimento soggetto" di vidu genera direttamente materiale video "caricando l'immagine del soggetto + inserendo il descrittore della scena". questo metodo riduce notevolmente il carico di lavoro e infrange le restrizioni sui contenuti video mediante immagini divise, consentendo ai creatori di creare contenuti video ricchi e flessibili basati su descrizioni testuali.

nel condividere il processo creativo del cortometraggio animato "summer gift", shi yuxiang, direttore della stazione radiotelevisiva cinese e artista dell'aigc, ha affermato che rispetto alla funzione video di base per scattare foto, la funzione di "riferimento al soggetto" viene eliminata dei vincoli delle immagini statiche e genera immagini più belle. è contagioso e gratuito, migliorando notevolmente la coerenza della creazione. allo stesso tempo, lo ha aiutato a risparmiare circa il 70% del carico di lavoro di disegno.

wei wei, giornalista del beijing business daily

segnalazione/feedback

notizia

fiera dei servizi 2024｜la tecnologia shengshu risolve il problema dell'incoerenza nella generazione di modelli video di grandi dimensioni

introduzione

le mie informazioni di contatto