la stessa immagine può apparire in scene diverse! il grande modello video vidu accoglie importanti update

la stessa immagine può apparire in scene diverse! il grande modello video vidu accoglie con favore un importante aggiornamento

2024-09-15

l'11 settembre, vidu, un modello video originale auto-sviluppato sviluppato congiuntamente da shengshu technology e tsinghua university, ha ricevuto un importante aggiornamento con la funzione "coerenza del soggetto". questa funzione può ottenere una generazione coerente di qualsiasi soggetto, rendendo il video la generazione è più stabile e controllabile. questa funzionalità è attualmente aperta agli utenti gratuitamente.

la funzione di riferimento del soggetto viene lanciata online per risolvere il problema della coerenza dei ruoli

al momento, che si tratti della funzione immagine vincent o della funzione video vincent, un problema ampiamente criticato è la coerenza del soggetto dell'immagine nell'immagine o nel video. le stesse parole immediate e lo stesso modello di grandi dimensioni vengono generati due volte e il contenuto generato è diverso nelle opere artistiche, ciò farà sì che l'immagine del protagonista sia incoerente ed è diventata anche una delle maggiori differenze tra quelle generate dall'intelligenza artificiale. opere ed esseri umani uno.

per risolvere questo problema, l'industria ha cercato di adottare il metodo "prima l'intelligenza artificiale genera immagini, poi le immagini generano video", utilizzando strumenti di disegno ai come midjourney per generare immagini divise, mantenendo prima il soggetto coerente con l'immagine. livello, quindi convertire queste immagini in video e modificarle.

ma il problema è che la coerenza del disegno dell’ia non è perfetta e spesso necessita di essere risolta attraverso ripetute modifiche e ridisegni parziali. ancora più importante, l'effettivo processo di produzione video coinvolge molte scene e obiettivi. quando questo metodo gestisce scene con obiettivi multicomponente, il carico di lavoro del disegno è enorme, e può rappresentare oltre la metà dell'intero processo, così come il contenuto video finale. manca di creatività e flessibilità a causa dell'eccessivo affidamento ai colpi divisi.

all'evento media open day organizzato da shengshu technology l'11 settembre, shengshu technology ha dimostrato la funzione "riferimento soggetto". questa funzione consente agli utenti di caricare un'immagine di qualsiasi soggetto e vidu può bloccare l'immagine del soggetto e descriverla tramite te può cambiare scena arbitrariamente e riprodurre un video con lo stesso soggetto.

questa funzione non è limitata a un singolo oggetto, ma è orientata a "qualsiasi soggetto". che si tratti di una persona, di un animale, di una merce, di un personaggio di animazione o di un soggetto immaginario, può garantirne la coerenza e la controllabilità nella generazione del video video una grande innovazione nel campo della generazione. vidu è anche il primo modello video di grandi dimensioni al mondo a supportare questa funzionalità.

ad esempio, quando si utilizza il "riferimento al soggetto" per i personaggi, siano essi persone reali o personaggi di fantasia, vidu può mantenere le loro immagini coerenti in ambienti diversi e sotto obiettivi diversi. tang jiayu, presidente e ceo di rushengshu technology, ha mostrato sulla scena che fornendo l'immagine di lin daiyu interpretato da chen xiaoxu, in diverse scene e abiti diversi, la scena di "lin daiyu che beve caffè" può essere vista come "la lo stesso lin daiyu".

tang jiayu, presidente e amministratore delegato di shengshu technology, ha dimostrato sul posto la funzione di "riferimento all'oggetto". foto del giornalista luo yidan di beijing news shell finance

la coerenza della creazione di video tramite intelligenza artificiale migliorerà notevolmente l’era della narrativa completa basata sull’intelligenza artificiale.

basandosi su questa funzione, il direttore della stazione radiofonica e televisiva china central e l'artista aigc shi yuxiang (senhai fluorescent) hanno creato un cortometraggio animato "summer gift". la funzione "riferimento soggetto" elimina i vincoli delle immagini statiche e le immagini generate sono più attraenti e libere, migliorando notevolmente la coerenza della creazione. allo stesso tempo, lo ha aiutato a risparmiare circa il 70% del carico di lavoro di produzione delle immagini e ha migliorato significativamente l'efficienza, permettendogli di concentrarsi maggiormente sulla rifinitura del contenuto della storia piuttosto che sulla generazione di materiali illustrativi. allo stesso tempo, la coerenza semplifica il post-editing.

shi yuxiang, direttore della stazione radiotelevisiva centrale cinese e artista dell'aigc, ha mostrato sul posto l'animazione creata tramite la funzione "riferimento soggetto". si può vedere che l'immagine del protagonista nell'animazione rimane stabile. foto di luo yidan, giornalista della beijing news shell finance

tang jiayu ha affermato che il lancio della nuova funzione di "riferimento al soggetto" rappresenta l'inizio di una narrazione completa dell'ia e che anche la creazione di video ai si sposterà verso una fase più efficiente e flessibile. che tu stia realizzando brevi video, animazioni o spot pubblicitari, nell'arte della narrazione, un sistema narrativo completo è una combinazione organica di elementi come "soggetto coerente, scena coerente, stile coerente".

pertanto, affinché un modello video raggiunga l’integrità narrativa, deve essere completamente controllabile su questi elementi fondamentali. la funzione "riferimento corpo" è un passo importante verso la coerenza per vidu, ma è solo l'inizio. in futuro, vidu continuerà a esplorare come controllare accuratamente elementi complessi come l'interazione multi-soggetto, lo stile unificato e il passaggio stabile di scene mutevoli per soddisfare esigenze narrative di livello superiore.

ha affermato che, in una prospettiva a lungo termine, una volta raggiunta la controllabilità completa, l’industria della creazione di video subirà un cambiamento dirompente. a quel punto, i personaggi, le scene, gli stili e persino elementi come l'uso dell'obiettivo, gli effetti di luce e ombra, verranno trasformati in parametri regolabili in modo flessibile. gli utenti devono solo muovere le dita e regolare i parametri per completare la creazione di un'opera immagine, e dietro ogni opera ci sarà la visione del mondo unica dell'utente e l'espressione di sé basata sull'intelligenza artificiale.

il giornalista di beijing news shell finance, luo yidan, l'editore wang jinyu, corregge le bozze di yang li

segnalazione/feedback

notizia

la stessa immagine può apparire in scene diverse! il grande modello video vidu accoglie con favore un importante aggiornamento

introduzione

le mie informazioni di contatto