tang jiayu, ceo di shengshu technology: la generazione di video è ancora nelle fasi iniziali e ci sono colli di bottiglia tecnici da superare

tang jiayu, ceo di shengshu technology: la generazione di video è ancora nelle fasi iniziali e ci sono colli di bottiglia tecnici da superare.

2024-09-12

00:04

"utilizzando l'intelligenza artificiale per realizzare film narrativi, il rapporto tra i film scartati potrebbe essere 50:1, ovvero verranno generate 50 immagini, solo una delle quali potrebbe essere adatta per questo tipo di creazione narrativa. l'11 settembre a pechino shengshu." technology co., ltd. (di seguito denominata shengshu technology) ha organizzato una giornata di porte aperte ai media, un creatore di film e programmi televisivi ha rilasciato la dichiarazione di cui sopra durante la condivisione.

con lo sviluppo della tecnologia per la generazione di modelli di grandi dimensioni, sempre più creatori di film e televisione stanno iniziando a provare a utilizzare la tecnologia ai nelle loro creazioni. tuttavia, al momento, ci sono ancora molti punti critici.

"i video generati dall'intelligenza artificiale sono incontrollabili e, una volta che ci sono troppi elementi, non è possibile comprendere più personaggi e scene spaziali", ha affermato vicky, creatrice di film e televisione basata sull'intelligenza artificiale. molti creatori di film e televisione basati sull'intelligenza artificiale nazionali e internazionali hanno affermato che nel processo di creazione vero e proprio, il problema fondamentale comune è l'insufficiente controllabilità o la mancanza di coerenza, soprattutto quando sono coinvolte scene complesse e scene interattive.

sebbene il modello video ai funzioni bene nel seguire le istruzioni, i risultati di output sono ancora incerti e potrebbero essere necessari più tentativi per generare un'immagine soddisfacente. inoltre, il modello generato dall'intelligenza artificiale presenta ancora limitazioni in termini di movimento della fotocamera, effetti di luce e ombra ed elaborazione dei dettagli, rendendo difficile ottenere un controllo completo e preciso.

shengshu technology ha lanciato ufficialmente il modello video generato dall'intelligenza artificiale il 30 luglio di quest'anno. per aiutare i creatori a migliorare l'efficienza, la società ha recentemente aggiornato la funzione del modello video vidu e ha rilasciato la funzione "riferimento soggetto". risolvere il problema della coerenza, può ottenere una generazione coerente di qualsiasi soggetto, rendendo la generazione video più stabile e controllabile.

la funzione "riferimento soggetto" consente agli utenti di caricare un'immagine di qualsiasi soggetto. vidu può bloccare l'immagine del soggetto, cambiare arbitrariamente le scene tramite descrittori e produrre un video con lo stesso soggetto.

l’11 settembre, un giornalista di the paper technology (www.thepaper.cn) ha effettuato l’accesso alla piattaforma vidu del sito ufficiale di shengshu technology per provare la generazione di video. ha caricato un'immagine tridimensionale della star del cinema americano leonardo dicaprio e ha inserito parole chiave come "cielo azzurro", "bicchiere di vino" e "toast";

inserisci le parole: "cielo blu", "bicchiere di vino", "toast", ecc.

l'immagine generata con vidu è la seguente:

00:04

carica uno screenshot 2d dell'eroina dell'anime giapponese "youth" e inserisci parole chiave come "corsa", "tardi", "mattina" ecc.

l'immagine generata con vidu è la seguente:

00:04

tang jiayu, co-fondatore e ceo di shengshu technology, ha affermato in un'intervista che la funzione di "riferimento al soggetto" di vidu è attualmente la prima tecnologia al mondo con capacità di generazione coerenti. il compito principale di shengshu technology è quello di costruire modelli multimodali di grandi dimensioni. la generazione di video ai è ancora nelle fasi iniziali e ci sono ancora altri colli di bottiglia tecnici da superare in futuro. crede che la tecnologia video ai non sarà sempre uno strumento per un piccolo gruppo di persone. si stima che entro la fine di quest'anno, la tecnologia video ai sarà resa popolare dal pubblico e gli utenti potranno utilizzarla facilmente.

shengshu technology è stata fondata nel marzo 2023. i membri del team principale provengono dall'istituto di ricerca sull'intelligenza artificiale dell'università di tsinghua. lo scienziato capo zhu jun è un professore dell'università di tsinghua. il co-fondatore e ceo tang jiayu ha un master in scienze naturali laboratorio di elaborazione linguistica dell'università di tsinghua ed ex dipendente di ruilai intelligence vice president, senior product manager di tencent youtu lab.

il giornalista del giornale yu yan e lo stagista wang chun

(questo articolo è tratto da the paper. per informazioni più originali, scarica l'app “the paper”)

segnalazione/feedback

notizia

tang jiayu, ceo di shengshu technology: la generazione di video è ancora nelle fasi iniziali e ci sono colli di bottiglia tecnici da superare.

introduzione

le mie informazioni di contatto