l’intelligenza artificiale può “generare” tutte le cose?

2024-08-29

mezzo anno dopo la nascita di sora, i suoi "sfidanti" si susseguirono, e anche nvidia, che "non poteva aspettare" e "non riusciva a mettersi al passo", finì personalmente.

finora, sora ha rilasciato solo demo e non è stata aperta all'uso, mentre kuaishou keling, zhipu qingying e vidu hanno preso l'iniziativa di aprire le porte all'esperienza e raggiungere il pubblico.

anche se la prima esperienza di "generazione con un clic" non è perfetta, ha suscitato una riserva d'acqua sorgiva nell'industria dei contenuti. molti brevi drammi, pubblicità e animazioni intorno a noi hanno iniziato a utilizzare l’intelligenza artificiale come “partner di efficienza”. la tecnologia di generazione dell'intelligenza artificiale, dalle immagini vincenziane di non molto tempo fa ai video vincenziani di oggi, ai video tusheng e ai video generati da video, l'"universo aigc" continua ad espandersi.

l'intelligenza artificiale è la "penna magica ma liang" nella mitologia cinese? quanta immaginazione e creatività può far vivere e commuovere?

"video wensheng", come "vivere"

"wensheng video è un blockbuster." negli ultimi sei mesi, la rinascita di sora da grande produttore a unicorno illustra l'importanza che l'industria attribuisce alla "generazione".

la generazione video, in breve, utilizza la tecnologia dell’intelligenza artificiale generativa per convertire input multimodali come testo e immagini in segnali video.

attualmente, esistono due principali percorsi tecnici per la generazione di video. uno è il modello di diffusione, che è diviso in due categorie. uno è il modello di diffusione basato sulla rete neurale convoluzionale, come emuvideo di meta, videocrafter lanciato da tencent, ecc.; come sora di openai, keling ai di kuaishou, vidu di shengshu technology, ecc. l'altro è il percorso autoregressivo, come videopoet di google, phenaki, ecc.

il 26 luglio 2024, la società tecnologica cinese zhipu ai ha rilasciato agli utenti di tutto il mondo il suo modello video generato dall'intelligenza artificiale autosviluppato qingying (ying). l'immagine mostra l'interfaccia di accesso dell'utente

attualmente, il modello di diffusione basato sull'architettura transformer è la scelta principale per i modelli di generazione video, noto anche come "dit" (di è l'abbreviazione di diffusion, t è l'abbreviazione di transformer).

testo "diffuso" come video? "la diffusione qui si riferisce a un metodo di modellazione." yuan li, professore assistente e supervisore del dottorato presso la scuola di ingegneria dell'informazione dell'università di pechino, ha fornito un vivido esempio:

quando michelangelo scolpì la famosa statua del david, disse questo: la scultura originariamente era nella pietra, ho solo rimosso le parti non necessarie. "questa frase descrive vividamente il processo di modellazione della 'diffusione'. il video originale di puro rumore è come una pietra non scolpita. come abbattere questa grande pietra e staccare la parte in eccesso fino a quando non viene sbattuta in un contorno. il chiaro 'david', questo modo è la 'diffusione'," ha detto yuan li.

yuan li ha spiegato inoltre: "il trasformatore è una rete neurale che segue la 'regola della scala' ed esegue il processo di rottura delle pietre. può elaborare le informazioni spazio-temporali in ingresso, comprendere il mondo reale comprendendo le sue complesse relazioni interne e abilitare il modello per avere capacità di ragionamento. può non solo catturare le sottili connessioni tra i fotogrammi video, ma anche garantire coerenza visiva e fluidità temporale.

"partner di efficienza", quanto velocemente

un ingenuo orso polare è stato svegliato dalla sveglia, ha fatto le valigie, ha preso un elicottero, si è trasferito su un treno ad alta velocità, si è trasferito su un taxi, si è imbarcato su una nave, ha attraversato montagne, fiumi, laghi e mari, ha sperimentato difficoltà e ostacoli, e finalmente sono arrivato in antartide per incontrare i pinguini...

questo cortometraggio animato di un minuto e mezzo intitolato "all the way south" è stato completato dal modello di generazione video vidu. ciò che originariamente richiedeva un mese di lavoro, con l'aggiunta dell'intelligenza artificiale come "partner di efficienza", è bastata solo una settimana per produrre lavori eccellenti: l'efficienza era quattro volte quella del passato.

ciò ha fatto sospirare chen liufang, vincitore del miglior film nella sezione cortometraggi aigc del festival del cinema di pechino e capo di ainimate lab ai: la tecnologia di generazione video ha reso l'animazione di alto livello non più un "gioco brucia soldi" che solo i grandi studi osano giocare.

il team creativo dell'animazione ai "all the way south" è composto da sole tre persone: un regista, un artista dello storyboard e un esperto di applicazioni tecnologiche aigc. per realizzarlo utilizzando processi tradizionali sono necessarie 20 persone. dopo il calcolo, il solo costo di produzione è ridotto di oltre il 90%.

come ha affermato wan pengfei, capo del visual generation and interaction center di kuaishou, l’essenza della generazione video è campionare e calcolare i pixel dalla distribuzione target. questo metodo può raggiungere un livello più elevato di libertà dei contenuti a un costo inferiore.

entrando nella pagina di generazione video di vidu, l'autore ha anche sperimentato la libertà della "generazione con un clic". carica una foto e impostala come "fotogramma iniziale" o come "carattere di riferimento", inserisci la descrizione testuale della scena che desideri generare nella finestra di dialogo, fai clic su "genera" e verrà creato un breve video intelligente ed emozionante generato automaticamente. dall'accesso alla pagina al completamento del download ci vuole meno di 1 minuto.

invia una foto al modello video domestico vidu e verrà generato automaticamente un video animato. l'immagine mostra uno screenshot del video

"arriverà l'era in cui 'tutti diventano designer' e 'tutti diventano registi', proprio come 'tutti hanno un microfono' in passato", ha affermato zhang peng, ceo di zhipu ai.

"world simulator", c'è qualche dramma?

la generazione di video sovvertirà solo l’industria dei contenuti? questa ovviamente non è l'intenzione originale di openai. "generare video" è solo un "antipasto".

prima della nascita di sora, openai non lo posizionava come uno strumento di implementazione dell'aigc, ma come un "contenitore" per replicare il mondo fisico: un simulatore del mondo. in questo contenitore corrono le leggi fisiche, i comportamenti ambientali e la logica di interazione del mondo reale, proprio come il mondo virtuale raffigurato in “the matrix”, influenzando la nostra immaginazione e i nostri sensi.

tuttavia, il mondo fisico è tridimensionale e i modelli attuali come sora si basano solo su operazioni bidimensionali e non sono veri e propri motori fisici, quindi non esiste una simulazione profonda del mondo fisico.

"per anni ho detto che 'vedere' il mondo significa 'comprendere' il mondo. ma ora sono disposto a portare questo concetto un passo avanti e 'vedere' non significa solo 'comprendere' ma 'fare'. li feifei, un professore titolare della cattedra dell'università di stanford, ha dichiarato pubblicamente che lo scopo fondamentale dell'intelligenza spaziale è collegare il "vedere" e il "fare". un giorno, l'intelligenza artificiale farà questo.

quando “vedere” non equivale a “fare”, la creazione dell’intelligenza artificiale non può fermarsi. recentemente sono emersi nuovi percorsi tecnici. vi rincorrete su percorsi diversi, procedendo insieme per far progredire questo mondo intelligente costruito da vettori e modelli.

la futura "visione del mondo" è ancora un mistero che non è stato ancora svelato. come disse il fisico americano feynman: "non posso creare un mondo che non capisco". ma questo non significa che se capisci un mondo, sarai sicuramente in grado di creare un mondo.

in questo momento è ancora la vigilia della sovversione. ecco perché quando poniamo domande sul futuro agli esploratori di tecnologia, otteniamo risposte molto diverse. forse “l’incertezza” è la benedizione di quest’epoca.

segnalazione/feedback

notizia

l’intelligenza artificiale può “generare” tutte le cose?

introduzione

le mie informazioni di contatto