Le grandi aziende hanno lanciato una "corsa agli armamenti" nella generazione di video. L'intelligenza artificiale può davvero sconfiggere Hollywood?

2024-07-15

Rapporto sul cuore della macchina

Dipartimento editoriale di Machine Heart

Il circolo video dell'IA ti sta uccidendo a morte.

Sul piede anteriore, Kuaishou ha rilasciato Ke Ling in modo di alto profilo. Sul piede posteriore, Luma non è stato da meno e ha lanciato l'ultimo modello video Dream Machine, quindi è intervenuto Runway e ha lanciato il Gen-3, un grande killer .

Spinti dalla sottile atmosfera della FOMO, sempre più giocatori aderiscono allo scopo di "stancarsi fino alla morte, rotolarsi fino alla morte" e tuffarsi in questa traccia——

Alibaba DAMO Academy scommette sulla "Xunguang Video Creation Platform", ByteDance AI sta esplorando "film drammatici generativi", Meitu MOKI si sta concentrando sulla creazione di cortometraggi AI, Haiper AI si sta concentrando sull'espressione creativa...

Shanghai il 5 luglio era molto calda, proprio come l'ansia nel circolo video dell'IA.

In questo giorno si tiene la Sala Conferenze.

Il forum riunisce molte aziende leader ed esperti nel campo dei video AI per discutere gli ultimi progressi nella tecnologia di generazione video e le sue pratiche innovative nelle applicazioni industriali.

Condivisione approfondita: le parole accorate di una cerchia di addetti ai lavori

Dall'emergere di ChatGPT, la tecnologia di generazione video fatta esplodere da Sora è sicuramente il "pollo più piccante" nel mondo della tecnologia.

Sebbene questo campo sia ancora agli inizi, la tecnologia di generazione video espande costantemente i confini della creazione di contenuti digitali con la sua sorprendente velocità di sviluppo e le potenziali prospettive di applicazione.

Chen Weihua, responsabile della generazione video presso Alibaba Damo Academy, Ni Bingbing, professore del Dipartimento di Elettronica dell'Università Jiao Tong di Shanghai, Chen Jianyi, vicepresidente senior di Meitu Corporation, e Miao Yishu, fondatore di Haiper AI, hanno partecipato al forum e tenuto discorsi programmatici.

Chen Weihua, responsabile della generazione video presso Alibaba Damo Academy, ha affermato che il rilascio di Sora all'inizio dell'anno non solo ha dimostrato l'enorme potenziale della generazione video AI in termini di alta definizione, alta fedeltà e alta qualità, ma ha anche ispirato l'immaginazione illimitata delle persone riguardo a questa tecnologia.

Sebbene Sora sia molto interessante, il processo di generazione è ancora difficile da controllare, la coerenza del protagonista è difficile da garantire e richiede molto post-editing manuale per ottenere i migliori risultati.

"Il controllo dei contenuti video è la più grande richiesta nella creazione, ed è anche la sfida più grande che il nostro algoritmo deve affrontare oggi", ha affermato Chen Weihua.

L'ultimo prodotto AIGC rilasciato da Alibaba DAMO Academy - Xunguang Video Creation Platform, mira a migliorare l'efficienza della produzione video e a risolvere i problemi di post-editing video. Attraverso una semplice organizzazione delle riprese e ricche funzionalità di editing video, gli utenti possono ottenere il controllo dei contenuti video. controllo preciso e mantenimento della coerenza di personaggi e scene su più video.

Xunguang fornisce una piattaforma di strumenti unica per l'applicazione diffusa dei video AI non sostituirà il lavoro del creatore, ma ottimizzerà il flusso di lavoro della creazione video e diventerà un nuovo motore guidato dalla creatività.

Ni Bingbing, professore presso il Dipartimento di Elettronica dell'Università Jiao Tong di Shanghai, ha condiviso la tecnologia di generazione di contenuti multimediali per la vettorizzazione.

Non appena iniziò il discorso, vi versò sopra dell'acqua fredda.

"Gli attuali algoritmi di generazione si trovano ad affrontare problemi strutturali e dettagliati. Ad esempio, il contenuto generato può avere più o meno elementi, o può essere forato manualmente, ecc. Per quei video raffinati che devono rispettare regole fisiche, attualmente la tecnologia di generazione deve ancora affrontare delle sfide. "Ni Bingbing ha affermato che il motivo è che tutta l'intelligenza generativa è essenzialmente un processo di campionamento e il video è uno spazio ad alta dimensione. Sebbene la qualità del contenuto possa essere migliorata aumentando i dati di addestramento e riducendo l'accuratezza del campionamento, tuttavia, a causa allo spazio dimensionale estremamente elevato, è ancora difficile raggiungere la perfezione nel quadro tecnico attuale.

Inoltre, anche la limitazione della potenza di calcolo è un fattore importante. Allo stato attuale, gli indicatori di potenza di calcolo, inclusi modelli linguistici di grandi dimensioni e modelli di generazione di immagini e video, hanno raggiunto il livello di dozzine di terabyte, centinaia di terabyte o addirittura migliaia di terabyte. In futuro, la tendenza allo sviluppo dell'intelligenza generativa affonderà definitivamente verso il lato finale ed è impossibile per il lato finale utilizzare un campionamento illimitato di grande potenza di calcolo per risolvere i problemi.

A questo proposito, Ni Bingbing ha proposto di utilizzare un quadro di rappresentazione vettoriale per istanziare i contenuti video nei parametri di rete, ottenendo così un controllo preciso dei contenuti generati e rispettando meglio le regole del mondo fisico.

Ritiene che l’attuale successo dell’intelligenza artificiale generativa vada a scapito di un consumo eccessivo di potenza di calcolo e dati. In futuro, dovremmo concentrarci su nuove rappresentazioni dei contenuti multimediali e nuovi paradigmi di elaborazione generativa e creare attivamente nuove qualità mediali. con maggiore qualità ed efficienza delle forze produttive.

Chen Jianyi, vicepresidente senior del Gruppo Meitu, ha analizzato gli scenari applicativi e le sfide della generazione di video AI dal punto di vista di un product manager.

Durante la ricerca sugli utenti, ha scoperto due fenomeni interessanti.

In primo luogo, gli addetti ai lavori rimarranno stupiti perché il video è generato dall'intelligenza artificiale, ma agli utenti ordinari non interessa se il video è generato dall'intelligenza artificiale, ma si concentrano sul fatto che il contenuto sia attraente.

"Ciò significa che, indipendentemente dall'esperienza visiva ottenuta dalla tecnologia di generazione video AI, dobbiamo tornare al contenuto stesso e concentrarci sui valori e sulle storie che il video vuole trasmettere", ha affermato Chen Jianyi.

In secondo luogo, la maggior parte degli utenti comuni non ha familiarità con termini professionali come "Vincent Pictures" e "Vicent Videos" e non ne conosce gli usi specifici. Prendiamo ad esempio "Wen Sheng Tu". Questo termine è proprio come la funzione "fluidifica" di PhotoShop all'epoca, che è difficile da capire, tuttavia, se è limitato a una scena e descritto come una funzione "dimagrimento del viso", gli utenti possono capirlo in modo più intuitivo e comprenderne il valore. Lo stesso vale per "Vincent Video".

Allo stesso tempo, ha affermato che la tecnologia di generazione video AI rende l'espressione dei contenuti più concreta e arricchisce la creatività e l'esperienza visiva, ma deve ancora risolvere problemi chiave come la controllabilità delle impostazioni visive, la controllabilità dinamica e la controllabilità dell'audio.

La piattaforma AI per la creazione di cortometraggi MOKI di Meitu Discovery sta superando queste grandi difficoltà.

Secondo i rapporti, MOKI ha creato un flusso di lavoro completo per cortometraggi con la tecnologia di generazione video AI come nucleo. Nella fase iniziale, i creatori possono scrivere sceneggiature, progettare stili visivi e impostare personaggi, quindi utilizzare la tecnologia AI per generare materiali video. Infine, attraverso le capacità di post-produzione dell’intelligenza artificiale, tutti i materiali sono collegati per formare un cortometraggio coerente.

In qualità di fondatore della celebre startup Haiper AI, Miao Yishu ha discusso approfonditamente il significato e il valore della tecnologia di generazione video.

Miao Yishu ha detto: “Spesso sentiamo opinioni del genere, come “La lingua è intelligenza” o “I grandi modelli linguistici sono intelligenza artificiale generale (AGI)”. Tuttavia, l’apprendimento delle lingue da solo può davvero portarci direttamente all’AGI? sono importanti per gli esseri umani per acquisire conoscenza, ma non è l’unico modo. Gli esseri umani imparano attraverso molteplici metodi di apprendimento come la vista, l’udito, la lettura e la cinestesia. L’intelligenza artificiale deve anche apprendere e costruire un linguaggio veramente universale attraverso l’integrazione di molteplici modalità . intelligente."

Dopo il lancio di GPT-3.5, molte persone hanno avanzato l'idea che "l'elaborazione del linguaggio naturale (NLP) non esiste più" perché i modelli linguistici di grandi dimensioni risolvono sostanzialmente l'apprendimento e la semantica del sistema linguistico attraverso modelli generativi autoregressivi (che prevedono ogni volta la parola successiva). problemi di inferenza, non abbiamo più nemmeno bisogno di modelli discriminativi per mettere a punto specifici problemi di inferenza.

Allo stesso modo, i modelli di generazione video costruiscono anche modelli generativi attraverso l'autoregressione (predicendo ogni volta il fotogramma video successivo), quindi il modello apprende implicitamente compiti importanti nel campo della visione artificiale come la previsione della profondità, l'annotazione semantica e la segmentazione semantica. Pertanto, nel 2024, sentiremo affermazioni come "La visione artificiale (CV) non esiste più" perché il modello di generazione video ha gradualmente padroneggiato le capacità percettive e le leggi fisiche nel processo di apprendimento per generare contenuti video.

"Abbiamo bisogno di comprendere la prima legge di Newton come un cucciolo per inseguire le farfalle per strada? Dobbiamo conoscere tutte le leggi della fisica come un bambino di 5 anni per camminare e andare in bicicletta? La risposta è no questo attraverso l'interazione costante con il mondo e l'osservazione, l'apprendimento attraverso vari modelli. In effetti, il modello di generazione video ha costruito un modello mondiale imparando a generare contenuti video diversi e possiamo facilmente interagire con il modello mondiale attraverso parole immediate da rendere. il contenuto video che desideriamo, e tutto ciò non ci impone di costruire esplicitamente un simulatore per simulare le cosiddette leggi fisiche."

Miao Yishu ha sottolineato: "La generazione di video va oltre la generazione di video". A suo avviso, il modello di generazione video non solo può generare contenuti video, ma rappresenta anche un passo importante nell’apprendimento delle capacità percettive di base attraverso l’apprendimento multimodale, ed è anche l’unico modo per l’intelligenza artificiale di spostarsi verso l’AGI.

Tavola rotonda: come procedere nella generazione di video?

Oltre alla condivisione del tema da parte di quattro esperti e studiosi, il forum ha anche invitato ospiti provenienti dal mondo accademico, imprese, startup e noti istituti di investimento per condurre discussioni approfondite in tavole rotonde sulle tecnologie all'avanguardia per la generazione di video e pratiche applicative innovative in industrie di atterraggio sulla scena.

Nella prima tavola rotonda, Zhu Jiang, fondatore e CEO di Jingying Technology, Liu Ziwei, assistente professore della Nanyang Technological University di Singapore, Li Feng, direttore dell'intelligenza artificiale dello Shengqu Game Technology Center, Le Yuan, partner di Yitian Capital, e altri ospiti discusso "guidato da modelli di grandi dimensioni, dove andrà il percorso di miglioramento della tecnologia di generazione video? " Questo argomento è stato discusso in modo approfondito e sono state discusse le prospettive per l'implementazione della tecnologia di generazione video nel settore.

Zhu Jiang, fondatore e CEO di Jingying Technology, paragona la tecnologia di generazione video all'esplosione della vita nel Cambriano e ritiene che sia attualmente in una fase di rapido sviluppo di tecnologia e applicazioni. Ha sottolineato che le aziende del livello applicativo devono mantenere la propria comprensione e leadership della tecnologia prestando attenzione alle esigenze degli utenti per distinguersi dalla concorrenza. Ha affermato che alla fine sopravvivranno sia le società modello che le società applicative, ma le società modello potrebbero essere più generiche, mentre le società applicative dovranno prestare maggiore attenzione alla comprensione dell'utente e del business.

Liu Ziwei, professore assistente alla Nanyang Technological University di Singapore, ritiene che la tecnologia di generazione video sia attualmente nell'era GPT-3 e sia ancora a circa sei mesi di distanza dalla maturità. Ha analizzato i vantaggi e gli svantaggi dei tre percorsi tecnici di Diffusione, Trasformatore e Modello linguistico e ritiene che possano essere integrati e sviluppati in futuro. Ha inoltre sottolineato la necessità di esplorare la "prima legge di Newton" della tecnologia di generazione video, ovvero come ottenere miglioramenti prevedibili investendo in potenza di calcolo e dati.

Dal punto di vista dell’industria dei giochi, Li Feng, capo dell’intelligenza artificiale presso lo Shengqu Game Technology Center, ritiene che la tecnologia di generazione video possa migliorare l’efficienza e la creatività dello sviluppo dei giochi. Spera di collaborare con aziende modello per applicare la tecnologia di generazione video al processo di sviluppo del gioco, ad esempio facendo riferimento all'idea di rendering differenziabile per la progettazione dei livelli e l'anteprima del layout, l'allineamento visivo dei metodi di comunicazione durante la collaborazione di ricerca e sviluppo e l'allineamento visivo con altri generare immagini di risorse dinamiche.

Le Yuan, partner di Yitian Capital, ha analizzato le sfide affrontate dall'implementazione commerciale della tecnologia di generazione video dal punto di vista del capitale. Egli ritiene che la tecnologia di generazione video abbia fatto progressi ben oltre le aspettative negli ultimi due o tre anni, il che è sorprendente. Tuttavia, oggettivamente parlando, il livello tecnico di oggi non è ancora sufficiente per supportare la commercializzazione su larga scala di applicazioni basate su modelli linguistici viene utilizzato La metodologia e le sfide incontrate sono applicabili anche ai campi di applicazione relativi ai video.

La seconda tavola rotonda del forum si è concentrata su "Innovazione e opportunità nelle applicazioni di generazione video sotto l'onda dell'intelligenza artificiale generativa decostruita". Ospiti di Wuyuan Capital, FancyTech, Morph AI e Stanford University hanno parlato di investimenti, applicazioni, tecnologia e arte, ecc. Da più angolazioni vengono esplorati la direzione di sviluppo e gli scenari applicativi della tecnologia di generazione video.

Kong Jie, fondatore e CEO di FancyTech, ritiene che la tecnologia di generazione video porterà riforme dal lato dell’offerta, consentendo a più persone di partecipare alla creazione di contenuti. Ha introdotto la piattaforma di generazione video To B di FancyTech, che aiuta i commercianti a ridurre i costi di creazione di contenuti ripristinando oggetti reali in scene virtuali.

Shi Yunfeng, vicepresidente di Wuyuan Capital, ha affermato che l'attuale generazione di video è ancora nelle prime fasi di sviluppo, in modo simile allo stato di esplorazione quando GPT2 è stato rilasciato per la prima volta. Trovare PMF è una grande sfida quando le basi della tecnologia non sono ancora solide. Crede che, sebbene la tecnologia continui ad avanzare, i creatori sono molto entusiasti e hanno un certo raggio di diffusione, ma non c'è un consumo diffuso di contenuti. Richiede che product manager di talento personalizzino il prodotto e creino nuove forme di contenuto che siano incompatibili con il flusso di informazioni esistente.

Xu Huaizhe, fondatore e CEO di Morph AI, ritiene che la tecnologia e le applicazioni di generazione video siano ugualmente importanti. In quanto team con un background tecnico, è più importante coordinare lo sviluppo del livello del modello e del livello dell'applicazione. Ha introdotto Morph Studio, uno strumento di produzione video AI all-in-one, basato sul modello di grandi dimensioni video AI leader di Morph. È attualmente in fase di test a livello globale e ha ricevuto feedback positivi. In futuro, Morph continuerà a ottimizzare le funzioni del prodotto e l'esperienza dell'utente attraverso il feedback degli utenti, in modo che la sua tecnologia video AI possa essere implementata più rapidamente attraverso i prodotti e aiutare meglio i creatori.

Dal punto di vista della combinazione di arte e tecnologia, Rao Anyi, ricercatore post-dottorato presso l'Università di Stanford, ritiene che la tecnologia di generazione video possa ispirare metodi di creazione più interattivi. Ha sottolineato che né le macchine né le persone possono essere corrette al 100%, quindi è necessario introdurre un meccanismo di miglioramento interattivo nel processo creativo per consentire alle macchine e alle persone di collaborare per completare la creazione.

Nel complesso, gli ospiti della tavola rotonda sono pieni di aspettative per le prospettive applicative della tecnologia di generazione video, ma riconoscono anche che la tecnologia attuale è ancora nelle sue fasi iniziali e che è necessario esplorare nuovi modelli di business e scenari applicativi per ottenere maggiore valore .

Il successo di questo forum non solo fornisce una piattaforma per la comunicazione e l'apprendimento per i professionisti nel campo dei video con intelligenza artificiale, ma offre anche maggiori opportunità di cooperazione per tutti gli anelli della catena industriale correlata. Guardando al futuro, la tecnologia video AI introdurrà uno spazio di sviluppo più ampio e scenari applicativi più ricchi, creando un’esperienza visiva migliore per gli esseri umani.

notizia

Le grandi aziende hanno lanciato una "corsa agli armamenti" nella generazione di video. L'intelligenza artificiale può davvero sconfiggere Hollywood?

introduzione

le mie informazioni di contatto