dialogo con il ceo di shengshu technology tang jiayu: i video ai hanno raggiunto il punto di "divulgazione" e il miglioramento della durata non è al centro di productization

dialogo con il ceo di shengshu technology tang jiayu: il video ai ha raggiunto il punto di "divulgazione" e il miglioramento della durata non è al centro della produzione

2024-09-13

l'11 settembre, shengshu technology ha tenuto un evento di porte aperte ai media e ha rilasciato la funzione "coerenza dei soggetti", che ha lo scopo di risolvere il problema della "coerenza" della generazione di soggetti da modelli video.

durante l'evento, tang jiayu, co-fondatore e ceo di shengshu technology, in risposta alla domanda di un giornalista sul modello di business del "daily economic news", ha dichiarato che attualmente esistono due tipi di abbonamenti saas (software as a service) e maas (model as a service) nel settore da quando vidu è andato online il 30 luglio, ha ricevuto decine di migliaia di richieste di accesso api in tutto il mondo.

per quanto riguarda l'architettura sottostante, tang jiayu ha affermato che l'"architettura u-vit" utilizzata dal suo prodotto "vidu" è quasi identica all'"architettura dit" utilizzata da sora. la differenza è che u-vit è più orientata all'implementazione disegni. sulla tabella di marcia tecnica, tutti sono ora in uno stato di convergenza dell'architettura sottostante, ma omogeneità non significa che tutti abbiano gli stessi progressi e capacità. tang jiayu ha fornito un esempio: "ad esempio, nell'attuale modello linguistico, (sebbene ) tutti usano l’architettura transformer, ma da ora in poi, realisticamente, openai è ancora chiaramente in vantaggio.”

al momento, i principali utenti dei video ai sono ancora utenti professionali, come gli operatori cinematografici, ma tang jiayu ritiene che i video ai abbiano raggiunto il punto di "divulgazione".

inoltre, a giudicare dalle entrate attuali, shengshu technology ha ottenuto maggiori entrate dal mercato del lato b, mentre la curva di crescita del lato c è stata molto "ripida" nel mese successivo al lancio del prodotto vidu.

“l’obiettivo finale è realizzare un modello universale di grandi dimensioni”.

tang jiayu è un maestro del laboratorio di elaborazione del linguaggio naturale dell'università di tsinghua. in precedenza è stato vicepresidente di ruilai intelligence e senior product manager di tencent youtu laboratory. shengshu technology, dove attualmente lavora tang jiayu, è stata fondata nel marzo 2023 e ha annunciato il completamento di un nuovo round di finanziamento all'inizio di marzo di quest'anno. alla fine di aprile di quest'anno, vidu, un modello video originale su larga scala sviluppato congiuntamente dall'azienda e dall'università di tsinghua, è stato rilasciato al mondo. è stato lanciato ufficialmente alla fine di luglio ed è completamente aperto all'uso.

quando uscì vidu fu chiamato la "versione cinese di sora". da un lato, questo nome è dovuto al fatto che il mondo esterno è pieno di aspettative per il grande modello video cinese, dall'altro, dal punto di vista dell'architettura tecnica, i due hanno approcci e obiettivi simili.

secondo i rapporti, lo strato inferiore di vidu si basa sull'architettura u-vit autosviluppata, mentre sora si basa sull'architettura dit. per quanto riguarda la differenza tra le architetture u-vit e dit, tang jiayu ha detto: "in poche parole, sono quasi la stessa cosa." entrambe sono la fusione di diffusion e transformer, e anche alcuni dettagli tecnici sottostanti sono gli stessi. la differenza è che l'architettura u-vit ha "realizzato progetti di ottimizzazione più orientati all'implementazione". per riassumere, quando si addestra lo stesso modello, u-vit richiede allo stesso tempo meno potenza di calcolo.

dal punto di vista del percorso tecnico complessivo, diversi importanti modelli video domestici stanno attualmente seguendo il "percorso simile a sora" diventeranno più omogenei in futuro?

a questo proposito, tang jiayu ha affermato che attualmente tutti sono in uno stato di convergenza dell'architettura sottostante, "ma omogeneità non significa che tutti abbiano gli stessi progressi e le stesse capacità". prendendo come esempio il modello linguistico, ha analizzato che tutti utilizzeranno l’architettura transformer, ma dal punto di vista pratico openai è ancora nettamente avanti. questo perché sono ancora molti i collegamenti basati su questa architettura che richiedono competenze tecniche e pratiche esperienza per aiutare a risolvere le difficoltà. ciò porta a differenze nelle capacità tra i diversi modelli linguistici.

attualmente, l’industria sta esplorando anche nuovi percorsi architettonici, come la combinazione di generazione multimodale e comprensione multimodale, ma non esiste ancora una soluzione particolarmente valida.

"il nostro obiettivo finale è costruire un modello universale di grandi dimensioni. la generazione di video è una fase nel mezzo della generazione multimodale di modelli di grandi dimensioni." tang jiayu ha ammesso la sua ambizione di sviluppare un modello universale di grandi dimensioni.

ha anche detto: "ciò non significa che stiamo facendo solo questa cosa (riferendosi al modello video di grandi dimensioni). oltre al video, abbiamo anche la capacità di generare altre modalità".

“attualmente il mercato del lato b ha maggiori entrate”

la convergenza della logica di fondo della tecnologia ha portato più o meno a idee di sviluppo del mercato simili.

"le scelte aziendali di tutti sono relativamente simili. anche aziende come sora e runway stanno abbracciando attivamente hollywood o la cooperazione pubblicitaria." tang jiayu ritiene che il campo dei video generati dall'intelligenza artificiale sia generalmente ancora nelle fasi iniziali di sviluppo e che i leader internazionali lo siano tutti. andare avanti insieme o "espandere congiuntamente il mercato".

prendendo come esempio la tecnologia shengshu, tang jiayu divide il modello di business in due direzioni: una è il modello di abbonamento saas, vidu ha una quota gratuita ogni mese, ma se ci sono più esigenze o si desidera utilizzare funzionalità più avanzate, è necessario pagare una quota di abbonamento e vidu continuerà ad arricchire le funzioni del prodotto per soddisfare le esigenze creative degli utenti; la seconda è la modalità di output della capacità del modello (maas). attualmente, molti clienti richiedono funzionalità di generazione video come collegamento nel flusso di lavoro o per ricavare un gameplay interessante , questi clienti sperano di chiamare direttamente il modello.

dal punto di vista delle entrate, il mercato di fascia b ha guadagnato più entrate in questa fase. tuttavia, un mese dopo il lancio di vidu, anche la curva di crescita del lato c è molto “ripida”. "sulla base del nostro giudizio attuale, il lato b (la domanda) è relativamente chiaro, diretto e stabile, quindi il lato b è una direzione chiave a lungo termine per noi. esploriamo costantemente anche il lato c," tang jiayu ha detto.

al momento, i modelli e gli strumenti di generazione video nazionali hanno formato un '"onda" e hanno funzionato bene, ma tang jiayu ritiene: "non si può dire che la cina abbia preso completamente l'iniziativa. i principali attori nazionali ed esteri appartengono al primo scaglione".

“il video ai ha raggiunto un nodo”

tra i gruppi di pubblico dei videomodelli di grandi dimensioni, i professionisti del cinema, della televisione e dell'animazione sono la maggioranza e sono per lo più considerati "pubblico professionale". quindi, per la "gente comune", quando il video ai diventerà uno strumento che possono controllare?

tang jiayu ha preso ad esempio la fotografia dall'era delle fotocamere a pellicola alla divulgazione della fotografia con i cellulari, si tratta di un processo di costante abbassamento della soglia per i creatori. "il video ai è ormai giunto a un punto critico." tang jiayu ha affermato che la funzione "riferimento oggetto" rilasciata da shengshu technology l'11 settembre è uno sforzo per abbassare la soglia per i creatori o accelerare il processo creativo.

"la tecnologia è ancora un fattore chiave. l'attuale generazione di video è conforme solo inizialmente alle leggi della fisica, e ci sono ancora limiti elevati che devono essere superati, come capacità di modelli più forti e la generazione collaborativa di più modalità." ha introdotto che la funzionalità "riferimento all'oggetto" è stata effettivamente notevolmente migliorata in termini di generazione di coerenza, ma ci sono ancora molte aree che necessitano di ulteriori miglioramenti. "ad esempio, se vuoi trasformare un modello di grandi dimensioni da un prodotto a un oggetto artigianale, e questo oggetto artigianale ha modelli complicati e parti cave, il tasso di successo della generazione attuale non è ancora elevato a fronte di una struttura così complessa. la generazione della scena implica molti componenti, come le scarpe sportive, spero che possano funzionare meglio in scene più complesse e dinamiche, che richiedono un miglioramento continuo delle capacità del modello.

in questo processo, l’originalità e la svolta tecnologica devono andare di pari passo con una buona commercializzazione, perché dopotutto le società commerciali non sono istituti di ricerca scientifica.

prendendo come esempio la durata della generazione video, espandere la durata della generazione richiede il miglioramento della capacità del modello di comprendere astrattamente il mondo e le sue capacità bidirezionali di compressione e amplificazione delle informazioni. attualmente, vidu può generare video fino a 32 secondi e shengshu technology prevede di estenderlo a un periodo più lungo. tuttavia, la durata non è la parte di shengshu technology attualmente focalizzata sulla produzione.

"nella creazione vera e propria, grosso modo, più del 90% dei clip dura diversi secondi. pertanto, da un punto di vista pratico, non abbiamo ancora considerato la durata come la nostra priorità per il rilascio", ha sottolineato tang jiayu, ma dal punto di vista dal punto di vista delle capacità del modello, l'azienda continua effettivamente a migliorare.

giornalista |li shaoting ke yang

modificare|duan lianwenduo du hengfeng

correzione di bozze |wang yuelong

｜ notizie economiche quotidiane notizie nbd articolo originale｜

è vietata la ristampa, l'estrazione, la copia e il mirroring senza autorizzazione.

notizie economiche quotidiane

segnalazione/feedback

notizia

dialogo con il ceo di shengshu technology tang jiayu: il video ai ha raggiunto il punto di "divulgazione" e il miglioramento della durata non è al centro della produzione

introduzione

le mie informazioni di contatto