notizia

Zhipu AI rilascia un modello di generazione video di grandi dimensioni, Bilibili partecipa alla ricerca e allo sviluppo e Yizhuang fornisce potenza di calcolo Jiazi Guangnian |

2024-07-26

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


Video modelli di grandi dimensioni entrano nella battaglia di centinaia di modelli.

Autore|Zhao Jian‍‍‍

Quest'anno è il primo anno dell'esplosione di modelli di "generazione video" su larga scala. Negli ultimi due mesi abbiamo visto Kuaishou Keling, SenseTime Vimi, Luma AI, Aishi Technology Pixverse, Runway Gen-3 e altri grandi modelli video rincorrersi.

Tuttavia, nella prima metà dell'anno, le grandi aziende modello di generazione video tendevano a concentrarsi solo sulla funzione di generazione video.

Nella seconda metà dell'anno, le principali società di modelli linguistici seguiranno gradualmente le orme di OpenAI ed entreranno nel mercato dei modelli video di grandi dimensioni per unificare modelli linguistici e modelli video.

Tra i "Sei Grandi Modelli" di alto profilo, quello che si muove più velocemente è Zhipu AI.

Questa mattina, questo modello di unicorno di grandi dimensioni con sede a Tsinghua ha lanciato il prodotto di modello di grandi dimensioni di generazione video "Qingying", che è direttamente aperto a tutti gli utenti e supporta Wensheng Video e Tusheng Video.

Dopo aver inserito un pezzo di testo o un'immagine (ad esempio un messaggio) nel PC o nell'app Zhipu Qingyan, gli utenti possono scegliere lo stile che desiderano generare, inclusi cartoni animati 3D, bianco e nero, pittura a olio, stile film, ecc., accompagnati dallo stile di Qingying musica, generando video clip pieni di immaginazione AI, inoltre, "AI Dynamic Photo Mini Program" supporta i video Tusheng;

Per quanto riguarda la situazione attuale nel campo dei grandi modelli video, Zhang Peng ritiene che probabilmente si entrerà in una situazione in cui si contendono un centinaio di scuole di pensiero, proprio come i grandi modelli linguistici.

In termini di strategia di commercializzazione, l'attuale piano di pagamento di Qingying è: durante il periodo di prova iniziale, tutti gli utenti possono usarlo gratuitamente; pagare 5 yuan per sbloccare i diritti del canale ad alta velocità per un giorno (24 ore); pagato l'accesso ad alta velocità per un anno. Diritti sul canale. Zhang Peng, amministratore delegato di Zhipu AI, ha dichiarato: "L'attuale commercializzazione è ancora in una fase iniziale e il costo è in realtà molto elevato. Ripeteremo gradualmente in base al feedback del mercato".

L'API Qingying viene lanciata simultaneamente anche sulla piattaforma aperta di grandi dimensioni Zhipu. Le aziende e gli sviluppatori possono sperimentare e utilizzare le funzionalità del modello di Wensheng Video e Tusheng Video chiamando l'API.

La ricerca e lo sviluppo di Qingying hanno ricevuto un forte sostegno da Pechino. Il distretto di Haidian è dove si trova il quartier generale di Zhipu AI. Fornisce supporto completo come investimenti industriali, sussidi per la potenza di calcolo, dimostrazioni di scenari applicativi e talenti per Zhipu AI per svolgere ricerca e sviluppo di modelli su larga scala. La formazione di Qingying si basa su quella di Yizhuang cluster di calcolo ad alte prestazioni a Pechino. La nascita del cluster di potenza di calcolo di Yizhuang verrà applicata in futuro anche al vasto cluster industriale di alta precisione di Yizhuang, Pechino, formando un nuovo formato di business in cui grandi modelli potenziano l’economia reale.


In termini di cooperazione ecologica, bilibili ha anche partecipato come partner al processo di ricerca e sviluppo tecnologico di Qingying e si impegna a esplorare possibili scenari applicativi futuri. Allo stesso tempo, anche il partner Huace Film and Television ha partecipato alla co-costruzione del modello.

Genera video da qualsiasi testo in 1,30 secondi

Qual è l'effetto specifico del Qingying? Diamo prima un'occhiata ad alcuni casi video rilasciati ufficialmente (tutti accompagnati da musica).

  • Video di Vincenzo:

Parole suggerite: spingi verso l'alto con un angolo basso, alza lentamente la testa e un drago appare all'improvviso sull'iceberg. Quindi il drago ti vede e si precipita verso di te.Stile film hollywoodiano

Suggerimento: nella scena notturna della città in stile cyberpunk con luci al neon lampeggianti, la fotocamera portatile ingrandisce lentamente e una scimmietta in stile meccanico la sta riparando con strumenti high-tech, circondata da apparecchiature elettroniche lampeggianti e materiali decorativi futuristici. Stile cyberpunk, atmosfera misteriosa, alta definizione 4K.

Parola suggerita: prospettiva di ripresa pubblicitaria, sfondo giallo, tavolo bianco, una patata viene buttata giù e trasformata in una porzione di patatine fritte.

  • video di Tusheng

Parola suggerita: bellezza classica

Parola suggerita: un drago spara fuoco dalla bocca e brucia un piccolo villaggio.

Parola suggerita: Capibara beve pigramente Coca Cola con una cannuccia, girando la testa verso la telecamera

Il tempo di generazione del video di Qingying è di circa 6 secondi e il tempo di attesa dopo aver inserito la parola di richiesta è di circa 30 secondi. Zhang Peng ha affermato che la velocità di questa generazione è già molto elevata nel settore.

Zhang Peng ritiene che l'esplorazione di modelli multimodali sia ancora in una fase iniziale. A giudicare dall'effetto dei video generati, c'è molto margine di miglioramento in termini di comprensione delle leggi del mondo fisico, alta risoluzione, continuità dei movimenti della telecamera e durata. Dal punto di vista del modello stesso, è necessaria una nuova architettura di modello con innovazioni più rivoluzionarie. Dovrebbe comprimere le informazioni video in modo più efficiente, integrare completamente testo e contenuti video e rendere il contenuto generato più realistico e conforme alle istruzioni dell'utente.

2. Architettura DiT autosviluppata

Il modello di generazione video di Qingying Base è CogVideoX, che integra le tre dimensioni di testo, tempo e spazio e si riferisce alla progettazione dell'algoritmo di Sora. CogVideoX è anche un'architettura DiT. Attraverso l'ottimizzazione, la velocità di inferenza di CogVideoX è aumentata di 6 volte rispetto alla generazione precedente (CogVideo).

Zhipu condivideva principalmente tre caratteristiche tecniche di CogVideoX: coerenza dei contenuti, controllabilità e struttura del modello.


Innanzitutto, per risolvere il problema della coerenza dei contenuti,Zhipu ha sviluppato autonomamente un'efficiente struttura di autoencoder variazionale tridimensionale (3D VAE), che comprime lo spazio video originale al 2% delle dimensioni, riducendo così i costi di formazione e la difficoltà di formazione del modello di generazione della diffusione video.

In termini di struttura del modello, Wisdom Spectrum utilizza la convoluzione causale 3D come componente principale del modello e rimuove il modulo di attenzione comunemente utilizzato negli autoencoder, rendendo il modello capace di migrazione e utilizzo a diverse risoluzioni.

Allo stesso tempo, la forma della convoluzione causale nella dimensione temporale consente anche al modello di avere indipendenza dalla sequenza fronte-retro per la codifica e decodifica video, rendendo più semplice la generalizzazione a frame rate più elevati e tempi più lunghi attraverso la messa a punto.

Dal punto di vista dell'implementazione ingegneristica, Zhipu ottimizza e implementa il codificatore automatico variazionale basato su Temporal Sequential Parallel nella dimensione temporale, in modo che possa supportare la codifica di video con frame rate estremamente elevato con un ingombro di memoria grafica inferiore .

Il secondo punto è la controllabilità.La maggior parte dei dati video attuali è priva di testo descrittivo corrispondente o la qualità della descrizione è bassa. Per questo motivo, Zhipu ha sviluppato un modello di comprensione video end-to-end per generare descrizioni dettagliate e di facile contenuto per enormi dati video, in modo da migliorare il contenuto. capacità di comprendere il testo del modello e seguire le istruzioni, rendendo il video generato più coerente con l'input dell'utente e in grado di comprendere istruzioni rapide estremamente lunghe e complesse.

Questo è anche il metodo utilizzato da Sora. OpenAI ha addestrato un modello di generatore di sottotitoli altamente descrittivo utilizzando la "tecnica di ricapitolazione" di DALL·E 3 e poi l'ha utilizzato per generare sottotitoli di testo per i video nel set di dati di addestramento. Inoltre, OpenAI sfrutta GPT per convertire brevi istruzioni utente in sottotitoli più lunghi e dettagliati, che vengono poi inviati al modello video.

Infine, esiste un'architettura trasformatrice sviluppata da Zhipu che integra le tre dimensioni di testo, tempo e spazio.Abbandona il tradizionale modulo di attenzione incrociata, ma concatena l'incorporamento del testo e l'incorporamento del video nella fase di input per interagire più pienamente con le due modalità.

Tuttavia, gli spazi delle funzionalità delle due modalità sono molto diversi. Zhipu utilizza la norma di livello adattiva esperta per elaborare separatamente le modalità testo e video per compensare questa differenza, in modo che le informazioni sul passaggio temporale nel modello di diffusione possano essere utilizzate in modo più efficace consente al modello di utilizzare in modo efficiente i parametri per allineare meglio le informazioni visive con le informazioni semantiche.

Il modulo di attenzione adotta un meccanismo di attenzione completa 3D. Gli studi precedenti di solito utilizzano l'attenzione spaziale e temporale separata o bloccano l'attenzione spaziotemporale. Richiedono una grande quantità di trasmissione implicita di informazioni visive, che aumenta notevolmente la difficoltà di modellazione non possono adattarsi ai quadri formativi esistenti ed efficienti.

Il modulo di codifica della posizione progetta 3D RoPE, che è più favorevole a catturare la relazione tra i fotogrammi nella dimensione temporale e a stabilire dipendenze a lungo raggio nel video.

3. La Legge di Scaling è ancora in gioco

All'inizio dell'intelligenza artificiale nel percorso del modello di grandi dimensioni, Zhipu ha iniziato a disporre i layout correlati nel campo multimodale. Dal testo alle immagini fino ai video, la comprensione del mondo da parte dei grandi modelli diventa sempre più complessa e multidimensionale. Attraverso l'apprendimento di varie modalità emergono modelli di grandi dimensioni con la capacità di comprendere, conoscere e gestire compiti diversi.

La ricerca di Zhipu sui grandi modelli multimodali può essere fatta risalire al 2021. A partire dal 2021, Zhipu ha sviluppato CogView (NeurIPS'21), CogView2 (NeurIPS'22), CogVideo (ICLR'23), Relay Diffusion (ICLR'24) e CogView3 (2024).


Basandosi su CogView, il team ha sviluppato CogVideo, un modello di generazione testo-video basato su grandi modelli, ha adottato una strategia di formazione gerarchica con frequenza multi-frame per generare videoclip di alta qualità e ha proposto un metodo basato sull'interpolazione ricorsiva per. generare gradualmente il testo corrispondente a ciascuna sotto-descrizione e interpolare questi video clip strato per strato per ottenere i video clip finali. Questo lavoro ha attirato l'attenzione diffusa da Facebook, Google e Microsoft ed è stato citato in successivi lavori modello di generazione di video come Make-A-Video di Facebook, Phenaki e MAGVIT di Google, DragNUWA di Microsoft e Video LDM di NVIDIA.

Nel maggio 2024, il team tecnico dei modelli di grandi dimensioni GLM ha elaborato in modo esaustivo le tre principali tendenze tecniche dei modelli di grandi dimensioni GLM per AGI durante il discorso principale dell'ICLR 2024, in cui i modelli di grandi dimensioni multimodali nativi svolgono un ruolo importante: Il team dei modelli di grandi dimensioni GLM ritiene che il testo è costruito La base fondamentale per modelli di grandi dimensioni, il passo successivo è quello di mescolare insieme testo, immagini, video, audio e altre modalità per la formazione per costruire un modello multimodale veramente nativo.


Zhipu ha un layout completo di prodotti di grandi serie di modelli e i modelli multimodali svolgono sempre un ruolo importante. Zhipu ha verificato l'efficacia della Legge di Scaling nella generazione di video. In futuro, pur continuando ad aumentare la scala dei dati e la scala del modello, esploreremo nuove architetture di modelli con innovazioni più rivoluzionarie, comprimeremo le informazioni video in modo più efficiente e fonderemo il testo in modo più completo. e contenuti video.

Zhang Peng ritiene che una delle direzioni tecnologiche rivoluzionarie per i modelli di grandi dimensioni in futuro siano i modelli di grandi dimensioni multimodali nativi e che la legge di scala continuerà a svolgere un ruolo sia negli algoritmi che nei dati.

“Non abbiamo ancora visto segni di rallentamento della curva tecnologica”, ha detto Zhang Peng.

(Fonte dell'immagine di copertina e del testo che accompagna le immagini: Zhipu)