notizia

Zhipu AI entra nella generazione video: è online “Qingying”, 6 secondi, gratuito e illimitato

2024-07-26

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Rapporto sul cuore della macchina

Dipartimento editoriale di Machine Heart

Il team del modello di grandi dimensioni Zhipu è sviluppato e costruito autonomamente.

Da quando l'intelligenza artificiale di Kuaishou Keling è diventata popolare in patria e all'estero, la generazione di video domestici sta diventando sempre più popolare proprio come il modello di testo di grandi dimensioni nel 2023.

Proprio ora è stato lanciato ufficialmente un altro grande prodotto modello di generazione video: Zhipu AI ha rilasciato ufficialmente "Qingying". Finché hai buone idee (da poche parole a poche centinaia di parole) e un po' di pazienza (30 secondi), "Qingying" può generare video ad alta precisione con risoluzione 1440x960.



Collegamento video: https://mp.weixin.qq.com/s/fNsMxyuutjVkEtX_xRnsMA

D'ora in poi, Qingying lancerà l'app Qingyan e tutti gli utenti potranno sperimentare appieno le funzioni di dialogo, immagini, video, codici e generazione di agenti. Oltre a coprire il web e l'app di Zhipu Qingyan, puoi anche operare sul "Programma AI Dynamic Photo Mini" per ottenere rapidamente effetti dinamici per le foto sul tuo telefono.



Il video generato da Zhipu "Qingying" dura 6 secondi e ha una risoluzione di 1440×960. Tutti gli utenti possono utilizzarlo gratuitamente.



  • Collegamento per l'accesso al PC: https://chatglm.cn/
  • Collegamento per l'accesso mobile: https://chatglm.cn/download?fr=web_home

Zhipu AI ha affermato che con il continuo sviluppo della tecnologia, le capacità di generazione di "Qingying" saranno presto utilizzate nella produzione di brevi video, nella generazione di pubblicità e persino nel montaggio di film.

Nello sviluppo di modelli video di intelligenza artificiale generativa, la legge di scala continua a svolgere un ruolo sia negli algoritmi che nei dati. "Stiamo esplorando attivamente metodi di scalabilità più efficienti a livello di modello." Allo Zhipu Open Day, Zhang Peng, CEO di Zhipu AI, ha dichiarato: "Con la continua iterazione di algoritmi e dati, credo che la legge di scalabilità continuerà a svolgere un ruolo importante". ruolo forte."



Scegli vari stili

A giudicare da alcune demo attuali e da semplici prove, il "Qingying" di Zhipu AI ha le seguenti caratteristiche:

  • Le prestazioni sono migliori quando si generano contenuti video di paesaggi, animali, fantascienza, discipline umanistiche e storiche, ecc.;
  • Gli stili video che siamo bravi a generare includono lo stile cartone animato, lo stile fotografico reale, lo stile di animazione bidimensionale, ecc.;
  • In termini di effetto di presentazione del tipo di entità, animali > piante > oggetti > edifici > persone.

Può generare video con testo o immagini e lo stile generato copre lo stile di animazione fantasy.

Vincenzo Video

Parole suggerite: spingi verso l'alto con un angolo basso, alza lentamente la testa e un drago appare all'improvviso sull'iceberg. Quindi il drago ti vede e si precipita verso di te. Stile cinematografico hollywoodiano.



Parola suggerita: un mago sta lanciando un incantesimo tra le onde. La gemma raccoglie l'acqua del mare e apre un portale magico.



Parola suggerita: il fungo si trasforma in un orso.



Alla scena reale:

Parola suggerita: in una foresta, dal punto di vista umano, gli alberi torreggianti bloccano il sole, e una parte della luce solare splende attraverso gli spazi tra le foglie, effetto Tyndall.



Parola suggerita: un capibara sta in piedi come un essere umano, tiene il gelato in mano e lo mangia felicemente.



video di Tusheng

Oltre ai video generati da testo, puoi anche giocare con video generati da immagini su Qingying. Tusheng Video offre nuovi modi di giocare, tra cui emoticon, produzione pubblicitaria, creazione di trame, creazione di brevi video, ecc. Allo stesso tempo, verrà lanciata contemporaneamente anche l'applet "Vecchie foto animate" basata su Qingying. Devi solo caricare le vecchie foto in un solo passaggio e l'intelligenza artificiale può animare le foto condensate nel vecchio tempo.

Parola suggerita: un pesce colorato che si muove liberamente.



Parola suggerita: l'uomo nella foto è in piedi, il vento gli scompiglia i capelli.



Parola suggerita: Piccolo giocattolo di anatra gialla che galleggia sulla superficie della piscina, primo piano.



E poi all'arte moderna:

Parola chiave: la telecamera ruota attorno a un gruppo di televisori vintage che mostrano diversi spettacoli: film di fantascienza degli anni '50, film horror, notizie, foto, sitcom degli anni '70, ecc., ambientati in un museo di New York in una grande galleria.



Suggerimento: prendi un iPhone e scatta una foto.



Nessuna parola pronta.



Le emoticon di uso comune, Zhipu AI può estenderle in "serial".

Parola d'ordine: i quattro maestri e apprendisti si sono allungati e si sono dati il ​​cinque a vicenda, con espressioni confuse sui volti.



Collegamento video: https://mp.weixin.qq.com/s/fNsMxyuutjVkEtX_xRnsMA

Parole suggerite: Il gattino ha spalancato la bocca, con un'espressione confusa e molti punti interrogativi sul viso.



Collegamento video: https://mp.weixin.qq.com/s/fNsMxyuutjVkEtX_xRnsMA

Si può vedere che Qingying può gestire vari stili e ci sono più modi di giocare in attesa che le persone lo scoprano. Basta fare clic sulla funzione "Qingying Intelligent" sul PC/APP Zhipu Qingyan e ogni tua idea potrà trasformarsi in realtà in un istante.

Tutta la tecnologia sviluppata autonomamente

Tutto in un modello di grandi dimensioni Wisdom AI implementa da molto tempo modelli di intelligenza artificiale generativa multimodale. A partire dal 2021, Zhipu AI ha pubblicato numerosi studi come CogView (NeurIPS'21), CogView2 (NeurIPS'22), CogVideo (ICLR'23), Relay Diffusion (ICLR'24), CogView3 (2024), ecc.

Secondo i rapporti, "Qingying" si affida a CogVideoX, una nuova generazione di modelli di generazione video di grandi dimensioni sviluppati in modo indipendente dal team di modelli di grandi dimensioni Zhipu AI.

Nel novembre dello scorso anno, il suo team ha creato il modello di generazione di testo in video CogVideo basato sul modello grafico di Vincent CogView2, e successivamente lo ha reso open source.



CogVideo ha 9,4 miliardi di parametri. Genera una serie di fotogrammi iniziali tramite CogView2 e implementa la generazione di video interpolando fotogrammi di immagini in base al modello di attenzione bidirezionale. Inoltre, CogVideo genera un ambiente 3D basato su descrizioni testuali e può utilizzare direttamente modelli pre-addestrati per evitare una formazione costosa. Supporta anche l'input del prompt cinese.

Il modello di generazione video di Qingying Base questa volta è CogVideoX, che può integrare le tre dimensioni di testo, tempo e spazio. Si riferisce al design dell'algoritmo di Sora. È anche un'architettura DiT. Attraverso l'ottimizzazione, CogVideoX è migliore della generazione precedente (. CogVideo). Velocità di inferenza aumentata di 6 volte.

L'emergere di Sora di OpenAI ha consentito all'intelligenza artificiale di compiere progressi significativi nella generazione di video, ma la maggior parte dei modelli ha ancora difficoltà nel generare contenuti video con coerenza e consistenza logica.

Per risolvere questi problemi, Zhipu AI ha sviluppato un'efficiente struttura di autoencoder variazionale tridimensionale (3D VAE), che può comprimere lo spazio video originale al 2%, riducendo notevolmente il costo dell'addestramento del modello e la difficoltà dell'addestramento.

La struttura del modello utilizza la convoluzione 3D causale come componente principale del modello e rimuove il modulo di attenzione comunemente utilizzato negli autoencoder, in modo che il modello abbia la capacità di essere trasferito a diverse risoluzioni.

Allo stesso tempo, la convoluzione causale nella dimensione temporale consente al modello di codifica e decodifica video di avere indipendenza dalla sequenza fronte-retro, il che aiuta a espandere il modello a frame rate più elevati e scene più lunghe attraverso la messa a punto.

Inoltre, la generazione di video deve affrontare anche il problema che la maggior parte dei dati video non dispone di testo descrittivo corrispondente o che la qualità della descrizione è bassa. Per questo motivo, Zhipu AI ha sviluppato autonomamente un modello di comprensione video end-to-end per generare enormi quantità di dati video descrizioni che si adattano al contenuto e quindi creano un gran numero di coppie video-testo di alta qualità, rendendo il modello addestrato altamente conforme alle istruzioni.

Infine, vale la pena ricordare che Zhipu AI ha sviluppato autonomamente un'architettura di trasformazione che integra testo, tempo e spazio. Questa architettura non utilizza il tradizionale modulo di attenzione incrociata, ma collega incorporamenti di testo e incorporamenti video nella fase di input per interagire più pienamente tra le due modalità.

Tuttavia, ci sono grandi differenze negli spazi delle funzionalità di testo e video. L'intelligenza artificiale di Zhipu elabora entrambi separatamente attraverso la norma di livello adattiva esperta, consentendo al modello di utilizzare in modo efficiente i parametri per allineare meglio le informazioni visive con le informazioni semantiche.

Zhipu AI ha affermato che, attraverso la tecnologia di ottimizzazione, la velocità di inferenza del modello video generativo di Zhipu AI è aumentata di 6 volte. Attualmente, il tempo teorico impiegato dal modello per generare un video di 6 secondi è di 30 secondi.

Ora, con il lancio di "Qingying", Zhipu AI, uno dei principali attori nella generazione di video, è riapparso.

Oltre alle applicazioni che tutti possono provare, l'API Qingying viene lanciata simultaneamente anche sulla piattaforma aperta di grandi dimensioni bigmodel.cn. Le aziende e gli sviluppatori possono sperimentare e utilizzare le funzionalità del modello di Wensheng Video e Tusheng Video chiamando l'API.

Mentre varie aziende continuano a lanciare funzioni di generazione video AI, la competizione AI generativa di quest'anno è entrata in una fase incandescente. Per la maggior parte degli utenti, ci sono più scelte: ora, sia le persone senza esperienza nella produzione video che i creatori di contenuti professionali possono realizzare video con l'aiuto di funzionalità di modelli di grandi dimensioni.