notizia

La versione AI di Sora è qui!È gratuito e illimitato per tutti, puoi giocarci se hai un cellulare e anche l’API è aperta

2024-07-26

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Jin Lei proviene dal Tempio Aofei
Qubit |. Account pubblico QbitAI

Proprio adesso,Spettro della saggezza AIÈ nata una versione di Sora, denominataombra chiara

Senza ulteriori indugi, diamo un’occhiata alle immagini generate da Qingyingun cortometraggio



Indirizzo del video: https://mp.weixin.qq.com/s/XmXR-XZtMvhZHtLTCxU4ZQ

esistereVincenzo VideoAd esempio, se dai un suggerimento a Qingying, puoi farloSfida la sua immaginazione

Nella scena notturna della città in stile cyberpunk con luci al neon lampeggianti, la telecamera portatile ingrandisce lentamente, mostrando una scimmietta in stile meccanico che utilizza strumenti high-tech per le riparazioni, circondata da apparecchiature elettroniche lampeggianti e materiali decorativi futuristici. Stile cyberpunk, atmosfera misteriosa, alta definizione 4K.



Indirizzo del video: https://mp.weixin.qq.com/s/XmXR-XZtMvhZHtLTCxU4ZQ

È pieno di sapore cyberpunk e futuristico ed è più vicino all'immagine che immaginiamo nella nostra mente.

E tranneVincenzo VideoInoltre, Qingying questa voltavideo di TushengAnche le abilità sono state rilasciate insieme.

Ora confrontiamo la tua immaginazione con la creatività di Qingying per vedere chi è il migliore.

Per favore guarda la prima immagine——civiltà rupestre



Quindi il seguente video è la versione creata e segnata da Qingying utilizzando AI Power:



Indirizzo del video: https://mp.weixin.qq.com/s/XmXR-XZtMvhZHtLTCxU4ZQ

Alla fine del video, Qingying ha imparato a scuotere la fotocamera nei fotogrammi chiave, rendendo il video più misterioso.

Veniamo quindi al secondo round e guardiamo prima le immagini insieme——Respiro del Drago di Fuoco



Il video creato da Qingying sulla base di questa immagine si apre in questo modo:



Indirizzo del video: https://mp.weixin.qq.com/s/XmXR-XZtMvhZHtLTCxU4ZQ

Potevo immaginare che il drago si stesse preparando a sputare fuoco, ma non mi aspettavo che avrebbe bruciato il villaggio al suolo, ma era anche ragionevole.

Ma guardando l'intero evento di lancio di Zhipu AI, gli effetti ad alta definizione e coerenza delle immagini sono solo una parte dei punti salientivalore del benessereÈ pieno!

Gratis per tutti, senza code, orari illimitati!

Inoltre, l'effetto è quello di generare direttamente un modello di grandi dimensioni dai tuoi video.CogVideoCapacitàPiena potenza, non impegnatevi nel marketing della fame.

Secondo Zhipu AI, sono necessari solo 30 secondi per generare un video 1440x960 da 6 secondi e la velocità di inferenza del modello è aumentata di sei volte.



Non solo, ora a Zhipu QingyanVersione per PCEAPPSul sito web sono state aperte le funzioni di Wensheng Video/Tusheng Video;AppletD'altra parte, attualmente supporta solo i video Tusheng.

Ci sono anche buone notizie per gli sviluppatori Questa volta il video genera modelli di grandi dimensioni.APIÈ stato anche completamente aperto, sìPrima domesticoOH!

Devo dire che in termini di comodità ed efficienza, anche questa volta Zhipu AI ha centrato l'obiettivo.

Quindi, è il momento di utilizzare la funzione di generazione video di Zhipu AI per eseguire alcuni test effettivi.

Spettro di saggezza misurato Versione AI Sora

Facciamo prima un testVincenzo VideoEffetto.

Apri l'APP Zhipu Qingyan o la versione per PC e l'ingresso a Vincent Video sarà nella finestra di dialogo principale.





Prendendo come esempio l'APP, l'interfaccia è la seguente:



Quindi tutto è pronto, basta inserire il prompt.

Ma va notato che questa è la chiave del successo o del fallimento della generazione video.

Uno dei principi più importanti è: Nodo! Struttura! sesso!La formula è la seguente:

  • Formula semplice: [Movimento fotocamera] + [Costruisci scena] + [Maggiori dettagli]
  • Formula complessa: [Lingua dell'obiettivo] + [Luce e ombra] + [Soggetto (Descrizione del soggetto)] + [Movimento del soggetto] + [Scena (Descrizione della scena)] + [Umore/Atmosfera/Stile]

Quindi quanto peggiorerà l’effetto?

Ad esempio se inserisci semplicemente:Ragazzino che beve caffè, il risultato generato è così:



È abbastanza soddisfacente, ma a prima vista sembra un'intelligenza artificiale.

Ma se le parole suggerite vengono arricchite secondo la formula, il metodo di apertura sarà completamente diverso:

La telecamera fa una panoramica per rivelare un ragazzino seduto su una panchina del parco, con in mano una tazza di caffè fumante. Sembrava allegro in camicia azzurra, con un parco alberato sullo sfondo e la luce del sole che filtrava attraverso le foglie.



Indirizzo del video: https://mp.weixin.qq.com/s/XmXR-XZtMvhZHtLTCxU4ZQ

No, l'atmosfera del film è venuta fuori all'improvviso.

Ma oltre alla formula di adesso, ci sono diversi principi importanti a cui puoi fare riferimento.

Primo,La ripetizione è potere

La ripetizione o il rinforzo delle parole chiave in diverse parti del prompt può aiutare a migliorare la coerenza dell'output. Ad esempio, la telecamera vola attraverso la scena ad altissima velocità (le parole "altissima velocità" e "veloce" sono parole ripetute).

In secondo luogo, prova a concentrare i tuoi suggerimenti su ciò che dovrebbe apparire nella scena. Ad esempio, dovresti indicare un cielo limpido anziché un cielo senza nuvole.

Con queste formule e principi in atto, possiamo provarci.

Il piccolo principe e la volpe guardavano insieme le stelle sulla luna. La volpe di tanto in tanto guardava il piccolo principe.



Indirizzo del video: https://mp.weixin.qq.com/s/XmXR-XZtMvhZHtLTCxU4ZQ

Rappresentazione realistica, a distanza ravvicinata, di un ghepardo che dorme a terra, con il corpo che si alza e si abbassa leggermente.



Indirizzo del video: https://mp.weixin.qq.com/s/XmXR-XZtMvhZHtLTCxU4ZQ

Inoltre, secondo l’introduzione di Zhipu AI, se lo provi un paio di volte potresti avere effetti inaspettati (è comunque gratuito).

Dopo il video di Vincent, testeremo di nuovovideo di Tusheng

Ci sono anche due tecniche chiave qui.

La prima cosa è che le immagini caricate siano il più chiare possibile, preferibilmente con un rapporto di 3:2 e un formato jpg o png.

Il prossimo è ancora Prompt,Ci deve essere un argomento, quindi il Prompt può essere scritto secondo la formula "[Oggetto]+[Movimento oggetto]+[Sfondo]+[Movimento sfondo]".

Certo, è possibile senza preavviso, ma l'intelligenza artificiale genererà video in base alle proprie idee.

Ad esempio, diamo in pasto una foto del monaco Tang:



Quindi, secondo la formula tecnica appena fornita, il prompt è il seguente:

Tang Seng allungò la mano e indossò gli occhiali da sole.



Indirizzo del video: https://mp.weixin.qq.com/s/XmXR-XZtMvhZHtLTCxU4ZQ

Da questo, ci sono molti modi di giocare (di fare le cose).

Ad esempio, lascia che Zhen Huan e Shen Meizhuang "rompano il muro" e si abbracciano:

Zhen Huan Meizhuang abbraccia lo schermo.



Indirizzo del video: https://mp.weixin.qq.com/s/XmXR-XZtMvhZHtLTCxU4ZQ

È facile far rivivere vecchie foto:

Hu Shi si voltò e se ne andò.



Indirizzo del video: https://mp.weixin.qq.com/s/XmXR-XZtMvhZHtLTCxU4ZQ

A giudicare dai vari effetti, Qingying of Zhipu AI è una specie di Sora che può essere utilizzata direttamente.

Quindi la domanda successiva è:

Come hai fatto?

Nel campo della generazione video, la consistenza e la coerenza del contenuto di output sono fattori chiave che determinano l'effetto finale.

A tal fine, secondo Zhipu AI, il team ha sviluppato un efficienteStruttura dell'autoencoder variazionale tridimensionale(3D VAE), comprime lo spazio video originale al 2% delle dimensioni, riducendo notevolmente i costi di formazione e la difficoltà di formazione del modello di generazione della diffusione video.

In termini di struttura del modello, il team Zhipu adottaconvoluzione tridimensionale causale(Convoluzione causale 3D) è il componente principale del modello e il modulo di attenzione comunemente utilizzato negli autoencoder viene rimosso, dando al modello la possibilità di migrare a diverse risoluzioni.

Allo stesso tempo, la forma della convoluzione causale nella dimensione temporale consente anche al modello di avere indipendenza dalla sequenza fronte-retro per la codifica e decodifica video. Lo scopo di ciò è facilitare la generalizzazione a frame rate più elevati e tempi più lunghi -messa a punto. .

Dal punto di vista dell'implementazione tecnica, Zhipu AI si basa sulla dimensione temporale.parallelismo delle sequenze(Temporal Sequential Parallel) ottimizza e distribuisce il codificatore automatico variazionale per consentirgli di supportare la codifica e la decodifica di video con frame rate estremamente elevato con un ingombro di memoria grafica ridotto.



Ma oltre alla consistenza e alla coerenza dei contenuti, c'è un altro problema nella generazione dei video: la maggior parte dei dati video attuali è priva di testo descrittivo corrispondente oppure la qualità della descrizione è bassa.

A tal fine, Zhipu AI ha sviluppato un modello di comprensione video end-to-end per generare descrizioni dettagliate e di facile contenuto per enormi dati video.

In questo modo, è possibile migliorare la comprensione del testo del modello e le capacità di seguire le istruzioni, rendendo il video generato più coerente con l'input dell'utente e in grado di comprendere istruzioni estremamente lunghe e complesse.

Infine, Zhipu AI ha anche sviluppato un'architettura Transformer che integra le tre dimensioni di testo, tempo e spazio.

Abbandona il tradizionale modulo di attenzione incrociata, ma concatena l'incorporamento del testo e l'incorporamento del video nella fase di input per interagire più pienamente con le due modalità.

Tuttavia, gli spazi delle funzionalità delle due modalità sono molto diversi. Il team ha utilizzato la norma di livello adattiva esperta per elaborare separatamente le modalità testo e video per compensare questa differenza. Ciò può rendere più efficace l'uso delle informazioni sul passaggio temporale nel modello di diffusione. creazione Il modello può utilizzare in modo efficiente i parametri per allineare meglio le informazioni visive con le informazioni semantiche.

Il modulo di attenzione adotta un meccanismo di attenzione completa 3D. Gli studi precedenti di solito utilizzano l'attenzione spaziale e temporale separata o bloccano l'attenzione spaziotemporale. Richiedono una grande quantità di trasmissione implicita di informazioni visive, che aumenta notevolmente la difficoltà di modellazione non possono adattarsi ai quadri formativi esistenti ed efficienti.

Il modulo di codifica della posizione progetta 3D RoPE, che è più favorevole a catturare la relazione tra i fotogrammi nella dimensione temporale e a stabilire dipendenze a lungo raggio nel video.

Quanto sopra è il punto di forza tecnico chiave dietro il modo in cui Zhipu è diventato Qingying.

Un'altra cosa

Oltre a questa versione gratuita, Zhipu AI ha lanciato anche una versione a pagamento, il prezzo è il seguente:

  • 5 yuan:Sblocca i vantaggi dell'alta velocità 24 ore su 24
  • 199 yuan: Sblocca un anno di diritti ad alta velocità

Convertire la quota annuale, cioèSolo 5 centesimi al giorno

Beh, in realtà ha un odore un po' fragrante.

Il collegamento all'esperienza è qui sotto. Gli amici interessati possono provarlo~

https://chatglm.cn/video