notizia

Genera video in 30 secondi, gratuitamente e per tempi illimitati. La versione cinese di "Wisdom Spectrum Qingying" di OpenAI rilasciata oggi è stata giocata in modo pazzesco

2024-07-26

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


Negli ultimi sei mesi, i modelli di generazione video nazionali ed esteri hanno inaugurato una nuova ondata di esplosione tecnologica, e sono sempre stati popolari soprattutto sui social network.

Tuttavia, a differenza del “rimanere indietro” dei modelli di generazione del linguaggio, le tendenze recenti mostrano che i progressi nazionali nel campo dei modelli di generazione video hanno ampiamente superato il livello internazionale. Molti netizen stranieri hanno affermato che "il video cinese Keling AI" sta facendo esplodere Internet, mentre Sora di OpenAI sta dormendo.

Oggi, Zhipu AI, uno dei principali produttori di modelli nazionali, ha rilasciato anche il suo prodotto di generazione video AI "Qingying".


Naturalmente, ci sono molti modelli video AI in patria e all'estero, e tutti hanno molti difetti, ma rispetto al "futuro" Sora, questi prodotti video AI sono sia visibili che tangibili e potrebbero richiedere al massimo qualche tentativo in più. Video dell'"estrazione" di un affare garantito.

E questa stessa esplorazione fa parte del progresso tecnologico.

Proprio come GPT-3 è stato messo in discussione e criticato all’inizio della sua nascita, e alla fine ha utilizzato il tempo per dimostrare il suo valore nel portare avanti il ​​passato e aprire il futuro, allo stesso modo, se diamo un po’ di tempo a questi strumenti di generazione video AI, potrebbero trasformarsi da giocattoli in strumenti in pochi giorni.

Link di accesso al PC Qingying:
https://chatglm.cn/video?fr=opt_homepage_PC
Link di accesso mobile Qingying:
https://chatglm.cn/video?&fr=opt_888_qy3

Genera video di 6 secondi in mezzo minuto, "Zhipu Qingying" viene ufficialmente rilasciato

Rispetto a Zhipu Qingying rilasciato oggi, molte persone potrebbero avere più familiarità con Zhipu Qingyan, ma invece di guardare la pubblicità per vedere l'efficacia, potresti anche dare prima un'occhiata alla demo creata da "Qingying".

Nella foresta lussureggiante, un po' di luce solare filtra attraverso gli spazi tra le foglie, producendo l'effetto Tyndall, e la luce prende forma.


Quando lo tsunami ruggì come un mostro infuriato, l'intero villaggio fu immediatamente inghiottito dal mare, proprio come una scena classica di un film apocalittico.


Nella scena notturna della città con luci al neon lampeggianti, una scimmietta piena di bellezza meccanica tiene in mano strumenti high-tech e ripara le stesse apparecchiature elettroniche lampeggianti e ultra-futuristiche.


Cambiando nuovamente lo stile pittorico, il gattino spalancò la bocca, mostrando un'espressione umanizzata di confusione, con punti interrogativi scritti su tutto il viso.


Non c'è nessun dramma sui combattimenti di palazzo, nessun intrigo, l'abbraccio sullo schermo di Zhen Huan Meizhuang attraverso il tempo e lo spazio, solo il sincero amore fraterno.


Inoltre, grazie a CogVideo, un modello di generazione video di grandi dimensioni sviluppato in modo indipendente e costruito in modo efficiente dal team di modelli di grandi dimensioni di Zhipu, Qingying ora supporta una varietà di metodi di generazione, tra cui video di generazione di testo, video di generazione di immagini e può persino essere utilizzato nella produzione pubblicitaria. e montaggio di film, produzione di brevi video e altri campi.

Qingying ha una forte capacità di seguire i comandi e può comprendere ed eseguire pienamente le istruzioni fornite dagli utenti.

Secondo i rapporti, Zhipu AI ha sviluppato autonomamente un modello di comprensione video end-to-end per generare descrizioni dettagliate e intuitive per enormi quantità di dati video, migliorando così la comprensione del testo del modello e le capacità di seguire le istruzioni e generando contenuti che soddisfano le esigenze degli utenti. . video.


In termini di coerenza dei contenuti, Zhipu AI ha sviluppato autonomamente un'efficiente struttura di codifica automatica variazionale tridimensionale (3D VAE), che comprime lo spazio video originale al 2% delle dimensioni. Insieme al modulo di codifica della posizione 3D RoPE, è più favorevole a catturare fotogrammi nella dimensione temporale. La relazione tra loro stabilisce una dipendenza a lungo termine nel video.

Ad esempio, quanti passaggi sono necessari per trasformare le patate in patatine fritte? Non c'è bisogno di "accendere", basta una semplice parola tempestiva, le patate si trasformeranno in patatine fritte dorate e invitanti. I funzionari dicono che non importa quanto sia folle la tua idea, può trasformarla in realtà uno per uno.


Inoltre, CogVideoX, progettato con riferimento all'algoritmo Sora, è anche un'architettura DiT in grado di integrare le tre dimensioni di testo, tempo e spazio. Dopo l'ottimizzazione tecnica, CogVideoX ha aumentato la sua velocità di ragionamento di 6 volte rispetto alla generazione precedente (CogVideo). In teoria, sono necessari solo 30 secondi affinché il modello generi un video di 6 secondi.

Per fare un confronto, Keling AI, che attualmente è al primo livello, impiega generalmente dai 2 ai 5 minuti per generare un singolo video da 5 secondi.

Alla conferenza stampa di oggi, Zhang Peng, CEO di Zhipu AI, ha chiesto a Qingying di generare un video di un ghepardo che dorme a terra con il corpo leggermente ondulato. Ci sono voluti circa 30 secondi per completare la "fioritura" di una rosa statica.

Inoltre, la risoluzione del video generato da Qingying può raggiungere 1440x960 (3:2) e il frame rate è di 16 fps.

Qingying fornisce anche una funzione di colonna sonora e puoi aggiungere musica al video generato e pubblicarlo direttamente.

Pensavo che l'immagine statica degli astronauti che suonavano la chitarra fosse sufficiente per essere fantasiosa, ma quando si muoveva ed era abbinata a una melodia piacevole, sembrava che gli astronauti stessero tenendo un concerto nello spazio.

A differenza di "Futures" Sora, "Qingying" non si occupa di marketing della fame. Sarà completamente aperto non appena sarà online. Chiunque potrà provarlo senza fissare un appuntamento o fare la fila. Inoltre, verranno lanciate risoluzioni più elevate nelle versioni successive La funzione di generare video a una velocità più elevata e con una durata maggiore.

Zhang Peng ha anche affermato allo Zhipu Open Day: "Tutti gli utenti possono sperimentare le funzionalità video basate su testo e immagini basate sull'intelligenza artificiale tramite Ying".

Ora Qingying è nel suo periodo di test iniziale e tutti gli utenti possono utilizzarlo gratuitamente. Se desideri un'esperienza più fluida, puoi sbloccare i diritti di accesso ad alta velocità per un giorno (24 ore) per 5 yuan. Se sei disposto a pagare 199 yuan, puoi sbloccare i diritti di accesso ad alta velocità a pagamento per un anno.

Inoltre, l'API Ying viene lanciata simultaneamente anche sulla piattaforma aperta big model bigmodel.cn. Le aziende e gli sviluppatori possono sperimentare e utilizzare le funzionalità del modello di Wensheng Video e Tusheng Video chiamando l'API.

La soglia per iniziare è bassa ma è comunque necessario "pescare le carte". I principianti non dovranno più preoccuparsi di scrivere istruzioni errate.

Anche APPSO ha sperimentato Qingying per la prima volta Dopo aver testato alcuni scenari, abbiamo anche riassunto alcune esperienze sull'utilizzo di Qingying:

  • La generazione del video è come "alchimia" e l'output è instabile. Si consiglia di provarlo più volte.
  • Il limite superiore dell'effetto dipende dalla parola del prompt e la struttura della parola del prompt dovrebbe essere il più chiara possibile
  • L'effetto migliore dell'obiettivo è lo scatto ravvicinato, mentre gli altri scatti non sono molto stabili.
  • Ordinamento dell'implementazione del tipo di entità: animali>piante>oggetti>edifici>persone

Uno scienziato che non capisce l'arte non è un bravo scienziato. Einstein suonava la chitarra come un pesce nell'acqua, scuotendo la testa al proprio ritmo, e non sembrava che stesse recitando.


Il panda gigante suona anche la chitarra con stile e versatilità.


Tang Seng, che di solito è stoico, ti saluta e ondeggia al ritmo.


Naturalmente, quelli sopra sono ancora dei video relativamente buoni. Nel processo di generazione dei video, abbiamo accumulato anche molti video inutili.

Ad esempio, ho chiesto all'imperatore sdraiato sul letto di mangiare una coscia di pollo con la mano destra e una mano in più è apparsa dal nulla. All'ultimo secondo del video, ho sentito che l'imperatore stava per rivelare la sua femmina trucco e capelli.


O forse nel momento in cui Leslie Cheung mi ha guardato, il fratello nel suo cuore è diventato "quell'uomo".


Nelle scene complesse, la transizione dei movimenti dei personaggi è innaturale, le caratteristiche fisiche delle scene complesse non possono essere simulate accuratamente, la precisione del contenuto generato è insufficiente, ecc. Queste carenze non sono il "brevetto" di Qingying, ma gli attuali limiti della generazione video modello.

Nelle applicazioni pratiche, sebbene gli utenti possano migliorare la qualità del video ottimizzando le parole immediate, fortunatamente è comune anche il "rollover", parole immediate di qualità accettabile possono garantire in larga misura il limite inferiore del modello di generazione video.

Per prenderci cura di alcuni giocatori alle prime armi, abbiamo anche preparato appositamente alcuni suggerimenti per le parole rapide:

  • Formula semplice: [Movimento fotocamera] + [Costruisci scena] + [Maggiori dettagli]
  • Formula complessa: [Lingua dell'obiettivo] + [Luce e ombra] + [Soggetto (Descrizione del soggetto)] + [Movimento del soggetto] + [Scena (Descrizione della scena)] + [Umore/Atmosfera]

La telecamera esegue una panoramica (movimento dell'obiettivo) per rivelare un ragazzino seduto su una panchina del parco (descrizione del soggetto), con in mano una tazza di caffè fumante (azione del soggetto). Indossa una maglietta blu e ha un'aria felice (dettagli del soggetto), e lo sfondo è un parco alberato, con la luce del sole che filtra attraverso le foglie sul ragazzo (descrizione dell'ambiente).

Se ancora non ne hai idea, ti consiglio di utilizzare l'agente intelligente fornito da Zhipu Qingyan per aiutarti a scrivere parole di istruzioni video. Anche se inserisci scene comuni nella vita, puoi ottenere tre parole di istruzioni di alta qualità.


Ad esempio, se dici semplicemente "Corgi sta prendendo il sole sulla spiaggia", riceverai i seguenti suggerimenti in stile fotografia di scenari naturali in cinese e inglese, e ci sono anche stile di pittura ad acquerello, stile di animazione 3D e altri suggerimenti di stile tra cui scegliere da:

Italiano: Su una spiaggia assolata, un corgi giace pigramente su un telo da mare, godendosi il caldo sole. La fotocamera viene ripresa da un'angolazione bassa. Lo sfondo è il vasto oceano blu e la spiaggia di sabbia bianca. Le onde lambiscono dolcemente la riva. L'atmosfera è tranquilla e la qualità dell'immagine è ultra nitida. Inglese: Su una spiaggia assolata, un Corgi giace pigramente su un telo da mare, crogiolandosi nella calda luce del sole. La fotocamera cattura la scena da un angolo basso, mostrando il vasto oceano blu e la sabbia bianca incontaminata sullo sfondo, con dolci onde che lo lambiscono. la riva L'atmosfera è tranquilla, catturata in altissima definizione 4K.

Vedendo un suggerimento così soddisfacente, sì, è quello che volevo davvero scrivere in quel momento.

In allegato è riportato l'indirizzo dell'agente di parole rapide Qingying (video Wensheng): https://chatglm.cn/main/gdetail/669911fe0bef38883947d3c6

Lo stesso vale per generare video dalle immagini. Inserisci l'oggetto dell'immagine, seleziona lo stile dell'immagine e lascia che Zhipu Qingyan ti aiuti a scrivere le parole di suggerimento corrispondenti. Anche l'evoluzione da parole senza parole, a "mettersi gli occhiali", a "Il Monaco Tang allunga la mano e si mette gli occhiali", l'effetto è molto diverso.


In allegato è riportato l'indirizzo dell'agente di parole rapide Qingying (video Tusheng): https://chatglm.cn/main/gdetail/669fb16ffdf0683c86f7d903

Se vuoi fare bene il tuo lavoro, devi prima affinare i tuoi strumenti e aprire un po' di più il modello. Puoi anche sperimentare più strumenti di creazione di contenuti in Zhipu Qingyan.

Dalla raccolta iniziale di materiali tematici, al processo di scrittura della sceneggiatura, al processo di creazione di immagini e video, e quindi al copywriting promozionale, può quasi aprire l'intera catena della creatività di generazione di video. Quasi non è detto chiaramente che solo tu pensa alla creatività e il resto è lasciato a te.

Abbiamo scoperto che i prodotti video AI recentemente rilasciati, incluso Keling, stanno migliorando la controllabilità attraverso il controllo del primo e dell'ultimo fotogramma.


Il creatore dell'IA Chen Kun una volta ha detto ad APPSO che quasi tutti i video AI che possono essere distribuiti commercialmente sono video Tusheng, perché i video Wensheng non possono ancora farlo, ed è in realtà una questione di controllabilità.

Il Qingying rilasciato oggi da Zhipu AI migliora ulteriormente la controllabilità dei video generati da testo In un'intervista con APPSO, Zhipu AI ha affermato che i video generati da testo riflettono una controllabilità più universale.

La maggior parte dei video generati dall’intelligenza artificiale sono ancora controllati dagli esseri umani che utilizzano il linguaggio. Pertanto, il modo in cui riconoscere il testo o le semplici istruzioni linguistiche richiede un livello di controllo più elevato.
I video con intelligenza artificiale si stanno spostando da giocattoli a strumenti di creazione

Se l’anno scorso è stato il primo anno dell’esplosione dei modelli di grandi dimensioni, quest’anno è un nodo importante per l’applicazione dei video AI.

Sebbene Sora, che ha innescato tutto questo, non sia ancora online, ha portato ispirazione ai video sull'intelligenza artificiale.

Sora risolve il problema dei salti di dettaglio tra i fotogrammi attraverso una progettazione dei dettagli ragionevole. Allo stesso tempo, vengono generate direttamente immagini video ad alta risoluzione (1080p), che possono generare video semanticamente ricchi fino a 60 secondi, indicando che anche la sequenza di allenamento dietro di esso è relativamente lunga.


Solo negli ultimi due mesi, non meno di 10 aziende hanno lanciato nuovi prodotti video AI o importanti aggiornamenti.


Solo pochi giorni prima del rilascio di Zhipu Qingying, Keling AI di Kuaishou è stata aperta per test interni in tutto il mondo e un altro PixVerse, considerato Sora, ha rilasciato la sua versione V2, che supporta la generazione con un clic di 1-5 contenuti video continui.


Non molto tempo fa, Runway Gen 3 Alpha ha lanciato anche il beta testing pubblico per gli utenti a pagamento, e la raffinatezza e la fluidità dei dettagli sono state notevolmente migliorate. Anche il modello di generazione video a livello di film Dream Machine, rilasciato appena il mese scorso, è stato recentemente aggiornato con la funzione del primo e dell'ultimo fotogramma.

In pochi mesi, la generazione di video tramite intelligenza artificiale è notevolmente migliorata in termini di simulazione fisica, fluidità del movimento e comprensione delle parole. Chen Kun, il regista del dramma fantasy AI, è più sensibile a questo. Crede che il progresso della tecnologia di generazione di video AI potrebbe essere più veloce di quanto si immagini.

I video AI nel 2023 sono più simili a PPT dinamici, con i personaggi che si esibiscono al rallentatore e si affidano al montaggio del montaggio per tracciare punti. Ma ora, il “sapore PPT” dei video AI è molto sbiadito.

Il primo spettacolo drammatico nazionale dell'AIGC del regista Chen Kun, "Montagne e mari: specchi di montagne e mari: il taglio delle onde", ha detto ad APPSO in passato , erano necessarie almeno 100 persone per realizzare temi fantasy simili, e lui Il team ha solo più di 10 persone, il che riduce notevolmente il ciclo di produzione e i costi.

Negli ultimi sei mesi, possiamo vedere più creatori cinematografici e televisivi professionisti che iniziano a provare i video AI. Domestic Kuaishou Douyin ha lanciato cortometraggi sull'intelligenza artificiale e il primo lungometraggio sull'intelligenza artificiale "Our T2 Remake", una collaborazione tra 50 creatori dell'AIGC, presentato in anteprima a Los Angeles.


Sebbene la generazione di video con intelligenza artificiale presenti ancora dei limiti in termini di coerenza dei personaggi e delle scene, performance dei personaggi, interazione con le azioni, ecc., non si può negare che i video con intelligenza artificiale si stanno lentamente trasformando da un giocattolo provato l'anno scorso in uno strumento per i creatori.

Questo potrebbe anche essere un motivo importante per cui prodotti come Zhipu Qingying, Kuaishou Keling, Luma Dream Machine e altri prodotti hanno iniziato a lanciare sistemi di abbonamento. Devi sapere che la maggior parte dei prodotti nazionali di grandi dimensioni per la fascia C sono gratuiti, il che è in linea con le abitudini e le priorità di pagamento degli abbonamenti nazionali in relazione al perseguimento di strategie di crescita degli utenti, oltre agli utenti curiosi, il pagamento per i video AI deve essere supportato da più creatori di contenuti per essere sostenibile.

Naturalmente, la generazione di video tramite intelligenza artificiale è ancora in una fase relativamente iniziale. La cosiddetta "generazione di un film in una frase" è solo un titolo fuorviante. I modelli video devono avere migliori capacità di seguire i comandi e controllabilità per poter comprendere meglio mondo fisico.

Zhipu ha anche affermato nella conferenza stampa di oggi che l’esplorazione di modelli multimodali è ancora in una fase iniziale.

A giudicare dall'effetto dei video generati, c'è molto margine di miglioramento in termini di comprensione delle leggi del mondo fisico, alta risoluzione, continuità dei movimenti della telecamera e durata. Dal punto di vista del modello stesso, è necessaria una nuova architettura di modello con innovazioni più rivoluzionarie. Dovrebbe comprimere le informazioni video in modo più efficiente, integrare completamente testo e contenuti video e rendere il contenuto generato più realistico e conforme alle istruzioni dell'utente.

"Stiamo esplorando attivamente metodi di ridimensionamento più efficienti a livello di modello." Tuttavia, Zhang Peng è anche fiducioso nello sviluppo di modelli multimodali. "Con la continua iterazione di algoritmi e dati, credo che la legge di ridimensionamento continuerà ad esercitare il suo potente potere."

Il creatore dell'intelligenza artificiale Chen Kun ritiene che sia solo questione di tempo prima che le riprese generate dall'intelligenza artificiale siano adatte al 100% per il grande schermo. Quanto tempo ci vorrà non è la cosa più preoccupante, ma partecipare a questo processo è più importante, come ha menzionato Zhang Peng, CEO di Zhipu AI, in una precedente intervista con APPSO:

Molte cose devono essere esplorate una dopo l'altra e questo processo è molto importante. Non limitarsi a vedere i risultati finali, ma soprattutto agire, penso che questo sia ciò a cui tutti dovrebbero prestare maggiore attenzione in questo momento.

Autore: Li Chaofan, Mo Chongyu