Lascia che il video AI entri nell'era del "GC universale", questa azienda cinese lo ha appena fatto

2024-07-24

La casa ha origine dal Tempio Aofei
Qubit |. Account pubblico QbitAI

Soglia più bassa, qualità più elevata, più logica e durata più lunga.

Questi pochi “aggiornamenti” hanno debuttato proprio questa mattinaNuovo prodotto video AI domestico PixVerse V2, il caldo è salito in un lampo.

E le sue origini sono accattivanti:

Dalla startup nazionale più seguita su questo branoTecnologia Aishi, solo nella prima metà di quest'anno, la società ha completato due round di finanziamento.

Diamo uno sguardo direttamente alle principali “nuove idee” di Pixverse V2:

Tecnologia del modello, adotta l'architettura DiT (Diffusion+Transformer) e utilizza la tecnologia originale in molti aspetti per migliorare significativamente l'effetto di generazione.

Ad esempio, l’introduzione di un meccanismo di attenzione spaziotemporale può ottenere una generazione di video più ampia e naturale.

Diamo un'occhiata al piccolo alpaca che naviga felicemente qui sotto, il che è molto appropriato dato che LIama 3.1 è stato rilasciato e ha raggiunto la vetta oggi.

Quantità e qualità dei video, supporta la generazione di fino a 5 contenuti video consecutivi con un clic.

Inoltre, la coerenza dell'immagine principale, dello stile dell'immagine e degli elementi della scena verrà mantenuta automaticamente tra le clip.

Inoltre, la presentazione ufficiale di Aishi ha anche affermato che il nuovo prodottoLa soglia delle parole rapide è stata nuovamente gravemente ridotta。

Indipendentemente dal fatto che tu abbia imparato o meno la tecnica della parola immediata, purché esprimi i requisiti dell'immagine in modo chiaro e conciso, puoi implementarla facilmente.ELo stesso vale per il contesto cinese。

Inoltre, c'è coerenza nello stile, nel soggetto e nella scena tra diversi video generati contemporaneamente——

Realizza subito un breve videoNon solo non hai bisogno di scattare foto da solo, ma non hai nemmeno più bisogno di tagliarle da solo.。

Generalo con un clic e caricalo direttamente su varie piattaforme per la condivisione, ragazza d'oca!

Sia la qualità che la quantità sono garantite e la soglia è sempre più bassa.

La creazione di video tramite intelligenza artificiale è stata profondamente coinvolta da aziende come PixVerse, Runway e Luma.Tutti possono goderseloera.

Genera fino a 5 video per consentire una creatività continua

Ma aspetta!

Non ci lasceremo mai facilmente accecare dalle demo rilasciate dalle varie aziende.

Quindi, dopo aver scoperto che PixVerse V2 è stato lanciato questa mattina, Qubits è stato immediatamente lanciatoTest sulla carne umana.

Accedi al sito Web ufficiale di PixVerse e vai direttamente a PixVerse V2 nella barra dei menu di sinistra.

attualmente loSupporta due modalità di generazione di testo/immagini e video, nel funzionamento effettivo, è possibile scegliere uno dei due oppure utilizzarli entrambi insieme.

Casella di richiesta immissione testo, le immagini possono essere caricate facendo clic sulla casella gialla nell'immagine seguente.

Nell'angolo in basso a destra della casella di input, nella parte di selezione della casella grigia, c'è ancheOpzioni 5s/8s, puoi scegliere la lunghezza del singolo videoclip generato in base alle tue esigenze.

La scena selezionata con una cornice verde si riferisce allo specifico video clip che deve essere generato.

Infatti, come dice l'introduzione ufficiale, ora è possibile aggiungere fino a 5 video da generare, ovvero Scene1-5.

Lo stile dell'immagine di tutte le clip di scena seguirà la scena 1, anche se altre scene successive caricano immagini di riferimento, PixVerse farà riferimento allo stile dell'immagine della scena 1 per il ridisegno.

In breve, ho fatto del mio meglio per mantenere coerente lo stile dei cinque video.

Inoltre, le parole/immagini di suggerimento di ciascuna scena possono essere inserite individualmente.

Una volta terminato, puoi fare clic sul pulsante a forma di stella nell'angolo in basso a destra della casella di input per accedere allo stato di generazione.

Dopo l'esperienza, ho scoperto che non importa quante scene devono essere generate, ogni generazione costa 50 crediti (la valuta della potenza di calcolo di PixVerse V2).

Durante l'esperienza, aderendo all'inputIl suggerimento più semplice possibileIn linea di principio, le cinque parole rapide che inseriamo sono le seguenti:

La mattina presto, un coniglietto bianco si vestiva sul letto
Il coniglietto bianco stava andando al lavoro e passò vicino a un giardino.
Il coniglietto bianco tiene in mano una tazza di caffè fumante
Il coniglietto bianco tiene in mano il caffè e aspetta in fila per l'ascensore
Il coniglietto bianco, rassegnato, saltellava su e giù per la strada

Sebbene dopo la generazione sia possibile utilizzare le opzioni per mettere a punto ciascun video individualmente (regolare il soggetto, la scena, l'azione e il movimento della telecamera), non abbiamo apportato alcun intervento e ci siamo concentrati sul gusto originale.

I risultati generati sono i seguenti:

△Considerando l'aspetto grafico, questo video è accelerato solo di 2,5 volte per la velocità di riproduzione.

Le 5 clip sono state unite insieme.Puoi scaricare direttamente la versione completa,molto conveniente.

Fa un po' ridere. Nel video Pia, il coniglietto bianco che si è dimesso, si è tolta gli abiti da lavoro senza togliere alcun senso di classe.

Dopo aver iniziato e aver svolto questo passaggio, essendo un operaio come me attento al mio budget, ho fatto una scoperta meravigliosa e devo condividerla con tutti:

Se desideri generare solo un video clip alla volta, regola direttamente le opzioni di PixVerse V2 ed eliminalo solo sulla Scena 1, e tutto andrà bene: lo chiamiamo metodo 1.

Ma esiste un altro modo (Metodo 2) per accedere a un'altra modalità di PixVerse V2 attraverso un altro ingresso.

Dopo aver chiesto in giro in ufficio, se si vuole generare un unico videoclip, tutti preferiscono quest'ultimo metodo.

Perché?

Innanzitutto, il metodo 2 può apportare più modifiche in base a parametri quali proporzioni e stile del video. Più informazioni "vuoi" fornire, più è probabile che il modello ti capisca e che le immagini video generate avranno maggiori probabilità di essere presenti. in linea con ciò che desideri.

D'altra parte, l'abaco crepitava e calcolava, il metodo 1 consuma 50 Crediti per una generazione, sia che generi 1 frammento o 5 frammenti, questo verrà detratto ma il metodo 2 costa solo 30 Crediti per una generazione;

Risparmiate soldi, amici!

Prendi rapidamente un piccolo taccuino nella tua mente e scrivi il processo operativo del metodo 2——

Fai clic su Testo in video nella barra dei menu di sinistra, quindi seleziona "PixVerse V2" in "Modello".

può essere effettuatoVincenzo Video.

E aggiungendo parole come "Anime" e "Realistico" alle parole suggerite, il contenuto generato può essere trasformato con stile.

Il punto è difficile, generare alcune scene che non esistono nel mondo reale. Inserisci la parola richiesta:

Il gigante dei marshmallow vaga attraverso la colorata foresta di marshmallow.

Genera risultati:

Ok, ok, incredibile, non avrei mai pensato di poter ottenere una descrizione così astratta come "Marshmallow Giant"!

L'ipotesi cieca è dovuta al fatto che la comprensione semantica dietro PixVerse V2 è stata notevolmente ottimizzata.

Si possono sperimentare anche metodi similiFunzione video Tusheng。

Fai clic su Immagine in video nella barra dei menu di sinistra e seleziona "PixVerse V2" in "Modello".

È un peccato che il pennello di movimento menzionato prima non possa essere utilizzato nei video Tuxing di PixVerse.

Va notato che Tusheng Video attualmente non può utilizzare il pennello di movimento "dipingi e muovi" (questa è la nuova funzione video AI lanciata da Aishi il mese scorso).

Qubit ha chiesto al team PixVerse V2,La spazzola mobile sarà presto disponibile anche nella versione V2.。

I pennelli di movimento di Runway e PixVerse sono stati ben accolti in precedenza, perché compensano la mancanza di una descrizione tempestiva delle parole e migliorano la controllabilità del movimento dell'immagine.

Se PixVerse V2 lancia questa funzione, penso che sarà più divertente per tutti giocarci, e il movimento dei personaggi/oggetti nel video sarà più coerente con le leggi della fisica.

Considerando che le "passerelle" di persone o animali sono sempre state un'opzione irrinunciabile per i video AI per mostrare i loro muscoli (anche se non sappiamo perché), questa volta sperimentando la funzione video grafica PixVerse V2, noi è andato dritto all'intensità e ha fatto aParkour dell'astronauta sulla strada。

Inserisci l'immagine richiesta:

Genera risultati:

Questo compito è una sorta di potenziamento dell'impilamento, che si basa sulle immagini per generare dinamiche di contenuti non realistici.

Ciò che è più necessario è che il modello che sta dietro abbia un forte valorecomprensione visiva。

Dal punto di vista degli effetti, che si tratti di creazione continua di video, video basati su testo o video basati su immagini, PixVerse V2 può facilmente vincere.

Infine, vorrei menzionare che non importa se sei un Wensheng o un Tusheng, ogni video generato da 5s/8s costerà 30 crediti.

Tuttavia, la velocità di generazione è relativamente elevata e la qualità è stabile e garantita. In effetti, ritengo che valga la pena spendere 30 crediti.

Supporto per l'aggiornamento dello stampo base DiT

Nella traccia video AI, conosciuta quest'anno come il re dei re del volume, Ai Shi ha improvvisamente fatto una mossa diversa.

Quando tutti i giocatori di Sora nel mondo espanderanno la durata, miglioreranno la qualità della grafica e diminueranno la difficoltà,Ciò che fa Aishi è tagliare selvaggiamente la soglia。

Non solo il prompt delle parole non deve essere troppo professionale, ma, cosa ancora più importante, può creare (fino a) 5 video alla volta, ciascuno di 8 secondi.

La coerenza di stile, soggetto e scena tra questi 1-5 videoclip può essere garantita e, in base alla logica tra le parole suggerite di ciascun videoclip, viene infine sintetizzato un lungo video di circa 40 secondi.

Il genere con una trama coerente e contenuti coerenti.

Si dice che abbia "movimenti fluidi e dettagli ricchi" e la qualità dell'immagine raggiunge i 1080p.

In altre parole, gli utenti possono pensare a ciò che vogliono, inserire parole immediate e attendere che venga generato il video con una durata compresa tra 10 e 40 secondi.

Non solo può realizzare "spostare le idee dalla mente al video" nell'immagine e le clip sono coerenti e naturali; può anche risparmiare tempo e fatica nel processo di produzione del video e l'efficienza creativa è stata notevolmente migliorata.

Dopo il rilascio di PixVerse V2, alcuni netizen hanno iniziato rapidamente a usarlo.

L'emergere di PixVerse V2 consente a molte persone che non hanno mai utilizzato strumenti video AI, o addirittura realizzato video, di utilizzarlo per ottenere un passo avanti nel numero di opere generate da 0 a 5 e nel numero di opere da 0 a 1.。

Viene nuovamente delegato il diritto all’utilizzo degli strumenti dell’AIGC。

L’espansione degli utenti degli strumenti AIGC al di fuori della cerchia (non più limitata agli utenti professionali) è ottenuta attraverso aggiornamenti iterativi della tecnologia.

Dietro PixVerse V2 c'è la tecnologia AishiAggiornamenti iterativi al modello autosviluppato alla base dell'architettura DiT。

Questa è anche la tecnologia principale dietro PixVerse.

Per rivedere la situazione precedente, Qubit ha analizzato le informazioni pubbliche del discorso esterno di Aishi/Wang Changhu e ha scoperto che all'inizio l'azienda ha adottato il percorso tecnico dell'architettura Diffusion+Unet, che era anche l'approccio AIGC mainstream prima dell'avvento di Sora , ma andando oltre, con l'espansione dei parametri e le istruzioni complesse, Unet è un po' inadeguato.

Pertanto, Aishi ha iniziato a provare l'architettura DiT molto presto (prima che apparisse Sora) e ha seguito la Legge di Scaling per migliorare le prestazioni del modello.

L'auto ha girato molto presto, quindi l'apparizione di Sora non ha colto Aishi alla sprovvista. Al contrario, poiché ha verificato che il percorso era corretto, la velocità di Aishi è aumentata notevolmente quest'anno.

Allora, quali sono gli aggiornamenti al modello base DiT di PixVerse V2 questa volta?

Il primo punto riguarda la modellazione spazio-temporale della diffusione.

Aishi ha creato un meccanismo unico di modellazione dell'attenzione spaziotemporale, che è "più ragionevole" ed è superiore alla separazione spaziotemporale e all'architettura fullseq.

Questo meccanismo ha una migliore percezione del tempo e dello spazio e può gestire meglio scene complesse.

Il secondo punto riguarda la comprensione del testo.

La capacità di PixVerse V2 di comprendere i prompt è stata notevolmente migliorata. Dietro le quinte c'è l'uso di un modello multimodale, che può allineare meglio le informazioni di testo e le informazioni video, in modo che i risultati generati siano ciò che l'autore intendeva.

terzo, per ottenere una maggiore efficienza di calcolo, PixVerse V2 pondera la perdita in base al modello Flow tradizionale, in modo che il modello possa convergere più velocemente e meglio.

Un altro punto, è il team di ricerca e sviluppo dietro PixVerse V2 che ha progettato un modello VAE 3D migliore.

Viene introdotto un meccanismo di attenzione spaziotemporale per migliorare la qualità della compressione video, inoltre viene utilizzata la tecnologia di apprendimento continuo per migliorare ulteriormente i risultati di compressione e ricostruzione video.

Tendenza UGC "semplice e interessante" sotto la benedizione dell'intelligenza artificiale

L’AIGC è semplicemente l’argomento più noto quest’anno.

MaLa possibilità di applicare l’AIGC è in realtà ancora nelle mani di un ristretto numero di persone., come programmatori, designer e altri professionisti.

L'AIGC non è ancora entrata nella fase di "GC" universale come l'UGC.

Di fronte a una situazione del genere, ciò che Aishi Technology ha fatto dalla sua fondazione più di un anno fa può essere riassunto come segue:

Migliorare continuamente le capacità della tecnologia AI
Espandi il gruppo tematico del verbo "G (Generato)"
Prestare attenzione al livello di qualità di "C (Contenuto)".

Ciò non si riflette solo in PixVerse V2, ma anche in futuro——

Una revisione ha rilevato che il rilascio di PixVerse V2 è in realtà la terza volta quest'anno che l'azienda ha fatto passi avanti nelle funzioni e nei prodotti video AI.

Nel gennaio di quest'anno, Aishi ha rilasciato ufficialmente la versione web di PixVerse, un prodotto video di Vincent, con visite mensili che hanno rapidamente superato il milione.

Nel mese di aprile è stata rilasciata la funzione C2V (Character to Video, role texture) sviluppata sulla base del modello video autosviluppato e utilizzabile sulla pagina web.

Estraendo accuratamente le caratteristiche dei personaggi e incorporandole profondamente nel modello di generazione del video, PixVerse può bloccare i personaggi e risolvere inizialmente il problema di coerenza nella creazione di video AI.

A giugno è stato rilasciato il pennello di movimento Magic Brush. Usalo per sbavare sullo schermo video e controllare accuratamente il movimento e la direzione degli elementi video.

Questa è anche la prima azienda di generazione di video AI a rilasciare funzioni simili dopo Runway.

Tre volte in sei mesi non sono infrequenti, ma le azioni nelle prime due volte sembravano un po' di basso profilo.

Ciò potrebbe essere correlato al desiderio della start-up di concentrarsi sul perfezionamento del proprio lavoro, o potrebbe essere correlato al carattere di basso profilo di Wang Changhu e di altri leader, non lo sappiamo.

Ma il fenomeno è che molte persone sanno che Aishi Technology è il leader nel settore dei video AI domestici, ma non sanno necessariamente perché è il leader e se è facile da usare.

Ora che PixVerses V2 è apparso, giovani e meno giovani, professionisti e non professionisti possono usarlo personalmente e sentire che è davvero molto efficace - questo è uno dei motivi per cui PixVerse V2 è diventato un successo immediato dopo il suo lancio.

E guardando indietro alle varie azioni, non è difficile scoprire che questi diversi aggiornamenti delle funzionalità del prodotto sono tutti incentrati attorno a un unico corpo principale:Rendi la creazione di video AI più pratica e semplice。

Allo stesso tempo, si può vedere che le precedenti funzionalità del prodotto si concentravano sull'esperienza d'uso dei professionisti.

Ciò conferma anche il precedente discorso di Wang Changhu che una volta disse:

Si spera che i video nativi basati sull’intelligenza artificiale possano essere integrati nei collegamenti di produzione e consumo dell’industria dei contenuti.

Ma PixVerse V2 è diverso. Questa generazione di prodotti si concentra su come rendere la creazione di video AI accessibile a una gamma più ampia di persone comuni.

Dopotutto, sebbene Magic Brush sia facile da usare e utile, richiede comunque che l'utente abbia generato un video AI.

I prompt video sono più difficili della generazione di testo e dei prompt di generazione di testo e spesso rappresentano un ostacolo per le persone comuni nell'utilizzo della generazione video AI.

Ciò che PixVerse V2 cattura è meraviglioso——

Da vari aspetti come la riduzione della difficoltà delle parole immediate, la messa a punto opzionale, l'espansione dei confini del contenuto generato e l'eliminazione della necessità di editing nella fase successiva, cerchiamo di ridurre il più possibile il costo della creazione di video AI.

Quale sarà il risultato?

tutti,Tutti hanno un’opportunità e tutti possono partecipare, può trasformare la tua fervida immaginazione in opere video visibili.

Poiché c'è un forte senso di partecipazione, più persone, e anche tutti, possono liberare la propria creatività e partecipare alla creazione di video AI.

A lungo termine,A poco a poco si formerà un ecosistema UGC nell'era dell'intelligenza artificiale e sarà più semplice e interessante dell'UGC.。

Ho già visto un'immagine di un meme interessante e credo che anche molti amici l'abbiano vista:

"PixVerse è onorato di essere in prima fila, insieme ai migliori prodotti di generazione video dell'epoca come Runway, Pika e SVD. È anche l'unica azienda cinese in questa foto." Lo stesso Wang Changhu una volta aveva questa foto Scherzando: "Ma d'altronde abbiamo un gigante davanti a noi e dobbiamo ancora superarlo ulteriormente".

È innegabile che il video AI sia al centro del percorso multimodale nell’era dell’AI 2.0, soprattutto dopo che Sora ha fatto enormi ondate.

Il pieno entusiasmo di tutti i giganti, dei principali produttori e delle start-up illustra un problema.

I video basati sull’intelligenza artificiale stanno ampliando e stimolando il potenziale del mercato, mentre l’innovazione guidata dai grandi modelli multimodali dell’intelligenza artificiale sta crescendo.

Aishi può apparire in questa immagine meme ed è l'unica azienda cinese nell'immagine. Il motivo è molto ovvio.

Da un lato, la tecnologia del modello di Aishi Technology e gli effetti del prodotto coltivati su stampi base sviluppati internamente sono effettivamente riconosciuti.

d'altra parte,Indipendentemente dall’ondata tecnologica in cui si trovano, le startup riceveranno l’attenzione globale.

Durante la guerra della ricerca, Google ha utilizzato l'innovativo algoritmo di classificazione delle pagine Web PageRank per rubare gli utenti di Yahoo e persino superare gli ultimi arrivati, diventando fino ad oggi il leader nel mercato della ricerca.

Agli albori del grande modello linguistico, sebbene Transformer provenisse da Google, GPT era l'iniziativa di OpenAI, un piccolo istituto di ricerca (all'epoca) che gradualmente portò all'attuale GPT-4o e divenne l'obiettivo di essere inseguiti.

Oggi tra gli inseguitori e concorrenti di OpenAI c’è Google.

In ogni momento, anche di fronte all’assedio di grandi aziende e giganti, ci sono sempre storie di startup che sprigionano scintille che accendono il settore e brillano di stelle.

Ciò che Aishi Technology sta scrivendo con tecnologia e prodotti è la traccia video AI, che è la storia della startup.

notizia