notizia

PixVerse V2 è qui!Genera 5 "Sora" in un fiato e il "volume" della traccia di generazione del video vola via

2024-07-24

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


Autore |. Yoky

E-mail |[email protected]

"Troppo ricci!"

Da giugno, i prodotti per la generazione di video hanno inaugurato un’ondata di esplosione, da Keling a Luma e Runway Gen3, e le loro capacità di modello e gli effetti di produzione stanno migliorando sempre di più.

Proprio ora, PixVerse ha lanciato la versione V2 Oltre ad aggiornare l'architettura DiT, può effettivamente generare cinque contenuti video con effetto "Sora" di fila!

Nei test creativi come gatti che mangiano noodles e cani che vanno in moto, la chiarezza video, la qualità dinamica e l'estetica di PixVerse V2 hanno funzionato bene.

Secondo Silicon Star,Basato sull'architettura DiT (Diffusion + Transformer) combinata con il meccanismo di attenzione spaziotemporale, PixVerse V2 ha subito aggiornamenti graduali nelle capacità del modello.Supporta la generazione di video da 8 secondi alla volta, migliorando significativamente la gamma dinamica, l'espressione dei dettagli e l'autenticità del video. Un altro aggiornamento importante è che PixVerse V2 supporta la generazione con un clic di 1-5 contenuti video continui e le clip manterranno automaticamente la coerenza dell'immagine principale, dello stile dell'immagine e degli elementi della scena, ovvero tutti potranno facilmente generare contenuti video di 40 secondi!

Dal punto di vista dell'effetto di generazione, da un lato, la versione PixVerse V2 del contenuto video generato ha una maggiore densità di informazioni e può trasmettere più informazioni in pochi secondi. Allo stesso tempo, la coerenza viene migliorata, rendendo il contenuto generato contenuti più fruibili; d'altra parte, il design del prodotto V2 semplifica il più possibile le funzioni complesse, consentendo ai principianti di creare.

Abbiamo scoperto che con la continua iterazione della tecnologia e dei prodotti dei modelli di generazione video, gli utenti ordinari, sia nazionali che esteri, hanno mostrato un'enorme domanda. La creazione di contenuti video AI non è limitata ai gruppi professionali: anche gli utenti comuni sono desiderosi di esprimere la propria creatività e idee attraverso strumenti semplici e intuitivi.

Osservando le iterazioni del prodotto PixVerse V2 da questa prospettiva, scoprirai che ogni funzione si sforza di avvicinarsi agli utenti.

1

1. Ogni iterazione è un passo avanti verso gli utenti

Sin dal suo lancio, PixVerse è diventato uno dei prodotti di generazione video più popolari basato sull'innovazione tecnologica e sulla profonda conoscenza delle esigenze degli utenti.

Nell'ultima versione V2, una delle funzionalità rivoluzionarie è la capacità di generare più video contemporaneamente mantenendo l'uniformità e la coerenza degli elementi tra i video. Questa funzionalità è di grande importanza per la creazione di contenuti video di lunga durata, che consente ai creatori di generare una serie di clip video correlati attorno a un tema o una trama.


Nella nostra valutazione, abbiamo riscontrato che PixVerse V2 ha funzionato bene nella gestione di scene complesse e lunghe sequenze video. La stessa immagine del personaggio può spostarsi liberamente tra le diverse ambientazioni della scena. Inoltre, la coerenza non si limita alla coerenza visiva, ma include anche transizioni fluide nelle azioni e nelle trame, il che è particolarmente importante per i video narrativi.

Un altro punto forte è la sua maggiore usabilità. A differenza di quei "giocattoli creativi" sul mercato che possono generare solo brevi clip e richiedono un costante "disegno di carte" e editing secondario, PixVerse V2 non solo può generare videoclip di alta qualità, ma anche estendere la creatività di brevi clip, producendo così direttamente contenuti creativi completi e fruibili.

Questa funzionalità fa sì che PixVerse V2 non si limiti più a generare brevi riprese per l'editing secondario, ma possa produrre direttamente video completi che possono essere utilizzati su più piattaforme e più scene.

Nelle valutazioni effettive, questa funzionalità di PixVerse V2 ha migliorato significativamente l'efficienza e la comodità della creazione di video. Gli utenti non devono più dedicare molto tempo all'editing e alla sintesi video e possono concentrarsi maggiormente sulla creatività e sul contenuto stesso. Che si tratti di un breve video da condividere sui social media o di un video drammatico che richiede continuità, PixVerse V2 può fornire una soluzione completa. La migliore usabilità amplia ulteriormente l’ambito di applicazione della tecnologia di generazione video AI, consentendo sia agli utenti ordinari che ai creatori professionisti di trarne vantaggio.


Possiamo vedere l'innovazione di PixVerse V2 a livello tecnico e il miglioramento multiplo dell'esperienza dell'utente. Secondo Silicon Star, PixVerse V2 ha fatto un passo avanti nella modellazione spaziotemporale di Diffusion introducendo un innovativo meccanismo di attenzione spaziotemporale nel modello sottostante, migliorando significativamente le sue capacità di elaborazione per scene complesse. Allo stesso tempo, le sue potenti capacità di comprensione del testo consentono al modello di abbinare in modo più accurato le istruzioni di testo con il contenuto video, ottenendo una profonda fusione multimodale.

Inoltre, PixVerse V2 è stato ottimizzato anche in termini di efficienza di calcolo. Migliorando il modello di flusso tradizionale e ponderando la funzione di perdita, il modello può convergere più velocemente, migliorando così la velocità e la precisione della generazione video. L'introduzione del modello 3D VAE e l'applicazione del meccanismo di attenzione spaziotemporale migliorano ulteriormente la qualità della compressione e ricostruzione video, garantendo un'efficiente trasmissione e archiviazione dei contenuti video.

Guardando indietro alle principali pietre miliari di PixVerse dalla sua uscita, scopriremo che dietro a tutto ciò non c'è solo la sua forza tecnica, ma anche la sua profonda comprensione del mercato e delle esigenze degli utenti.

A maggio, PixVerse ha lanciato la sua rivoluzionaria funzione di pennello animato. Questa funzionalità consente agli utenti di controllare il movimento di aree specifiche nel video semplicemente disegnando traiettorie, migliorando notevolmente la flessibilità e l'intuitività della creazione video. L'uso di scenari specifici include, ma non è limitato, alla produzione di animazioni, alla creatività pubblicitaria, alla generazione di contenuti sui social media, ecc. Il feedback degli utenti è stato generalmente positivo, affermando che questa funzionalità semplifica notevolmente il processo di editing video, rendendo la creazione più libera e intuitiva.

In termini di impostazioni delle funzioni del prodotto, quando gli utenti sono sostanzialmente soddisfatti dei risultati generati ma desiderano regolare i dettagli, PixVerse supporta funzioni di modifica secondaria e trasformazione gratuita, consentendo agli utenti di regolare in modo flessibile l'effetto di visualizzazione del video in base alle esigenze di diverse piattaforme e scenari. Inoltre, PixVerse può anche scegliere diversi stili e proporzioni, offrendo agli utenti un maggiore grado di libertà nella creazione di video.


Dal pennello di movimento alla funzione di coerenza dei caratteri fino alla generazione di video coerenti della versione V2, ogni aggiornamento è un passo avanti verso gli utenti. Questo concetto innovativo centrato sull'utente rende PixVerse non solo un prodotto realizzato dalla tecnologia, ma anche un partner nella realizzazione della creatività degli utenti.

1

2. La profondità determina l'innovazione

Quando valutiamo se un prodotto di generazione video è un giocattolo o uno strumento di produttività, la densità delle informazioni è un indicatore importante della qualità dei contenuti.

Se una pallina si muove irregolarmente su uno sfondo bianco, può muoversi per un tempo infinito, ma fornisce pochissime informazioni.

In PixVerse V2, la tecnologia Aishi tenta di aumentare la densità delle informazioni della generazione video attraverso mezzi tecnici, liberando gli utenti dal noioso editing di materiale video e accedendo direttamente alla creazione di contenuti video creativi. La massima ricerca della coerenza, garantendo che il corpo principale di più clip rimanga invariato, e le altre funzioni mirano tutte a passare dal materiale video direttamente al contenuto video pubblicabile.

Il product manager di PixVerse ha dichiarato: Il team aderisce sempre all'idea del prodotto di "camminare con gli utenti". Nelle prime fasi di sviluppo del prodotto, il team condurrà una ricerca preliminare approfondita, inclusa la comunicazione con i professionisti del settore, l'osservazione degli utenti effettivi e la raccolta del feedback della comunità. Questo metodo di ricerca degli utenti a tutto tondo consente ad Aishi di catturare le esigenze sottili ma critiche degli utenti. Anche i piccoli punti caratteristici proposti dagli utenti verranno presi sul serio e testati.

Questo concetto innovativo orientato all'utente rende le funzioni di PixVerse più vicine alle reali esigenze degli utenti. Il product manager di Aishi ha condiviso il processo di nascita di Magic Brush, che è un tipico rappresentante della creazione del prodotto di Aishi.

All'inizio di quest'anno, Runway ha lanciato il suo primo pennello, Motion Brush. Gli utenti possono regolare la traiettoria di movimento del soggetto selezionando diversi pennelli e regolando i pulsanti di controllo sottostanti. Dopo aver visto questa funzione e attraverso ricerche di mercato, interviste agli utenti e feedback della community, abbiamo scoperto che gli utenti hanno una forte richiesta di strumenti di editing video più flessibili, ma il metodo di interazione di Motion Brush non è abbastanza flessibile e il debug non è preciso e abbastanza controllabile.


Dopo aver scoperto questa esigenza, il team del prodotto PixVerse si è concentrato sulla discussione: quale tipo di metodo di interazione può consentire agli utenti di utilizzare la funzione pennello in modo più intuitivo e conciso?

Sulla base di una ricerca preliminare sugli utenti, il team del prodotto ha scoperto che in primo luogo gli utenti devono eseguire il debug delle traiettorie di movimento di più soggetti e non esiste una funzione di selezione della partizione in Motion Brush e in secondo luogo, dopo aver selezionato un soggetto, le traiettorie di movimento del soggetto sono modificabili; , giù, sinistra e destra I pulsanti di controllo non possono simulare effetti di movimento reali. Pertanto, nella creazione di Magic Brush, il team del prodotto ha scelto metodi di sbavatura, selezione intelligente delle partizioni e un metodo interattivo che consente agli utenti di disegnare liberamente traiettorie di movimento a 360 gradi.


Tuttavia, questo tipo di metodo di interazione è conveniente per gli utenti ma pone maggiori sfide tecniche. Basandosi sull'architettura DiT, il team tecnico di Aishi ha sviluppato l'algoritmo principale per supportare la funzione Magic Brush, che analizza l'input del tratto dell'utente e lo converte in effetti di movimento nel video.

Magic Brush è stato lanciato rapidamente in appena un mese dalla scoperta delle esigenze degli utenti, alla definizione del progetto del prodotto, alle soluzioni tecniche. Ciò è inseparabile dal modello operativo aziendale "breve, piatto e veloce" di Aishi.

Il reparto marketing può raccogliere rapidamente il feedback degli utenti e comunicarlo tempestivamente ai team tecnici e di prodotto. Questo rapido flusso di informazioni e processo decisionale consente ad Aishi di considerare rapidamente la fattibilità delle esigenze, condurre test A/B e prendere decisioni rapide. Questa agilità è un vantaggio unico delle startup ed è anche la chiave della capacità di Aishi di iterare rapidamente i prodotti.

Rispetto alle grandi aziende tecnologiche, le startup presentano alcuni vantaggi in termini di velocità di risposta e flessibilità. Questa agilità non si riflette solo nello sviluppo del prodotto e nelle strategie di mercato, ma influenza profondamente anche la cultura aziendale e la struttura organizzativa. A causa delle loro dimensioni ridotte, le startup sono più flessibili nell’allocazione delle risorse. Possono spostare rapidamente le risorse da un'attività all'altra o da un progetto all'altro, garantendo il massimo utilizzo delle risorse.

Allo stesso tempo, prestiamo maggiore attenzione al feedback degli utenti e mettiamo le esigenze degli utenti al centro dello sviluppo del prodotto. Questo approccio allo sviluppo del prodotto orientato all’utente consente alle startup di lanciare prodotti che soddisfano le esigenze degli utenti più rapidamente. Molte startup adottano metodi di sviluppo agili, che enfatizzano la rapida iterazione e il miglioramento continuo. Lancia i prodotti sul mercato più velocemente con il rilascio regolare di nuove funzionalità e correzioni di bug e ottimizza in base al feedback degli utenti.

L'agilità e la profonda innovazione incarnate da Aishi sono i vantaggi unici delle start-up nella nuova era dei grandi modelli.

1

3. Abbiamo bisogno di buona tecnologia e di prodotti ancora migliori.

Oggi abbiamo scoperto che in realtà c’è ancora molta strada da fare prima che la tecnologia raggiunga gli utenti e che i prodotti sono i connettori più importanti. La tecnologia è la forza trainante dell’innovazione, ma il suo valore può essere realmente riflesso solo quando la tecnologia è collegata agli utenti attraverso i prodotti.

Durante il processo di sviluppo di PixVerse, il team di Aishi Technology ha curato attentamente ogni dettaglio. Nella versione V2, per migliorare l'usabilità del video, PixVerse supporta l'editing secondario dei risultati generati. Attraverso il riconoscimento intelligente dei contenuti e le funzioni di associazione automatica, gli utenti possono sostituire e regolare in modo flessibile il soggetto, l'azione, l'ambiente e il movimento della telecamera. video, arricchendo ulteriormente le possibilità creative del sesso.


Il responsabile dei prodotti Aishi ha inoltre affermato: "I punti di forza e le differenze tecnologiche sono importanti, ma la produzione, le barriere degli utenti e il feedback tecnico formato dalla connessione di sempre più utenti attraverso i prodotti sono ancora più critici."

Allo stesso tempo, nelle prime fasi dello sviluppo tecnologico, i prodotti rappresentano anche il punto di partenza per l’implementazione della tecnologia. Trasforma la tecnologia AI avanzata in funzioni di prodotto reali che siano percepibili e utilizzabili dagli utenti. Questa trasformazione dalla tecnologia ai prodotti non solo accelera l’applicazione della tecnologia, ma offre anche agli utenti comodità e creatività senza precedenti.

Soprattutto quando la tecnologia non ha ancora raggiunto il livello target, la promozione reciproca tra tecnologia e prodotti ha un significato più pratico.

Ad esempio, per quanto riguarda il pennello magico menzionato sopra, alcuni creatori hanno riferito: “In questa fase, quando la capacità del modello base non può raggiungere il punto in cui più soggetti si muovono in base al mondo fisico, la personalizzazione del pennello di movimento può aumentare lo spazio creativo di alcuni personaggi ' ammiccamento, espressioni e movimenti relativi complessi possono essere ottenuti con i pennelli di movimento.

In questa fase, Vincent Video, sebbene concettualmente attraente, si trova ad affrontare limitazioni nella generazione di contenuti nella pratica. A causa della limitata densità di informazioni del testo stesso, spesso è difficile trasmettere tutti i dettagli di scene complesse e cambiamenti dinamici quando si convertono direttamente le descrizioni testuali in contenuti video. Pertanto, Tusheng Video è emersa come una soluzione graduale.

Rispetto al video Vincent, il video Tusheng può fornire una maggiore densità di informazioni perché viene generato sulla base di informazioni visive e può catturare e riprodurre in modo più accurato la complessità della scena. Prima che le funzionalità dello stampo di base potessero risolvere la differenza nella densità delle informazioni tra testo e video, l'introduzione di Tusheng Video non era solo un riflesso del progresso tecnologico, ma anche un'innovazione nelle idee di progettazione del prodotto.

Agli albori della tecnologia, la strategia di Aishi si rifletteva nel fare progressi tecnologici prestando maggiore attenzione all'implementazione del prodotto. Si formano barriere per gli utenti diverse da quelle tecniche e vengono stabilite barriere di prodotto attraverso la comprensione e la comprensione degli utenti, spingendo così i confini della tecnologia e i limiti dei prodotti.

Solo un prodotto di generazione video che possa essere realmente utilizzato può essere lasciato indietro. Non deve solo soddisfare le attuali esigenze degli utenti, ma anche concentrarsi sul futuro e scegliere un percorso di sviluppo tecnologico sostenibile.

Che si tratti della prima "lotta mortale" con la tecnologia di coerenza, dell'iterazione di Magic Brush o del nuovo aggiornamento della versione PixVerse V2, la strategia di prodotto di Aishi si basa da un lato sul presente e dall'altro sulla risoluzione di problemi pratici; guarda al futuro e sceglie la strada dello sviluppo a lungo termine e si impegna a costruire un futuro sostenibile.

Attraverso la continua ricerca e sviluppo tecnologico, approfondimenti sugli utenti e un'attenta rifinitura dei dettagli dei prodotti, nel settore della generazione video, le aziende, indipendentemente dalle dimensioni, necessitano di continue scoperte tecnologiche per creare prodotti veramente preziosi e in grado di ispirare la creatività.

Proprio come lo slogan di PixVerse V2: Unleashing Creative Potential for Everyone, questa non è solo un'opportunità per PixVerse, ma anche un'opportunità per tutti i creatori nell'era dei grandi modelli.