notizia

minimax si unisce al corpo a corpo della generazione video, è la fine del mondo per fare video con modelli di grandi dimensioni?

2024-09-01

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

un altro unicorno domestico si unisce alla mischia dei modelli di generazione video.
il 31 agosto, minimax, uno dei sempre discreti "sei piccoli draghi dell'intelligenza artificiale", ha fatto ufficialmente la sua prima apparizione pubblica e ha tenuto un evento "minimax link partner day" a shanghai. durante l'incontro, il fondatore di minimax yan junjie ha annunciato il lancio di modelli di generazione video e modelli musicali. inoltre ha previsto che nelle prossime settimane verrà lanciata una nuova versione del modello grande abab7, che potrà competere con gpt-4o in termini di velocità ed efficacia.
il nome esterno di questo modello di generazione video è video-1 e minimax non introduce molto sui parametri specifici. yan junjie ha affermato che, rispetto ai modelli video sul mercato, il video-1 ha le caratteristiche di un elevato tasso di compressione, una buona risposta del testo e stili diversi e può generare video nativi ad alta risoluzione e con un frame rate elevato. al momento, video-1 fornisce solo video wensheng. in futuro, il prodotto eseguirà l'iterazione su video wensheng, modificabilità, controllabilità e altre funzioni.
al momento, tutti gli utenti possono accedere al sito web ufficiale di conch ai per sperimentare la funzione di generazione video del video-1. il giornalista l'ha sperimentato sul posto dopo aver inserito una semplice parola e aver atteso per circa 1-2 minuti, un 6-. è possibile generare un secondo video. a giudicare dall'effetto in uscita, l'immagine copre sostanzialmente i punti menzionati nelle parole suggerite. l'alta definizione e le tonalità dei colori sono esteticamente accettabili. l'area che può essere migliorata sono i dettagli facciali dei personaggi.
durante la sessione di discussione della conferenza, yan junjie ha affermato che i modelli su larga scala sono un campo che sembra essere molto caldo, ma ci sono anche molte aree di non consenso: “se vogliamo fare 2b o 2c, se lo vogliamo farlo a livello nazionale o all'estero, indipendentemente dal fatto che la legge di ridimensionamento possa continuare..." e così via.
nonostante così tanti disaccordi, quest'anno la generazione di video potrebbe essere il consenso dei principali produttori di modelli.
da quando openai ha rilasciato il modello video di grandi dimensioni sora nel febbraio di quest'anno, ci sono stati molti rilasci con nomi nel settore. ad aprile, shengshu technology ha rilasciato il modello video di grandi dimensioni vidu. a giugno, kuaishou ha rilasciato il modello di generazione video ai di grandi dimensioni keling a una settimana dopo, è stato rilasciato luma ai. il modello video di vincent dream machine, runway ha annunciato all'inizio di luglio che il modello video di vincent gen-3 alpha è aperto a tutti gli utenti. durante la conferenza mondiale sull'intelligenza artificiale, alibaba damo academy ha lanciato la ricerca della luce alla fine di luglio, aishi technology ha rilasciato pixverse v2, e successivamente zhipu ha rilasciato ufficialmente il video qingying, e all'inizio di agosto, bytedream ai è stato lanciato sull'app store...
un anno fa, sul mercato c'erano pochissimi modelli video vincent rivolti al pubblico. in pochi mesi abbiamo assistito all'emergere di dozzine di modelli di generazione video. un esperto del settore ha lamentato che l'anno scorso è stato un periodo senza precedenti generazione video ai. un momento storico.
nell'intervista, un giornalista di china business news ha chiesto della necessità di generare video con layout minimax e ha affermato che la ragione principale è che le informazioni della società umana si riflettono maggiormente nei contenuti multimodali ogni giorno non è testo, è tutto contenuto dinamico. quando apri xiaohongshu, sono tutte immagini e testi, quando apri douyin, sono tutti video, e anche quando apri pinduoduo, la maggior parte delle volte sono immagini. l'interazione testuale è solo molto comune. la parte più piccola riguarda maggiormente l'interazione vocale e video.
pertanto, per avere una copertura utente molto elevata e una maggiore profondità di utilizzo, come grande produttore di modelli, l'unico modo è essere in grado di produrre contenuti multimodali invece di produrre solo contenuti puramente testuali, ha spiegato yan junjie, questo è un giudizio fondamentale.
"è solo che prima abbiamo realizzato il testo, poi l'audio e le immagini molto presto. ora che la tecnologia è diventata più potente, possiamo anche realizzare video. questo percorso è coerente e dobbiamo essere in grado di realizzare lo stato multimodale yan." junjie ha detto.
tuttavia, il percorso di generazione dei video è difficile. basta guardare il rilascio di sora da parte di openai all'inizio dell'anno, non è stato rilasciato ufficialmente al mondo esterno e possiamo anche intravedere alcune sfide nel settore.
da un lato, i risultati attuali della generazione video sono lontani dal soddisfare le aspettative degli utenti. il modello non comprende le regole fisiche e il processo di generazione è difficile da controllare. gli algoritmi di generazione di video, immagini e tridimensionali incontreranno molti problemi strutturali e dettagliati. ad esempio, una cosa crescerà di più o mancherà una cosa, oppure la mano penetrerà nello stampo nel corpo umano, in particolare quelli con i video delle regole fisiche sono attualmente difficili da generare.
nell'intervista, yan junjie ha anche affermato che "la questione è piuttosto difficile", altrimenti così tante aziende che affermano di farlo lo avrebbero già fatto. la complessità del lavoro del video è più difficile di quella del testo perché il testo contestuale del video è naturalmente molto lungo. ad esempio, un video ha decine di milioni di input e output, il che è naturalmente un processo difficile. in secondo luogo, la quantità di video è molto grande. un video di 5 secondi può essere lungo diversi megabyte, ma un video di 5 secondi di circa 100 parole potrebbe non equivalere nemmeno a 1k di dati. si tratta di un gap di archiviazione di diverse migliaia di volte.
"la sfida qui è che il modo in cui l'infrastruttura sottostante costruita sulla base del testo viene utilizzata per elaborare i dati, come pulire i dati e come etichettarli non è adatta per i video." yan junjie ritiene che l'infrastruttura debba essere aggiornata la seconda cosa è la pazienza. ci sono molte fonti aperte per la scrittura di testi. se lo fai in base all'open source, la tua ricerca e sviluppo saranno più veloci. se realizzi video, non ci sono così tanti contenuti open source quando il contenuto viene creato, scoprirai che deve essere rifatto, il che richiede più pazienza.
i professionisti del settore hanno precedentemente detto ai giornalisti che l'attuale generazione di video è un po' come la generazione di immagini. alla vigilia del 2022, dopo che stable diffusion è diventata open source nell'agosto 2022, la generazione di immagini aigc ha iniziato a esplodere, ma attualmente non esiste un "open source" particolarmente potente. "nel campo della generazione video. sora" viene rilasciato, tutti devono ancora esplorare il percorso.
qiming venture partners ha pubblicato a luglio le "dieci prospettive per l'intelligenza artificiale generativa nel 2024". uno di questi è che la generazione di video esploderà tra tre anni. credono che, combinata con le capacità 3d, la generazione di video controllabile avrà un impatto su film, televisione, ecc. animazione e cortometraggi. il modello di produzione apporta cambiamenti. in futuro, il tasso di compressione della rappresentazione dello spazio latente di immagini e video sarà aumentato di oltre cinque volte, con una generazione più di cinque volte più veloce.
(questo articolo proviene da china business news)
segnalazione/feedback