"Jimeng AI" è sugli scaffali, Byte riuscirà a raggiungere Kuaishou?

2024-08-13

Giornalista: Yang Xinyi Redattore: Wei Guanhong

"La pressione è su Douyin." Quando nel giugno di quest'anno sono emersi i fenomenali prodotti di intelligenza artificiale generativa, rappresentati dal modello di generazione video di grandi dimensioni autosviluppato Keling, il mondo esterno attendeva con ansia le ulteriori prestazioni di Byte.

Recentemente, la versione mobile di "Jimeng AI", una piattaforma unica per la creazione di IA sviluppata dal team di editing di ByteDance, è stata ufficialmente lanciata sull'App Store di Apple.

Un giornalista del "Daily Economic News" ha appreso che l'applicazione attualmente dispone di funzioni come immagini basate su testo e video basati su testo/immagini. Inoltre, Jimeng ha lanciato un sistema di abbonamento e ha lanciato molteplici metodi di abbonamento.

Confrontando le reali applicazioni di Ji Meng, Ke Ling e Sora, i giornalisti del "Daily Economic News" hanno scoperto che i tre grandi modelli di generazione video sono più accurati e completi nel catturare e comprendere parole immediate, ma i personaggi di Ji Meng Capacità come la modellazione, la ricchezza dei contenuti e la fluidità dei video sono relativamente carenti. In termini di durata del contenuto generato, Jimeng supporta la generazione di video fino a 12 secondi.

"Il numero di secondi necessari per generare un video fluido è un fattore chiave per giudicare la capacità di un video di generare un modello di grandi dimensioni." Un ingegnere di modelli di grandi dimensioni ha detto in un'intervista con un giornalista del "Daily Economic News", " 'Liscio' deve essere misurato da più dimensioni. Guarda, ad esempio, se ci sono errori fattuali nel contenuto generato, quanto è buona la tua memoria e se il tuo senso dello spazio è corretto.

La versione mobile "Jimeng AI" è sugli scaffali. Fonte immagine: screenshot dell'app

"Jimeng AI" è sugli scaffali, l'effetto riuscirà a raggiungere Ling?

All'inizio di quest'anno, l'emergere di Sora ha inaugurato "l'era dei video ChatGPT". Successivamente, il "cavallo oscuro" Keling lanciato da Kuaishou ha aumentato le aspettative delle persone per le prestazioni dei modelli video AI domestici su larga scala. ByteDance, la società madre di Douyin, che è anche un gigante dei video brevi, è considerata uno dei giocatori con il maggior potenziale per recuperare terreno in pista.

Fonte immagine della pagina web Keling AI: screenshot del sito web ufficiale

Alla fine di marzo la piattaforma di creazione di intelligenza artificiale "Jimeng AI" sviluppata dal team all'avanguardia di Byte è stata aperta per i test interni; il 9 maggio l'applicazione è stata lanciata nella versione web. All'inizio ne aveva solo tre funzioni principali: generazione di immagini, tela intelligente e generazione di video Attualmente, il 6 agosto è stata lanciata una nuova funzione di creazione di storie, la versione mobile dell'applicazione è stata lanciata ufficialmente sull'App Store di Apple e ora ha funzioni come il testo; immagini basate su testo/immagini e video basati su testo.

Fonte immagine della pagina web Jimeng AI: screenshot del sito web ufficiale

Per quanto riguarda l'effetto reale di Jimeng, all'inizio di luglio di quest'anno, su Douyin è stata lanciata la prima serie breve di fantascienza narrativa continua generativa AIGC del paese "Sanxingdui: Future Apocalypse". In questa breve serie con un totale di 13 episodi, Jimeng, in qualità di principale sostenitore della tecnologia AI, ha utilizzato 10 tecnologie AI tra cui la creazione di script AIGC, la progettazione di concetti e storyboard, la conversione di immagini in video, l'editing video e il miglioramento dei contenuti multimediali.

Secondo i resoconti dei media, nel processo di collaborazione con Bona Pictures per il lancio di "Sanxingdui: Future Apocalypse", Jimeng AI ha migliorato la funzione di "generazione video", incluso il supporto di 24 fps, 30 fps, riempimento dei fotogrammi a 60 fps e la capacità di raddoppiare il super punteggio. , aggiunto movimento orizzontale dell'obiettivo, movimento su e giù, supporto per il controllo della direzione e dell'ampiezza del movimento dell'obiettivo, ecc.

Fonte immagine: screenshot dell'account pubblico Jianying WeChat

Dopo il lancio dell'app Jimeng, un giornalista del "Daily Economic News" ha selezionato una serie di parole video di Sora rilasciate ufficialmente da OpenAI per condurre un test comparativo su Jimeng, Keling e Sora.

A giudicare dai risultati dei test del giornalista, i tre grandi modelli di generazione video sono relativamente accurati e completi nel catturare e comprendere parole immediate, e anche le prestazioni sullo schermo del contenuto video generato sono coerenti e fluide.

Tuttavia, in termini di precisione della rappresentazione dei personaggi, Sora presenta alcuni vantaggi rispetto a Ji Meng e Ke Ling in termini di naturalezza dei movimenti, Ji Meng è leggermente inferiore ai tre prodotti di prova. Ad esempio, in "The Lady on the Le riprese video a tema "Strade di Tokyo" mostrano che la testa e il collo del personaggio generato dal sogno sono leggermente distorti quando gira la testa, e anche i movimenti della mano nel portare la borsa sono deformati.

Fonte immagine: screenshot video generato dal giornalista

Anche in termini di ricchezza di elementi nel contenuto produttivo, Sora si comporta meglio tra i tre. Ad esempio, nel contenuto video generato con il tema "Astronauta", Sora ha fornito molte associazioni relative a parole immediate come astronavi e scene extraveicolari, mentre Ji Meng e Ke Ling hanno presentato solo un personaggio maschile che indossa una tuta spaziale.

Fonte immagine: screenshot video generato dal giornalista

Chen Chen, partner di ricerca di analisi di Analysys, ha dichiarato in un'intervista con un giornalista del "Daily Economic News" che in termini di effetto di generazione, la qualità complessiva delle immagini AI di Dream è migliore, mentre i video AI sono migliori in termini di durata, ricchezza di elementi, azione coerenza, ecc. Mancano ancora i dettagli.

"(Il contenuto degli elementi non è abbastanza ricco) Riguarda più l'allineamento del modello, ma se manca la capacità di associarsi da 'astronauta' a 'astronave', è un problema con le capacità del modello base." Un ingegnere di modelli di grandi dimensioni ha dichiarato al giornalista del "Daily Economics" News" che il numero di secondi necessari per generare un video fluido è un fattore chiave nel giudicare la capacità di un video di generare modelli di grandi dimensioni. "'Liscio' deve essere visualizzato da molteplici dimensioni, ad esempio se il contenuto generato presenta errori fattuali, quanto è buona la memoria e il senso dello spazio non è uguale."

I giornalisti del "Daily Economic News" hanno scoperto attraverso prove che quando vengono immesse le stesse parole, più lungo è il video necessario per essere generato, è probabile che l'accuratezza e la fluidità dell'immagine principale del video e dei movimenti vengano danneggiate di conseguenza.

Attualmente, Jimeng supporta la generazione di contenuti video di 3 secondi, 6 secondi, 9 secondi e 12 secondi, corrispondenti a diversi punti di consumo. Sora è stata in grado di sintetizzare video lunghi 1 minuto già da quando è stato rilasciato il 21 giugno, Keling ha lanciato la funzione video Tusheng, che supporta la conversione di immagini statiche in vividi video di 5 secondi basati su diversi contenuti di testo, e continua a farlo; scrivere La funzione può far durare il video per circa 5 secondi e il video più lungo può essere generato per circa 3 minuti.

I video AI saranno una miniera d'oro per i modelli di grandi dimensioni?

L'emergere di Sora ha senza dubbio aperto un nuovo campo di gioco per i modelli di grandi dimensioni: nel luglio di quest'anno, Alibaba Damo Academy ha rilasciato una piattaforma unica per la creazione di video AI "Xunguang" e SenseTime ha lanciato la prima piattaforma di creazione video AI controllabile per C- utenti finali Vimi, un modello di grandi dimensioni per la generazione di video di personaggi, e Zhipu hanno anche annunciato che il modello di video generato dall'intelligenza artificiale Qingying (Ying) sarà lanciato ufficialmente su Zhipu Qingyan⋯⋯.

Quando i principali attori dell’intelligenza artificiale lanciano collettivamente un feroce attacco ai modelli di grandi dimensioni generati da video, una domanda inevitabile è proprio di fronte a noi: i video di intelligenza artificiale possono far guadagnare soldi alle aziende di modelli di grandi dimensioni?

Prendiamo ad esempio OpenAI, un'azienda leader nel settore, dopo aver lanciato una serie di modelli su larga scala con capacità leader come Sora, nel luglio di quest'anno, alcuni media hanno citato persone che hanno familiarità con la questione e analisi di dati finanziari interni non divulgate. affermando che OpenAI potrebbe dover affrontare fino a 5 miliardi quest'anno. Con un'enorme perdita di 3,5 miliardi di dollari, si stima che i ricavi dell'intero anno della società siano compresi tra 3,5 e 4,5 miliardi di dollari, che sono di gran lunga inferiori ai costi operativi.

Allo stesso tempo, anche i modelli video domestici su larga scala sembrano essere un po' "ansiosi" quando si tratta di commercializzazione. Il 30 luglio Keling ha lanciato un sistema di abbonamento globale, simile al sistema di abbonamento lanciato sul mercato interno. Ad esempio, la carta mensile è divisa in tre livelli: 10 dollari USA, 37 dollari USA e 92 dollari USA, che possono essere versati. generare circa 66, 300 e 800 video da 5 secondi.

Il giornalista del "Daily Economic News" ha notato che Jimeng ha lanciato un sistema di abbonamento, con diversi metodi di abbonamento: 79 yuan per un mese, 69 yuan per un abbonamento mensile continuo e 659 yuan per un abbonamento annuale. Nello specifico, i membri base possono utilizzare 505 punti al mese per generare circa 2.020 immagini o 168 video AI. Inoltre, ci sono servizi di abbonamento standard con 2020 punti al mese e servizi di abbonamento avanzati con 6555 punti al mese che verranno lanciati a breve.

"A causa degli elevati costi di formazione e inferenza dei modelli di intelligenza artificiale di grandi dimensioni, insieme alla domanda relativamente frammentata di strumenti di intelligenza artificiale da parte degli utenti di fascia C e alla loro mancanza di disponibilità a pagare, la commercializzazione di modelli video di grandi dimensioni nel mercato di fascia C sarà destinata a crescere. devono ancora affrontare un lungo periodo di coltivazione." Chen Chen ritiene che per il mercato di fascia C, la commercializzazione di modelli video su larga scala abbia ancora molta strada da fare.

Partendo dal mercato del lato B, Chen Chen ha dichiarato al giornalista del "Daily Economic News", "Per il lato B, la rivoluzione della tecnologia AI sta rimodellando il flusso di lavoro originale, comprimendo collegamenti ridondanti e innescando una nuova domanda di strumenti creativi. In questo processo, i grandi modelli video AI possono essere gradualmente integrati con la produzione cinematografica e televisiva esistente, la creatività pubblicitaria e la pianificazione dei contenuti multimediali per assistere nell'automazione di processi complessi e nella produzione di contenuti intelligenti e se le capacità del modello possono essere effettivamente integrate in i flussi di lavoro effettivi apporteranno sostanza. Il miglioramento dell’efficienza sessuale e la riduzione dei costi sono fattori chiave nello sviluppo delle capacità di commercializzazione”.

"La commercializzazione di Kimi inizierà gradualmente ad essere esplorata, ma non è l'obiettivo attuale. L'obiettivo attuale è costruire un modello di prossima generazione con capacità più potenti. Nell'agosto di quest'anno, Dark Side of the Moon è stato intervistato da a Il giornalista del "Daily Economic News" Shi Zeng ha detto che in questa fase non è il momento di concentrarsi sulla commercializzazione.

Forse lo stesso vale per il “neonato” Sogno, che ha ancora un traguardo dopo l'altro da raggiungere e superare. "Le attuali funzioni del prodotto e i modelli di business di Jimeng si concentrano sulla fornitura di UGC (contenuti generati dagli utenti) e anche l'integrazione ecologica con Douyin sarà al centro dello sviluppo futuro." Chen Chen ha affermato: "Forse in termini di durata, frame rate, immagine dettagli e altre tecnologie Il benchmarking diretto sui parametri non è ciò a cui Jimeng deve prestare maggiore attenzione in questa fase, la chiave sta nell’implementazione dell’applicazione e nelle capacità di integrazione ecologica”.

notizia

"Jimeng AI" è sugli scaffali, Byte riuscirà a raggiungere Kuaishou?

Introduzione

Le mie informazioni di contatto