zhang yiming è arrivato tardi, ma anche dopo

zhang yiming è arrivato tardi, ma anche più tardi

2024-09-25

a partire da settembre, i modelli video di grandi dimensioni sono diventati il nuovo punto di competizione dell’intelligenza artificiale per i principali produttori. ma questa volta zhang yiming era di nuovo in ritardo.

sono passati 5 giorni dal lancio di alibaba tongyi qianwen wensheng video e 3 mesi da quando kuaishou ha rilasciato keling a giugno. il 24 settembre, byte ha finalmente lanciato il proprio modello di generazione video doubao.

ciò che vale la pena notare è che zhang yiming, che ha sempre apprezzato il ritorno sull'investimento (roi) ed è pragmatico, ha dato il tono della "commercializzazione" per il modello video doubao fin dall'inizio.

durante l'evento, tan dai, presidente di volcano engine, ha dichiarato:il modello di generazione video doubao è stato preso in considerazione per la commercializzazione sin dal suo lancio.le aree di applicazione includono marketing e-commerce, formazione sull'animazione, turismo culturale urbano e micro-sceneggiature, come mv musicali, micro-film e brevi opere teatrali.

legenda: inserisci "una bambina che indossa un cappello da babbo natale con in braccio un gatto di pezza" per generare la fonte di rendering: elenco alfabetico

allo stesso tempo, tan dai ha anche sottolineato che prima che il modello video di doubao fosse rilasciato, era già "apparso" in molti brevi progetti drammatici su douyin. il mese scorso, kunlun wanwei ha rilasciato skyreels, una piattaforma per la generazione di brevi drammi basati sull'intelligenza artificiale, e a luglio meitu xiuxiu ha rilasciato moki, uno strumento per la generazione di brevi drammi basati sull'intelligenza artificiale.

"ora ci sono centinaia di aziende che vendono cortometraggi all'estero e sono diventate utenti di modelli di grandi dimensioni dell'intelligenza artificiale." un fornitore leader di servizi di strumenti di intelligenza artificiale ha anche affermato che per i produttori di modelli di grandi dimensioni come byte, l'intelligenza artificiale viene utilizzata per ridurre gli elevati costi di produzione cinematografica e televisiva. con la benedizione dell'intelligenza artificiale, brevi spettacoli e mv diventeranno prodotti di contenuto simili ad articoli online e brevi video con una maggiore partecipazione degli utenti. a suo avviso, "byte, che è arrivato tardi, sta giocando a un gioco commerciale".

infatti, quando sora è esplosa, la possibilità di lanciare un modello video di grandi dimensioni è diventata il “nuovo standard” per misurare se la tecnologia dei produttori di modelli di grandi dimensioni fosse avanzata nel 2024.

in questa ricerca di sora, il "non ha fretta" di byte ha ritardato fino alla fine di settembre per "riservare uno spazio" per il modello video quando doubao model pro è stato aggiornato.

quando alphabet ha aperto jimeng ai, è stato notato che dopo aver applicato il modello video beanbao, gli utenti c-end possono sperimentare la generazione di video in jimeng ai.

il tempo di generazione massimo di 12 secondi è "giusto" e l'effetto di generazione di qi ke ling "non è sorprendente, ma è in ritardo di qualche mese e non è stato colmato dal divario tecnico dal grande modello video che è stato rilasciato per la prima volta." come primo lotto di test interni zhang yang, un esperto di intelligenza artificiale del modello video doubao, ha detto ad alphabet che, sebbene i modelli video domestici vengano aggiornati intensamente,la fiducia nell'arrivo tardivo di byte potrebbe essere dovuta al fatto che gli effetti della precedente generazione di video ai non hanno "stupito" gli utenti.

mentre i modelli domestici inseguono sora, openai ha già dimostrato un nuovo percorso di apprendimento di rinforzo per modelli base su larga scala attraverso il lancio di gpt-o1 che potrebbe essere sul punto di inaugurare una nuova era con una valutazione superiore a mille miliardi produttori, ci saranno anche nuovi match point.

l'intelligenza artificiale jimeng lanciata in precedenza da jianying supporta solo 3 secondi di durata video; dopo aver caricato il modello a sacco grande, l'intelligenza artificiale jimeng può generare video di 3-12 secondi;

al contrario, la versione 1.0 di keling può sperimentare solo 5 secondi di generazione video senza abbonamento, mentre jimeng ai di byte supporta le prove gratuite degli utenti emettendo 66 punti accedendo ogni giorno.

tuttavia, a differenza del modello doubao, che ha iniziato a fomentare "l'acquisto di modelli di grandi dimensioni a zero yuan" con un prezzo inferiore al 98% del settore, provocando accese discussioni, il modello doubao non sembra essere in linea con la tradizione di byte di "fare grandi cose in silenzio".

inserisci la parola chiave "una bambina che tiene in braccio un gatto di pezza". nella versione beta chiusa prima del rilascio del modello video di doubao, per la prima volta, l'intelligenza artificiale sembrava interpretare il gatto di pezza come una bambola e il video generato. era di un gatto finto tra le sue braccia, anche i volti nel video sono leggermente rigidi.

dopo essere stato nuovamente generato il 25 settembre, il gatto ragdoll si è trasformato in un gatto pastorale. solo quando è stato generato per la terza volta il grande modello ai ha completato accuratamente le istruzioni. zhang yang ha detto ad alphabet che, essendo uno dei primi professionisti dell'intelligenza artificiale nei test interni, l'effetto dell'utilizzo del grande modello video doubao non è sorprendente.

tuttavia, il modello grande di doubao video può alternare stili diversi come animazione 3d, animazione 2d, pittura cinese, bianco e nero e vernice spessa. puoi anche scegliere di spostare la telecamera in modo casuale o personalizzare le modalità di movimento della telecamera come lo zoom avanti e zoom indietro rispetto ai soli 16:9, 9:16 e 1:1 sono disponibili tre rapporti dello schermo, doubao è ovviamente più adatto a diversi rapporti dello schermo, inclusi 3:4, 2:3, 4:3, 3: 2 e più scelte di rapporto.

dal punto di vista di zhang yang, doubao offre più scelte in termini di esperienza di interazione con l’utente. tuttavia, anche se il modello grande di doubao video può realizzare il cambio multi-camera in un batter d'occhio, "la connessione dell'immagine complessiva è ancora un po' irregolare e le espressioni dei personaggi sono un po' distorte".

tuttavia, zhang yiming questa volta, senza sorprese, ha inciso il "pragmatismo" nel dna del modello video doubao.

una volta rilasciato il modello grande di doubao video, è stato invitato a testarlo per il mercato aziendale. allo stesso tempo, tan daigeng, presidente di volcano engine, ha affermato:il modello di generazione video doubao è stato preso in considerazione per la commercializzazione sin dal suo lancio.le aree di applicazione includono marketing e-commerce, formazione sull'animazione, turismo culturale urbano e micro-sceneggiature, come mv musicali, micro-film e brevi opere teatrali.

a differenza di altre startup di intelligenza artificiale che “cercano i chiodi con un martello”, che si tratti di bytedance o kuaishou, “ha i propri contenuti e la propria piattaforma e i chiodi sono a portata di mano, quindi realizzare modelli video di grandi dimensioni ha naturalmente più scenari applicativi”. zhang yang ha detto,

il 24 luglio, il post ufficiale su wechat di keling ai ha rivelato che il numero di utenti che hanno richiesto le autorizzazioni ha superato 1 milione e lo stesso giorno è stato lanciato un sistema di abbonamento a pagamento, che include tre categorie di abbonamento: oro, platino e diamante il prezzo dell'abbonamento annuale parte da più di 500 yuan e varia da più di 5.000 yuan. per byte, che è in ritardo nel gioco, potrebbe essere tecnicamente alla pari con keling, ma sul percorso di commercializzazione, keling, che ha già avviato il pagamento di fascia c, sembra essere di nuovo un passo avanti.

a maggio, di fronte alla questione "openai ha rilasciato gpt-4o il giorno prima che google rilasciasse i/o", la società madre di google alphabet e il ceo di google sundar pichai hanno detto senza mezzi termini: "quando siamo al punto di flessione dell'ia, quello che vedo sono opportunità, quindi se estendi questa sequenza temporale, una certa cosa che accade in un determinato giorno non avrà importanza ".

proprio come google, costantemente battuto da openai,ciao, che è arrivato tardi, ha i chiodi in mano e sembra che stia cercando di recuperare da dietro.

secondo i dati questmobile, a luglio, il numero di utenti attivi mensili dell'app ai ha superato i 66,3 milioni. tra questi, doubao, wen xiaoyan, kimi, hoshino e tongyi si classificano tra i primi 5, con utenti attivi mensili rispettivamente di 30,42 milioni, 10,08 milioni, 6,25 milioni, 4,66 milioni e 4,24 milioni.

sebbene l’app doubao sia stata rilasciata molto più tardi di tongyi qianwen di alibaba, e anche dopo wen xinyiyan e kimi di baidu, gli utenti attivi mensili di doubao sono già maggiori del numero totale di utenti attivi delle altre quattro app.

pertanto, nel campo della generazione video ai,di fronte all’attuale situazione di lente scoperte tecnologiche nazionali, byte sembra anche avere la sicurezza di arrivare in ritardo.

che si tratti di keling, il primo a uscire dal settore, o del tanto atteso modello video byte beanbag, nessuno sembra riuscire a raggiungere sora tra i produttori che hanno lanciato modelli video a luglio e settembre.

da "mountains and seas' strange mirror: cutting the waves" di kuaishou a "sanxingdui: future apocalypse" di byte, l'uso dell'intelligenza artificiale per creare brevi spettacoli è diventato la "pietra dell'alchimia" per gli effetti di generazione video ai dei principali produttori.

ovviamente, rispetto ai tradizionali brevi drammi che richiedono che personaggi reali appaiano e interagiscano, i brevi drammi di mitologia, fantascienza e altri tipi sono più adatti ai grandi modelli di intelligenza artificiale nella fase attuale.

"l'attuale livello di generazione dell'ia è instabile ed è difficile distinguere tra effetti reali e falsi come esplosioni di bombe e fuochi d'artificio in scene di grandi dimensioni, ma richiede comunque che il personale addetto al debug effettui aggiustamenti per altre 1-2 ore," zhang yang ha detto alla lista di alphabet, l'attuale grande modello di intelligenza artificiale ha generato video, espressioni e azioni dei personaggi più dettagliate, presenta ancora i problemi di espressioni innaturali, piccola gamma di movimenti ed espressioni meccaniche.

anche zhu jiang, la piattaforma di cortometraggi di intelligenza artificiale reel.ai, ha detto senza mezzi termini nell'intervista: “si prevede che i cortometraggi non di animazione raggiungeranno livelli di consumo nella seconda metà di quest'anno.

robin li una volta disse: "non importa se sei 12 mesi avanti o 18 mesi indietro. ogni azienda si trova in un mercato perfettamente competitivo. non importa quello che fai, ci saranno molti concorrenti".

con l’app douyin con una base di utenti di 100 milioni, non è difficile spiegare la facilità di byte. anche tencent, che non ha ancora rilasciato un modello video di grandi dimensioni, ha wechat, la più grande app social, e sembra avere più scelte per zhang yiming e ma huateng, che "tengono i chiodi".

"non importa quale modello video dell'azienda usi adesso, è tutta una questione di pescare carte."

"circa 1 su 10 volte di generazione può davvero soddisfare gli standard commerciali, ma il processo di debug 10 volte potrebbe non essere efficiente quanto il lavoro manuale." dopo aver provato diversi modelli video di grandi dimensioni sul mercato, shan shan, un professionista del cinema e della televisione , detto senza mezzi termini, l’attuale modello di grandi dimensioni non soddisfa le aspettative dell’utente in termini di effetto generativo.

"l'input genera un video di un gatto ragdoll. il risultato è un gatto giocattolo o un gatto da giardino. quando gli utenti non riescono a ottenere risultati stabili e inaspettati dopo 2-3 prove, sarà difficile completare veramente la fidelizzazione degli utenti."agli occhi di shan shan, questo potrebbe anche spiegare perché sora non è stato ancora rilasciato per i test pubblici a più di sei mesi dal suo rilascio.

all'inizio dell'anno, è stato riferito che il ceo di openai altman avrebbe investito 7 trilioni di dollari in collaborazione con tsmc per costruire una fabbrica di wafer, con l'intenzione di abbandonare i chip sviluppati internamente da nvidia. a settembre, openai ha rivelato che tsmc ci stava lavorando "modello video irritato" "lo scopo dello sviluppo di un chip di processo personalizzato a16 a livello di angstrom è quello di migliorare le sue capacità di generazione video.

la densità di questo chip a16 è aumentata di 1,10 volte. con la stessa tensione operativa, la velocità aumenta dell'8%-10%, il consumo energetico è ridotto del 15%-20%.usare "un prezzo e un consumo energetico più bassi per promuovere una generazione di video ai più rapida" è ovviamente un motivo importante per cui openai ha rinviato la beta pubblica di sora.

per ottenere migliori effetti di generazione video tramite intelligenza artificiale, anche i maggiori costi di potenza di calcolo, i prezzi più bassi e il consumo di energia sono diventati fattori chiave per determinare se i grandi modelli video domestici alla fine possono "esaurirsi".

recentemente, è stato rivelato che byte intende collaborare con tsmc sui chip ai, anche se in seguito byte ha risposto che il rapporto non era vero e ha affermato che la sua esplorazione nel campo dei chip è più focalizzata sull'ottimizzazione aziendale di consigli e pubblicità.tuttavia, inserendo parole chiave come "chip" sul sito di reclutamento di byte, ci sono già più di 200 posizioni correlate, tra cui ingegneri di test sull'architettura dei chip ai e sui chip sil.

ma per zhang yiming e anche per i produttori nazionali di teste di modelli di grandi dimensioni, le sfide che devono affrontare potrebbero essere più difficili.

il 19 settembre, alla conferenza yunqi del 2024, il fondatore di dark side of the moon yang zhilin ha affermato che il significato principale del lancio di gpt-o1 è aumentare il limite superiore dell'ia. “aumentando la produttività del 10%, ovvero 10 volte il pil, la domanda più importante in questo caso è se possa essere ulteriormente ampliato attraverso l’apprendimento per rinforzo”.

nell'era gpt-o1, la chat istantanea di doubao, tongyi qianwen, wenxin e kimi è passata dal pensare per 10 o 20 secondi per generare risposte alla possibilità di chiamare vari strumenti per eseguire compiti a livello minuto o addirittura il livello giornaliero, il modulo di chat istantanea con intelligenza artificiale che gli utenti domestici hanno già familiarità introdurrà un enorme cambiamento. "l'intelligenza artificiale è più simile a un essere umano o a un assistente". side of the moon per mettersi al passo con openai.

quando arriva di nuovo un nuovo momento di competizione, i modelli base di grandi dimensioni dei produttori nazionali di modelli di grandi dimensioni non hanno visto "nuovi schizzi" in quel momento, ma per zhang yiming e altri si trovano ancora una volta di fronte a una scelta.

dovremmo continuare a investire molte "persone, denaro e potenza di calcolo" in scenari funzionali come vincent video per l'iterazione, o dovremmo imparare da openai e introdurre un percorso di iterazione avanzato? per byte, che non è a corto di soldi, ovviamente può "avere entrambi".

e quando lo spazio dell'immaginazione portato dall'"apprendimento per rinforzo" è abbastanza ampio e abbastanza allettante, viene sparata una nuova pistola di partenza, può byte, che non è riuscito ad alzarsi presto, essere in grado di andare avanti questa volta?

(zhang yang e shan shan sono pseudonimi nell'articolo)

notizia

zhang yiming è arrivato tardi, ma anche più tardi

introduzione

le mie informazioni di contatto