attacco beanbao, la versione byte di sora è "in ritardo ma arrivata" il presidente di volcano engine tan dai: inizi a considerare la commercializzazione non appena verrà lanciato

2024-09-26

"il percorso di sviluppo del grande modello di byte è quello di andare prima in c per perfezionare il prodotto, e poi andare in b per espandere il mercato dopo che le capacità del modello hanno un vantaggio competitivo." ha accettato un'intervista con "daily economic news" ha detto durante un'intervista con un gruppo di media che includeva giornalisti.

sulla base di questo percorso di sviluppo, dopo che una prima versione è stata applicata alla piattaforma di creazione ai "ji meng" sviluppata dal team di editing nel maggio di quest'anno, il modello di generazione video del pouf è stato ufficialmente presentato al volcano engine ai innovation tour 2024 il 24 settembre ed è rivolto a il mercato aziendale è aperto al beta testing.

da quando sora ha dato il via all'"era dei video chatgpt", i player nazionali di modelli di grandi dimensioni come kuaishou, zhipu ai, minimax e alibaba hanno lanciato successivamente prodotti simili. ora che bytedance è entrato in gioco, può cambiare il panorama competitivo esistente dei modelli di video di grandi dimensioni ?

attraverso la dimostrazione degli effetti dei due modelli di generazione video durante la conferenza stampa, tan dai ritiene che, sia che si tratti di capacità di comprensione semantica, di immagini interattive complesse di movimenti di più soggetti o di coerenza del contenuto del cambio di più obiettivi, la grande generazione di video doubao il modello ha raggiunto il livello leader del settore.

allo stesso tempo, alla conferenza sono stati rilasciati il "modello di generazione musicale" e il "modello di interpretazione simultanea", espandendo ulteriormente il territorio dell'intelligenza artificiale di byte.

come primo attore del settore a ridurre il prezzo dei modelli di grandi dimensioni, volcano engine ha notevolmente accelerato la sua commercializzazione. tan dai ha detto al giornalista del "daily economic news" che il numero di chiamate a b sta crescendo rapidamente. "non ho ben chiaro il business to c, ma sento che sta andando molto bene. penso che l'intelligenza artificiale possa risolvere i problemi end-to-end, e i confini tra il business b e c non sono così evidenti."

un giornalista del "daily economic news" ha appreso dalla conferenza stampa che a settembre di quest'anno l'utilizzo medio giornaliero di token nel modello doubao ha superato 1,3 trilioni, ogni giorno vengono generate in media 50 milioni di immagini e la media l'elaborazione vocale giornaliera è di 850.000 ore.

byte entra nel video ai, "iniziando a considerare la commercializzazione non appena arriverà"

il 31 agosto, minimax, uno dei "sei piccoli draghi dell'intelligenza artificiale", ha rilasciato il modello di generazione video video-1. il 19 settembre, keling ai ha completato la sua nona iterazione e ha rilasciato il "modello keling 1.5". yunqi alla conferenza, alibaba cloud ha lanciato un nuovo modello di generazione di video in meno di un mese, il già turbolento campo dei modelli di generazione di video ha accolto un nuovo attore.

al volcano engine ai innovation tour del 24 settembre, sono stati rilasciati insieme due grandi modelli di doubao video generation-pixeldance e doubao video generation-seaweed.

il giornalista del "daily economic news" ha notato che la durata massima della generazione di contenuti video supportata da questi due grandi modelli non è stata ancora annunciata. l'app jimeng mostra che supporta la generazione di contenuti video di 3 secondi, 6 secondi, 9 secondi e 12 secondi. al contrario, keling ha lanciato una funzione di continuazione del video il 21 giugno, che consente al video di continuare per circa 5 secondi e il video più lungo può essere generato per circa 3 minuti.

fonte della foto della conferenza stampa: foto di yang xinyi, giornalista del daily news

"diversi scenari hanno requisiti diversi per la durata dei video e prestiamo maggiore attenzione alle soluzioni per diversi settori." tan dai ha affermato in un'intervista con un giornalista del "daily economic news" che il vantaggio del grande modello di generazione video doubao nel l'industria risiede principalmente nella capacità di seguire le istruzioni, nella coerenza della commutazione multi-obiettivo e nella capacità di generalizzazione della generazione video.

alla conferenza stampa, molti video ufficiali hanno dimostrato le capacità di cui sopra: ad esempio, in un video dimostrativo di un uomo e una donna che galoppano a cavallo, nello schermo di 10 secondi, le due persone avevano espressioni e movimenti diversi, ma entrambi si esibivano bene. naturale e liscio.

vale la pena notare che il modello grande di generazione video doubao supporta la generazione di bianco e nero, animazione 3d, animazione 2d, pittura cinese, vernice spessa e altri stili di contenuto.

"per i modelli di generazione video, è difficile creare stili diversi (di produzione di contenuti). oltre alla tecnologia, dipende principalmente dalla ricchezza della fonte di dati", ha detto al giornalista del "daily economic news". tan dai ha attribuito questo ai “vantaggi delle capacità full-stack, alle scoperte tecnologiche e alla comprensione dei video di douyin e jianying”.

aderendo al principio del pragmatismo, tan dai ha affermato che il nuovo modello di generazione di video a sacco "ha preso in considerazione la commercializzazione sin dal suo lancio" e i suoi campi di applicazione includono marketing e-commerce, educazione all'animazione, turismo culturale urbano e micro-script.

anche keling è "ansioso" nei confronti della commercializzazione. durante la teleconferenza sui risultati del secondo trimestre, tenutasi la sera del 20 agosto, cheng yixiao, co-fondatore, presidente e amministratore delegato di kuaishou, ha considerato la commercializzazione di keling come una priorità assoluta e "si impegna a raggiungere una notevole scala di realizzazione commerciale il prima possibile". ."

parlando della strategia dei prezzi, tan dai ha rivelato che il prezzo del modello di generazione video doubao non è stato ancora determinato. “gli scenari applicativi dei modelli video e dei modelli linguistici sono diversi, e anche la logica dei prezzi è diversa. il valore del prodotto deve essere misurato attraverso la nuova esperienza, i costi di migrazione, ecc. se (il prodotto) può essere ampiamente utilizzato alla fine. dipende anche dal fatto che la produttività abbia un roi (ritorno sull'investimento) migliore rispetto a prima).

"il prezzo non è più la soglia per l'innovazione." i fornitori di cloud stanno arrivando sul nuovo campo di battaglia nell'era dell'intelligenza artificiale?

oltre al nuovo modello di generazione video, questo evento ha rilasciato anche modelli musicali a sacco e modelli di interpretazione simultanea. fino ad ora, la famiglia di modelli di grandi dimensioni full-modal doubao ha coperto le tre categorie di modelli linguistici di grandi dimensioni, modelli visivi di grandi dimensioni e modelli vocali di grandi dimensioni, e sono stati rilasciati un totale di 13 modelli di grandi dimensioni.

ma i modelli da soli non bastano. molte persone del settore affermano che l'attuale implementazione dei grandi produttori di modelli è "alla ricerca di chiodi con un martello". quindi, come trovare i chiodi e come utilizzare un martello adatto per piantare i chiodi con meno sforzo potrebbero diventare nuove sfide per i fornitori di cloud nell’era dell’intelligenza artificiale.

il primo è la questione dei costi che divide i grandi produttori di modelli e le imprese.

alla conferenza stampa di maggio, tan dai ha annunciato che il prezzo di input del modello principale di doubao è di soli 0,0008 yuan/migliaia di token, ovvero il 99,3% in meno rispetto al settore, dando inizio a una guerra dei prezzi nel campo dei modelli di grandi dimensioni.

"il costo è la chiave. se il prezzo scende di un decimo, il volume potrebbe aumentare di dieci volte." secondo tan dai, il volume delle chiamate dei modelli e la copertura delle applicazioni sono l'obiettivo attuale "ci concentriamo principalmente sulla copertura delle applicazioni, non sulle entrate. noi credo che lo sblocco di nuovi scenari sia più prezioso, come gli aggiornamenti degli scenari in chat, compagnia, produttività e l’espansione degli scenari di applicazioni aziendali.

tuttavia, ha anche insistito sul fatto che le premesse commerciali per il mercato di fascia b devono essere sostenibili. "non possiamo considerare di guadagnare dalla pubblicità come nel settore c." "i prodotti di fascia b devono ottenere profitti lordi positivi e ne abbiamo la capacità fiducia per farlo."

dopo che il grande modello doubao ha preso l'iniziativa di ridurre il suo prezzo, anche alibaba tongyi qianwen, baidu wenxin yiyan e altri modelli hanno successivamente ridotto i loro prezzi. alla conferenza yunqi di quest'anno, i prezzi dei tre modelli principali di tongyi qianwen sulla piattaforma alibaba cloud bailian sono stati nuovamente ridotti, zhou jingren, cto di alibaba cloud, ha addirittura affermato che "rispetto alle enormi applicazioni del futuro, sono ancora troppo costose. ."

per quanto riguarda la situazione attuale di questo settore, tan dai ha affermato che dopo la riduzione dei prezzi, a giudicare dal numero di chiamate, il costo non è più un ostacolo all'innovazione: “la prossima cosa da fare è migliorare la qualità e le prestazioni del modello basato su questo prezzo. l’indice di qualità lo scopo è rendere il modello più potente e diversificato.

dopo un ciclo di "riduzioni generali", l'industria dei modelli di grandi dimensioni non "ridurrà" più ciecamente i prezzi. in questa fase, la concorrenza è rappresentata dalle prestazioni dei modelli, che sono supportate anche dalla domanda dei clienti.

secondo l'osservazione di tan, per l'implementazione di modelli di grandi dimensioni, la domanda nel mercato b cambia lentamente e la domanda principale è ridurre i costi e aumentare l'efficienza. "quando le imprese applicano l'intelligenza artificiale, pianificavano dall'alto verso il basso, il che aveva un'alta probabilità di fallimento. ora devono innovare dal basso verso l'alto."

il giornalista del "daily economic news" ha notato che nel processo di assistenza alle imprese nella trasformazione digitale, volcano engine ha unito le forze con tutte le parti per istituire la smart terminal large model alliance, l'automobile large model ecological alliance e la retail large model ecological alliance. e clienti esterni coprono più di 30 settori quali telefoni cellulari, automobili, finanza, consumi e intrattenimento interattivo.

ora, byte ha alcuni "martelli" più utili tra le mani. come trovare più "chiodi" che li corrispondano in tutti i ceti sociali sarà il prossimo test del volcano engine.

notizie economiche quotidiane

segnalazione/feedback

notizia