"king of beanbao": bytedance rilascia due grandi modelli di generazione di video in un day

il “re di beanbao”: bytedance rilascia due grandi modelli di generazione di video in un giorno

2024-09-24

bytedance ha annunciato ufficialmente il suo ingresso nella generazione di video ai. il 24 settembre, volcano engine, una filiale di bytedance, ha tenuto un tour di innovazione dell'intelligenza artificiale a shenzhen e ha rilasciato due grandi modelli di doubao video generation-pixeldance e doubao video generation-seaweed, e ha lanciato un test di invito per il mercato aziendale.

la generazione video mostrata all'evento è stata sorprendente. che si tratti di capacità di comprensione semantica, immagini interattive complesse di movimenti di più soggetti o coerenza dei contenuti nel cambio di più obiettivi, i modelli di grandi dimensioni per la generazione di video doubao hanno raggiunto il livello avanzato del settore. tan dai, presidente di volcano engine, ha dichiarato: "ci sono molte difficoltà nella generazione di video che devono essere superate. i due modelli doubao continueranno ad evolversi, esploreranno più possibilità nella risoluzione di problemi chiave e accelereranno l'espansione dello spazio creativo e applicazione di video ai."

immagine: il presidente di volcano engine tan dai ha rilasciato il modello di generazione video del pouf

tecnologia innovativa per risolvere il problema dell'interazione e della coerenza multi-agente

la maggior parte dei modelli di generazione video precedenti potevano solo completare semplici istruzioni, mentre il modello di generazione video doubao può ottenere azioni multi-ripresa naturali e coerenti e complesse interazioni multi-soggetto. alcuni creatori hanno scoperto durante l'accesso anticipato al modello di generazione video di doubao che i video generati non solo possono seguire istruzioni complesse e consentire a diversi personaggi di completare l'interazione di istruzioni di azioni multiple, ma vengono mantenuti anche l'aspetto dei personaggi, i dettagli dell'abbigliamento e persino il copricapo sotto movimenti diversi. coerente, vicino all'effetto di ripresa reale.

secondo volcano engine, il modello di generazione video di doubao si basa sull'architettura dit. attraverso l'efficiente unità di calcolo dit fusion, il video può essere commutato liberamente tra grandi dinamiche e lenti mobili e ha funzionalità linguistiche multi-lente come zoom, surround. , panoramica, zoom e seguire il target. il metodo di addestramento del modello di diffusione di nuova concezione ha superato il problema di coerenza del cambio multi-scatto e può mantenere la coerenza del soggetto, dello stile e dell'atmosfera allo stesso tempo quando si cambia inquadratura. questa è anche un'innovazione tecnologica unica del video doubao modello di generazione.

dopo la rifinitura e l'iterazione continua di scenari aziendali come cutting e dream ai, il modello di generazione video doubao ha un layout di luci e ombre e una coordinazione dei colori di livello professionale e l'aspetto visivo è estremamente bello e realistico. la struttura transformer profondamente ottimizzata migliora notevolmente la capacità di generalizzazione della generazione video doubao, supporta l'animazione 3d, l'animazione 2d, la pittura cinese, il bianco e nero, la vernice spessa e altri stili ed è adatta per film, tv, computer, telefoni cellulari e altri dispositivi proportion non è adatto solo a scenari aziendali come marketing e-commerce, formazione sull'animazione, turismo culturale urbano e micro-copi, ma può anche fornire assistenza creativa a creatori e artisti professionisti.

attualmente, il nuovo modello di generazione video del pouf è in fase di test su piccola scala nella versione beta interna di jimeng ai e in futuro sarà gradualmente aperto a tutti gli utenti. chen xinran, leader di mercato di jianying e jimeng ai, ritiene che l'intelligenza artificiale possa interagire profondamente con i creatori e creare insieme, portando molte sorprese e ispirazioni. jimeng ai spera di diventare il partner creativo più vicino e saggio degli utenti.

doubao big model lancia lo standard di traffico simultaneo ultra elevato del settore

a questo evento, doubao big model non solo ha aggiunto un nuovo modello di generazione video, ma ha anche rilasciato un modello musicale doubao e un modello di interpretazione simultanea, che ha coperto completamente tutte le modalità come linguaggio, voce, immagine, video, ecc., e soddisfa pienamente le esigenze di diversi settori e requisiti dello scenario aziendale.

mentre le capacità dei prodotti migliorano sempre di più, anche l’uso dei modelli di pouf di grandi dimensioni sta crescendo rapidamente. secondo volcano engine, a settembre, l'utilizzo medio giornaliero di token del modello linguistico doubao ha superato 1,3 trilioni, un aumento di dieci volte rispetto al primo rilascio di maggio. anche il volume di elaborazione dati multimodale ha raggiunto i 50 milioni di immagini e 50 milioni di immagini al giorno rispettivamente.

in precedenza, i modelli di grandi dimensioni doubao avevano annunciato prezzi inferiori al 99% del settore, guidando la tendenza alla riduzione dei prezzi per i modelli di grandi dimensioni nazionali. tan dai ritiene che il prezzo dei modelli di grandi dimensioni non costituisca più un ostacolo all'innovazione. con l'applicazione su larga scala da parte delle imprese, i modelli di grandi dimensioni che supportano un maggiore traffico simultaneo stanno diventando un fattore chiave nello sviluppo del settore.

secondo tan dai, molti modelli di grandi dimensioni nel settore attualmente supportano solo fino a 300.000 o addirittura 100.000 tpm (token al minuto), che è difficile da trasportare per il traffico degli ambienti di produzione aziendale. ad esempio, nello scenario di traduzione di documenti di un istituto di ricerca scientifica, il tpm di picco è 360.000, il tpm di picco di un determinato abitacolo intelligente di un'auto è 420.000 e il tpm di picco di un'azienda di formazione sull'intelligenza artificiale raggiunge 630.000. per questo motivo, il modello beanbao large supporta di default un tpm iniziale di 800k, che è molto più alto della media del settore. i clienti possono anche espandere in modo flessibile la capacità in base alle esigenze.

"grazie ai nostri sforzi, il costo dell'applicazione dei modelli di grandi dimensioni è stato ben risolto. i modelli di grandi dimensioni devono passare dal prezzo in volume alle prestazioni in termini di volume, con migliori capacità e servizi del modello", ha affermato tan dai.

yidan xiaofeng

segnalazione/feedback

notizia

il “re di beanbao”: bytedance rilascia due grandi modelli di generazione di video in un giorno

introduzione

le mie informazioni di contatto