byte utilizza l'intelligenza artificiale per rilanciare la sua vecchia attività: entrare in modelli di generazione di video su larga scala, vicini agli effetti

byte utilizza l'intelligenza artificiale per rilanciare la sua vecchia attività: entrare in modelli di generazione di video su larga scala, vicini agli effetti della vita reale

2024-09-27

fonte di questo articolo: times weekly autore: he shanshan

il campo dei modelli di grandi dimensioni per la generazione video accoglie attori importanti.

il 24 settembre, volcano engine, una filiale di bytedance, ha tenuto un tour sull'innovazione dell'intelligenza artificiale a shenzhen, lanciando due grandi modelli di generazione di video a sacco, pixeldance, e generazione di video a sacco, seaweed, e ha anche aperto un test di invito per il mercato aziendale.

per i modelli di grandi dimensioni di generazione video, la durata del video generato è molto importante. attualmente, la durata della generazione di video pixeldanc è di 5 secondi o 10 secondi e seaweed è di 5 secondi. tan dai, presidente di volcano engine, ha dichiarato a time weekly e ad altri media: "ci sono molte difficoltà nella generazione di video che devono essere superate. i vantaggi di volcano engine includono la capacità di seguire le istruzioni, il movimento della telecamera (coerenza del soggetto sotto più obiettivi) , ecc., dietro i quali ci sono scoperte tecnologiche e capacità complete. inoltre, anche la comprensione dei video da parte di douyin e jianying è un vantaggio.

tan dai ritiene che i modelli di generazione video di grandi dimensioni non dovrebbero solo discutere della durata, ma anche considerare gli scenari applicativi. scenari diversi hanno requisiti di durata diversi e huoshan è più preoccupato per le soluzioni per settori diversi. "

vale la pena notare che il nuovo modello di generazione video del pouf è in fase di test su piccola scala da jimeng ai e in futuro sarà gradualmente aperto a tutti gli utenti.

nel febbraio di quest’anno, zhang nan, ex amministratore delegato del gruppo douyin, ha improvvisamente annunciato che sarebbe passato al montaggio cinematografico e avrebbe promosso l’applicazione dell’intelligenza artificiale nel montaggio cinematografico. appena una settimana dopo aver annunciato di essere responsabile dell'editing, il 16 febbraio openai ha lanciato sora, che può generare video di 1 minuto, rendendo di nuovo popolare la funzione video di vincent in tutto il mondo. allo stesso tempo, zhang nan, in qualità di responsabile dell'attività di editing, ha annunciato il lancio di ji meng su wechat moments, che è diventato anche il primo importante aggiornamento del prodotto di zhang nan dopo il suo trasferimento.

all'ai innovation tour, chen xinran, responsabile del marketing ai per jianying e jimeng, ha presentato l'ultimo stato della "ai-izzazione" delle due app. ha detto che in passato, la produzione di contenuti di qualità simile richiedeva un team di 5-10 persone, inclusa la creazione di trame, il perfezionamento degli effetti speciali, il packaging e il montaggio, ecc. il processo di collaborazione era complesso, il ciclo di produzione durava 1-2 mesi , ed era necessaria una grande quantità di denaro e investimenti in risorse. ma con l'aiuto dell'intelligenza artificiale, la maggior parte dei creatori può completare la creazione da sola e il tempo di produzione è stato ridotto a 1-2 settimane.

tan dai ha anche menzionato nel suo discorso: "ci sono molte difficoltà nella generazione di video che devono essere superate. i due modelli doubao continueranno ad evolversi, esploreranno più possibilità nella risoluzione di problemi chiave e accelereranno l'espansione dello spazio creativo e dell'applicazione di video ia."

in ogni caso, la nascita del grande modello di generazione video doubao e il suo utilizzo a jimeng e jianying significa che bytedance è un passo avanti verso l'utilizzo dell'intelligenza artificiale per migliorare il "vecchio business" dei video.

fonte: foto scattata dal giornalista del times weekly sul posto

può cambiare obiettivo liberamente

secondo quanto riportato dal sito volcano engine, l’utilizzo dei modelli di pouf di grandi dimensioni è in rapida crescita.

a settembre, l'utilizzo medio giornaliero dei token del modello linguistico doubao ha superato 1,3 trilioni, dieci volte in più rispetto al lancio di maggio. anche il volume di elaborazione dati multimodale ha raggiunto rispettivamente 50 milioni di immagini e 850.000 ore di voce al giorno.

con l'enorme numero di utenti, il modello di pouf ha portato ancora una volta nuovi cambiamenti. non solo è stato aggiunto un nuovo modello di generazione video, ma sono stati rilasciati anche un modello musicale a sacco e un modello di interpretazione simultanea, che hanno coperto completamente tutte le modalità come linguaggio, parlato, immagini e video.

in precedenza, la maggior parte dei modelli di generazione video poteva solo completare semplici istruzioni. il modello di generazione video doubao può realizzare azioni multi-ripresa naturali e coerenti e interazioni complesse con più soggetti: non solo può seguire istruzioni complesse, ma anche consentire a diversi personaggi di completare l'interazione. di istruzioni di azione multiple l'aspetto, i dettagli dell'abbigliamento e persino il copricapo rimangono coerenti con i diversi movimenti della telecamera, il che è vicino all'effetto delle riprese reali.

il modello di generazione video doubao si basa sull'architettura dit. attraverso l'efficiente unità di calcolo dit fusion, il video può essere commutato liberamente tra grandi dinamiche e obiettivi mobili e dispone di funzionalità linguistiche multi-obiettivo come zoom, surround, panoramica, zoom. e seguire l'obiettivo. "ciò significa che il video generato da doubao supera il problema della coerenza nel cambio di scene multiple e può mantenere la coerenza del soggetto, dello stile e dell'atmosfera allo stesso tempo quando si cambiano le inquadrature. questa è anche un'innovazione tecnologica unica del modello di generazione video doubao." ha detto tan dai.

per quanto riguarda la direzione futura del modello, tan dai ha affermato che volcano engine presta maggiore attenzione a una migliore implementazione e ad un'innovazione accelerata basata sui modelli esistenti. "la tecnologia deve soddisfare le esigenze degli utenti e le nuove e vecchie tecnologie devono essere costantemente adattate e adattate. lo standard maturo per i modelli di grandi dimensioni è l'utente dopo l'incubazione il feedback reale e buono che è stato sperimentato e ha una certa quantità di feedback, piuttosto che il feedback dal laboratorio. ad esempio, jimeng e doubao hanno un gran numero di test interni e il feedback degli utenti è un importante criterio di valutazione”.

in precedenza, doubao big model aveva fissato un prezzo simbolico inferiore al 99% del settore ed è stato il primo motore vulcanico a dare il via a un’ondata di tagli dei prezzi. al momento, i prezzi per l’utilizzo dei modelli grandi di doubao video non sono ancora stati annunciati. tan daidai ha dichiarato al times weekly e ad altri media che gli scenari applicativi dei modelli video e dei modelli linguistici sono diversi, e anche la logica dei prezzi è diversa. bisogna considerare se può essere ampiamente utilizzato il risultato finale dipende da quanto il roi della produttività è migliorato rispetto al precedente.

fonte: sito ufficiale di jimeng

esplora i prodotti nativi dell'intelligenza artificiale

in precedenza, gli utenti ordinari di jimeng potevano generare brevi video ai di 3 secondi, mentre gli utenti vip potevano estendere il tempo di 3 secondi.

a partire da marzo di quest'anno, cutting ha aggiornato intensamente le funzioni ai, come i sottotitoli intelligenti, la traduzione video e altre funzioni. ha anche stretto accordi con douyin per supportare il traffico e premi in denaro per brevi video che utilizzano la funzione ai di taglio. ad esempio, i lavori eccezionali possono ricevere un supporto per il traffico di dou + 500 yuan per video. attualmente, il prezzo dell'abbonamento vip a jianying è di 218 yuan per un anno, con una tariffa mensile media di 18,17 yuan, mentre la quota dell'abbonamento vip mensile a dream è di 69 yuan.

all'ai innovation tour, chen xinran ha affermato che "la tecnologia relativa ai modelli di grandi dimensioni dei pouf è stata applicata ai ritagli, all'intelligenza artificiale dei sogni e alle immagini della veglia" e ha introdotto nuove funzioni sotto l'applicazione della tecnologia ai.

ad esempio, nelle applicazioni di clonazione digitale, la funzione di clonazione della voce umana digitale può essere personalizzata online in base alla tecnologia di clonazione vocale. i produttori digitali devono solo registrare o caricare un video frontale ad alta definizione di 3 minuti e la clonazione del tono richiede solo 5 secondi di input vocale per generare una voce naturale, fluida e non contraddittoria e può anche tradurre in varie lingue. "siamo molto preoccupati per le questioni relative alla privacy e alla sicurezza. richiediamo conferma personale da parte degli utenti a livello tecnico e di progettazione del prodotto. presteremo attenzione anche alle nuove normative del settore per migliorare la sicurezza e l'affidabilità del servizio", ha affermato chen xinran.

inoltre, esistono anche strumenti di creazione di "content marketing" per i commercianti di e-commerce. in passato, i commercianti avrebbero potuto trascorrere diverse ore esplorando douyin e tiktok per analizzare le routine video popolari, smontando le routine e copiando la copia, e anche dedicando diverse ore alla modifica. ora bastano solo pochi minuti per inserire il nome del prodotto e caricalo aggiungendo materiali o incollando i collegamenti alla pagina del prodotto, puoi generare più stili diversi di video di consegna con un clic.

chen xinran ha specificamente affermato che oltre ad applicare l'intelligenza artificiale ai prodotti esistenti, jianying sta anche esplorando la possibilità di prodotti nativi dell'intelligenza artificiale nell'era gena (generative artificial intelligence) i. “jimeng ai è un'esplorazione in questa direzione. il prodotto è attualmente in corso collegato a due grandi modelli di generazione video per i test interni sulla rifinitura della scena e sulla rifinitura degli effetti. crediamo che la creazione non debba essere limitata dal costo di produzione, dallo stile o dal background culturale. dovrebbe essere divertente, felice e libera.

tan dai ha anche affermato che il costo dell'applicazione dei modelli di grandi dimensioni è stato ben risolto "i modelli di grandi dimensioni devono passare dal prezzo in volume alle prestazioni in termini di volume, con migliori capacità e servizi del modello".

notizia

byte utilizza l'intelligenza artificiale per rilanciare la sua vecchia attività: entrare in modelli di generazione di video su larga scala, vicini agli effetti della vita reale

introduzione

le mie informazioni di contatto