feira de serviços de 2024 ｜ tecnologia shengshu resolve o problema de inconsistência na geração de grandes modelos de vídeo

2024-09-15

"quando inserimos uma instrução na ia e a deixamos gerar um vídeo, na verdade, o principal apelo é esperar que a ia nos ajude a completar uma narrativa completa. para atingir esse objetivo, precisamos manter os elementos centrais unificados e controláveis, " disse na recentemente realizada feira internacional de comércio de serviços da china de 2024 (doravante denominada "feira de serviços"), tang jiayu, presidente e ceo da shengshu technology, deu uma solução: a função de referência de assunto do modelo grande de vídeo vidu pode realizar o controle de qualquer geração consistente. para conseguir isso, a indústria tentou métodos como "a ia primeiro gera imagens, depois as imagens geram vídeos", mas a função de referência de assunto não apenas reduz a carga de trabalho, mas também quebra as restrições ao conteúdo de vídeo por meio de imagens divididas. os avanços na tecnologia deram maior espaço para a imaginação na comercialização de grandes modelos de vídeo.

quando grandes modelos de linguagem se tornaram populares, a shenshu technology direcionou-se para a faixa multimodal e lançou os recursos de vídeo wensheng em janeiro de 2024. de acordo com o plano da shengshu technology, os recursos de vídeo exigem maior duração e maior consistência para serem desenvolvidos, mas a estreia de sora antecipou os planos da startup.

o vidu foi lançado no final de abril, suportando a geração de vídeos de alta definição de 16 segundos com um clique. em junho, apoiou a geração de vídeos de 32 segundos com um clique, gerando efeitos sonoros e reconstruindo vídeos 4d a partir de um. vídeo gerado único. no final de julho, o vidu foi lançado oficialmente globalmente, abrindo vídeos tuxing, funções de consistência de função e recursos de geração de vídeo de até 8 segundos.

desta vez, tang jiayu se concentrou em apresentar a mais recente função de "referência de assunto" do vidu na feira de serviços de 2024. a chamada referência de assunto permite aos usuários fazer upload de uma imagem de qualquer assunto, e o vidu pode bloquear a imagem do assunto, alternar cenas arbitrariamente por meio de descritores e gerar um vídeo com o mesmo assunto, onde "qualquer" é a palavra-chave, que seja, seja uma pessoa, sejam animais, mercadorias, personagens de animação ou assuntos fictícios, sua consistência e controlabilidade podem ser garantidas na geração de vídeo.

um repórter do beijing business daily aprendeu que antes do lançamento desta função, o grande modelo de vídeo não estava isento de soluções para atingir esse objetivo. recursos como "vídeo tusheng" e "consistência de caracteres" também poderiam ser alcançados.

tomando como exemplo o método de primeiro gerar imagens de ia e depois gerar vídeos a partir de imagens, você pode usar ferramentas de desenho de ia, como midjourney, para gerar imagens divididas. primeiro, mantenha o assunto consistente no nível da imagem e depois converta-os. imagens em videoclipes e edite-as e sintetize-as.

mas o problema é que a consistência do desenho da ia não é perfeita e muitas vezes precisa ser resolvida por meio de modificações repetidas e redesenho parcial. mais importante ainda, o processo real de produção de vídeo envolve muitas cenas e lentes. quando esse método lida com cenas de lentes multicomponentes, a carga de trabalho de desenho é enorme, o que pode representar mais da metade de todo o processo, e o conteúdo final do vídeo também. falta criatividade e flexibilidade devido à dependência excessiva de tomadas divididas.

a função de "referência do assunto" do vidu gera diretamente material de vídeo "carregando a imagem do assunto + inserindo o descritor de cena". este método reduz bastante a carga de trabalho e quebra as restrições ao conteúdo de vídeo por meio de imagens divididas, permitindo que os criadores criem conteúdo de vídeo rico e flexível com base em descrições de texto.

ao compartilhar o processo criativo do curta-metragem de animação "summer gift", shi yuxiang, diretor da estação central de rádio e televisão da china e artista da aigc, disse que, em comparação com a função básica de tirar fotos de vídeo, a função de "referência do assunto" elimina das restrições das imagens estáticas e gera imagens mais bonitas. é contagiante e gratuito, melhorando muito a coerência da criação. ao mesmo tempo, ajudou-o a economizar cerca de 70% da sua carga de trabalho de desenho.

wei wei, repórter do beijing business daily

relatório/comentários

notícias

feira de serviços de 2024 ｜ tecnologia shengshu resolve o problema de inconsistência na geração de grandes modelos de vídeo

introdução

minhas informações de contato