byte usa ia para reviver seu antigo negócio: entrando em modelos de geração de vídeo em grande escala, próximos aos efeitos da vida real

2024-09-27

fonte deste artigo: times weekly autor: he shanshan

o campo de grandes modelos de geração de vídeo acolhe importantes players.

em 24 de setembro, volcano engine, uma subsidiária da bytedance, realizou um tour de inovação em ia em shenzhen. ela lançou dois grandes modelos de geração de vídeo de beanbag - pixeldance e geração de vídeo de beanbag - seaweed, e também abriu um teste de convite para o mercado corporativo.

para grandes modelos de geração de vídeo, a duração do vídeo gerado é muito importante. atualmente, a duração da geração de vídeo pixeldanc é de 5 segundos ou 10 segundos, e seaweed é de 5 segundos. tan dai, presidente do volcano engine, disse à time weekly e a outras mídias: “há muitas dificuldades na geração de vídeo que precisam ser superadas. as vantagens do volcano engine incluem a capacidade de seguir instruções, movimento da câmera (consistência do assunto sob múltiplas lentes) , etc., por trás dos quais existem avanços tecnológicos e recursos full-stack. além disso, a compreensão de vídeos de douyin e jianying também são vantagens.

tan dai acredita que grandes modelos de geração de vídeo não devem apenas discutir a duração, mas também considerar diferentes cenários de aplicação com diferentes requisitos de duração, e huoshan está mais preocupado com soluções para diferentes setores. "

vale ressaltar que o novo modelo de geração de vídeo do bean bag está sendo testado em pequena escala pela jimeng ai e será gradualmente aberto a todos os usuários no futuro.

em fevereiro deste ano, zhang nan, ex-ceo do grupo douyin, anunciou repentinamente que mudaria para a edição de filmes e promoveria a aplicação de ia na edição de filmes. apenas uma semana depois de anunciar que era responsável pela edição, no dia 16 de fevereiro, a openai lançou o sora, que pode gerar vídeos de 1 minuto, tornando a função de vídeo de vincent popular novamente em todo o mundo. ao mesmo tempo, zhang nan, como responsável pelo negócio de edição, anunciou o lançamento de ji meng no wechat moments também se tornou a primeira atualização importante de produto de zhang nan após sua transferência.

no ai innovation tour, chen xinran, chefe de marketing de ia de jianying e jimeng, apresentou o status mais recente da “ai-ização” dos dois aplicativos. ela disse que, no passado, a produção de conteúdo de qualidade semelhante exigia uma equipe de 5 a 10 pessoas, incluindo a criação de enredos, polimento de efeitos especiais, embalagem e edição, etc. , e foi necessária uma grande quantidade de dinheiro e investimento de recursos. mas com a ajuda da ia, a maioria dos criadores pode concluir a criação sozinho, e o tempo de produção foi reduzido para 1 a 2 semanas.

tan dai também mencionou em seu discurso: “há muitas dificuldades na geração de vídeo que precisam ser superadas. os dois modelos doubao continuarão a evoluir, explorarão mais possibilidades na resolução de problemas importantes e acelerarão a expansão do espaço criativo e a aplicação de vídeos de ia."

de qualquer forma, o nascimento do grande modelo de geração de vídeo doubao e seu uso em jimeng e jianying significa que a bytedance está um passo mais perto de usar ia para melhorar seu “antigo negócio” em vídeo.

fonte: foto tirada pelo repórter do times weekly no local

pode trocar lentes livremente

de acordo com relatórios do site volcano engine, o uso de modelos grandes de pufes está crescendo rapidamente.

em setembro, o uso médio diário de tokens do modelo de linguagem doubao ultrapassou 1,3 trilhão, um aumento de dez vezes em relação ao lançamento em maio. o volume de processamento de dados multimodal também atingiu 50 milhões de imagens e 850.000 horas de voz por dia, respectivamente.

com o grande número de usuários, o modelo do pufe trouxe mais uma vez novas mudanças. não só foi adicionado um novo modelo de geração de vídeo, mas também foram lançados um modelo de bean bag musical e um modelo de interpretação simultânea, que cobrem totalmente todos os modos, como linguagem, fala, imagens e vídeos.

anteriormente, a maioria dos modelos de geração de vídeo só conseguia completar instruções simples. o modelo de geração de vídeo doubao pode realizar ações multi-shot naturais e coerentes e interações complexas com vários assuntos - ele pode não apenas seguir instruções complexas, mas também permitir que diferentes personagens completem a interação. de múltiplas instruções de ação a aparência, os detalhes das roupas e até mesmo o capacete permanecem consistentes sob diferentes movimentos de câmera, o que se aproxima do efeito de fotos reais.

o modelo de geração de vídeo doubao é baseado na arquitetura dit. por meio da eficiente unidade de computação de fusão dit, o vídeo pode ser alternado livremente entre grandes dinâmicas e lentes móveis e possui recursos de linguagem multi-lentes, como zoom, surround, pan, zoom,. e seguimento de alvos. “isso significa que o vídeo gerado por doubao supera o problema de consistência na troca de múltiplas cenas e pode manter a consistência do assunto, estilo e atmosfera ao mesmo tempo ao trocar as tomadas. modelo de geração de vídeo doubao." tan dai disse.

em relação à direção futura do modelo, tan dai disse que o volcano engine presta mais atenção à melhor implementação e à inovação acelerada com base nos modelos existentes “a tecnologia deve atender às necessidades do usuário, e as tecnologias novas e antigas devem ser constantemente ajustadas e adaptadas. para modelos grandes é o usuário após a incubação feedback real e bom que foi experimentado e tem um certo volume, em vez de feedback do laboratório. por exemplo, jimeng e doubao têm um grande número de testes internos, e o feedback do usuário é um. importante critério de avaliação.”

anteriormente, doubao big model estabeleceu um preço simbólico inferior a 99% da indústria e foi o primeiro motor vulcânico a iniciar uma onda de cortes de preços. atualmente, o preço para utilização dos modelos grandes da doubao video ainda não foi anunciado. tan daidai disse ao times weekly e a outros meios de comunicação que os cenários de aplicação de modelos de vídeo e modelos de linguagem são diferentes, e a lógica de preços também é diferente. "novo custo de migração de experiência antiga" deve ser considerado se pode ser amplamente utilizado. o final depende de quanto o roi de produtividade melhora em comparação com o anterior.

fonte: site oficial jimeng

explore produtos nativos de ia

anteriormente, os usuários comuns do jimeng podiam gerar vídeos curtos de ia de 3 segundos, enquanto os usuários vip podiam estender o tempo em 3 segundos.

a partir de março deste ano, o cutting atualizou intensamente as funções de ia, como legendas inteligentes, tradução de vídeo e outras funções. também abriu com douyin para apoiar tráfego e recompensas em dinheiro para vídeos curtos que usam a função de corte de ia. por exemplo, trabalhos excelentes podem receber suporte de tráfego de dou + 500 yuans por vídeo. atualmente, o preço da assinatura vip do jianying é de 218 yuans por um ano, com uma taxa mensal média de 18,17 yuans, enquanto a taxa mensal da assinatura vip do dream é de 69 yuans.

no ai innovation tour, chen xinran mencionou que “a tecnologia relacionada aos modelos grandes de pufes foi aplicada a recortes, ia de sonhos e imagens de vigília” e introduziu novas funções sob a aplicação da tecnologia de ia.

por exemplo, na aplicação de clones digitais, a função de clonagem digital de voz humana pode ser personalizada online com base na tecnologia de clonagem de voz. os produtores digitais só precisam gravar ou fazer upload de um vídeo frontal de alta definição de 3 minutos, e a clonagem de tom requer apenas 5 segundos de entrada de voz para gerar uma voz natural, suave e não contraditória, podendo também traduzir para vários idiomas. "estamos muito preocupados com as questões de privacidade e segurança. exigimos confirmação pessoal dos usuários em termos de design e tecnologia do produto. também prestaremos atenção às novas regulamentações do setor para melhorar a segurança e a confiabilidade do serviço", disse chen xinran.

além disso, também existem ferramentas de criação de “marketing de conteúdo” para comerciantes de comércio eletrônico. no passado, os comerciantes poderiam ter passado várias horas navegando no douyin e no tiktok para analisar as rotinas de vídeo populares, desmontando as rotinas e copiando a cópia, e também gastando várias horas editando. agora, leva apenas alguns minutos para preencher o nome do produto e. carregue-o. ao adicionar materiais ou colar links de páginas de produtos, você pode gerar vários estilos diferentes de vídeos de entrega com um clique.

chen xinran mencionou especificamente que, além de aplicar ia a produtos existentes, jianying também está explorando a possibilidade de produtos nativos de ia na era gena (inteligência artificial generativa). “jimeng ai é uma exploração nessa direção. conectado a dois grandes modelos de geração de vídeo para testes internos de polimento de cena e polimento de efeitos. acreditamos que a criação não deve ser limitada pelo custo de produção, estilo ou formação cultural.

tan dai também disse que o custo de aplicação de modelos grandes foi bem resolvido. “os modelos grandes precisam passar do preço de volume para o desempenho de volume, com melhores capacidades e serviços de modelo”.

notícias

byte usa ia para reviver seu antigo negócio: entrando em modelos de geração de vídeo em grande escala, próximos aos efeitos da vida real

introdução

minhas informações de contato