"king of beanbao": bytedance lança dois grandes modelos de geração de vídeo em um dia

o “rei do beanbao”: bytedance lança dois grandes modelos de geração de vídeo em um dia

2024-09-24

bytedance anunciou oficialmente sua entrada na geração de vídeo ai. em 24 de setembro, volcano engine, uma subsidiária da bytedance, realizou um tour de inovação em ia em shenzhen e lançou dois grandes modelos de dou bao video generation-pixeldance e dou bao video generation-seaweed, e lançou um teste de convite para o mercado corporativo.

a geração de vídeos mostrada no evento foi impressionante. quer se trate de capacidades de compreensão semântica, imagens interativas complexas de vários movimentos de assuntos ou consistência de conteúdo na troca de múltiplas lentes, os grandes modelos de geração de vídeo doubao atingiram o nível avançado da indústria. tan dai, presidente da volcano engine, disse: "há muitas dificuldades na geração de vídeo que precisam ser superadas. os dois modelos de doubao continuarão a evoluir, explorarão mais possibilidades na resolução de problemas importantes e acelerarão a expansão do espaço criativo e aplicação de vídeos de ia."

foto: o presidente da volcano engine, tan dai, lançou o modelo de geração de vídeo do bean bag

tecnologia inovadora para resolver o problema de interação e consistência multiagentes

a maioria dos modelos de geração de vídeo anteriores só conseguiam completar instruções simples, enquanto o modelo de geração de vídeo doubao pode realizar ações multi-shot naturais e coerentes e interações complexas de vários assuntos. quando alguns criadores experimentaram o modelo de geração de vídeo doubao com antecedência, descobriram que os vídeos gerados podiam não apenas seguir instruções complexas e permitir que diferentes personagens completassem a interação de múltiplas instruções de ação, mas também a aparência dos personagens, detalhes de roupas e até mesmo chapéus permaneceu inalterado sob diferentes movimentos consistente e próximo do efeito de tiro real.

de acordo com o volcano engine, o modelo de geração de vídeo doubao é baseado na arquitetura dit. por meio da eficiente unidade de computação de fusão dit, o vídeo pode ser alternado livremente entre grandes dinâmicas e lentes móveis e possui recursos de linguagem multi-lentes, como zoom e surround. , panorâmica, zoom e seguimento de alvo. o método de treinamento do modelo de difusão recém-projetado superou o problema de consistência da troca de múltiplas tomadas e pode manter a consistência do assunto, estilo e atmosfera ao mesmo tempo ao trocar as tomadas. esta é também uma inovação tecnológica única do vídeo doubao. modelo de geração.

após o polimento e iteração contínua de cenários de negócios como cutting e dream ai, o modelo de geração de vídeo doubao possui layout de luz e sombra de nível profissional e coordenação de cores, e a aparência visual é extremamente bonita e realista. a estrutura do transformer profundamente otimizada melhora muito a capacidade de generalização da geração de vídeo doubao, suporta animação 3d, animação 2d, pintura chinesa, preto e branco, tinta espessa e outros estilos, e é adequada para filmes, tv, computadores, telefones celulares e outros dispositivos a proporção não é adequada apenas para cenários corporativos, como marketing de comércio eletrônico, educação em animação, turismo cultural urbano e micro-roteiros, mas também pode fornecer assistência criativa a criadores e artistas profissionais.

atualmente, o novo modelo de geração de vídeo do bean bag está sendo testado em pequena escala na versão beta interna do jimeng ai e será gradualmente aberto a todos os usuários no futuro. chen xinran, líder de mercado de jianying e jimeng ai, acredita que a ia pode interagir profundamente com os criadores e criar juntos, trazendo muitas surpresas e inspirações. jimeng ai espera se tornar o parceiro criativo mais próximo e sábio dos usuários.

doubao big model lança padrão de tráfego simultâneo ultra-alto da indústria

neste evento, doubao big model não só adicionou um novo modelo de geração de vídeo, mas também lançou um modelo de música doubao e modelo de interpretação simultânea, que cobriu totalmente todos os modos, como idioma, voz, imagem, vídeo, etc., e atende totalmente as necessidades de diferentes indústrias e campos.

embora as capacidades dos produtos estejam melhorando cada vez mais, o uso de modelos de sacos de feijão grandes também está crescendo rapidamente. de acordo com o volcano engine, em setembro, o uso médio diário de tokens do modelo de linguagem doubao ultrapassou 1,3 trilhão, um aumento de dez vezes em comparação com o primeiro lançamento em maio. o volume de processamento de dados multimodal também atingiu 50 milhões de imagens e 50. milhões de imagens por dia, respectivamente.

anteriormente, os grandes modelos doubao anunciavam preços inferiores a 99% da indústria, liderando a tendência de redução de preços para os grandes modelos nacionais. tan dai acredita que o preço dos grandes modelos já não é uma barreira à inovação. com a aplicação em larga escala pelas empresas, os grandes modelos que suportam um maior tráfego simultâneo estão a tornar-se um factor-chave no desenvolvimento da indústria.

de acordo com tan dai, muitos modelos grandes do setor atualmente suportam apenas até 300 mil ou mesmo 100 mil tpm (tokens por minuto), o que é difícil de transportar o tráfego de ambientes de produção empresarial. por exemplo, no cenário de tradução de documentos de uma instituição de pesquisa científica, o pico de tpm é de 360k, o pico de tpm de um determinado cockpit inteligente de carro é de 420k e o pico de tpm de uma empresa de educação de ia atinge 630k. por esse motivo, o modelo beanbao grande suporta um tpm inicial de 800k por padrão, que está muito além da média do setor. os clientes também podem expandir a capacidade com flexibilidade de acordo com as necessidades.

"com nossos esforços, o custo de aplicação de modelos grandes foi bem resolvido. os modelos grandes precisam passar do preço de volume para o desempenho de volume, com melhores capacidades e serviços de modelo", disse tan dai.

yidan xiaofeng

relatório/comentários

notícias

o “rei do beanbao”: bytedance lança dois grandes modelos de geração de vídeo em um dia

introdução

minhas informações de contato