tang jiayu, ceo da shengshu technology: a geração de vídeo ainda está em seus estágios iniciais e há gargalos técnicos a serem resolvidos

tang jiayu, ceo da shengshu technology: a geração de vídeo ainda está em seus estágios iniciais e há gargalos técnicos a serem superados.

2024-09-12

00:04

“usando ia para fazer filmes narrativos, a proporção de filmes descartados pode ser de 50:1, ou seja, serão geradas 50 imagens, das quais apenas uma poderá ser adequada para este tipo de criação narrativa no dia 11 de setembro, em beijing shengshu.” (doravante denominada shengshu technology) realizou um evento de dia aberto à mídia, um criador de cinema e televisão fez a declaração acima ao compartilhar.

com o desenvolvimento da tecnologia de geração de grandes modelos, cada vez mais criadores de filmes e televisão estão começando a tentar usar a tecnologia de ia em suas criações. no entanto, a partir de agora, ainda existem muitos pontos problemáticos.

“os vídeos gerados por ia são incontroláveis e, uma vez que há muitos elementos, vários personagens e cenas espaciais não podem ser compreendidos”, disse vicky, criadora de filmes e televisão com ia. muitos criadores de cinema e televisão de ia nacionais e estrangeiros disseram que no processo de criação real, o problema central comum é a controlabilidade insuficiente ou a falta de consistência, especialmente quando estão envolvidas cenas complexas e cenas interativas.

embora o modelo de vídeo ai tenha um bom desempenho ao seguir as instruções, os resultados de saída ainda são incertos e podem ser necessárias várias tentativas para gerar uma imagem satisfatória. além disso, o modelo gerado por ia ainda apresenta limitações em termos de movimento da câmera, efeitos de luz e sombra e processamento de detalhes, dificultando o controle completo e preciso.

a shengshu technology lançou oficialmente o modelo de vídeo gerado por ia em 30 de julho deste ano. para ajudar os criadores a melhorar a eficiência, a empresa atualizou recentemente a função do modelo de vídeo vidu e lançou a função "referência de assunto". resolver o problema de consistência, pode alcançar a geração consistente de qualquer assunto, tornando a geração de vídeo mais estável e controlável.

a função “referência de assunto” permite aos usuários fazer upload de uma imagem de qualquer assunto. o vidu pode bloquear a imagem do assunto, alternar cenas arbitrariamente por meio de descritores e gerar um vídeo com o mesmo assunto.

em 11 de setembro, um repórter da the paper technology (www.thepaper.cn) fez login na plataforma vidu do site oficial da shengshu technology para testar a geração de vídeo. carregou uma imagem tridimensional do astro de cinema americano leonardo dicaprio e inseriu palavras-chave como “céu azul”, “copo de vinho” e “brinde”;

palavras de entrada: “céu azul”, “copo de vinho”, “brinde”, etc.

a imagem gerada com o vidu é a seguinte:

00:04

carregue uma captura de tela 2d da heroína do anime japonês "juventude" e insira palavras-chave como "correndo", "tarde", "manhã" etc.

a imagem gerada com o vidu é a seguinte:

00:04

tang jiayu, cofundador e ceo da shengshu technology, disse em uma entrevista que a função de “referência de assunto” do vidu é atualmente a primeira tecnologia do mundo com capacidades de geração consistentes. a principal tarefa da shengshu technology é construir grandes modelos multimodais. a geração de vídeo de ia ainda está em seus estágios iniciais e ainda há mais gargalos técnicos a serem superados no futuro. ele acredita que a tecnologia de vídeo ai nem sempre será uma ferramenta para um pequeno grupo de pessoas. estima-se que até o final deste ano, a tecnologia de vídeo ai será popularizada pelo público e os usuários poderão usá-la facilmente.

a shengshu technology foi fundada em março de 2023. os membros principais da equipe são do instituto de pesquisa de inteligência artificial da universidade de tsinghua. o cientista-chefe zhu jun é professor da universidade de tsinghua. o cofundador e ceo tang jiayu tem mestrado em natural. laboratório de processamento de linguagem da universidade de tsinghua e ex-funcionário da ruilai intelligence, vice-presidente, gerente sênior de produto do tencent youtu lab.

o repórter do the paper yu yan e o estagiário wang chun

(este artigo é do the paper. para mais informações originais, baixe o app “the paper”)

relatório/comentários

notícias

tang jiayu, ceo da shengshu technology: a geração de vídeo ainda está em seus estágios iniciais e há gargalos técnicos a serem superados.

introdução

minhas informações de contato