notícias

diálogo com tang jiayu, ceo da shengshu technology: o vídeo de ia atingiu o ponto de "popularização" e melhorar a duração não é o foco da produtização

2024-09-13

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

em 11 de setembro, a shengshu technology realizou um evento de dia aberto à mídia e lançou a função "consistência de assunto", que visa resolver o problema de "consistência" de geração de assuntos a partir de modelos de vídeo.

no evento, tang jiayu, cofundador e ceo da shengshu technology, disse em resposta à pergunta de um repórter sobre o modelo de negócios do "daily economic news" que existem atualmente dois tipos de assinaturas saas (software as a service) e maas (modelo como serviço) na indústria desde que o vidu entrou no ar em 30 de julho, ele recebeu dezenas de milhares de aplicativos de acesso api em todo o mundo.

quanto à arquitetura subjacente, tang jiayu disse que a "arquitetura u-vit" usada por seu produto "vidu" é quase idêntica à "arquitetura dit" usada por sora. a diferença é que a u-vit tornou-se mais orientada para a implementação. projetos. no roteiro técnico, todos estão agora em um estado de convergência da arquitetura subjacente, mas a homogeneidade não significa que todos tenham o mesmo progresso e capacidades. tang jiayu deu um exemplo: “por exemplo, no modelo de linguagem atual, (embora. ) todo mundo usa a arquitetura transformer, mas de agora em diante, realisticamente, openai ainda está claramente à frente.”

atualmente, os principais usuários de vídeo de ia ainda são usuários profissionais, como cineastas, mas tang jiayu acredita que o vídeo de ia atingiu o ponto de "popularização".

além disso, a julgar pelas receitas atuais, a shengshu technology obteve mais receitas do mercado do lado b, enquanto a curva de crescimento do lado c tem sido muito "íngreme" no mês desde o lançamento do produto vidu.

“o objetivo final é fazer um grande modelo universal.”

tang jiayu é mestre em laboratório de processamento de linguagem natural da universidade tsinghua. anteriormente, atuou como vice-presidente da ruilai intelligence e gerente sênior de produtos do laboratório tencent youtu. a shengshu technology, onde tang jiayu trabalha atualmente, foi fundada em março de 2023 e anunciou a conclusão de uma nova rodada de financiamento no início de março deste ano. no final de abril deste ano, o vidu, um modelo de vídeo original em grande escala desenvolvido em conjunto pela empresa e pela universidade de tsinghua, foi lançado oficialmente no final de julho e está totalmente aberto para uso.

vidu foi chamado de "versão chinesa de sora" quando foi lançado. por um lado, esse nome se deve ao fato de o mundo exterior estar cheio de expectativas em relação ao grande modelo de vídeo da china. por outro lado, do ponto de vista da arquitetura técnica, os dois também têm abordagens e objetivos semelhantes.

segundo relatos, a camada inferior do vidu é baseada na arquitetura u-vit autodesenvolvida, enquanto o sora é baseado na arquitetura dit. quanto à diferença entre as arquiteturas u-vit e dit, tang jiayu disse: “em poucas palavras, ambas são a fusão do diffusion e do transformer, e até mesmo alguns dos detalhes técnicos subjacentes são os mesmos”. a diferença é que a arquitetura u-vit "fez projetos de otimização mais orientados à implementação". para resumir, ao treinar o mesmo modelo, o u-vit requer menos poder de computação ao mesmo tempo.

do ponto de vista da rota técnica geral, vários dos principais modelos de vídeo domésticos estão atualmente seguindo a "rota semelhante ao sora". será que eles se tornarão mais homogêneos no futuro?

a este respeito, tang jiayu disse que atualmente todos estão num estado de convergência da arquitetura subjacente, “mas a homogeneidade não significa que todos tenham o mesmo progresso e capacidades”. tomando como exemplo o modelo de linguagem, ele analisou que todos utilizarão a arquitetura transformer, mas do ponto de vista prático, o openai ainda está claramente à frente. isso porque ainda existem muitos links baseados nesta arquitetura que exigem habilidades técnicas e práticas. experiência para ajudar a resolver dificuldades. isso leva a diferenças de capacidades entre diferentes modelos de linguagem.

atualmente, a indústria também está a explorar novas rotas arquitetónicas, como combinar a geração multimodal e a compreensão multimodal, mas ainda não existe uma solução particularmente boa.

"nosso objetivo final é construir um grande modelo universal. a geração de vídeo é um estágio no meio da geração multimodal de grandes modelos."

ele também disse: “isso não significa que estamos fazendo apenas uma coisa (referindo-se ao grande modelo de vídeo). além do vídeo, também temos a capacidade de gerar outras modalidades”.

“atualmente o mercado do lado b tem mais receitas”

a convergência da lógica subjacente da tecnologia levou mais ou menos a ideias semelhantes de desenvolvimento de mercado.

"as escolhas de negócios de todos são relativamente semelhantes. mesmo empresas como sora e runway estão ativamente adotando hollywood ou a cooperação publicitária. tang jiayu acredita que o campo dos vídeos gerados por ia geralmente ainda está nos estágios iniciais de desenvolvimento, e os líderes internacionais todos os jogadores estão." avançando juntos ou "expandindo o mercado em conjunto".

tomando a tecnologia shengshu como exemplo, tang jiayu divide o modelo de negócios em duas direções: uma é o modelo de assinatura saas que o vidu tem alguma cota gratuita todos os meses, mas se houver mais necessidades ou quiser usar recursos mais avançados, você precisa pagar. uma taxa de assinatura, e o vidu continuará a enriquecer as funções do produto para atender às necessidades criativas dos usuários; o segundo é o modo de saída de capacidade do modelo (maas). atualmente, muitos clientes exigem recursos de geração de vídeo como um link no fluxo de trabalho ou para obter uma jogabilidade interessante. , esses clientes esperam ligar diretamente para o modelo.

do ponto de vista das receitas, o mercado b-end obteve mais receitas nesta fase. no entanto, um mês após o lançamento do vidu, a curva de crescimento do lado c também é muito “íngreme”. "com base em nosso julgamento atual, o lado b (demanda) é relativamente claro, direto e estável, então o lado b é uma direção chave e de longo prazo para nós. também estamos constantemente explorando o lado c", disse tang. jiayu disse.

atualmente, os modelos e ferramentas nacionais de geração de vídeo formaram uma "onda" e tiveram um bom desempenho, mas tang jiayu acredita: "não se pode dizer que a china assumiu completamente a liderança. os principais atores nacionais e estrangeiros pertencem ao primeiro escalão."

“o vídeo ai atingiu um nó”

entre os grupos de público de grandes modelos de vídeo, os profissionais de cinema, televisão e animação são a maioria e são considerados em sua maioria como "públicos profissionais". portanto, para "pessoas comuns", quando o vídeo de ia se tornará uma ferramenta que eles podem controlar?

tang jiayu tomou a fotografia como exemplo. desde a era das câmeras de filme até a popularização da fotografia com telefones celulares, é um processo de redução contínua do limite para os criadores. "o vídeo ai chegou a um ponto crítico." tang jiayu disse que a função "referência de assunto" lançada pela shengshu technology em 11 de setembro é um esforço para diminuir o limite para os criadores ou acelerar o processo criativo.

"a tecnologia ainda é um fator chave. a atual geração de vídeo está apenas inicialmente em conformidade com as leis da física, e ainda existem limites elevados que precisam ser superados, como capacidades de modelo mais fortes e a geração colaborativa de mais modalidades." introduziu que "a capacidade de" referência de assunto "foi realmente melhorada em termos de geração de consistência, mas ainda há muitas áreas que precisam de melhorias adicionais. “por exemplo, se você deseja transformar um modelo grande de produto em artesanato, e esse artesanato tem padrões complicados e peças ocas, a taxa de sucesso da geração atual ainda não é alta diante de uma estrutura tão complexa. muitos componentes, como calçados esportivos, espero que possam ter melhor desempenho em cenas mais complexas e dinâmicas, que exigem melhoria contínua das capacidades do modelo.”

neste processo, a originalidade e o avanço da tecnologia precisam de andar de mãos dadas com uma boa comercialização, porque, afinal, as empresas comerciais não são instituições de investigação científica.

tomando como exemplo a duração da geração de vídeo, expandir a duração da geração requer melhorar a capacidade do modelo de compreender abstratamente o mundo e suas capacidades bidirecionais de compressão e amplificação de informações. atualmente, o vidu pode gerar vídeos de até 32 segundos, e a shengshu technology planeja expandi-lo para mais tempo. porém, a duração não faz parte da shengshu technology que atualmente está focada na produtização.

“na criação real, grosso modo, mais de 90% dos clipes têm vários segundos de duração. portanto, do ponto de vista prático, ainda não consideramos a duração como nossa prioridade para lançamento, enfatizou tang jiayu, mas do ponto de vista.” do ângulo das capacidades do modelo, a empresa realmente continua a melhorar.

repórter |li shaoting ke yang

editar|duan lianwenduo du heng feng

revisão |wang yue long

| notícias econômicas diárias nbdnews artigo original|

é proibido reimprimir, extrair, copiar e espelhar sem permissão.

notícias econômicas diárias

relatório/comentários