sora falha na ignição após explosão, modelo de vídeo doméstico assume e reduz limite

sora falhou após a explosão, e o modelo de vídeo doméstico assumiu e baixou o limite

2024-09-11

parece que foi ontem que a explosão da indústria causada pelo lançamento do modelo de vídeo vincent sora da openai ainda não foi oficialmente aberta ao público. em contraste, modelos de vídeo domésticos em grande escala serão lançados intensamente em 2024. embora a tecnologia seja constantemente atualizada, a maioria dos produtos acabados ainda requer edição manual e síntese na fase posterior, o que afeta a velocidade de implementação da tecnologia no lado da aplicação .

com base nisso, no dia 11 de setembro, a shengshu technology divulgou uma atualização funcional, a primeira função "consistência de assunto" do mundo, que permite a geração consistente de qualquer assunto, tornando a geração de vídeo mais estável e controlável. a chamada "referência de assunto" permite aos usuários fazer upload de uma imagem de qualquer assunto. a ia pode bloquear a imagem do assunto, alternar cenas arbitrariamente por meio de descritores e gerar um vídeo com o mesmo assunto.

de acordo com tang jiayu, ceo da shengshu technology, vídeos curtos, animações, comerciais e outros trabalhos de cinema e televisão exigem que o sistema narrativo tenha "temas consistentes, cenas consistentes e estilos consistentes" na arte da narrativa. alcançar a integridade narrativa. é necessário alcançar um controle abrangente sobre esses elementos centrais.

gere vídeo de 32 segundos com um clique

a última vez que a shengshu technology fez uma declaração pública foi em abril deste ano, o professor zhu jun, vice-reitor do instituto de pesquisa de inteligência artificial da universidade de tsinghua, cofundador e cientista-chefe da shengshu technology, divulgou um relatório duradouro e altamente consistente. e um modelo de vídeo altamente dinâmico chamado vidu, você pode gerar vídeos de até 16 segundos com um clique. com esta atualização técnica, os vídeos do vidu podem ser gerados com até 32 segundos de duração.

em 2024, toda a trajetória dos grandes modelos irá se acalmar gradualmente após a loucura do ano anterior, e os grandes modelos de vídeo são considerados a única maneira de avançar para os grandes modelos multimodais ou agi. empresas de vídeos curtos representadas por kuaishou e douyin da bytedance, grandes empresas de internet representadas por alibaba e tencent e startups representadas por shengshu technology, zhipu ai, aishi technology, etc., lançaram sucessivamente grandes produtos de modelo de vídeo.

de acordo com estatísticas da debon securities, desde o lançamento do sora, mais de uma dezena de empresas nacionais e estrangeiras lançaram ou atualizaram modelos de geração de vídeo. falando objectivamente, a diferença entre os países nacionais e estrangeiros está a diminuir gradualmente. funções básicas, como a duração e a resolução do vídeo, são replicáveis. no futuro, a concorrência pode mudar no sentido de atrair utilizadores e melhorar a aderência. do ponto de vista subjetivo, a debon securities acredita que a qualidade do vídeo gerado pelo grande modelo melhorou significativamente, mas ainda está longe do simulador do mundo físico. as imagens de vídeo no campo de vídeo vincent são geralmente claras, mas existem grandes diferenças na amplitude de movimento e na restauração física. esta também é uma das considerações para esta atualização de função.

tang jiayu disse que o tempo atual de geração do vidu de 32 segundos é gerado de ponta a ponta com um clique e não é gerado pela emenda e inserção de quadros. a diferença é que o modelo tem uma capacidade mais forte de comprimir informações de longo prazo, incluindo a representação de informações, que na verdade está mais intrinsecamente relacionada à compreensão do mundo físico e à relação entre entradas semânticas. portanto, melhorar a duração requer melhorar as capacidades abstratas de compreensão, compressão e compreensão do mundo do modelo, incluindo suas capacidades de geração.

o artista aigc shi yuxiang, que criou o curta de animação "summer gift", acredita que a indústria é atualmente relativamente tolerante com vídeos de ia, e os detalhes que podem ser melhorados incluem o processamento de lentes complexas, o processamento de lentes com vários caracteres e alguns cenas com há o manejo da mise-en-scène da cena e assim por diante. em comparação com a função básica de geração de imagens de vídeo, a função de "referência de assunto" elimina as restrições das imagens estáticas, melhora a coerência da criação e economiza quase 70% da carga de trabalho de geração de imagens.

li ning, fundador da light chi matrix e jovem diretor, usou o vidu para pré-criar um videoclipe do protagonista masculino do filme, no qual todas as cenas dos personagens foram geradas usando apenas três fotos finais da maquiagem do protagonista masculino, próximas -para cima, plano médio e plano geral. li ning disse que o processo anterior de criação de filmes de ia usava principalmente o desenho tradicional baseado em texto e o processo de vídeo baseado em desenho. era difícil controlar a continuidade dos storyboards. exigiu muita energia para depurar as imagens no estágio inicial. ao mesmo tempo, a imagem também está sujeita a uma série de problemas, como luz e sombra da lente fora de controle, desfoque da imagem e até mesmo deformação. do vídeo aumenta, esses problemas são ainda mais amplificados. a função "referência de assunto" do vidu melhora significativamente a consistência geral dos personagens. não requer mais a geração de um grande número de imagens no estágio inicial. os movimentos dos personagens e as transições de imagens também são mais naturais, o que pode auxiliar na criação de longas narrativas.

essencialmente, a atualização da função de "referência de assunto" visa melhorar a qualidade da geração de grandes modelos de vídeo, a eficiência da combinação de tecnologia com indústrias específicas e acelerar a implementação de ia em aplicações específicas. atualmente, a shengshu technology lançou um programa de parceria e convida a adesão de publicidade, cinema e televisão, animação, jogos e outras organizações da indústria.

o modelo de negócios atual do modelo de vídeo da shengshu technology é dividido em modelo de assinatura saas e interface api. este também é o método de teste comercial comumente adotado na área de modelos grandes. em relação ao rácio de distribuição específico entre b-end e c-end, tang jiayu disse que do ponto de vista do rendimento, o rendimento do mercado b-end é maior. um mês desde o lançamento dos produtos c-end, a curva de crescimento tem sido muito elevada. após um julgamento abrangente, o lado b é relativamente claro e direto e contém uma procura relativamente estável, pelo que o lado b será o foco a longo prazo da empresa. no entanto, os produtos c-end ainda estão em processo de exploração contínua.

quando o ceo da zhipu, zhang peng, lançou anteriormente zhipu qingying (ying), ele falou sobre a exploração da comercialização na indústria. ele disse que nesta fase, seja toc ou tob, ainda é relativamente cedo para avançar puramente para a grande escala. comercialização. a chamada estratégia de cobrança é mais uma tentativa inicial. também observaremos o feedback do mercado e dos usuários e faremos ajustes oportunos.

o que vem a seguir para modelos de vídeo?

além de atualizações e atualizações no nível funcional específico, existe atualmente um consenso geral na indústria de que a multimodalidade é a tendência geral, enquanto os grandes modelos de vídeo são um estado faseado.

a este respeito, zhang peng disse que a geração de vídeo não existe isoladamente, mas está colocada em toda a rota de desenvolvimento de tecnologia e produto. zhipu acredita que é um elo no caminho multimodal ou multimodal agi. do ponto de vista do produto, a geração de vídeo também se tornará um produto independente para conseguir comercialização e gerar valor. tang jiayu também disse aos repórteres que a camada inferior de shengshu é um modelo geral grande e a geração de vídeo é apenas um estágio intermediário.

no processo de transição para a multimodalidade, a liberação intensiva de múltiplos modelos de vídeo causará problemas de homogeneidade? a este respeito, tang jiayu disse aos jornalistas que na rota técnica, o número de estudantes está agora num estado de convergência, mas a homogeneidade não significa que todos os progressos e capacidades sejam iguais. por exemplo, todos os modelos de linguagem atuais envolverão a arquitetura transformer, mas, na realidade, o openai ainda está claramente à frente. porque com base na arquitetura, ainda existem muitos links intermediários, como como aumentar a escala de maneira eficaz, como compactar vídeos de maneira eficaz, etc., e há muitas habilidades e experiências práticas. habilidades e dificuldades de algoritmos, incluindo dificuldades de engenharia de algoritmos, são fatores que levam às diferenças nos grandes modelos de vídeo atuais.

quanto à comercialização, tang jiayu acredita que a indústria é relativamente semelhante em termos de opções de negócios. mesmo empresas como sora e runway estão abraçando ativamente hollywood ou engajando-se na cooperação publicitária, porque esses campos são áreas onde a tecnologia é naturalmente fácil de implementar. toda a indústria está aproveitando suas próprias características para avançar. o campo geral de vídeo gerado por ia ainda está nos estágios iniciais de desenvolvimento, e os principais players internacionais estão avançando juntos para expandir o mercado.

em relação à intensa situação de lançamento na área de modelos de vídeo, zhang peng acredita que a controlabilidade é algo que a indústria precisa fazer grandes esforços para alcançar. por um lado, a nível técnico, a controlabilidade do vídeo em si é um requisito muito grande. em segundo lugar, do ponto de vista da segurança, porque o sinal de vídeo contém mais conteúdo e detalhes, é necessário garantir que o conteúdo gerado atenda aos requisitos. finalmente, para que o conteúdo gerado seja comercialmente aplicável, a controlabilidade também é uma condição necessária - ambos; é necessário expressar com precisão a intenção do criador e deixar que todos paguem por isso.

depois que as condições básicas forem atendidas, as expectativas atuais da indústria para grandes modelos de vídeo se concentraram mais na ia, substituindo os métodos de gravação de vídeos longos desde o lançamento do sora. zhang peng acredita que, do ponto de vista do desenvolvimento tecnológico, esta é uma direção importante e tem um significado positivo para as mudanças na indústria cinematográfica e televisiva. mas atualmente, grandes modelos de vídeo não são suficientes para serem utilizados diretamente no processo de produção para o público, mas podem ser utilizados para trabalhos auxiliares, até mesmo criações de pequena escala, e ainda há um caminho a percorrer antes de realmente mudar requisitos elevados, como como produção cinematográfica.

quanto ao sora, que atingiu seu pico na estreia e ainda não foi aberto ao público, a indústria ainda o considera uma meta de recuperação. porém, devido à opacidade dos detalhes técnicos, as empresas precisam explorar muitos aspectos em seus planos. ter. quanto ao “desaparecimento” de sora, tang jiayu disse aos repórteres que as razões podem estar em vários aspectos: o vídeo não é a linha principal atual da openai; quantidade de tempo e custo para resolver. não é consistente com as prioridades da empresa.

zhang peng e zhipu sempre enfrentaram objetivamente a lacuna entre eles e o nível mais alto do mundo. ao mesmo tempo, ele acredita que esse caminho deve ser trilhado por si mesmo. em muitos casos, as empresas chinesas também estão se recuperando à sua maneira. como gerar custos de poder de computação para vídeos reduza-o e aumente a velocidade de resposta para que todos possam usá-lo. "enquanto buscamos os patamares tecnológicos, também buscamos simultaneamente a popularização da tecnologia."

(este artigo vem do china business news)

relatório/comentários

notícias

sora falhou após a explosão, e o modelo de vídeo doméstico assumiu e baixou o limite

introdução

minhas informações de contato