Zhipu AI entra na geração de vídeo: "Qingying" está online, com 6 segundos de duração, gratuito e ilimitado

2024-07-26

Relatório do coração da máquina

Departamento Editorial de Coração de Máquina

A grande equipe de modelos da Zhipu é autodesenvolvida e construída.

Desde que Kuaishou Keling AI se tornou popular no país e no exterior, a geração de vídeo nacional está se tornando cada vez mais popular, assim como o modelo de texto grande em 2023.

Agora mesmo, outro grande modelo de geração de vídeo foi lançado oficialmente: Zhipu AI lançou oficialmente "Qingying". Contanto que você tenha boas ideias (algumas palavras a algumas centenas de palavras) e um pouco de paciência (30 segundos), "Qingying" pode gerar vídeos de alta precisão com resolução de 1440x960.

Link do vídeo: https://mp.weixin.qq.com/s/fNsMxyuutjVkEtX_xRnsMA

A partir de agora, Qingying lançará o aplicativo Qingyan, e todos os usuários poderão experimentar plenamente as funções de diálogo, imagens, vídeos, códigos e geração de agentes. Além de cobrir a web e o aplicativo de Zhipu Qingyan, você também pode operar no "AI Dynamic Photo Mini Program" para obter rapidamente efeitos dinâmicos para fotos em seu telefone.

O vídeo gerado por Zhipu "Qingying" tem 6 segundos de duração e resolução de 1440×960. Todos os usuários podem usá-lo gratuitamente.

Link de acesso ao PC: https://chatglm.cn/
Link de acesso móvel: https://chatglm.cn/download?fr=web_home

Zhipu AI afirmou que com o desenvolvimento contínuo da tecnologia, os recursos de geração de "Qingying" serão em breve usados na produção de vídeos curtos, geração de publicidade e até edição de filmes.

No desenvolvimento de modelos de vídeo generativos de IA, a Lei de Escala continua a desempenhar um papel tanto nos algoritmos quanto nos dados. "Estamos explorando ativamente métodos de escalonamento mais eficientes no nível do modelo." No Zhipu Open Day, Zhang Peng, CEO da Zhipu AI, disse: "Com a iteração contínua de algoritmos e dados, acredito que a Scaling Law continuará a desempenhar um papel importante". papel forte."

Escolha vários estilos

A julgar por algumas demonstrações atuais e testes simples, o “Qingying” da Zhipu AI tem as seguintes características:

O desempenho é melhor ao gerar conteúdo de vídeo de paisagens, animais, ficção científica, humanidades e história, etc.;
Os estilos de vídeo que somos bons em gerar incluem estilo de desenho animado, estilo de fotografia real, estilo de animação bidimensional, etc.;
Em termos de efeito de apresentação do tipo de entidade, animais > plantas > itens > edifícios > pessoas.

Ele pode gerar vídeos com texto ou imagens, e o estilo gerado abrange o estilo de animação de fantasia.

Vídeo de Vicente

Palavras de alerta: Empurre para cima em um ângulo baixo, levante lentamente a cabeça e um dragão aparece de repente no iceberg. Então o dragão avista você e corre em sua direção. Estilo de filme de Hollywood.

Palavra de alerta: Um mago está lançando um feitiço nas ondas. A gema reúne a água do mar e abre um portal mágico.

Palavra de alerta: O cogumelo se transforma em urso.

Para a cena real:

Palavra de alerta: Em uma floresta, da perspectiva humana, as árvores imponentes bloqueiam o sol, e um pouco de luz solar brilha através das lacunas nas folhas, efeito Tyndall.

Palavra de alerta: Uma capivara parece um humano, segurando um sorvete na mão e comendo-o com alegria.

vídeo tusheng

Além dos vídeos gerados por texto, você também pode brincar com vídeos gerados por imagens no Qingying. Tusheng Video traz mais novas maneiras de jogar, incluindo emoticons, produção de publicidade, criação de enredo, criação de vídeos curtos, etc. Ao mesmo tempo, o miniaplicativo "Fotos antigas animadas" baseado em Qingying também será lançado simultaneamente. Você só precisa fazer upload de fotos antigas em uma única etapa, e a IA pode animar as fotos condensadas dos velhos tempos.

Palavra de alerta: Um peixe colorido que se move livremente.

Palavra de alerta: O homem da foto está de pé, com o vento soprando em seus cabelos.

Palavra de alerta: Patinho amarelo flutuando na superfície da piscina, close-up.

E então para a arte moderna:

Palavra-chave: a câmera gira em torno de um monte de TVs antigas exibindo programas diferentes - filmes de ficção científica dos anos 1950, filmes de terror, notícias, fotos, seriados dos anos 70, etc., ambientados em um museu de Nova York em uma grande galeria.

Dica: pegue um iPhone e tire uma foto.

Sem palavras imediatas.

Seus emoticons comumente usados, Zhipu AI pode estendê-los em "séries".

Palavra de alerta: Os quatro mestres e aprendizes estenderam a mão e se cumprimentaram, com expressões confusas em seus rostos.

Link do vídeo: https://mp.weixin.qq.com/s/fNsMxyuutjVkEtX_xRnsMA

Palavras de alerta: O gatinho abriu bem a boca, com uma expressão confusa e muitos pontos de interrogação no rosto.

Link do vídeo: https://mp.weixin.qq.com/s/fNsMxyuutjVkEtX_xRnsMA

Pode-se ver que Qingying pode lidar com vários estilos, e há mais maneiras de jogar esperando que as pessoas descubram. Basta clicar na função "Qingying Intelligent" no PC/APP Zhipu Qingyan e cada ideia que você tiver pode ser transformada em realidade em um instante.

Toda tecnologia autodesenvolvida

Em geral, o modelo grande Wisdom AI vem implantando modelos de IA generativos multimodais há muito tempo. A partir de 2021, Zhipu AI lançou muitos estudos, como CogView (NeurIPS'21), CogView2 (NeurIPS'22), CogVideo (ICLR'23), Relay Diffusion (ICLR'24), CogView3 (2024), etc.

Segundo relatos, "Qingying" depende do CogVideoX, uma nova geração de grandes modelos de geração de vídeo desenvolvidos de forma independente pela equipe de grandes modelos da Zhipu AI.

Em novembro do ano passado, sua equipe criou o modelo de geração de texto para vídeo CogVideo baseado no modelo de gráfico Vincent CogView2 e, posteriormente, tornou-o de código aberto.

CogVideo possui 9,4 bilhões de parâmetros. Ele gera uma série de frames iniciais por meio do CogView2 e implementa a geração de vídeo interpolando frames de imagens com base no modelo de atenção bidirecional. Além disso, o CogVideo gera um ambiente 3D baseado em descrições de texto e pode utilizar diretamente modelos pré-treinados para evitar treinamento caro. Ele também suporta entrada de prompt em chinês.

O modelo de geração de vídeo do Qingying Base desta vez é o CogVideoX, que pode integrar as três dimensões de texto, tempo e espaço. Refere-se ao design do algoritmo Sora. É também uma arquitetura DiT. Por meio da otimização, o CogVideoX é melhor que a geração anterior. CogVideo). Velocidade de inferência aumentada em 6 vezes.

O surgimento do Sora da OpenAI permitiu que a IA fizesse progressos significativos na geração de vídeo, mas a maioria dos modelos ainda tem dificuldades em gerar conteúdo de vídeo com coerência e consistência lógica.

Para resolver esses problemas, a Zhipu AI desenvolveu uma estrutura autoencoder variacional tridimensional eficiente (3D VAE), que pode compactar o espaço de vídeo original em 2%, reduzindo significativamente o custo de treinamento do modelo e reduzindo significativamente a dificuldade de treinamento.

A estrutura do modelo usa a convolução Causal 3D como componente principal do modelo e remove o módulo de atenção comumente usado em codificadores automáticos, para que o modelo tenha a capacidade de ser transferido para diferentes resoluções.

Ao mesmo tempo, a convolução causal na dimensão temporal permite que a codificação e decodificação de vídeo do modelo tenha independência de sequência de frente para trás, o que ajuda a expandir o modelo para taxas de quadros mais altas e cenas mais longas por meio de ajuste fino.

Além disso, a geração de vídeo também enfrenta o problema de que a maioria dos dados de vídeo não possui texto descritivo correspondente ou a qualidade da descrição é baixa. Por esse motivo, a Zhipu AI desenvolveu por conta própria um modelo de compreensão de vídeo de ponta a ponta para gerar dados de vídeo massivos. descrições que se ajustam ao conteúdo e, em seguida, criam um grande número de pares de vídeo-texto de alta qualidade, tornando o modelo treinado altamente compatível com as instruções.

Por fim, vale ressaltar que a Zhipu AI desenvolveu por conta própria uma arquitetura de transformador que integra texto, tempo e espaço. Essa arquitetura não usa o módulo tradicional de atenção cruzada, mas conecta embeddings de texto e vídeo no estágio de entrada. interagir mais plenamente entre as duas modalidades.

No entanto, existem grandes diferenças nos espaços de recursos de texto e vídeo. O Zhipu AI processa ambos separadamente por meio de norma de camada adaptativa especializada, permitindo que o modelo utilize parâmetros de forma eficiente para alinhar melhor as informações visuais com as informações semânticas.

A Zhipu AI afirmou que, por meio da tecnologia de otimização, a velocidade de inferência do modelo de vídeo generativo da Zhipu AI aumentou 6 vezes. Atualmente, o tempo teórico gasto pelo modelo para gerar um vídeo de 6s é de 30 segundos.

Agora, com o lançamento de "Qingying", Zhipu AI, um importante player na área de geração de vídeo, apareceu novamente.

Além dos aplicativos que todos podem experimentar, a API Qingying também é lançada simultaneamente na plataforma aberta de grande modelo bigmodel.cn. Empresas e desenvolvedores podem experimentar e usar os recursos do modelo de Wensheng Video e Tusheng Video chamando a API.

À medida que várias empresas continuam a lançar funções de geração de vídeo de IA, a competição generativa de IA deste ano entrou em um estágio intenso. Para a maioria dos usuários, há mais opções: agora, tanto pessoas sem experiência em produção de vídeo quanto criadores de conteúdo profissionais podem realizar a criação de vídeo com a ajuda de grandes recursos de modelo.

notícias

Zhipu AI entra na geração de vídeo: "Qingying" está online, com 6 segundos de duração, gratuito e ilimitado

Introdução

minhas informações de contato