notícias

Gere vídeos em 30 segundos, gratuitamente e por tempo ilimitado. A versão chinesa do “Wisdom Spectrum Qingying” da OpenAI lançada hoje foi uma loucura.

2024-07-26

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


Nos últimos seis meses, os modelos de geração de vídeo nacionais e estrangeiros deram início a uma nova rodada de explosão tecnológica e, em primeiro lugar, sempre foram populares nas redes sociais.

No entanto, ao contrário do "ficar para trás" nos modelos de geração de linguagem, as tendências recentes mostram que o progresso nacional no domínio dos modelos de geração de vídeo excedeu em muito o nível internacional. Muitos internautas estrangeiros disseram que o "Keling AI Video da China" está detonando a Internet, enquanto Sora da OpenAI está dormindo.

Hoje, a Zhipu AI, fabricante líder de modelos nacionais, também lançou seu produto de geração de vídeo AI "Qingying".


Claro, existem muitos modelos de vídeo de IA no país e no exterior, e todos eles têm muitas falhas, mas em comparação com o "futuro" Sora, esses produtos de vídeo de IA são visíveis e tangíveis e podem exigir mais algumas tentativas, no máximo . Vídeo de “desenhar” um negócio garantido.

E esta exploração em si faz parte do progresso tecnológico.

Assim como o GPT-3 foi questionado e criticado no início de seu nascimento, e finalmente usou o tempo para provar seu valor em levar adiante o passado e abrir o futuro, da mesma forma, se dermos algum tempo a essas ferramentas de geração de vídeo de IA, elas podem transforme brinquedos em ferramentas em questão de dias.

Link de acesso ao PC Qingying:
https://chatglm.cn/video?fr=opt_homepage_PC
Link de acesso móvel Qingying:
https://chatglm.cn/video?&fr=opt_888_qy3

Gere o vídeo 6s em meio minuto, “Zhipu Qingying” é lançado oficialmente

Comparado com Zhipu Qingying lançado hoje, muitas pessoas podem estar mais familiarizadas com Zhipu Qingyan, mas em vez de assistir ao anúncio para ver a eficácia, você também pode dar uma olhada na demonstração criada por “Qingying” primeiro.

Na floresta exuberante, um pouco de luz solar brilha através das lacunas nas folhas, produzindo o efeito Tyndall, e a luz ganha forma.


Quando o tsunami rugiu como um monstro furioso, toda a vila foi instantaneamente engolida pelo mar, como uma cena clássica de um filme do Juízo Final.


No cenário noturno da cidade com luzes de néon piscantes, um macaquinho cheio de beleza mecânica segura ferramentas de alta tecnologia e conserta os mesmos equipamentos eletrônicos ultrafuturistas e piscantes.


Mudando novamente o estilo de pintura, o gatinho abriu bem a boca, mostrando uma expressão humanizada de confusão, com pontos de interrogação escritos por todo o rosto.


Não há drama de luta no palácio, nem intrigas, o abraço cruzado de Zhen Huan Meizhuang através do tempo e do espaço, apenas o sincero amor de irmã.


Além disso, graças ao CogVideo, um grande modelo de geração de vídeo desenvolvido de forma independente e construído de forma eficiente pela grande equipe de modelos da Zhipu, Qingying agora oferece suporte a uma variedade de métodos de geração, incluindo vídeo de geração de texto, vídeo de geração de imagem e pode até ser usado na produção de publicidade e edição de filmes, produção de vídeos curtos e outros campos.

Qingying tem forte capacidade de seguir comandos e pode compreender e executar totalmente as instruções fornecidas pelos usuários.

De acordo com relatos, a Zhipu AI desenvolveu por conta própria um modelo de compreensão de vídeo de ponta a ponta para gerar descrições detalhadas e de fácil conteúdo para dados de vídeo massivos, melhorando assim a compreensão de texto do modelo e os recursos de acompanhamento de instruções e gerando conteúdo que atenda às necessidades do usuário . vídeo.


Em termos de coerência de conteúdo, a Zhipu AI desenvolveu por conta própria uma estrutura autocodificadora variacional tridimensional eficiente (3D VAE), que comprime o espaço de vídeo original em 2% do tamanho. Juntamente com o módulo de codificação de posição 3D RoPE, é mais propício. para capturar quadros na dimensão temporal. A relação entre eles estabelece dependência de longo alcance no vídeo.

Por exemplo, quantas etapas são necessárias para transformar batatas em batatas fritas? Não há necessidade de “aceder”, basta uma simples palavra de aviso, as batatas vão se transformar em batatas fritas douradas e atraentes. As autoridades dizem que não importa quão selvagem seja a sua ideia, ela pode transformá-la em realidade, uma por uma.


Além disso, CogVideoX, projetado com referência ao algoritmo Sora, também é uma arquitetura DiT que pode integrar as três dimensões de texto, tempo e espaço. Após otimização técnica, CogVideoX aumentou sua velocidade de raciocínio em 6 vezes em comparação com a geração anterior. (CogVídeo). Teoricamente, leva apenas 30 segundos para o lado do modelo gerar um vídeo de 6 segundos.

Para efeito de comparação, Keling AI, que atualmente está no primeiro escalão, geralmente leva de 2 a 5 minutos para gerar um único vídeo de 5s.

Na conferência de imprensa de hoje, o CEO da Zhipu AI, Zhang Peng, pediu a Qingying que gerasse um vídeo de uma chita dormindo no chão com o corpo ondulando levemente. No entanto, fazer uma rosa estática "florescer" requer mais tempo.

Além disso, a resolução do vídeo gerado por Qingying pode chegar a 1440x960 (3:2) e a taxa de quadros é de 16fps.

Qingying também fornece uma função de trilha sonora, e você pode adicionar música ao vídeo gerado e publicá-lo diretamente.

Achei que a imagem estática dos astronautas tocando violão era suficiente para ser imaginativo, mas quando ela se movia e era combinada com uma melodia tranquila, parecia que os astronautas estavam dando um concerto no espaço.

Diferente de “Futures” Sora, “Qingying” não se dedica ao marketing da fome. Ele estará totalmente aberto assim que estiver online. Qualquer pessoa poderá experimentá-lo sem marcar hora ou fazer fila. nas versões posteriores A função de gerar vídeos em maior velocidade e maior duração.

Zhang Peng também disse no Zhipu Open Day: “Todos os usuários podem experimentar os recursos de vídeo baseado em texto e imagem da IA ​​​​por meio do Ying”.

Agora, Qingying está em período inicial de testes e todos os usuários podem usá-lo gratuitamente. Se você buscar uma experiência mais tranquila, poderá desbloquear um dia (24 horas) de direitos de acesso de alta velocidade por 5 yuans. Se estiver disposto a pagar 199 yuans, você pode desbloquear direitos de acesso de alta velocidade pagos por um ano.

Além disso, a API Ying também é lançada simultaneamente na plataforma aberta de grande modelo bigmodel.cn. Empresas e desenvolvedores podem experimentar e usar os recursos do modelo Wensheng Video e Tusheng Video chamando a API.

O limite para começar é baixo, mas você ainda precisa "comprar cartas". Os novatos não precisam mais se preocupar em escrever instruções incorretas.

APPSO também experimentou Qingying pela primeira vez. Depois de testar alguns cenários, também resumimos algumas experiências sobre o uso de Qingying:

  • A geração do vídeo é como uma “alquimia” e a saída é instável. Recomenda-se tentar várias vezes.
  • O limite superior do efeito depende da palavra do prompt, e a estrutura da palavra do prompt deve ser o mais clara possível
  • O melhor efeito da lente é o close-up e outras fotos não são muito estáveis.
  • Classificação de implementação do tipo de entidade: animais>plantas>itens>edifícios>pessoas

Um cientista que não entende de arte não é um bom cientista. Einstein tocava violão como um peixe na água, balançando a cabeça no seu próprio ritmo, e não parecia que estava atuando.


O panda gigante também toca violão com estilo e versatilidade.


Tang Seng, que geralmente é estóico, acenou para você e balançou no ritmo.


Claro, os vídeos acima ainda são relativamente bons. No processo de geração de vídeo, também acumulamos muitos vídeos inúteis.

Por exemplo, pedi ao imperador deitado na cama que comesse uma coxinha de frango com a mão direita, e uma mão extra apareceu do nada. No último segundo do vídeo, senti que o imperador estava prestes a revelar sua fêmea. maquiagem e cabelo.


Ou talvez no momento em que Leslie Cheung olhou para mim, o irmão em seu coração tenha se tornado “aquele homem”.


Em cenas complexas, a transição dos movimentos dos personagens não é natural, as características físicas das cenas complexas não podem ser simuladas com precisão, a precisão do conteúdo gerado é insuficiente, etc. Essas deficiências não são a "patente" de Qingying, mas as limitações atuais da geração de vídeo modelo.

Em aplicações práticas, embora os usuários possam melhorar a qualidade do vídeo otimizando as palavras de prompt, o "rollover" também é comum. Felizmente, as palavras de prompt de qualidade aceitável podem garantir em grande medida o limite inferior do modelo de geração de vídeo.

Para cuidar de alguns jogadores novatos, também preparamos especialmente algumas dicas para palavras rápidas:

  • Fórmula simples: [Movimento da câmera] + [Construir cena] + [Mais detalhes]
  • Fórmula complexa: [Linguagem da Lente] + [Luz e Sombra] + [Assunto (Descrição do Assunto)] + [Movimento do Assunto] + [Cena (Descrição da Cena)] + [Humor/Atmosfera]

A câmera gira (movimento da lente) para revelar um garotinho sentado em um banco do parque (descrição do sujeito), segurando uma xícara de café fumegante (ação do sujeito). Ele está vestindo uma camisa azul e parece feliz (detalhe do assunto), e o fundo é um parque arborizado, com a luz do sol brilhando através das folhas sobre o menino (descrição do ambiente).

Se você ainda não tem ideia, recomendo que você use o agente inteligente fornecido por Zhipu Qingyan para ajudar a escrever palavras de prompt de vídeo. Mesmo se você entrar em cenas comuns da vida, poderá obter três palavras de prompt de alta qualidade.


Por exemplo, se você apenas disser "Corgi está tomando banho de sol na praia", receberá os seguintes prompts de estilo de fotografia de cenário natural em chinês e inglês, e também há estilo de pintura em aquarela, estilo de animação 3D e outros estilos para você escolher de:

Português: Em uma praia ensolarada, um corgi descansa preguiçosamente sobre uma toalha de praia, aproveitando o sol quente. A câmera é filmada de um ângulo baixo. O fundo é o vasto oceano azul e a praia de areia branca. As ondas batem suavemente na costa. Português: Em uma praia ensolarada, um Corgi descansa preguiçosamente em uma toalha de praia, aproveitando a luz quente do sol. A câmera captura a cena de um ângulo baixo, mostrando o vasto oceano azul e a areia branca e imaculada ao fundo, com ondas suaves batendo. a costa. A atmosfera é tranquila, capturada em ultra-alta definição 4K.

Vendo uma sugestão tão satisfatória, sim, era isso que eu realmente queria escrever na época.

Em anexo está o endereço do agente de prompt de Qingying (vídeo Wensheng): https://chatglm.cn/main/gdetail/669911fe0bef38883947d3c6

O mesmo se aplica à geração de vídeos a partir de imagens. Insira o assunto da imagem, selecione o estilo da imagem e deixe Zhipu Qingyan ajudá-lo a escrever as palavras de alerta correspondentes. A evolução de palavras sem aviso, para “colocar óculos”, para “Tang Monk estende a mão e coloca os óculos”, o efeito também é muito diferente.


Em anexo está o endereço do agente do prompt Qingying (vídeo Tusheng): https://chatglm.cn/main/gdetail/669fb16ffdf0683c86f7d903

Se você quiser fazer bem o seu trabalho, primeiro você deve aprimorar suas ferramentas e abrir um pouco mais o padrão. Você também pode experimentar mais ferramentas de criação de conteúdo em Zhipu Qingyan.

Desde a coleta inicial de materiais temáticos, ao processo de redação do roteiro, ao processo de criação de imagens e vídeos e, em seguida, à redação promocional, quase toda a cadeia de criatividade de geração de vídeo pode ser aberta. pense na criatividade e o resto fica com você.

Descobrimos que os produtos de vídeo de IA lançados recentemente, incluindo Keling, estão melhorando a controlabilidade por meio do controle do primeiro e do último quadro.


O criador de IA, Chen Kun, disse certa vez à APPSO que quase todos os vídeos de IA que podem ser entregues comercialmente são vídeos de Tusheng, porque os vídeos de Wensheng ainda não podem fazer isso e, na verdade, é uma questão de controlabilidade.

O Qingying lançado hoje pela Zhipu AI melhora ainda mais a controlabilidade dos vídeos gerados por texto Em uma entrevista à APPSO, a Zhipu AI disse que os vídeos gerados por texto refletem uma controlabilidade mais universal.

A maioria dos vídeos gerados pela IA ainda são controlados por humanos por meio da linguagem. Portanto, como reconhecer texto ou instruções em linguagem simples é um nível de controle mais alto.
O vídeo AI está passando de brinquedos para ferramentas de criação

Se o ano passado foi o primeiro ano da explosão de grandes modelos, este ano é um nó importante para a aplicação de vídeo AI.

Embora Sora, que desencadeou tudo isto, ainda não esteja online, trouxe alguma inspiração para vídeos de IA.

Sora resolve o problema de saltos de detalhes entre quadros através de um design de detalhes razoável. Ao mesmo tempo, são geradas diretamente imagens de vídeo de alta resolução (1080p), que podem gerar vídeos semanticamente ricos de até 60 segundos, indicando que a sequência de treinamento por trás dele também é relativamente longa.


Só nos últimos dois meses, nada menos que 10 empresas lançaram novos produtos de vídeo de IA ou atualizações importantes.


Poucos dias antes do lançamento de Zhipu Qingying, Keling AI de Kuaishou foi aberto para testes internos em todo o mundo, e outro PixVerse, considerado Sora, lançou sua versão V2, que suporta a geração de 1 a 5 conteúdo de vídeo contínuo com um clique.


Não muito tempo atrás, Runway Gen 3 Alpha também lançou testes beta públicos para usuários pagos, e a perfeição e suavidade dos detalhes foram bastante melhoradas. O modelo de geração de vídeo em nível de filme Dream Machine, lançado no mês passado, também foi atualizado recentemente com a função de primeiro e último quadro.

Em apenas alguns meses, a geração de vídeo por IA melhorou muito em termos de simulação física, fluência de movimento e compreensão de palavras imediatas. Chen Kun, diretor do drama de fantasia de IA, é mais sensível a isso. Ele acredita que o progresso da tecnologia de geração de vídeo de IA pode ser mais rápido do que se imaginava.

Os vídeos de IA em 2023 são mais parecidos com PPTs dinâmicos, com personagens atuando em câmera lenta e contando com edição de montagem para desenhar pontos. Mas agora, o “sabor PPT” dos vídeos de IA desapareceu bastante.

O primeiro espetáculo doméstico de drama AIGC do diretor Chen Kun, "Montanhas e Mares: Espelhos de Montanhas e Mares: Cortando as Ondas", acaba de ser lançado. Ele usa IA para substituir muitos aspectos das filmagens tradicionais de filmes e televisão. , foram necessárias pelo menos 100 pessoas para fazer temas de fantasia semelhantes, e a equipe tem apenas mais de 10 pessoas, o que reduz muito o ciclo de produção e o custo.

Nos últimos seis meses, podemos ver mais criadores profissionais de cinema e televisão começando a experimentar vídeos de IA. Kuaishou Douyin doméstico lançou curtas-metragens de IA e o primeiro longa-metragem de IA "Our T2 Remake", uma colaboração entre 50 criadores de AIGC, estreado em Los Angeles.


Embora a geração de vídeo de IA ainda tenha limitações em termos de consistência de personagens e cenas, desempenho de personagens, interação de ação, etc., não há como negar que o vídeo de IA está lentamente se transformando de um brinquedo que foi testado no ano passado em uma ferramenta para criadores.

Esta também pode ser uma razão importante pela qual produtos como Zhipu Qingying, Kuaishou Keling, Luma Dream Machine e outros produtos começaram a lançar sistemas de adesão. Você deve saber que a maioria dos produtos nacionais de grandes modelos para o C-end são gratuitos, o que é. em linha com os hábitos e prioridades de pagamento de assinaturas nacionais. Relacionado à busca de estratégias de crescimento de usuários, além de usuários curiosos, o pagamento por vídeos de IA deve ser apoiado por mais criadores de conteúdo para ser sustentável.

É claro que a geração de vídeo por IA ainda está em um estágio relativamente inicial. A chamada "geração de um filme em uma frase" é apenas uma manchete enganosa. Os modelos de vídeo precisam ter melhores capacidades de acompanhamento de comandos e controlabilidade para entender melhor. mundo físico.

Zhipu também mencionou na conferência de imprensa de hoje que a exploração de modelos multimodais ainda está numa fase muito inicial.

A julgar pelo efeito dos vídeos gerados, há muito espaço para melhorias em termos de compreensão das leis do mundo físico, alta resolução, continuidade dos movimentos da câmera e duração. Do ponto de vista do próprio modelo, é necessária uma nova arquitetura de modelo com mais inovação revolucionária. Deve comprimir as informações de vídeo de forma mais eficiente, integrar totalmente o conteúdo de texto e vídeo e tornar o conteúdo gerado mais realista, ao mesmo tempo que está em conformidade com as instruções do usuário.

"Estamos explorando ativamente métodos de dimensionamento mais eficientes no nível do modelo." No entanto, Zhang Peng também está confiante no desenvolvimento de modelos multimodais. "Com a iteração contínua de algoritmos e dados, acredito que a Lei de Dimensionamento continuará a exercer. seu poderoso poder."

O criador da IA, Chen Kun, acredita que é apenas uma questão de tempo até que as imagens geradas pela IA sejam 100% adequadas para a tela grande. Quanto tempo levará esse tempo não é o mais preocupante, mas participar desse processo é mais importante, como Zhang Peng, CEO da Zhipu AI, mencionou em uma entrevista anterior à APPSO:

Muitas coisas precisam ser exploradas uma após a outra, e esse processo é muito importante Não apenas ver os resultados finais, mas o mais importante, acho que é nisso que todos deveriam prestar mais atenção no momento.

Autor: Li Chaofan, Mo Chongyu