notícias

A versão AI do Sora está aqui!É gratuito e ilimitado para todos, você pode jogar se tiver um celular e a API também está aberta

2024-07-26

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Jin Lei vem do Templo Aofei
Qubits | Conta pública QbitAI

Agora mesmo,Espectro de sabedoria AINasceu uma versão de Sora, chamadasombra clara

Sem mais delongas, vamos dar uma olhada nas imagens geradas por Qingyingum curta-metragem



Endereço do vídeo: https://mp.weixin.qq.com/s/XmXR-XZtMvhZHtLTCxU4ZQ

existirVídeo de VicentePor exemplo, se você der um aviso a Qingying, poderáDesafie sua imaginação

Na cena noturna da cidade em estilo cyberpunk com luzes de néon piscando, a câmera portátil aumenta lentamente o zoom, mostrando um macaquinho de estilo mecânico usando ferramentas de alta tecnologia para reparos, cercado por equipamentos eletrônicos piscantes e materiais de decoração futuristas. Estilo cyberpunk, atmosfera misteriosa, alta definição 4K.



Endereço do vídeo: https://mp.weixin.qq.com/s/XmXR-XZtMvhZHtLTCxU4ZQ

Está cheio de sabor cyberpunk e futurista, e está mais próximo da imagem que imaginamos em nossas mentes.

E excetoVídeo de VicenteAlém disso, Qingying desta vezvídeo tushengAs habilidades também foram lançadas juntas.

Agora, vamos comparar sua imaginação e a criatividade de Qingying para ver quem é melhor.

Por favor, olhe para a primeira foto——civilização das cavernas



O vídeo a seguir é a versão criada e pontuada por Qingying usando AI Power:



Endereço do vídeo: https://mp.weixin.qq.com/s/XmXR-XZtMvhZHtLTCxU4ZQ

No final do vídeo, Qingying aprendeu a balançar a câmera nos quadros principais, tornando o vídeo mais misterioso.

A seguir, vamos para a segunda rodada e ainda veremos as fotos juntos primeiro——Sopro do Dragão de Fogo



O vídeo criado por Qingying com base nesta imagem é aberto assim:



Endereço do vídeo: https://mp.weixin.qq.com/s/XmXR-XZtMvhZHtLTCxU4ZQ

Eu poderia imaginar que o dragão estava se preparando para cuspir fogo, mas não esperava que ele queimasse a vila no chão, mas também era razoável.

Mas olhando para todo o evento de lançamento do Zhipu AI, os efeitos de alta definição e consistência de imagem são apenas parte dos destaques.valor de bem-estarEstá cheia!

Gratuito para todos, sem filas, horários ilimitados!

Além disso, o efeito é gerar diretamente um modelo grande a partir dos seus próprios vídeos.CogVídeoHabilidadePotência total, não se envolva em marketing de fome.

De acordo com a Zhipu AI, leva apenas 30 segundos para gerar um vídeo de 6s 1440x960, e a velocidade de inferência do modelo é aumentada em seis vezes.



Não só isso, agora em Zhipu QingyanVersão para PCeAPLICATIVONo site, foram abertas as funções do Wensheng Video/Tusheng Video;MiniaplicativosPor outro lado, atualmente suporta apenas vídeos Tusheng.

Também há boas notícias para os desenvolvedores. Desta vez o vídeo gera modelos grandes.APITambém foi totalmente aberto, simDoméstico primeirooh!

Devo dizer que em termos de conveniência e eficiência, a Zhipu AI também acertou em cheio desta vez.

A seguir, é hora de usar a função de geração de vídeo do Zhipu AI para fazer alguns testes reais.

Versão AI do espectro de sabedoria medido Sora

Vamos fazer um teste primeiroVídeo de VicenteEfeito.

Abra o APP Zhipu Qingyan ou a versão para PC e a entrada para Vincent Video estará no diálogo principal.





Tomando o APP como exemplo, a interface é a seguinte:



Então está tudo pronto, basta digitar o prompt.

Mas deve-se notar que esta é a chave para o sucesso ou fracasso da geração de vídeo.

Um dos princípios mais importantes é: Nó! Estrutura! sexo!A fórmula é a seguinte:

  • Fórmula simples: [Movimento da câmera] + [Construir cena] + [Mais detalhes]
  • Fórmula complexa: [Linguagem da Lente] + [Luz e Sombra] + [Assunto (Descrição do Assunto)] + [Movimento do Assunto] + [Cena (Descrição da Cena)] + [Humor/Atmosfera/Estilo]

Então, quão pior será o efeito?

Por exemplo, se você acabou de inserir:Garotinho tomando café, o resultado gerado é assim:



É bastante satisfatório, mas à primeira vista parece IA.

Mas se as palavras-chave forem enriquecidas de acordo com a fórmula, o método de abertura será completamente diferente:

A câmera gira para revelar um garotinho sentado em um banco do parque, segurando uma xícara de café fumegante. Ele parecia alegre em uma camisa azul, com um parque arborizado ao fundo e a luz do sol filtrada pelas folhas.



Endereço do vídeo: https://mp.weixin.qq.com/s/XmXR-XZtMvhZHtLTCxU4ZQ

Não, a sensação do filme surgiu de repente.

Mas, além da fórmula que acabamos de fazer, existem vários princípios importantes aos quais você também pode consultar.

primeiro,Repetição é poder

Repetir ou reforçar palavras-chave em diferentes partes do prompt pode ajudar a melhorar a consistência do resultado. Por exemplo, a câmera voa pela cena em velocidade ultra-alta (as palavras "velocidade super alta" e "rápido" são palavras repetidas).

Em segundo lugar, tente focar suas instruções no que deve aparecer na cena. Por exemplo, você deve indicar um céu claro em vez de um céu sem nuvens.

Com essas fórmulas e princípios em vigor, podemos tentar.

O pequeno príncipe e a raposa olhavam juntos para as estrelas na lua. A raposa olhava para o pequeno príncipe de vez em quando.



Endereço do vídeo: https://mp.weixin.qq.com/s/XmXR-XZtMvhZHtLTCxU4ZQ

Representação realista, de perto, de uma chita dormindo no chão, com o corpo subindo e descendo ligeiramente.



Endereço do vídeo: https://mp.weixin.qq.com/s/XmXR-XZtMvhZHtLTCxU4ZQ

Além disso, de acordo com a introdução do Zhipu AI, se você tentar algumas vezes, poderá ter efeitos inesperados (de qualquer maneira, é gratuito).

Após o vídeo de Vincent, testaremos novamentevídeo tusheng

Existem também duas técnicas principais aqui.

A primeira coisa é que as imagens enviadas devem ser o mais nítidas possível, de preferência na proporção 3:2 e no formato jpg ou png.

O próximo ainda é Prompt,Deve haver um assunto, e então o Prompt pode ser escrito de acordo com a fórmula "[Assunto]+[Movimento do Assunto]+[Fundo]+[Movimento de Fundo]".

Claro, é possível sem aviso prévio, mas a IA irá gerar vídeos com base em suas próprias ideias.

Por exemplo, "alimentamos" uma foto de Tang Monk:



Então, de acordo com a técnica de fórmula fornecida, o prompt é o seguinte:

Tang Seng estendeu a mão e colocou os óculos escuros.



Endereço do vídeo: https://mp.weixin.qq.com/s/XmXR-XZtMvhZHtLTCxU4ZQ

A partir disso, existem muitas maneiras de brincar (de fazer coisas).

Por exemplo, deixe Zhen Huan e Shen Meizhuang “quebrar a parede” e se abraçar:

Zhen Huan Meizhuang se abraça na tela.



Endereço do vídeo: https://mp.weixin.qq.com/s/XmXR-XZtMvhZHtLTCxU4ZQ

É fácil reviver fotos antigas:

Hu Shi se virou e saiu.



Endereço do vídeo: https://mp.weixin.qq.com/s/XmXR-XZtMvhZHtLTCxU4ZQ

A julgar pelos vários efeitos, Qingying de Zhipu AI é um tipo de Sora que pode ser usado diretamente.

Então a próxima pergunta é:

Como você fez isso?

No campo da geração de vídeo, a consistência e coerência do conteúdo de saída são fatores-chave que determinam o efeito final.

Para tanto, segundo Zhipu AI, a equipe desenvolveu um eficienteEstrutura do autoencoder variacional tridimensional(3D VAE), comprime o espaço de vídeo original em 2% do tamanho, reduzindo significativamente o custo e a dificuldade de treinamento do modelo de geração de difusão de vídeo.

Em termos de estrutura do modelo, a equipe Zhipu adotaconvolução tridimensional causal(Convolução 3D causal) é o principal componente do modelo, e o módulo de atenção comumente usado em codificadores automáticos é removido, dando ao modelo a capacidade de migrar para diferentes resoluções.

Ao mesmo tempo, a forma de convolução causal na dimensão temporal também permite que o modelo tenha independência de sequência de frente para trás para codificação e decodificação de vídeo. O objetivo disso é facilitar a generalização para taxas de quadros mais altas e tempos mais longos por meio de precisão. -afinação.

Do ponto de vista da implantação de engenharia, Zhipu AI é baseado na dimensão temporal.paralelismo de sequência(Temporal Sequential Parallel) ajusta e implanta o autoencoder variacional para permitir que ele suporte a codificação e decodificação de vídeos com taxas de quadros extremamente altas e com menor consumo de memória gráfica.



Mas, além da consistência e coerência do conteúdo, há outro problema na geração de vídeo: a maioria dos dados de vídeo atuais não possui texto descritivo correspondente ou a qualidade da descrição é baixa.

Para esse fim, a Zhipu AI desenvolveu um modelo de compreensão de vídeo ponta a ponta para gerar descrições detalhadas e de fácil conteúdo para dados de vídeo massivos.

Dessa forma, os recursos de compreensão de texto e acompanhamento de instruções do modelo podem ser aprimorados, tornando o vídeo gerado mais consistente com a entrada do usuário e capaz de compreender instruções de prompt ultralongas e complexas.

Por fim, a Zhipu AI também desenvolveu uma arquitetura Transformer que integra as três dimensões de texto, tempo e espaço.

Ele abandona o módulo tradicional de atenção cruzada, mas concatena a incorporação de texto e a incorporação de vídeo no estágio de entrada para interagir mais plenamente com as duas modalidades.

No entanto, os espaços de recursos das duas modalidades são muito diferentes. A equipe usou a norma de camada adaptativa especializada para processar as modalidades de texto e vídeo separadamente para compensar essa diferença. fazendo O modelo pode utilizar parâmetros com eficiência para alinhar melhor as informações visuais com as informações semânticas.

O módulo de atenção adota um mecanismo de atenção total 3D. Estudos anteriores geralmente usam atenção espacial e temporal separada ou bloqueiam a atenção espaço-temporal. Eles exigem uma grande quantidade de transmissão implícita de informações visuais, o que aumenta muito a dificuldade de modelagem. não consegue adaptar-se aos quadros de formação eficientes existentes.

O módulo de codificação de posição projeta RoPE 3D, que é mais propício para capturar a relação entre quadros na dimensão de tempo e estabelecer dependências de longo alcance no vídeo.

O que foi dito acima é a principal força técnica por trás de como Zhipu se tornou Qingying.

Mais uma coisa

Além desta versão gratuita, a Zhipu AI também lançou uma versão paga, o preço é o seguinte:

  • 5 yuans:Desbloqueie benefícios de alta velocidade 24 horas por dia
  • 199 yuans: Desbloqueie um ano de direitos de alta velocidade

Converta a taxa anual, ou sejaApenas 5 centavos por dia

Bem, na verdade cheira um pouco perfumado.

O link da experiência está abaixo.

https://chatglm.cn/video