notícias

A versão AI do Sora é de código aberto!O primeiro disponível comercialmente, jogável online, 3,7 mil estrelas no GitHub em 5 horas

2024-08-06

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Jin Lei vem do Templo Aofei
Qubits | Conta pública QbitAI

A versão doméstica do Sora é realmente maluca.

Agora mesmo,Espectro de sabedoria AIdiretamentesombra claraO grande modelo por trás da geração de vídeo ofereceCódigo aberto

E éO primeiro disponível comercialmenteAquele tipo de coisa!



O nome deste modelo éCogVideoX, lançado apenas no GitHub5 horas, então ele aceitou descontroladamente3,7 mil estrelas️。



Vejamos diretamente o efeito.

Instrução 1,Close de pessoas

No cenário assustador de uma cidade devastada pela guerra, onde ruínas e muros desmoronados contam uma história de devastação, um close-up pungente enquadra uma jovem garota. Seu rosto está manchado de cinzas, um testamento silencioso do caos ao seu redor. Seus olhos brilham com uma mistura de tristeza e resiliência, capturando a emoção crua de um mundo que perdeu sua inocência para a devastação do conflito.



Endereço do vídeo: https://mp.weixin.qq.com/s/IXRQ6PJ7NteZGXLi2x228g

Percebe-se que não só os detalhes como os olhos dos personagens são de altíssima definição, mas também a continuidade antes e depois de piscar.

Venha para o Prompt 2 novamente,Um tiro até o fim

A câmera segue atrás de um SUV branco vintage com um rack de teto preto enquanto ele acelera em uma estrada de terra íngreme cercada por pinheiros em uma encosta íngreme da montanha, a poeira levanta de seus pneus, a luz do sol brilha no SUV enquanto ele acelera pela estrada de terra, lançando um brilho quente sobre a cena. A estrada de terra curva suavemente à distância, sem outros carros ou veículos à vista. As árvores de cada lado da estrada são sequoias, com manchas de vegetação espalhadas por toda parte. O carro é visto de trás seguindo a curva com facilidade, fazendo parecer que está em uma viagem acidentada pelo terreno acidentado. A estrada de terra em si é cercada por colinas e montanhas íngremes, com um céu azul claro acima com nuvens finas.



Endereço do vídeo: https://mp.weixin.qq.com/s/IXRQ6PJ7NteZGXLi2x228g

Luz e sombra, vistas distantes, fotos próximas e o processo de direção do veículo são todos capturados.

E esses efeitos não são apenas ações de lançamento oficial, eles podem ser jogados online por qualquer pessoa~

Cartão único A100, pode ser gerado em 90 segundos

Vale ressaltar que o CogVideoX da Zhipu AI inclui vários tamanhos diferentes, e o de código aberto desta vez é o CogVideoX-2B.

Suas informações básicas relevantes são as seguintes:



Ela requer apenas 18 GB de memória de vídeo para inferência com precisão FP-16 e apenas 40 GB de memória de vídeo para ajuste fino. Isso significa que uma única placa gráfica 4090 pode realizar inferência e uma única placa gráfica A6000 pode completar o ajuste fino.

Entende-se que este modelo já suporta implantação na biblioteca de difusores do HuggingFace, e o funcionamento é muito simples, com apenas 2 passos:

1. Instale as dependências correspondentes

pip install --upgrade opencv-python transformers pip install git+https://github.com/huggingface/diffusers.git@878f609aa5ce4a78fea0f048726889debde1d7e8#egg=diffusers # Ainda em RP

2. Execute o código

import torchfrom diffusers import CogVideoXPipelinefrom diffusers.utils import export_to_videoprompt = "Um panda, vestido com uma pequena jaqueta vermelha e um chapéu minúsculo, está sentado em um banco de madeira em uma serena floresta de bambu. As patas fofas do panda dedilham um violão acústico em miniatura, produzindo melodias suaves e melódicas. Perto dali, alguns outros pandas se reúnem, observando curiosamente e alguns batendo palmas no ritmo. A luz do sol filtra-se através do bambu alto, lançando um brilho suave na cena. O rosto do panda é expressivo, mostrando concentração e alegria enquanto ele brinca. O fundo inclui um pequeno riacho e uma vibrante folhagem verde, realçando a atmosfera pacífica e mágica desta apresentação musical única."pipe = CogVideoXPipeline.from_pretrained("THUDM/CogVideoX-2b",torch_dtype=torch.float16).to("cuda")prompt_embeds, _ = pipe.encode_prompt(prompt=prompt,do_classifier_free_guidance=True,num_videos_per_prompt=1,max_sequence_length=226,device="cuda",dtype=torch.float16,)video = pipe(num_inference_steps=50,guidance_scale=6,prompt_embeds=prompt_embeds,).frames[0]export_to_video(video, "output.mp4", fps=8)

E em um A100 de placa única, seguindo os passos agora, leva apenas 90 segundos para gerar um vídeo.

Além disso, no HuggingFace, Zhipu AI também fezJogável on-linedemonstração,Efeito de teste pessoaldo seguinte modo:



Endereço do vídeo: https://mp.weixin.qq.com/s/IXRQ6PJ7NteZGXLi2x228g

Como você pode ver, os resultados gerados podem ser baixados não apenas no formato .mp4, mas também no formato GIF.

Então a próxima pergunta é: como o Zhipu AI faz isso?

O documento também foi divulgado

Desta vez, a Zhipu AI não apenas abriu o código-fonte do modelo de geração de vídeo, mas também divulgou o relatório técnico por trás dele.



Ao longo do relatório, há três grandes destaques técnicos sobre os quais vale a pena falar.

Em primeiro lugar, a equipe desenvolveu um eficienteEstrutura do autoencoder variacional tridimensional(3D VAE), comprime o espaço de vídeo original em 2% do tamanho, reduzindo significativamente o custo e a dificuldade de treinamento do modelo de geração de difusão de vídeo.

A estrutura do modelo inclui um codificador, um decodificador e um regularizador de espaço latente, e a compressão é obtida por meio de quatro estágios de redução e aumento da resolução. A convolução causal temporal garante a causalidade da informação e reduz a sobrecarga de comunicação. A equipe usa paralelismo contextual para se adaptar ao processamento de vídeo em grande escala.

Em experimentos, a equipe descobriu que a codificação de grande resolução é fácil de generalizar, enquanto aumentar o número de quadros é mais desafiador.

Portanto, a equipe treinou o modelo em dois estágios: primeiro em taxas de quadros mais baixas e minilotes e, em seguida, ajustou em taxas de quadros mais altas por meio de paralelismo contextual. A função de perda de treinamento combina perda L2, perda perceptual LPIPS e perda GAN do discriminador 3D.



seguido pelaEspecialistaTransformador

A equipe usou o codificador VAE para compactar o vídeo em um espaço latente, depois dividiu o espaço latente em pedaços e o expandiu em incorporações de longa sequência z_vision.

Ao mesmo tempo, eles usam T5 para codificar a entrada de texto na incorporação de texto z_text e, em seguida, concatenam z_text e z_vision ao longo da dimensão de sequência. Os embeddings emendados são alimentados em uma pilha de blocos Transformer especializados para processamento.

Finalmente, a equipe costurou os embeddings para recuperar a forma original do espaço latente e usou VAE para decodificação para reconstruir o vídeo.



O destaque final é quedados.

A equipe desenvolveu tags negativas para identificar e excluir vídeos de baixa qualidade, como vídeos supereditados, com movimento instável, de baixa qualidade, estilo palestra, dominados por texto e com ruído na tela.

Usando filtros treinados em video-lhama, eles anotaram e filtraram 20.000 pontos de dados de vídeo. Ao mesmo tempo, o fluxo óptico e as pontuações estéticas são calculados, e o limite é ajustado dinamicamente para garantir a qualidade do vídeo gerado.

Os dados de vídeo geralmente não possuem descrições de texto e precisam ser convertidos em descrições de texto para treinamento do modelo de texto para vídeo. Os conjuntos de dados de legendas de vídeo existentes têm legendas curtas e não podem descrever completamente o conteúdo do vídeo.

Para tanto, a equipe também propôs um pipeline para gerar legendas de vídeo a partir de legendas de imagens e ajustou o modelo de legenda de vídeo ponta a ponta para obter legendas mais densas.

Este método gera legendas curtas através do modelo Panda70M, legendas de imagens densas usando o modelo CogView3 e, em seguida, resume usando o modelo GPT-4 para gerar o vídeo curto final.

Eles também ajustaram um modelo CogVLM2-Caption baseado em CogVLM2-Video e Llama 3, treinado usando dados densos de legendas para acelerar o processo de geração de legendas de vídeo.



O texto acima é a força técnica por trás do CogVideoX.

Mais uma coisa

No campo da geração de vídeo, Runway’sGeração 3Há também novas ações——

O Vincent Video do Gen-3 Alpha agora suporta a imagem "feed", que pode ser usada não apenas como o primeiro quadro do vídeo, mas também como o último quadro do vídeo.

Parece que a IA está voltando no tempo.

Vamos dar uma olhada no efeito:



Endereço do vídeo: https://mp.weixin.qq.com/s/IXRQ6PJ7NteZGXLi2x228g



Endereço do vídeo: https://mp.weixin.qq.com/s/IXRQ6PJ7NteZGXLi2x228g

Finalmente, em relação ao grande modelo de geração de vídeo de código aberto da Zhipu AI, os links relevantes estão anexados abaixo ~

Repositório de código:
https://github.com/THUDM/CogVideo

Download do modelo:
https://huggingface.co/THUDM/CogVideoX-2b

Relatórios Técnicos:
https://github.com/THUDM/CogVideo/blob/main/resources/CogVideoX.pdf

experiência on-line:
https://huggingface.co/spaces/THUDM/CogVideoX