A versão doméstica do Sora é open source! Inferência otimizada para 18G, cartão único 4090 pode executar

A versão doméstica do Sora é open source!A inferência é otimizada para 18G, cartão único 4090 pode ser executado

2024-08-06

coisas inteligentes
AutorZeR0
Editor Mo Ying

Zhidongxi relatou em 6 de agosto que a boa notícia é que o modelo de geração de vídeo CogVideoX-2B da Zhipu AI foi oficialmente aberto na noite passada.

O modelo foi colocado no GitHub e o Hugging Face Inference na precisão do FP16 requer apenas 18 GB de memória de vídeo, enquanto o ajuste fino requer apenas 40 GB. Uma única placa gráfica 4090 pode ser usada para inferência e um único A6000 pode ser usado para precisão. sintonia.

O limite superior de palavras de prompt para CogVideoX-2B é de 226 tokens, a duração do vídeo é de 6 segundos, a taxa de quadros é de 8 quadros/segundo e a resolução do vídeo é de 720 * 480.

A série CogVideoX de modelos de código aberto tem a mesma origem do modelo comercial de geração de vídeo "Qingying" da Zhipu AI. Após o lançamento da versão 2B, modelos de código aberto com desempenho mais forte e parâmetros maiores serão colocados nas prateleiras no futuro.

Repositório de código:https://github.com/THUDM/CogVideo
Download do modelo:https://huggingface.co/THUDM/CogVideoX-2b
Relatórios Técnicos:https://github.com/THUDM/CogVideo/blob/main/resources/CogVideoX.pdf

Segundo o artigo, o CogVideoX é maior do que vários outros modelos de geração de vídeo no gráfico de radar, com valores de atributos próximos de um hexágono.

Para avaliar a qualidade dos vídeos de Vincent, Zhipu AI utiliza vários indicadores no VBench, como movimentos humanos, cenas, dinâmicas, etc., também utiliza duas ferramentas adicionais de avaliação de vídeo: Dynamic Quality in Devil e Chrono-Magic GPT4o-MT; Score, essas ferramentas focam nas características dinâmicas dos vídeos. Como pode ser visto na tabela abaixo, CogVideoX lidera em vários indicadores.

Na avaliação humana cega, CogVideoX obteve pontuação superior a Kuaishou Keling em todos os cinco indicadores.

A página do GitHub mostra vários trabalhos de vídeo gerados pelo CogVideoX-2B:

▲提示词：Um navio de brinquedo de madeira detalhado com mastros e velas intrincadamente esculpidos é visto deslizando suavemente sobre um tapete azul felpudo que imita as ondas do mar. O casco do navio é pintado de um marrom rico, com pequenas janelas. O tapete, macio e texturizado, fornece um cenário perfeito, lembrando uma extensão oceânica. Ao redor do navio estão vários outros brinquedos e itens infantis, sugerindo um ambiente lúdico. A cena captura a inocência e a imaginação da infância, com a jornada do navio de brinquedo simbolizando aventuras sem fim em um ambiente interno caprichoso.

▲提示词：A câmera segue atrás de um SUV branco vintage com um rack de teto preto enquanto ele acelera em uma estrada de terra íngreme cercada por pinheiros em uma encosta íngreme da montanha, a poeira levanta de seus pneus, a luz do sol brilha no SUV enquanto ele acelera ao longo da estrada de terra, lançando um brilho quente sobre a cena. A estrada de terra curva suavemente à distância, sem outros carros ou veículos à vista. As árvores em ambos os lados da estrada são sequoias, com manchas de vegetação espalhadas por toda parte. O carro é visto de trás seguindo a curva com facilidade, fazendo parecer que está em uma viagem acidentada pelo terreno acidentado. A estrada de terra em si é cercada por colinas e montanhas íngremes, com um céu azul claro acima com nuvens finas.

▲提示词：Um artista de rua, vestido com uma jaqueta jeans surrada e uma bandana colorida, está diante de um grande muro de concreto no coração, segurando uma lata de tinta spray, pintando um pássaro colorido em uma parede manchada.

▲提示词：No cenário assustador de uma cidade devastada pela guerra, onde ruínas e muros desmoronados contam uma história de devastação, um close-up pungente enquadra uma jovem garota. Seu rosto está manchado de cinzas, um testamento silencioso do caos ao seu redor. Seus olhos brilham com uma mistura de tristeza e resiliência, capturando a emoção crua de um mundo que perdeu sua inocência para a devastação do conflito.

CogVideoX usa 3D VAE e arquitetura Transformer especializada para gerar vídeos longos e coerentes e constrói uma coleção de clipes de vídeo de qualidade relativamente alta com descrições de texto por meio de um modelo de compreensão de vídeo autodesenvolvido.

Como os dados de vídeo contêm informações espaciais e temporais, seu volume de dados e carga computacional excedem em muito os dados de imagem.Zhipu AI proposto com base emAutoencoder variacional 3D (3D VAE)O método de compressão de vídeo comprime simultaneamente as dimensões espaciais e temporais do vídeo através da convolução tridimensional, alcançando maior taxa de compressão e melhor qualidade de reconstrução.

▲ Arquitetura VAE 3D em CogVideoX

A estrutura do modelo inclui um codificador, um decodificador e um regularizador de espaço latente, e a compactação é obtida por meio de quatro estágios de redução e aumento da resolução. A convolução causal temporal garante a causalidade da informação e reduz a sobrecarga de comunicação. A tecnologia paralela contextual pode se adaptar melhor ao processamento de vídeo em grande escala.

No experimento, Zhipu AI descobriu que a codificação de grande resolução é fácil de generalizar e aumentar o número de quadros é um desafio maior. Portanto, o treinamento do modelo é dividido em duas etapas: primeiro treinamento em uma taxa de quadros mais baixa e em um lote pequeno. e, em seguida, usando o paralelismo de contexto para treinar em um ajuste fino mais alto da taxa de quadros. A função de perda de treinamento combina perda L2, perda perceptual LPIPS e perda GAN do discriminador 3D.

Zhipu AI usa o codificador VAE para compactar o vídeo em um espaço latente, depois divide o espaço latente em blocos e o expande em longas sequências para incorporar z_vision. Ao mesmo tempo, ele usa T5 para codificar a entrada de texto na incorporação de texto z_text e. então z_text e z_vision ao longo da sequência de emenda de dimensão, a incorporação emendada é alimentada.EspecialistaTransformadorProcessados em pilhas de blocos, os embeddings são finalmente costurados para recuperar a forma original do espaço latente e decodificados usando VAE para reconstruir o vídeo.

▲ Arquitetura CogVideoX

Em termos de dados de treinamento, Zhipu AI desenvolveu rótulos negativos para identificar e excluir vídeos de baixa qualidade e marcou e rastreou 20.000 amostras de dados de vídeo através dos filtros treinados pelo video-lhama, ao mesmo tempo, o fluxo óptico e as pontuações estéticas foram calculadas; e os limites foram ajustados dinamicamente. Garanta a qualidade do vídeo gerado.

Em resposta ao problema da falta de dados de legendas de vídeo, a Zhipu AI propôs umPipeline para gerar legendas de vídeo a partir de legendas de imagens e ajuste o modelo de legenda de vídeo de ponta a ponta para obter legendas mais densas. Este método usa o modelo Panda70M para gerar legendas curtas, o modelo CogView3 para gerar legendas de imagens densas e, em seguida, o modelo GPT-4 para resumir e gerar o vídeo curto final.

A equipe também ajustou um CogVLM2-Video e Llama 3 baseadoModelo CogVLM2-Caption, treinado usando dados densos de legendas para acelerar o processo de geração de legendas de vídeo.

▲ Processo denso de geração de dados de legendas

A equipe Zhipu AI ainda está trabalhando duro para melhorar a capacidade do CogVideoX de capturar dinâmicas complexas, explorar novas arquiteturas de modelos, compactar informações de vídeo com mais eficiência e integrar mais completamente o conteúdo de texto e vídeo para continuar a explorar a lei de escala do modelo de geração de vídeo, visando para treinar modelos maiores e mais poderosos para gerar vídeos mais longos e de maior qualidade.

Hoje em dia, existem cada vez mais modelos e aplicações de geração de vídeo, e a tecnologia está amadurecendo gradualmente. No entanto, não existe um modelo de geração de vídeo de código aberto que possa atender aos requisitos das aplicações de nível comercial. Esperamos que mais modelos de geração de vídeo se tornem de código aberto, promovendo mais desenvolvedores e empresas a participarem no desenvolvimento de modelos e aplicativos de geração de vídeo e contribuindo para diversas otimizações técnicas e desenvolvimento funcional em torno da geração de vídeo.

notícias

A versão doméstica do Sora é open source!A inferência é otimizada para 18G, cartão único 4090 pode ser executado

Introdução

minhas informações de contato