Modelo Qingying CogVideoX 2B de código aberto Zhipu, um único RTX 4090 pode ser usado para inference

Modelo Qingying CogVideoX 2B de código aberto Zhipu, um único RTX 4090 pode ser usado para inferência

2024-08-06

Autor｜Grupo móvel de modelo grande
E-mail｜ [email protected]

Com o desenvolvimento contínuo da tecnologia de modelos em grande escala, a tecnologia de geração de vídeo está gradualmente amadurecendo. As tecnologias representadas por modelos de geração de vídeo de código fechado, como Sora e Gen-3, estão redefinindo o cenário futuro da indústria. No entanto, até agora, ainda não existe um modelo de geração de vídeo de código aberto que possa atender aos requisitos das aplicações de nível comercial.

Aderindo ao conceito de "servir aos desenvolvedores globais com tecnologia avançada", a Zhipu AI anunciou que abrirá o código CogVideoX, um modelo de geração de vídeo com a mesma origem de "Qingying", na esperança de que cada desenvolvedor e cada empresa possam desenvolver livremente seu próprio modelo de geração de vídeo para promover iteração rápida e desenvolvimento inovador de toda a indústria.

A inferência e o ajuste fino do Cog Video Perform podem ser feitos com uma única placa gráfica A6000.

O limite superior de palavras de prompt para CogVideoX-2B é de 226 tokens, a duração do vídeo é de 6 segundos, a taxa de quadros é de 8 quadros/segundo e a resolução do vídeo é de 720*480. Reservamos um amplo espaço para a melhoria da qualidade do vídeo e esperamos as contribuições de código aberto dos desenvolvedores para otimizar palavras, duração do vídeo, taxa de quadros, resolução, ajuste fino de cena e o desenvolvimento de várias funções em torno do vídeo.

Modelos com desempenho mais forte e parâmetros maiores estão a caminho, então fique atento e aguarde por isso.

Repositório de código:
https://github.com/THUDM/CogVideo

Download do modelo:
https://huggingface.co/THUDM/CogVideoX-2b

Relatório técnico: https://github.com/THUDM/CogVideo/blob/main/resources/CogVideoX.pdf

Modelo

VAE：

Como os dados de vídeo contêm informações espaciais e temporais, seu volume de dados e carga computacional excedem em muito os dados de imagem. Para enfrentar esse desafio, propomos um método de compressão de vídeo baseado em autoencoder variacional 3D (3D VAE). O 3D VAE comprime simultaneamente as dimensões espaciais e temporais do vídeo através da convolução tridimensional, alcançando taxas de compressão mais altas e melhor qualidade de reconstrução.

A estrutura do modelo inclui um codificador, um decodificador e um regularizador de espaço latente, e a compressão é obtida por meio de quatro estágios de redução e aumento da resolução. A convolução causal temporal garante a causalidade da informação e reduz a sobrecarga de comunicação. Empregamos técnicas de paralelismo contextual para acomodar processamento de vídeo em grande escala. Em experimentos, descobrimos que a codificação de grande resolução é fácil de generalizar, mas aumentar o número de quadros é mais desafiador. Portanto, treinamos o modelo em dois estágios: primeiro em taxas de quadros mais baixas e minilotes e, em seguida, ajustamos em taxas de quadros mais altas por meio de paralelismo contextual. A função de perda de treinamento combina perda L2, perda perceptual LPIPS e perda GAN do discriminador 3D.

EspecialistaTransformador

Usamos o codificador VAE para compactar o vídeo em um espaço latente, depois dividimos o espaço latente em blocos e o expandimos em embeddings de longa sequência z_vision. Ao mesmo tempo, usamos T5 para codificar a entrada de texto na incorporação de texto z_text e, em seguida, concatenar z_text e z_vision ao longo da dimensão de sequência. Os embeddings emendados são alimentados em uma pilha de blocos Transformer especializados para processamento. Finalmente, costuramos os embeddings para recuperar a forma original do espaço latente e decodificamos usando VAE para reconstruir o vídeo.

Dados

O treinamento do modelo de geração de vídeo requer a triagem de dados de vídeo de alta qualidade para aprender a dinâmica do mundo real. O vídeo pode ser impreciso devido a problemas de edição ou filmagem humana. Desenvolvemos rótulos negativos para identificar e excluir vídeos de baixa qualidade, como vídeos supereditados, com movimento instável, de baixa qualidade, estilo palestra, dominados por texto e com ruído na tela. Anotamos e filtramos 20.000 pontos de dados de vídeo com filtros treinados em video-lhama. Ao mesmo tempo, o fluxo óptico e as pontuações estéticas são calculados, e o limite é ajustado dinamicamente para garantir a qualidade do vídeo gerado.

Os dados de vídeo geralmente não possuem descrições de texto e precisam ser convertidos em descrições de texto para treinamento do modelo de texto para vídeo. Os conjuntos de dados de legendas de vídeo existentes têm legendas curtas e não podem descrever completamente o conteúdo do vídeo. Propomos um pipeline para gerar legendas de vídeo a partir de legendas de imagens e ajustar o modelo de legenda de vídeo ponta a ponta para obter legendas mais densas. Este método gera legendas curtas através do modelo Panda70M, legendas de imagens densas usando o modelo CogView3 e, em seguida, resume usando o modelo GPT-4 para gerar o vídeo curto final. Também ajustamos um modelo CogVLM2-Caption baseado em CogVLM2-Video e Llama 3, treinado usando dados densos de legendas para acelerar o processo de geração de legendas de vídeo.

desempenho

Para avaliar a qualidade da geração de texto para vídeo, usamos múltiplas métricas no VBench, como ações humanas, cenas, dinâmicas, etc. Também usamos duas ferramentas adicionais de avaliação de vídeo: Dynamic Quality no Devil e GPT4o-MT Score no Chrono-Magic, que focam nas características dinâmicas dos vídeos. Conforme mostrado na tabela abaixo.

Verificamos a eficácia da lei de escala na geração de vídeo. No futuro, ao mesmo tempo que continuamos a aumentar a escala de dados e a escala do modelo, exploraremos novas arquiteturas de modelo com mais inovações revolucionárias, compactaremos as informações de vídeo de forma mais eficiente e as integraremos de forma mais completa. . Conteúdo de texto e vídeo.

Demonstração

Um navio de brinquedo de madeira detalhado com mastros e velas intrincadamente esculpidos é visto deslizando suavemente sobre um tapete azul felpudo que imita as ondas do mar. O casco do navio é pintado de um marrom rico, com pequenas janelas. O tapete, macio e texturizado, fornece um cenário perfeito, lembrando uma extensão oceânica. Ao redor do navio há vários outros brinquedos e itens infantis, sugerindo um ambiente lúdico. A cena captura a inocência e a imaginação da infância, com a jornada do navio de brinquedo simbolizando aventuras sem fim em um ambiente interno e caprichoso.

A câmera segue atrás de um SUV branco vintage com um rack de teto preto enquanto ele acelera em uma estrada de terra íngreme cercada por pinheiros em uma encosta íngreme da montanha, a poeira levanta de seus pneus, a luz do sol brilha no SUV enquanto ele acelera pela estrada de terra, lançando um brilho quente sobre a cena. A estrada de terra curva suavemente à distância, sem outros carros ou veículos à vista. As árvores de cada lado da estrada são sequoias, com manchas de vegetação espalhadas por toda parte. O carro é visto de trás seguindo a curva com facilidade, fazendo parecer que está em uma viagem acidentada pelo terreno acidentado. A estrada de terra em si é cercada por colinas e montanhas íngremes, com um céu azul claro acima com nuvens finas.

No cenário assustador de uma cidade devastada pela guerra, onde ruínas e muros desmoronados contam uma história de devastação, um close-up pungente enquadra uma jovem garota. Seu rosto está manchado de cinzas, um testamento silencioso do caos ao seu redor. Seus olhos brilham com uma mistura de tristeza e resiliência, capturando a emoção crua de um mundo que perdeu sua inocência para a devastação do conflito.

Uma única borboleta com asas que lembram vitrais voa por um campo de flores. A foto captura a luz conforme ela passa pelas delicadas asas, criando uma exibição vibrante e colorida. HD.

Uma paisagem de floresta nevada com uma estrada de terra passando por ela. A estrada é ladeada por árvores cobertas de neve, e o chão também está coberto de neve. O sol está brilhando, criando uma atmosfera brilhante e serena. A estrada parece estar vazia, e não há pessoas ou animais visíveis no vídeo. O estilo do vídeo é uma paisagem natural, com foco na beleza da floresta nevada e na tranquilidade da estrada.

Close-up extremo de kebabs de frango e pimentão verde grelhando em uma churrasqueira com chamas. Foco raso e fumaça leve. Cores vivas

Clique em "" e vamos lá

notícias

Modelo Qingying CogVideoX 2B de código aberto Zhipu, um único RTX 4090 pode ser usado para inferência

Introdução

minhas informações de contato