notícias

Zhipu AI lança um grande modelo de geração de vídeo, Bilibili participa da pesquisa e desenvolvimento e Yizhuang fornece poder de computação |

2024-07-26

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


Grandes modelos de vídeo entram na batalha de centenas de modelos.

Autor|Zhao Jian‍‍‍

Este ano é o primeiro ano da explosão de modelos de “geração de vídeo” em grande escala. Nos últimos dois meses, vimos Kuaishou Keling, SenseTime Vimi, Luma AI, Aishi Technology Pixverse, Runway Gen-3 e outros grandes modelos de vídeo perseguindo-se.

Porém, no primeiro semestre do ano, as grandes empresas do modelo de geração de vídeo tendiam a focar apenas na função de geração de vídeo.

No segundo semestre do ano, as principais empresas de modelos de linguagem seguirão gradualmente os passos da OpenAI e entrarão no mercado de grandes modelos de vídeo para unificar modelos de linguagem e modelos de vídeo.

Entre os "Seis Grandes Modelos" de destaque, o que se move mais rápido é o Zhipu AI.

Esta manhã, este unicórnio de modelo grande baseado em Tsinghua lançou o produto de modelo grande de geração de vídeo "Qingying", que está diretamente aberto a todos os usuários e suporta Wensheng Video e Tusheng Video.

Depois de inserir um pedaço de texto ou imagem (ou seja, prompt) no PC ou aplicativo Zhipu Qingyan, os usuários podem escolher o estilo que desejam gerar, incluindo desenho animado 3D, preto e branco, pintura a óleo, estilo de filme, etc., acompanhado pelo próprio Qingying música, gerando videoclipes cheios de imaginação de IA, além disso, o "AI Dynamic Photo Mini Program" suporta vídeos Tusheng;

Em relação à situação atual no campo dos grandes modelos de vídeo, Zhang Peng acredita que provavelmente entrará em uma situação em que uma centena de escolas de pensamento competirão, assim como os grandes modelos de linguagem.

Em termos de estratégia de comercialização, o plano de pagamento atual da Qingying é: durante o período de teste inicial, todos os usuários podem usá-lo gratuitamente, pagar 5 yuans para desbloquear os direitos do canal de alta velocidade por um dia (24 horas para desbloquear); acesso pago de alta velocidade por um ano de direitos de canal. Zhang Peng, CEO da Zhipu AI, disse: "A comercialização atual ainda está em um estágio muito inicial e o custo é realmente muito alto. Iremos iterar gradualmente com base no feedback do mercado."

A API Qingying também é lançada simultaneamente na plataforma aberta de modelo grande Zhipu. Empresas e desenvolvedores podem experimentar e usar os recursos do modelo Wensheng Video e Tusheng Video chamando a API.

A pesquisa e desenvolvimento de Qingying recebeu forte apoio de Pequim. O distrito de Haidian é onde está localizada a sede da Zhipu AI. Ele fornece suporte abrangente, como investimento industrial, subsídios de poder de computação, demonstrações de cenários de aplicação e talentos para a Zhipu AI realizar pesquisa e desenvolvimento de modelos em grande escala. cluster de computação de alto desempenho em Pequim O nascimento do cluster de poder de computação de Yizhuang também será aplicado ao vasto cluster industrial de alta precisão em Yizhuang, Pequim, no futuro, formando um novo formato de negócios no qual grandes modelos capacitam a economia real.


Em termos de cooperação ecológica, a bilibili também participou no processo de investigação e desenvolvimento tecnológico da Qingying como parceira e está empenhada em explorar possíveis cenários de aplicação futuros. Ao mesmo tempo, a parceira Huace Film and Television também participou da coconstrução do modelo.

Gere vídeo a partir de qualquer texto em 1,30 segundos

Qual é o efeito específico de Qingying? Vamos primeiro dar uma olhada em alguns casos de vídeo lançados oficialmente (todos acompanhados de música).

  • Vídeo de Vicente:

Palavras de alerta: Empurre para cima em um ângulo baixo, levante lentamente a cabeça e um dragão aparece de repente no iceberg. Então o dragão avista você e corre em sua direção.Estilo de filme de Hollywood

Palavra de alerta: Na cena noturna da cidade em estilo cyberpunk com luzes de néon piscando, a câmera portátil aumenta o zoom lentamente e um macaquinho de estilo mecânico a está consertando com ferramentas de alta tecnologia, cercado por equipamentos eletrônicos piscantes e materiais de decoração futuristas. Estilo cyberpunk, atmosfera misteriosa, alta definição 4K.

Palavra de alerta: Perspectiva de filmagem publicitária, fundo amarelo, mesa branca, uma batata é jogada no chão e transformada em porção de batata frita.

  • vídeo tusheng

Palavra de alerta: beleza clássica

Palavra de alerta: Um dragão atira fogo pela boca e incendeia uma pequena vila.

Palavra de alerta: Capivara bebe Coca-Cola preguiçosamente com um canudo, virando a cabeça em direção à câmera

O tempo de geração de vídeo de Qingying é de cerca de 6 segundos e o tempo de espera após inserir a palavra de alerta é de cerca de 30 segundos. Zhang Peng disse que a velocidade dessa geração já é muito rápida na indústria.

Zhang Peng acredita que a exploração de modelos multimodais ainda está numa fase muito inicial. A julgar pelo efeito dos vídeos gerados, há muito espaço para melhorias em termos de compreensão das leis do mundo físico, alta resolução, continuidade dos movimentos da câmera e duração. Do ponto de vista do próprio modelo, é necessária uma nova arquitetura de modelo com mais inovação revolucionária. Deve comprimir as informações de vídeo de forma mais eficiente, integrar totalmente o conteúdo de texto e vídeo e tornar o conteúdo gerado mais realista, ao mesmo tempo que está em conformidade com as instruções do usuário.

2. Arquitetura DiT autodesenvolvida

O modelo de geração de vídeo do Qingying Base é o CogVideoX, que integra as três dimensões de texto, tempo e espaço, e refere-se ao design do algoritmo de Sora. CogVideoX também é uma arquitetura DiT. Através da otimização, a velocidade de inferência do CogVideoX é aumentada em 6 vezes em comparação com a geração anterior (CogVideo).

Zhipu compartilhou principalmente três recursos técnicos do CogVideoX: coerência de conteúdo, controlabilidade e estrutura de modelo.


Primeiro, para resolver o problema da coerência do conteúdo,Zhipu desenvolveu por conta própria uma estrutura autocodificadora variacional tridimensional eficiente (3D VAE), que comprime o espaço de vídeo original em 2% do tamanho, reduzindo assim o custo e a dificuldade de treinamento do modelo de geração de difusão de vídeo.

Em termos de estrutura do modelo, o Wisdom Spectrum usa a convolução Causal 3D como o principal componente do modelo e remove o módulo de atenção comumente usado em autoencoders, tornando o modelo capaz de migração e uso em diferentes resoluções.

Ao mesmo tempo, a forma de convolução causal na dimensão de tempo também permite que o modelo tenha independência de sequência de frente para trás para codificação e decodificação de vídeo, facilitando a generalização para taxas de quadros mais altas e tempos mais longos por meio de ajuste fino.

Do ponto de vista da implantação de engenharia, Zhipu ajusta e implanta o autoencoder variacional baseado em Paralelo Sequencial Temporal na dimensão de tempo, para que possa suportar a codificação de vídeos com taxa de quadros extremamente alta com menor consumo de memória gráfica. .

O segundo ponto é a controlabilidade.A maioria dos dados de vídeo atuais não possui texto descritivo correspondente ou a qualidade da descrição é baixa. Por esse motivo, Zhipu desenvolveu um modelo de compreensão de vídeo de ponta a ponta para gerar descrições detalhadas e de fácil conteúdo para dados de vídeo massivos, de modo que melhore o. recursos de compreensão de texto e acompanhamento de instruções do modelo, tornando o vídeo gerado mais consistente com a entrada do usuário e capaz de compreender instruções de prompt ultralongas e complexas.

Este também é o método usado por Sora. A OpenAI treinou um modelo de gerador de legendas altamente descritivo usando a “técnica de recaptioning” do DALL·E 3 e, em seguida, usou-o para gerar legendas de texto para os vídeos no conjunto de dados de treinamento. Além disso, a OpenAI aproveita o GPT para converter solicitações curtas do usuário em legendas mais detalhadas, que são então enviadas ao modelo de vídeo.

Por fim, existe uma arquitetura transformadora desenvolvida por Zhipu que integra as três dimensões de texto, tempo e espaço.Ele abandona o módulo tradicional de atenção cruzada, mas concatena a incorporação de texto e a incorporação de vídeo no estágio de entrada para interagir mais plenamente com as duas modalidades.

No entanto, os espaços de recursos das duas modalidades são muito diferentes. Zhipu usa norma de camada adaptativa especializada para processar as modalidades de texto e vídeo separadamente para compensar essa diferença, de modo que as informações de intervalo de tempo no modelo de difusão possam ser usadas de forma mais eficaz. permite que o modelo utilize parâmetros de forma eficiente para alinhar melhor as informações visuais com as informações semânticas.

O módulo de atenção adota um mecanismo de atenção total 3D. Estudos anteriores geralmente usam atenção espacial e temporal separada ou bloqueiam a atenção espaço-temporal. Eles exigem uma grande quantidade de transmissão implícita de informações visuais, o que aumenta muito a dificuldade de modelagem. não consegue adaptar-se aos quadros de formação eficientes existentes.

O módulo de codificação de posição projeta RoPE 3D, que é mais propício para capturar a relação entre quadros na dimensão de tempo e estabelecer dependências de longo alcance no vídeo.

3. A lei de escala ainda está em vigor

No início da IA ​​na rota do modelo grande, Zhipu começou a traçar layouts relacionados no campo multimodal. De texto a imagens e vídeos, a compreensão do mundo por grandes modelos torna-se cada vez mais complexa e multidimensional. Através do aprendizado de diversas modalidades, surgem grandes modelos com capacidade de compreender, conhecer e lidar com diferentes tarefas.

A pesquisa de Zhipu sobre grandes modelos multimodais remonta a 2021. A partir de 2021, Zhipu desenvolveu CogView (NeurIPS'21), CogView2 (NeurIPS'22), CogVideo (ICLR'23), Relay Diffusion (ICLR'24) e CogView3 (2024).


Com base no CogView, a equipe desenvolveu o CogVideo, um modelo de geração de texto para vídeo baseado em modelos grandes. Ele adotou uma estratégia de treinamento hierárquico de taxa de quadros múltiplos para gerar videoclipes de alta qualidade e propôs um método baseado em interpolação recursiva para. gerar gradualmente o texto correspondente a cada subdescrição de videoclipes e interpolar esses videoclipes camada por camada para obter os videoclipes finais. Este trabalho atraiu ampla atenção do Facebook, Google e Microsoft, e foi citado em trabalhos subsequentes de modelos de geração de vídeo, como Make-A-Video do Facebook, Phenaki e MAGVIT do Google, DragNUWA da Microsoft e Video LDMs da NVIDIA.

Em maio de 2024, a equipe técnica do grande modelo GLM elaborou exaustivamente as três principais tendências técnicas dos grandes modelos GLM para AGI durante o discurso principal do ICLR 2024, no qual grandes modelos multimodais nativos desempenham um papel importante: A equipe do grande modelo GLM acredita que o texto é construído A base principal para modelos grandes, o próximo passo é misturar texto, imagens, vídeo, áudio e outras modalidades para treinar a construção de um modelo multimodal verdadeiramente nativo.


Zhipu possui um layout abrangente de produtos de grandes séries de modelos, e os modelos multimodais sempre desempenham um papel importante. Zhipu verificou a eficácia da Lei de Escala na geração de vídeo. No futuro, enquanto continuamos a aumentar a escala de dados e a escala do modelo, exploraremos novas arquiteturas de modelo com mais inovação revolucionária, compactaremos informações de vídeo com mais eficiência e mesclaremos texto de forma mais completa. e conteúdo de vídeo.

Zhang Peng acredita que uma das direções de avanço tecnológico para grandes modelos no futuro são os grandes modelos multimodais nativos, e a Lei de Escalabilidade continuará a desempenhar um papel tanto em algoritmos quanto em dados.

“Ainda não vimos sinais de desaceleração da curva tecnológica”, disse Zhang Peng.

(Fonte da imagem da capa e do texto que acompanha as imagens: Zhipu)