Zhipu AI abriu oficialmente o código de seu Sora “Qingying”

2024-08-06

No meio da noite, o outro lado do oceano não rolava, mas as empresas nacionais rolavam.

Eu realmente quero dormir, sério.

A razão é que antes de ir para a cama, quando estava olhando o Github, acidentalmente vi a conta THUKEG e atualizei um projeto.

CogVideoX。

THUKEG é o título oficial de Zhipu, eCogVideoX é o modelo básico da limpeza de vídeo AI de segunda geração da Zhipu, que foi muito popular nas últimas duas semanas.

Nos termos mais populares, CogVideoX é igual a GPT4o e Qingying é igual aBate-papoGPT, você pode simplesmente entender que um é um modelo e o outro é um produto baseado no modelo, então você pode realmente desenhar um sinal de igual.

Nas últimas duas semanas, na batalha de vídeo de IA de segunda geração, baseada nos três deuses da fantasia existentes, Runway, Ke Ling e Luma, Pixverse lançou a versão V2, e o modelo de Vidu também foi lançado.

Como a empresa de IA mais famosa no campo de modelos grandes, a Zhipu também se juntou a essa confusão de vídeos de IA e lançou seu produto de vídeo DiT, Qingying.

Este produto pode ser usado em seu assistente de IA, Zhipu Qingyan.

Mas, para ser muito franco, não o escrevi porque acho que ainda há uma certa lacuna entre Keling e Runway em termos de efeitos de geração.

E hoje, duas semanas depois de lançar Qingying, eles decidiramCogVideoX，É código aberto.

Vale a pena tentar.

Endereço de download do modelo CogVideoX:

Hoje em dia, os principais vídeos de IA são todos de código fechado. Existe um Open-Sora de código aberto, mas para ser honesto, o efeito não é satisfatório.

Quanto ao Qingying, embora o efeito ainda esteja muito aquém do modelo convencional de código fechado, é pelo menos utilizável quando se trata de executar algum conteúdo.

Desta vez, naveguei pelos de código aberto e descobri que os de código aberto eram umModelo pequeno de CogVideoX-2B.

A inferência requer memória de vídeo de 18G, ou seja, quando você tem uma única placa 3090 ou 4090, pode rodar vídeos diretamente localmente sem gastar dinheiro. Porém, o valor máximo chegará a 36G, o que provavelmente esgotará a memória de vídeo.

Mas eles próprios disseram que irão otimizá-lo em breve.

Mas eu só tenho um pequeno pedaço de lixo 4060 e a memória de vídeo é de apenas 8G. Mesmo depois de otimizá-lo, não consigo executá-lo. 4090, para ser sincero, realmente não tenho dinheiro para comprar = =

Será ótimo quando o modelo de vídeo AI, como o SD1.5, beneficiar todos os seres vivos e puder ser usado por todos.

Este modelo 2B,A duração do vídeo é de 6 segundos, a taxa de quadros é de 8 quadros/segundo e a resolução do vídeo é de 720*480。

Esses parâmetros têm a mesma sensação da primeira geração do Dream.

Vou postar alguns de seus casos oficiais (na verdade, é quase a mesma coisa se você for a Qingying e executar alguns)

Um requintado barco de brinquedo de madeira, com mastros e velas esculpidos, desliza suavemente sobre um tapete azul macio que simula as ondas do mar. O casco é pintado de marrom rico e possui pequenas janelas. O tapete é macio e texturizado, proporcionando um cenário perfeito, como um vasto oceano. O navio é cercado por diversos brinquedos e itens infantis, sugerindo um ambiente infantil. Esta cena captura a inocência e a imaginação da infância, com a viagem do barco de brinquedo simbolizando aventuras sem fim em um ambiente interior extravagante.

A câmera segue um veículo off-road retrô branco com um bagageiro preto no teto, o veículo off-road está dirigindo rapidamente em uma encosta íngreme ao longo de uma estrada de terra íngreme cercada por pinheiros, poeira está voando nos pneus, o sol está brilhando no veículo off-road, veículo off-road Dirigir rápido em uma estrada de terra lança um brilho quente em toda a cena. A estrada de terra fazia uma curva lenta ao longe, sem nenhum outro veículo à vista. As árvores de ambos os lados da estrada são sequoias e há plantas verdes espalhadas. Visto de trás, o carro segue as curvas com facilidade, como se estivesse dirigindo em um terreno acidentado. A estrada de terra em si é cercada por colinas e montanhas íngremes, com céu azul claro e finas nuvens brancas no alto.

Numa cidade devastada pela guerra, onde ruínas e ruínas falam da devastação, um close-up comovente captura uma jovem neste cenário comovente. Seu rosto estava manchado de cinzas, um testemunho silencioso do caos que a rodeava. Seus olhos brilham de tristeza e resiliência, capturando a emoção crua de um mundo desprovido de inocência devido ao conflito.

O raciocínio é provavelmente o seguinte, mas o que mais espero quando se trata de código aberto é, na verdade, a ecologia do ajuste fino e dos plug-ins.

Por exemplo, o modelo SD 1.5 de desenho de IA que todo mundo está usando agora, o modelo básico é na verdade uma merda, mas afinal é de código aberto, e vários mestres criaram modelos incríveis baseados em SD1 .5, como Majic, DreamShaper, Anything e muito mais.

eCogVideoX também pode ser ajustado.

Lembrei-me do modelo de vídeo AI feito por Stepping Stars and Shadows no WAIC. Eles usaram 200 minutos de material de boneca Calabash para criar um grande modelo de boneca Calabash.

Tudo o que você produz é no estilo Calabashwa, e você não precisa trabalhar muito para alcançar consistência de personagem. Se eu inserir Dawa, o que sai é Dawa, eu escrevo Grandpa e Snake Spirit juntos.

E agora,CogVideoX é de código aberto e, se pudermos ajustá-lo, algumas pessoas que usam IA para fazer peças curtas e séries longas podem tentar ajustar seus próprios modelos de vídeo grandes para personalizar seus estilos e personagens.

Porque sempre achei que o limite superior e a dinâmica de desempenho dos vídeos de Wensheng são muito mais altos do que os dos vídeos de Tusheng, mas os dois maiores obstáculos são a consistência do estilo e a consistência do personagem. Se puder ser ajustado, há muitos caminhos a percorrer. . resolvido.

O ajuste fino do CogVideoX-2B requer 40G de memória de vídeo. Placas gráficas comuns não são suficientes, então é necessária uma placa de renderização como a A6000.

Mas, afinal, é um modelo de vídeo. Não significa que irá beneficiar o público em geral, mas para algumas start-ups e pequenas empresas, o limite é quase igual a 0.

Por ser de código aberto, eles não precisam gastar incontáveis fundos para construir seu próprio grande modelo do zero. Para passar por essa armadilha, eles só precisam comprar alguns cartões locais, que somam dezenas de milhares ou centenas de milhares. . e então o ajuste fino pode ser feito localmente.

Sempre acreditei que o futuro do código aberto será melhor do que o código fechado.

Na noite em que Zuckerberg lançou o LLaMa3.1 405B há algum tempo, ele postou uma carta aberta de 10.000 palavras no Facebook.

Uma das passagens me impressionou profundamente.

Traduzido é:

Acredito firmemente que o código aberto é uma necessidade para um futuro positivo da IA. A IA tem maior potencial do que qualquer tecnologia moderna para melhorar a produtividade humana, a criatividade e a qualidade de vida, acelerar o crescimento económico e promover o progresso na investigação médica e científica. O código aberto garantirá que mais pessoas no mundo possam usufruir dos benefícios e oportunidades trazidos pela IA, evitará a concentração de poder nas mãos de algumas empresas e permitirá que esta tecnologia seja promovida em toda a sociedade de uma forma mais equilibrada e segura.

Evitar a concentração de poder nas mãos de poucas empresas permite que a tecnologia seja maisPromovê-lo para toda a sociedade de forma equilibrada e segura。

O código aberto é o melhor método. O código fechado não trará igualdade tecnológica, mas o código aberto trará, porque a IA não é uma ferramenta de entretenimento, é uma ferramenta de produtividade, e sua promoção vem principalmente de empresas, instituições de pesquisa, etc.

Toda empresa enfrenta três grandes dificuldades ao usar IA:

1. Eles precisam treinar, ajustar e refinar seus próprios modelos.

2. Eles precisam proteger seus dados privados.

3. Eles esperam transformar a sua IA num ecossistema padrão de longo prazo.

Tudo isso resumido em uma frase:

Precisamos ser capazes de controlar o nosso próprio destino em vez de deixá-lo para os outros.

Na China, a Zhipu é uma empresa que considero muito especial. É muito parecida.IA aberta, e tem o temperamento de Meta.

Você deve saber que o modelo de negócios da Meta é completamente diferente daquele de algumas grandes empresas modelo, como a OpenAI. Eles não arrecadam dinheiro com a venda de direitos de uso de grandes modelos, portanto, o código aberto não tem muito impacto no Meta.

Mas a Zhipu é diferente.

Mas sob tais considerações, eles ainda abrem o código-fonte resolutamente.

Talvez sejam como Meta, por aquela nobre crença: “Permitir que esta tecnologia seja promovida em toda a sociedade de uma forma mais equilibrada e segura”.

Além deAlém do CogVideoX, eles também abriram o código-fonte de muitas coisas.

Acesse o Github e navegue, você encontrará muitas surpresas:

Eu amo todas as empresas dispostas a abrir o código.

Estou ansioso pelo dia em que inúmeros desenvolvedores desenvolverão uma variedade de plug-ins e modelos de ajuste fino baseados em CogVideoX. Todas as empresas de cinema e televisão, curtas-metragens, publicidade e outras indústrias relacionadas a vídeo também o farão. têm seus próprios numerosos modelos e vários fluxos de trabalho de geração de vídeo.

Assim como a SD está prosperando em diversas empresas.

Admiro o espectro da sabedoria.

Esta não é apenas uma decisão técnica, mas também uma transmissão de crença.

As luzes do outro lado do oceano apagaram-se gradualmente.

E o amanhecer do nosso lado.

está subindo.

Agora que você leu isso, se você acha que é bom, fique à vontade para curtir, assistir e retuitar três vezes. Se quiser receber notificações o mais rápido possível, você também pode me dar uma estrela⭐. ~ Obrigado por ler meu artigo, até a próxima.

>/ Autor: Kazik

notícias

Zhipu AI abriu oficialmente o código de seu Sora “Qingying”

Introdução

minhas informações de contato