notícias

Zhipu AI acaba de tornar seu Sora “Qingying” oficialmente de código aberto

2024-08-06

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

No meio da noite, o outro lado do oceano não rolava, mas as empresas nacionais rolavam.

Eu realmente quero dormir, sério.

A razão é que antes de ir para a cama, quando estava olhando o Github, acidentalmente vi a conta THUKEG e atualizei um projeto.

CogVideoX

THUKEG é o título oficial de Zhipu, eCogVideoX é o modelo básico da limpeza de vídeo AI de segunda geração da Zhipu, que foi muito popular nas últimas duas semanas.

Nos termos mais populares, CogVideoX é igual a GPT4o e Qingying é igual aBate-papoGPT, você pode simplesmente entender que um é um modelo e o outro é um produto baseado no modelo, então você pode realmente desenhar um sinal de igual.

Nas últimas duas semanas, na batalha de vídeo de IA de segunda geração, Pixverse lançou a versão V2 baseada nos três deuses da fantasia existentes, Runway, Ke Ling e Luma, e o tão solicitado modelo de Vidu também foi lançado.

Como a empresa de IA mais famosa no campo de modelos grandes, a Zhipu também se juntou a essa confusão de vídeos de IA e lançou seu produto de vídeo DiT, Qingying.

Este produto pode ser usado em seu assistente de IA, Zhipu Qingyan.

Mas, para ser muito franco, não o escrevi porque acho que ainda há uma certa lacuna entre Keling e Runway em termos de efeitos de geração.

E hoje, duas semanas depois de lançar Qingying, eles decidiramCogVideoX,É código aberto.

Vale a pena tentar.

Endereço de download do modelo CogVideoX:

Hoje em dia, os principais vídeos de IA são todos de código fechado. Existe um Open-Sora de código aberto, mas para ser honesto, o efeito não é satisfatório.

Quanto ao Qingying, embora o efeito ainda esteja muito aquém do modelo convencional de código fechado, é pelo menos utilizável quando se trata de executar algum conteúdo.

Desta vez, naveguei pelos de código aberto e descobri que os de código aberto eram umModelo pequeno de CogVideoX-2B.

A inferência requer memória de vídeo de 21,6 G, ou seja, quando você tem uma única placa 3090 ou 4090, pode rodar vídeos diretamente localmente sem gastar dinheiro. Porém, o valor máximo chegará a 36G, o que provavelmente esgotará a memória de vídeo.

Mas eles próprios disseram que irão otimizá-lo em breve.

Mas eu só tenho um pequeno pedaço de lixo 4060 com apenas 8G de memória de vídeo, mesmo depois de otimizá-lo, não consigo executá-lo. 4090, para ser sincero, realmente não tenho dinheiro para comprar = =

Será ótimo quando o modelo de vídeo AI, como o SD1.5, beneficiar todos os seres vivos e puder ser usado por todos.

Este modelo 2B,A duração do vídeo é de 6 segundos, a taxa de quadros é de 8 quadros/segundo e a resolução do vídeo é de 720*480

Esses parâmetros têm a mesma sensação da primeira geração do Dream.

Vou postar alguns de seus casos oficiais (na verdade, é quase a mesma coisa se você for a Qingying e executar alguns)

Um requintado barco de brinquedo de madeira, com mastros e velas esculpidos, desliza suavemente sobre um tapete azul macio que simula as ondas do mar. O casco é pintado de marrom rico e possui pequenas janelas. O tapete é macio e texturizado, proporcionando um cenário perfeito, como um vasto oceano. O navio é cercado por diversos brinquedos e itens infantis, sugerindo um ambiente infantil. Esta cena captura a inocência e a imaginação da infância, com a viagem do barco de brinquedo simbolizando aventuras sem fim em um ambiente interior extravagante.

A câmera segue um veículo off-road retrô branco com um bagageiro preto no teto, o veículo off-road está dirigindo rapidamente em uma encosta íngreme ao longo de uma estrada de terra íngreme cercada por pinheiros, poeira está voando nos pneus, o sol brilha no veículo off-road, veículo off-road Dirigir rápido em uma estrada de terra lança um brilho quente em toda a cena. A estrada de terra fazia uma curva lenta ao longe, sem nenhum outro veículo à vista. As árvores de ambos os lados da estrada são sequoias e há plantas verdes espalhadas. Visto de trás, o carro segue as curvas com facilidade, como se estivesse dirigindo em um terreno acidentado. A estrada de terra em si é cercada por colinas e montanhas íngremes, com céu azul claro e finas nuvens brancas no alto.

Numa cidade devastada pela guerra, com as suas ruínas e ruínas contando a história da devastação, um close-up comovente captura uma jovem neste cenário comovente. Seu rosto estava manchado de cinzas, um testemunho silencioso do caos que a rodeava. Seus olhos brilham de tristeza e resiliência, capturando a emoção crua de um mundo desprovido de inocência devido ao conflito.

O raciocínio é provavelmente o seguinte, mas o que mais espero quando se trata de código aberto é, na verdade, a ecologia do ajuste fino e dos plug-ins.

Por exemplo, o modelo SD 1.5 de desenho de IA que todo mundo está usando agora, o modelo básico é na verdade uma merda, mas afinal é de código aberto. Vários mestres criaram modelos incríveis baseados em SD1. 5, como Majic, DreamShaper, Anything e muito mais.

eCogVideoX também pode ser ajustado.

Lembrei-me do modelo de vídeo AI feito por Stepping Stars and Shadows no WAIC. Eles usaram 200 minutos de material de boneca Calabash para criar um grande modelo de boneca Calabash.

Tudo o que você produz é no estilo Calabash Baby. Você não precisa trabalhar muito para conseguir consistência de personagem. Se eu inserir Da Wa, o que sai é Da Wa, eu escrevo Grandpa e Snake Spirit, são os dois. deles.

E agora,Vídeo da engrenagem

Porque sempre achei que o limite superior e a dinâmica de desempenho dos vídeos de Wensheng são muito mais altos do que os dos vídeos de Tusheng, mas os dois maiores obstáculos são a consistência do estilo e a consistência do personagem. Se puder ser ajustado, há muitos caminhos a percorrer. . resolvido.

O ajuste fino do CogVideoX-2B requer 46,2 G de memória de vídeo. Placas gráficas comuns não são suficientes, portanto, é necessária uma placa de renderização como a A6000.

Mas, afinal, é um modelo de vídeo. Não significa que irá beneficiar o público em geral, mas para algumas start-ups e pequenas empresas, o limite é quase igual a 0.

Por ser de código aberto, eles não precisam gastar incontáveis ​​​​fundos para construir seu próprio grande modelo do zero. Para passar por essa armadilha, eles só precisam comprar alguns cartões locais, que somam dezenas de milhares ou centenas de milhares. . e então o ajuste fino pode ser feito localmente.

Sempre acreditei que o futuro do código aberto será melhor do que o código fechado.

Na noite em que Zuckerberg lançou o LLaMa3.1 405B há algum tempo, ele postou uma carta aberta de 10.000 palavras no Facebook.

Uma das passagens me impressionou profundamente.

Traduzido é:

Acredito firmemente que o código aberto é uma necessidade para um futuro positivo da IA. A IA tem maior potencial do que qualquer tecnologia moderna para melhorar a produtividade humana, a criatividade e a qualidade de vida, acelerar o crescimento económico e promover o progresso na investigação médica e científica. O código aberto garantirá que mais pessoas no mundo possam usufruir dos benefícios e oportunidades trazidos pela IA, evitará a concentração de poder nas mãos de algumas empresas e permitirá que esta tecnologia seja promovida em toda a sociedade de uma forma mais equilibrada e segura.

Evitar a concentração de poder nas mãos de poucas empresas permite que a tecnologia seja maisPromovê-lo para toda a sociedade de forma equilibrada e segura

O código aberto é o melhor método. O código fechado não trará igualdade tecnológica, mas o código aberto trará, porque a IA não é uma ferramenta de entretenimento, é uma ferramenta de produtividade, e sua promoção vem principalmente de empresas, instituições de pesquisa, etc.

Toda empresa enfrenta três grandes dificuldades ao usar IA:

1. Eles precisam treinar, ajustar e refinar seus próprios modelos.

2. Eles precisam proteger seus dados privados.

3. Eles esperam transformar a sua IA num ecossistema padrão de longo prazo.
Tudo isso resumido em uma frase:

Precisamos ser capazes de controlar o nosso próprio destino em vez de deixá-lo para os outros.

Na China, a Zhipu é uma empresa que considero muito especial. É muito parecida.IA aberta, e tem o temperamento de Meta.

Você deve saber que o modelo de negócios da Meta é completamente diferente daquele de algumas grandes empresas modelo, como a OpenAI. Eles não arrecadam dinheiro vendendo o direito de usar modelos grandes, portanto, o código aberto não tem muito impacto no Meta.

Mas a Zhipu é diferente.

Mas sob tais considerações, eles ainda abrem o código-fonte resolutamente.

Talvez sejam como Meta, por aquela nobre crença: “Permitir que esta tecnologia seja promovida em toda a sociedade de uma forma mais equilibrada e segura”.

Além deAlém do CogVideoX, eles também abriram o código-fonte de muitas coisas.

Acesse o Github e navegue, você encontrará muitas surpresas:

Eu amo todas as empresas dispostas a abrir o código.

Estou ansioso pelo dia em que inúmeros desenvolvedores desenvolverão uma variedade de plug-ins e modelos de ajuste fino baseados em CogVideoX. Todas as empresas de cinema e televisão, curtas-metragens, publicidade e outras indústrias relacionadas a vídeo também o farão. têm seus próprios numerosos modelos e vários fluxos de trabalho de geração de vídeo.

Assim como a SD está prosperando em diversas empresas.

Admiro o espectro da sabedoria.

Esta não é apenas uma decisão técnica, mas também uma transmissão de crença.

As luzes do outro lado do oceano apagaram-se gradualmente.

E o amanhecer do nosso lado.

está subindo.

Agora que você leu isso, se você acha que é bom, fique à vontade para curtir, assistir e retuitar três vezes. Se quiser receber notificações o mais rápido possível, você também pode me dar uma estrela⭐. ~ Obrigado por ler meu artigo, até a próxima.
>/ Autor: Kazik