noticias

Zhipu AI acaba de hacer que su Sora "Qingying" sea oficialmente de código abierto

2024-08-06

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

En medio de la noche, el otro lado del océano no estaba rodando, pero las empresas nacionales sí estaban rodando.

Tengo muchas ganas de dormir, de verdad.

La razón es que antes de irme a la cama, mientras miraba Github, accidentalmente vi la cuenta THUKEG y actualicé un proyecto.

Vídeo CogX

THUKEG es el título oficial de Zhipu, yCogVideoX es el modelo base de la limpieza de vídeo con IA de segunda generación de Zhipu que fue muy popular en las últimas dos semanas.

En los términos más populares, CogVideoX es igual a GPT4o y Qingying es igual aChatGPT, simplemente puedes entender que uno es un modelo y el otro es un producto basado en el modelo, por lo que en realidad puedes dibujar un signo igual.

En las últimas dos semanas, en la batalla de video de IA de segunda generación, Pixverse lanzó la versión V2 basada en los tres dioses de fantasía existentes Runway, Ke Ling y Luma, y ​​también se lanzó el modelo tan solicitado de Vidu.

Como la empresa de inteligencia artificial más destacada en el campo de los modelos grandes, Zhipu también se unió a este combate de video de inteligencia artificial y lanzó su producto de video DiT, Qingying.

Este producto se puede utilizar en su asistente de inteligencia artificial, Zhipu Qingyan.

Pero para ser muy franco, no lo escribí porque creo que todavía hay una cierta brecha entre él y Keling y Runway en términos de efectos generacionales.

Y hoy, dos semanas después de liberar a Qingying, decidieronCogVideoX,Es de código abierto.

Vale la pena intentarlo.

Dirección de descarga del modelo CogVideoX:

Hoy en día, todos los videos de IA convencionales son de código cerrado. Existe un Open-Sora de código abierto, pero para ser honesto, el efecto no es satisfactorio.

En cuanto a Qingying, aunque el efecto todavía está muy por detrás del modelo convencional de código cerrado, al menos es utilizable cuando se trata de ejecutar algún contenido.

Esta vez, examiné los de código abierto y descubrí que los de código abierto eran unoModelo pequeño de CogVideoX-2B.

La inferencia requiere memoria de video de 21,6G, es decir, cuando tienes una sola tarjeta 3090 o 4090, puedes ejecutar videos directamente localmente sin gastar dinero. Sin embargo, el valor máximo alcanzará los 36G, lo que probablemente agotará la memoria de video.

Pero ellos mismos dijeron que pronto lo optimizarán.

Pero solo tengo una pequeña pieza de basura 4060 con solo 8G de memoria de video. Incluso después de optimizarlo, no puedo ejecutarlo. 4090, para ser honesto, realmente no tengo dinero para comprarlo = =

Será fantástico cuando el modelo de video AI, como SD1.5, beneficie a todos los seres vivos y pueda ser utilizado por todos.

Este modelo 2B,La duración del vídeo es de 6 segundos, la velocidad de fotogramas es de 8 fotogramas/segundo y la resolución del vídeo es 720*480

Estos parámetros tienen la misma sensación que la primera generación de Dream.

Publicaré algunos de sus casos oficiales (en realidad, es casi lo mismo si vas a Qingying y analizas algunos)

Un exquisito barco de juguete de madera, con mástiles y velas intrincadamente tallados, se desliza suavemente sobre una lujosa alfombra azul que simula las olas del océano. El casco está pintado de un intenso color marrón y tiene pequeñas ventanas. La alfombra es suave y texturizada, proporcionando un telón de fondo perfecto, como un vasto océano. El barco está rodeado de diversos juguetes y artículos infantiles, sugiriendo un ambiente infantil. Esta escena captura la inocencia y la imaginación de la infancia, y el viaje del barco de juguete simboliza aventuras sin fin en un entorno interior caprichoso.

La cámara sigue un vehículo todoterreno retro blanco con un portaequipajes negro en el techo, el vehículo todoterreno conduce rápidamente por una ladera empinada a lo largo de un camino de tierra empinado rodeado de pinos, el polvo vuela sobre los neumáticos, el sol brilla en el vehículo todoterreno, vehículo todoterreno Conducir rápido por un camino de tierra arroja un brillo cálido en toda la escena. El camino de tierra se curvaba lentamente hacia la distancia, sin otros vehículos a la vista. Los árboles a ambos lados de la carretera son secuoyas y hay plantas verdes dispersas. Visto desde atrás, el coche sigue las curvas con facilidad, como si circulara por un terreno accidentado. El camino de tierra en sí está rodeado de colinas y montañas empinadas, con cielos azules claros y tenues nubes blancas en lo alto.

En una ciudad devastada por la guerra, con sus ruinas y ruinas que cuentan la historia de la devastación, un conmovedor primer plano captura a una joven en este desgarrador telón de fondo. Su rostro estaba manchado de ceniza, un testimonio silencioso del caos que la rodeaba. Sus ojos brillan con tristeza y resiliencia, capturando la cruda emoción de un mundo desprovisto de inocencia debido al conflicto.

El razonamiento probablemente sea el siguiente, pero lo que más espero cuando se trata de código abierto es en realidad la ecología del ajuste fino y los complementos.

Por ejemplo, el modelo SD 1.5 de dibujo de IA que todos están usando ahora, el modelo básico es en realidad como una mierda, pero después de todo es de código abierto. Un grupo de maestros ha creado modelos increíbles basados ​​​​en SD1. 5, como Majic, DreamShaper, Anything y más.

yCogVideoX también se puede ajustar.

Recordé el modelo de video de IA realizado por Stepping Stars and Shadows en WAIC. Usaron 200 minutos de material de muñeca Calabash para crear un modelo de muñeca Calabash grande.

Todo lo que produce es al estilo de Calabash Baby. No tienes que trabajar duro para lograr la consistencia del personaje. Si introduzco Da Wa, lo que sale es Da Wa, escribo Grandpa y Snake Spirit juntos. de ellos.

Y ahora,Vídeo de engranaje

Porque siempre he sentido que el límite superior y la dinámica de rendimiento de los videos de Wensheng son mucho más altos que los de los videos de Tusheng, pero los dos mayores obstáculos son la coherencia del estilo y la coherencia de los personajes. Si se puede ajustar, hay muchos caminos por recorrer. . resuelto.

El ajuste fino de CogVideoX-2B requiere 46,2G de memoria de video. Las tarjetas gráficas comunes no son suficientes, por lo que se necesita una tarjeta de renderizado como la A6000.

Pero al fin y al cabo, es un modelo de vídeo, lo que no significa que vaya a beneficiar al público en general, pero para algunas empresas emergentes y pequeñas, el umbral es casi igual a 0.

Debido a que se trata de código abierto, no necesitan gastar innumerables fondos para construir su propio modelo grande desde cero. Para superar este problema, solo necesitan comprar algunas tarjetas locales, lo que suma decenas de miles o cientos de miles. , y luego el ajuste fino se puede realizar localmente.

Siempre he creído que el futuro del código abierto será mejor que el del código cerrado.

La noche en que Zuckerberg lanzó LLaMa3.1 405B hace algún tiempo, publicó una carta abierta de 10.000 palabras en Facebook.

Uno de los pasajes me impresionó profundamente.

Traducido es:

Creo firmemente que el código abierto es una necesidad para un futuro positivo de la IA. La IA tiene mayor potencial que cualquier tecnología moderna para mejorar la productividad, la creatividad y la calidad de vida humanas, acelerar el crecimiento económico y promover el progreso en la investigación médica y científica. El código abierto garantizará que más personas en el mundo puedan disfrutar de los beneficios y oportunidades que brinda la IA, evitará la concentración de poder en manos de unas pocas empresas y permitirá que esta tecnología se promueva en toda la sociedad de una manera más equilibrada y segura.

Evitar la concentración de poder en manos de unas pocas empresas permite que la tecnología sea másPromocionarlo a toda la sociedad de forma equilibrada y segura.

El código abierto es el mejor método. El código cerrado no traerá igualdad tecnológica, pero el código abierto sí, porque la IA no es una herramienta de entretenimiento, es una herramienta de productividad, y su promoción proviene principalmente de empresas, instituciones de investigación, etc.

Toda empresa tiene tres grandes problemas al utilizar la IA:

1. Necesitan entrenar, afinar y perfeccionar sus propios modelos.

2. Necesitan proteger sus datos privados.

3. Esperan convertir su IA en un ecosistema estándar a largo plazo.
Todo ello, resumido en una frase:

Necesitamos poder controlar nuestro propio destino en lugar de dejárselo a otros.

En China, Zhipu es una empresa que creo que es muy especial. Es muy similar a.IA abierta, y tiene el temperamento de Meta.

Debe saber que el modelo de negocio de Meta es completamente diferente del de algunas grandes empresas modelo como OpenAI. No recaudan dinero vendiendo el derecho a utilizar modelos grandes, por lo que el código abierto no tiene mucho impacto en Meta.

Pero Zhipu es diferente.

Pero bajo tales consideraciones, todavía lo abren decididamente.

Quizás sean como Meta, por esa creencia tan noble: "Permitir que esta tecnología se promueva en toda la sociedad de una manera más equilibrada y segura".

Aparte deAdemás de CogVideoX, también tienen muchas cosas de código abierto.

Ve a su Github y navega, encontrarás muchas sorpresas:

Amo a todas las empresas dispuestas a abrir código.

Espero con ansias el día en el futuro en el que innumerables desarrolladores desarrollen una variedad de complementos y modelos de ajuste basados ​​​​en CogVideoX. Todas las empresas de cine y televisión, dramas cortos, publicidad y otras industrias relacionadas con el video también lo harán. tienen sus propios numerosos modelos y varios flujos de trabajo de generación de video.

Al igual que SD está prosperando en varias empresas.

Admiro el espectro de la sabiduría.

No se trata sólo de una decisión técnica, sino también de una transmisión de creencias.

Las luces al otro lado del océano se fueron apagando gradualmente.

Y el amanecer de nuestro lado.

está aumentando.

Ahora que has leído esto, si te parece bueno, no dudes en darle me gusta, verlo y retuitearlo tres veces. Si quieres recibir notificaciones lo antes posible, también puedes regalarme una estrella⭐. ~Gracias por leer mi artículo. Hasta la próxima.
>/ Autor: Kazik