Dejemos que el vídeo con IA entre en la era del "GC universal", esta empresa china acaba de hacerlo

2024-07-24

La casa se originó en el templo de Aofei.
Qubits | Cuenta pública QbitAI

Umbral más bajo, mayor calidad, más lógica y mayor duración.

Estas pocas "actualizaciones" hicieron su debut esta misma mañana.Nuevo producto de vídeo de IA nacional PixVerse V2, el calor subió en un instante.

Y sus orígenes son llamativos:

De la empresa emergente estrella nacional más vista en esta pistaTecnología AishiSolo en el primer semestre de este año, la empresa completó dos rondas de financiación.

Echemos un vistazo directamente a las "nuevas ideas" clave de Pixverse V2:

Tecnología modelo, Adopta la arquitectura DiT (Difusión + Transformador) y utiliza tecnología original en muchos aspectos para mejorar significativamente el efecto de generación.

Por ejemplo, la introducción de un mecanismo de atención espaciotemporal puede lograr una generación de vídeo más grande y natural.

Echemos un vistazo a la pequeña alpaca navegando felizmente a continuación, lo cual es muy apropiado ya que LIama 3.1 fue lanzado y alcanzó la cima hoy.

Cantidad y calidad de vídeo., admite la generación de hasta 5 piezas consecutivas de contenido de video con un solo clic.

Y la coherencia de la imagen principal, el estilo de imagen y los elementos de la escena se mantendrán automáticamente entre los clips.

Además, la presentación oficial de Aishi también indicó que el nuevo productoEl umbral de palabras de aviso se ha reducido drásticamente nuevamente。

Independientemente de si ha aprendido la técnica de las palabras rápidas o no, siempre que exprese los requisitos de la imagen de forma clara y concisa, podrá implementarla fácilmente.yLo mismo se aplica al contexto chino.。

Además, existe coherencia en el estilo, el tema y la escena entre varios videos generados al mismo tiempo——

Haz un vídeo corto ahoraNo sólo no es necesario que tomes fotografías tú mismo, sino que ni siquiera necesitas cortarlas tú mismo.。

¡Géneralo con un clic y súbelo directamente a varias plataformas para compartirlo, niña ganso!

Tanto la calidad como la cantidad están garantizadas y el umbral es cada vez más bajo.

La creación de vídeos con IA ha estado profundamente involucrada por empresas como PixVerse, Runway y Luma.Todos pueden disfrutarloera.

Genera hasta 5 videos para permitir la creatividad continua.

¡Pero espera!

Nunca nos cegarán fácilmente las demostraciones publicadas por varias empresas.

Entonces, después de descubrir que PixVerse V2 se lanzó esta mañana, Qubits se lanzó de inmediato.Prueba de carne humana.

Ingrese al sitio web oficial de PixVerse y vaya directamente a PixVerse V2 en la barra de menú de la izquierda.

actualmenteAdmite modos de dos generaciones de texto/imágenes y vídeosEn funcionamiento real, puede elegir uno de los dos o puede utilizar ambos juntos.

Cuadro de solicitud de entrada de texto, las imágenes se pueden cargar haciendo clic en el cuadro amarillo en la imagen a continuación.

En la esquina inferior derecha del cuadro de entrada, en la parte de selección del cuadro gris, también hayOpciones de 5s/8s, puede elegir la duración del videoclip único generado según sus propias necesidades.

La escena seleccionada con un marco verde se refiere al videoclip específico que debe generarse.

De hecho, como dice la introducción oficial, ahora se pueden agregar hasta 5 videos para generar, es decir, Escenas 1-5.

El estilo de imagen de todos los clips de escena seguirá la Escena 1., incluso si otras escenas posteriores cargan imágenes de referencia, PixVerse hará referencia al estilo de imagen de la Escena 1 para volver a dibujarla.

En resumen, hice todo lo posible para mantener coherente el estilo de los cinco vídeos.

Además, las palabras/imágenes de indicación de cada escena se pueden ingresar individualmente.

Una vez que haya terminado, puede hacer clic en el botón de estrella en la esquina inferior derecha del cuadro de entrada para ingresar al estado de generación.

Después de la experiencia, descubrí que no importa cuántas escenas se deban generar, cada generación cuesta 50 créditos (la moneda de potencia informática de PixVerse V2).

Durante la experiencia, apegándose a la entrada.El mensaje más simple posibleEn principio, las cinco palabras clave que ingresamos son las siguientes:

Temprano en la mañana, un conejito blanco se vistió en la cama.
El conejito blanco iba camino al trabajo y pasó por un jardín.
El conejito blanco sostiene una taza de café humeante.
El conejito blanco sostiene café y espera en la cola del ascensor.
El resignado conejito blanco saltaba por el camino.

Aunque después de la generación puedes usar las opciones para ajustar cada video individualmente (ajustar el sujeto, la escena, la acción y el movimiento de la cámara), no hicimos ninguna intervención y nos enfocamos en el sabor original.

Los resultados generados son los siguientes:

△ Teniendo en cuenta la apariencia, este video solo se acelera 2,5 veces en cuanto a velocidad de reproducción.

Los 5 clips se han empalmado.Puedes descargar la versión completa directamente.,muy conveniente.

Es un poco gracioso en el vídeo, Pia, la conejita blanca que dimitió, se quita la ropa de trabajo sin quitarle ningún sentido de clase.

Después de empezar y dar este paso, soy un trabajador como yo que cuida mi presupuesto. He hecho un descubrimiento maravilloso y debo compartirlo con todos:

Si solo desea generar un videoclip a la vez, ajuste directamente las opciones de PixVerse V2 y elimínelo solo en la Escena 1, y estará bien; lo llamamos método 1.

Pero hay otra forma (Método 2) de ingresar a otro modo de PixVerse V2 a través de otra entrada.

Después de preguntar en la oficina, si desea generar un solo videoclip, todos prefieren el último método.

¿Por qué?

Primero, el método 2 puede realizar más ajustes según parámetros como la proporción del video y el estilo del video. Cuanta más información “quiera” brinde, es más probable que el modelo lo comprenda y será más probable que las imágenes de video generadas estén disponibles. línea con lo que quieres.

Por otro lado, el ábaco crepitó y calculó, el método 1 consume 50 créditos por una generación, ya sea que genere 1 fragmento o 5 fragmentos, esta cantidad se deducirá pero el método 2 solo cuesta 30 créditos por una generación;

¡Ahorren dinero, amigos!

Tome rápidamente una pequeña libreta en su mente y escriba el proceso de operación del método 2——

Haga clic en Texto a video en la barra de menú de la izquierda, luego seleccione "PixVerse V2" en "Modelo".

puede llevarse a caboVídeo de Vicente.

Y al agregar palabras como "anime" y "realista" a las palabras clave, el contenido generado se puede transformar con estilo.

El punto es difícil, genera algunas escenas que no existen en el mundo real. Ingrese la palabra solicitada:

El gigante de los malvaviscos deambula por el colorido bosque de malvaviscos.

Generar resultados:

Está bien, está bien, increíble, ¡nunca pensé que realmente podría obtener una descripción tan abstracta como "Gigante de Marshmallow"!

Las conjeturas a ciegas se deben a que la comprensión semántica detrás de PixVerse V2 se ha optimizado significativamente.

También se pueden experimentar métodos similares.Función de vídeo Tusheng。

Haga clic en Imagen a video en la barra de menú de la izquierda y seleccione "PixVerse V2" en "Modelo".

Es una pequeña lástima que el pincel de movimiento mencionado anteriormente no se pueda usar en los videos Tuxing de PixVerse.

Cabe señalar que Tusheng Video actualmente no puede usar el pincel de movimiento "pintar y mover" (esta es la nueva función de video AI lanzada por Aishi el mes pasado).

Qubit preguntó al equipo de PixVerse V2:El cepillo de movimiento también estará disponible pronto en la versión V2.。

Los pinceles de movimiento de Runway y PixVerse han sido bien recibidos antes, porque compensan la falta de descripción de palabras rápidas y mejoran la controlabilidad del movimiento de la imagen.

Si PixVerse V2 lanza esta función, creo que será más divertido para todos jugar y el movimiento de personajes/objetos en el video será más consistente con las leyes de la física.

En vista de que la "pasarela" de personas o animales siempre ha sido una opción imprescindible para que los videos con IA muestren sus músculos (aunque no sabemos por qué), esta vez al experimentar la función de video gráfico PixVerse V2, Fue directo a la intensidad y realizó unParkour de astronautas en la calle.。

Ingrese la imagen del mensaje:

Generar resultados:

Esta tarea es una especie de mejora de acumulación, que se basa en imágenes para generar la dinámica de contenido poco realista.

Lo que es más necesario es que el modelo que lo respalda tenga una fuertecomprensión visual。

Desde el punto de vista del efecto, ya sea creación continua de video, video basado en texto o video basado en imágenes, PixVerse V2 puede ganar fácilmente.

Finalmente, me gustaría mencionar que no importa si eres Wensheng o Tusheng, cada video de 5s/8s generado costará 30 créditos.

Sin embargo, la velocidad de generación es relativamente rápida y la calidad es estable y garantizada. De hecho, creo que vale la pena gastar los 30 créditos.

Soporte de actualización del molde base DiT

En la pista de video de IA, conocida como el rey de los reyes del volumen este año, Ai Shi de repente hizo un movimiento diferente.

Cuando todos los jugadores de Sora en todo el mundo están ampliando la duración, mejorando la calidad de los gráficos y reduciendo la dificultad,Lo que hace Aishi es cortar el umbral salvajemente.。

No sólo no es necesario que la palabra clave sea demasiado profesional, sino que, lo que es más importante, puede crear (hasta) 5 vídeos a la vez, cada uno de 8 segundos.

Se puede garantizar la coherencia de estilo, tema y escena entre estos de 1 a 5 videoclips y, según la lógica entre las palabras clave de cada videoclip, finalmente se sintetiza un video largo de aproximadamente 40 segundos.

Del tipo que tiene una trama coherente y un contenido consistente.

Se dice que tiene "movimientos suaves y detalles ricos" y la calidad de imagen alcanza los 1080p.

En otras palabras, los usuarios pueden pensar en lo que quieren, ingresar palabras clave y esperar a que se genere el video con una duración que oscila entre 10 y 40 segundos.

No sólo puede lograr "mover las ideas en la mente al video" en la imagen, y los clips son coherentes y naturales, sino que también puede ahorrar tiempo y esfuerzo en el proceso de producción del video, y la eficiencia creativa ha mejorado enormemente;

Después del lanzamiento de PixVerse V2, algunos internautas rápidamente comenzaron a usarlo.

La aparición de PixVerse V2 permite a muchas personas que nunca han usado herramientas de video de IA, o incluso hecho videos, usarlo para lograr un gran avance en la cantidad de obras generadas de 0 a 5 y la cantidad de obras de 0 a 1.。

Se vuelve a delegar el derecho a utilizar las herramientas de AIGC。

La expansión de los usuarios de herramientas AIGC fuera del círculo (ya no limitado a usuarios profesionales) se logra mediante actualizaciones iterativas de la tecnología.

Detrás de PixVerse V2 está la tecnología AishiActualizaciones iterativas del modelo de desarrollo propio subyacente a la arquitectura DiT。

Esta es también la tecnología central detrás de PixVerse.

Para revisar la situación anterior, Qubit revisó la información pública del discurso externo de Aishi/Wang Changhu y descubrió que al principio, la compañía adoptó la ruta técnica de la arquitectura Diffusion+Unet, que también era el enfoque principal de AIGC antes de la llegada de Sora. , pero a medida que avanzaba, con expansión de parámetros e instrucciones complejas, Unet es un poco inadecuado.

Por lo tanto, Aishi comenzó a probar la arquitectura DiT muy temprano (antes de que apareciera Sora) y siguió la Ley de escala para mejorar el rendimiento del modelo.

El auto giró muy temprano, por lo que la aparición de Sora no tomó a Aishi con la guardia baja. Al contrario, debido a que verificó que la ruta era correcta, la velocidad de Aishi aumentó significativamente este año.

Entonces, ¿cuáles son las actualizaciones del modelo base DiT de PixVerse V2 esta vez?

El primer punto está en el modelado espacio-temporal de difusión.

Aishi ha creado un mecanismo de modelado de atención espaciotemporal único, que es "más razonable" y superior a la separación espaciotemporal y la arquitectura fullseq.

Este mecanismo tiene una mejor percepción del tiempo y el espacio y puede manejar mejor escenas complejas.

El segundo punto está en la comprensión del texto.

La capacidad de PixVerse V2 para comprender indicaciones se ha mejorado significativamente. Detrás de escena está el uso de un modelo multimodal, que puede alinear mejor la información de texto y la información de video, de modo que los resultados generados sean los que pretendía el creador.

terceroPara obtener una mayor eficiencia informática, PixVerse V2 pondera la pérdida según el modelo de flujo tradicional, para que el modelo pueda converger más rápido y mejor.

Otro punto, es el equipo de I+D detrás de PixVerse V2 el que ha diseñado un mejor modelo 3D VAE.

Se introduce un mecanismo de atención espaciotemporal para mejorar la calidad de la compresión de video; también se utiliza tecnología de aprendizaje continuo para mejorar aún más los resultados de compresión y reconstrucción de video.

Tendencia UGC "simple e interesante" bajo la bendición de la IA

AIGC es simplemente el tema más conocido de este año.

peroEn realidad, la capacidad de aplicar AIGC todavía está en manos de un pequeño número de personas., como programadores, diseñadores y otros profesionales.

AIGC aún no ha entrado en la etapa de "GC" universal como UGC.

Ante tal situación, lo que ha hecho Aishi Technology desde su creación hace más de un año se puede resumir de la siguiente manera:

Mejorar continuamente las capacidades de la tecnología de IA
Ampliar el grupo sujeto del verbo "G (Generado)"
Preste atención al nivel de calidad de "C (Contenido)".

Esto no sólo se refleja en PixVerse V2, sino también en la misma línea en el futuro——

Una revisión encontró que el lanzamiento de PixVerse V2 es en realidad la tercera vez este año que la compañía realiza movimientos en funciones y productos de video de IA.

En enero de este año, Aishi lanzó oficialmente la versión web de PixVerse, un producto de vídeo de Vincent, con visitas mensuales que rápidamente superaron el millón.

En abril, se lanzó la función C2V (Carácter a video, coherencia de roles) desarrollada en base al modelo de video de desarrollo propio y se puede utilizar en la página web.

Al extraer con precisión las características de los personajes e incrustarlas profundamente en el modelo de generación de video, PixVerse puede bloquear personajes y resolver inicialmente el problema de coherencia en la creación de videos con IA.

En junio, se lanzó el pincel de movimiento Magic Brush. Úselo para difuminar la pantalla de video y controlar con precisión el movimiento y la dirección de los elementos del video.

Esta es también la primera empresa de generación de videos de IA que lanza funciones similares después de Runway.

Tres veces en medio año no es infrecuente, pero las acciones en las dos primeras veces parecieron un poco discretas.

Esto puede estar relacionado con el deseo de la nueva empresa de concentrarse en pulir sus obras, o puede estar relacionado con el carácter discreto de Wang Changhu y otros líderes, no lo sabemos.

Pero el fenómeno es que muchas personas saben que Aishi Technology es el líder en la pista de video de IA nacional, pero no necesariamente saben por qué es el líder y si es fácil de usar.

Ahora que aparece PixVerses V2, jóvenes y mayores, profesionales y no profesionales pueden usarlo personalmente y sentir que es realmente muy efectivo; esta es una de las razones por las que PixVerse V2 se convirtió en un éxito instantáneo después de su lanzamiento.

Y si analizamos varias acciones, no es difícil encontrar que estas diversas actualizaciones de capacidades del producto se centran en un solo cuerpo principal:Haga que la creación de videos con IA sea más práctica y sencilla。

Al mismo tiempo, se puede ver que las capacidades del producto anterior se centraban en la experiencia de uso de los profesionales.

Esto también corrobora el discurso anterior de Wang Changhu. Él dijo una vez:

Se espera que el vídeo nativo de IA pueda integrarse en los enlaces de producción y consumo de la industria de contenidos.

Pero PixVerse V2 es diferente. Esta generación de productos se centra en cómo hacer que la creación de videos con IA sea accesible para una gama más amplia de personas comunes y corrientes.

Después de todo, aunque Magic Brush es fácil de usar y útil, todavía requiere que el usuario haya generado un vídeo de IA.

Las indicaciones de video son más difíciles que la generación de texto y las indicaciones de generación de texto, y a menudo son un obstáculo para que la gente común use la generación de video con IA.

Lo que captura PixVerse V2 es maravilloso——

Desde varios aspectos, como reducir la dificultad de las palabras clave, realizar ajustes opcionales, ampliar los límites del contenido generado y eliminar la necesidad de editar en la etapa posterior, intentamos reducir el costo de la creación de videos con IA tanto como sea posible.

¿Cuál será el resultado?

todos,Todos tienen una oportunidad y todos pueden participar., puede convertir su imaginación salvaje en trabajos de video visibles.

Debido a que existe un fuerte sentido de participación, más personas, e incluso todos, pueden liberar su creatividad y participar en la creación de videos con IA.

A la larga,Poco a poco, se formará un ecosistema UGC en la era de la IA, que será más simple e interesante que el UGC.。

He visto una imagen de meme interesante antes y creo que muchos amigos también la han visto:

"PixVerse tiene el honor de estar en primera fila, junto con los mejores productos de generación de vídeo del momento, como Runway, Pika y SVD. También es la única empresa china en esta imagen que el propio Wang Changhu alguna vez tuvo esta imagen". Bromea: "Pero, por otro lado, tenemos un gigante por delante y todavía tenemos que superarlo aún más".

Es innegable que el video con IA es el foco de la pista multimodal en la era AI 2.0, especialmente después de que Sora causó gran revuelo.

El entusiasmo total de todos los gigantes, los principales fabricantes y las empresas emergentes ilustra un problema.

El vídeo con IA está ampliando y estimulando el potencial del mercado, y la innovación impulsada por grandes modelos multimodales de IA está creciendo.

Aishi puede aparecer en esta imagen de meme y es la única empresa china en la imagen. La razón es muy obvia.

Por un lado, se reconoce la tecnología modelo de Aishi Technology y los efectos del producto creados en moldes base de desarrollo propio.

por otro lado,No importa en qué ola de tecnología se encuentren, las startups recibirán atención global.

Durante la guerra de las búsquedas, Google utilizó el innovador algoritmo de clasificación de páginas web PageRank para robar usuarios de Yahoo e incluso superó a los recién llegados, convirtiéndose en el líder del mercado de búsqueda hasta el día de hoy.

En los primeros días del gran modelo de lenguaje, aunque Transformer vino de Google, GPT fue una iniciativa de OpenAI, una pequeña institución de investigación (en ese momento gradualmente condujo al GPT-4o de hoy y se convirtió en el objetivo de ser perseguido).

Hoy, entre los perseguidores y competidores de OpenAI se encuentra Google.

En cualquier momento, incluso ante el asedio de grandes empresas y gigantes, siempre hay historias de startups que estallan chispas que encienden la industria y brillan estrellas.

Lo que Aishi Technology está escribiendo con tecnología y productos es la pista de video de IA, que es la propia historia de la nueva empresa.

noticias