noticias

¡PixVerse V2 ya está aquí!Genere 5 "Sora" de una vez y el "volumen" de la pista de generación de video se irá volando

2024-07-24

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


Autor |

Correo electrónico | [email protected]

"¡Demasiado rizado!"

Desde junio, los productos de generación de video han marcado el comienzo de una gran explosión. Desde Keling hasta Luma y Runway Gen3, las capacidades del modelo y los efectos de productización son cada vez mejores.

Justo ahora, PixVerse ha lanzado la versión V2. Además de actualizar la arquitectura DiT, ¡puede generar cinco contenidos de video con efecto "Sora" seguidos!

En pruebas creativas como gatos comiendo fideos y perros montando motocicletas, la claridad de video, la calidad dinámica y la estética de PixVerse V2 obtuvieron buenos resultados.

Según Silicon Star,Basado en la arquitectura DiT (Diffusion + Transformer) combinada con el mecanismo de atención espaciotemporal, PixVerse V2 ha experimentado actualizaciones graduales en las capacidades del modelo.Admite la generación de videos de 8 segundos a la vez, al tiempo que mejora significativamente el rango dinámico, la expresión de detalles y la autenticidad del video. Otra actualización importante es que PixVerse V2 admite la generación con un solo clic de 1 a 5 contenidos de video continuos; Los clips mantendrán automáticamente la coherencia de la imagen principal, el estilo de imagen y los elementos de la escena, es decir, ¡todos pueden generar fácilmente contenido de video de 40 segundos!

Desde la perspectiva del efecto de generación, por un lado, la versión PixVerse V2 del contenido generado por video tiene una mayor densidad de información y puede transmitir más información en unos pocos segundos. Al mismo tiempo, se mejora la consistencia, lo que hace que el contenido generado. el contenido es más utilizable; por otro lado, el diseño del producto V2 simplifica las funciones complejas tanto como sea posible, lo que permite a los principiantes crear.

Descubrimos que con la iteración continua de la tecnología y los productos del modelo de generación de video, los usuarios comunes, ya sean nacionales o extranjeros, han mostrado una gran demanda. La creación de contenido de vídeo con IA no se limita a grupos profesionales. Los usuarios comunes también están ansiosos por expresar su creatividad e ideas a través de herramientas simples e intuitivas.

Si observa las iteraciones del producto PixVerse V2 desde esta perspectiva, encontrará que cada función se esfuerza por acercarse a los usuarios.

1

1. Cada iteración es un paso más hacia los usuarios.

Desde su lanzamiento, PixVerse se ha convertido en uno de los productos de generación de vídeo más populares basado en la innovación tecnológica y un profundo conocimiento de las necesidades de los usuarios.

En la última versión V2, una de las características innovadoras es la capacidad de generar múltiples videos a la vez manteniendo la consistencia y coherencia de los elementos entre los videos. Esta característica es de gran importancia para la creación de contenido de vídeo de formato largo, que permite a los creadores generar una serie de videoclips interrelacionados en torno a un tema o historia.


En nuestra evaluación, encontramos que PixVerse V2 funcionó bien al manejar escenas complejas y secuencias de video largas. La misma imagen de personaje puede moverse libremente entre diferentes escenarios. Además, la coherencia no se limita a la coherencia visual, sino que también incluye transiciones suaves en acciones y tramas, lo cual es especialmente importante para los vídeos narrativos.

Otro punto a destacar es su usabilidad mejorada. A diferencia de los "juguetes creativos" del mercado que sólo pueden generar clips cortos y requieren un "dibujo de tarjetas" constante y una edición secundaria, PixVerse V2 no solo puede generar videoclips de alta calidad, sino que también amplía la creatividad de los clips cortos, generando así directamente salida. Contenido creativo completo y utilizable.

Esta característica hace que PixVerse V2 ya no se limite a generar tomas cortas para edición secundaria, sino que pueda generar directamente videos completos que se pueden usar en múltiples plataformas y múltiples escenas.

En evaluaciones reales, esta característica de PixVerse V2 mejoró significativamente la eficiencia y conveniencia de la creación de videos. Los usuarios ya no necesitan dedicar mucho tiempo a la edición y síntesis de videos, y pueden concentrarse más en la creatividad y el contenido en sí. Ya sea un video corto para compartir en las redes sociales o un video dramático que requiere continuidad, PixVerse V2 puede proporcionar una solución integral. La usabilidad mejorada amplía aún más el alcance de aplicación de la tecnología de generación de video con IA, permitiendo que tanto los usuarios comunes como los creadores profesionales se beneficien de ella.


Podemos ver las innovaciones tecnológicas de PixVerse V2 y múltiples mejoras en la experiencia del usuario. Según Silicon Star, PixVerse V2 ha logrado un gran avance en el modelado espaciotemporal de difusión al introducir un innovador mecanismo de atención espaciotemporal en el modelo subyacente, mejorando significativamente sus capacidades de procesamiento para escenas complejas. Al mismo tiempo, sus poderosas capacidades de comprensión de texto permiten que el modelo haga coincidir con mayor precisión las indicaciones de texto con el contenido de video, logrando una fusión multimodal profunda.

Además, PixVerse V2 también se ha optimizado en términos de eficiencia informática. Al mejorar el modelo de flujo tradicional y ponderar la función de pérdida, el modelo puede converger más rápido, mejorando así la velocidad y precisión de la generación de video. La introducción del modelo 3D VAE y la aplicación del mecanismo de atención espaciotemporal mejoran aún más la calidad de la compresión y reconstrucción de vídeo, asegurando una transmisión y almacenamiento eficientes del contenido de vídeo.

Si analizamos varios hitos importantes de PixVerse desde su lanzamiento, encontraremos que detrás de esto no solo está su fortaleza técnica, sino también su profundo conocimiento del mercado y las necesidades de los usuarios.

En mayo, PixVerse lanzó su revolucionaria función de pincel de movimiento. Esta función permite a los usuarios controlar el movimiento de áreas específicas del vídeo simplemente dibujando trayectorias, lo que mejora enormemente la flexibilidad y la intuición de la creación de vídeos. El uso de escenarios específicos incluye, entre otros, producción de animación, creatividad publicitaria, generación de contenido para redes sociales, etc. Los comentarios de los usuarios han sido en general positivos y dicen que esta función simplifica enormemente el proceso de edición de vídeo, haciendo que la creación sea más gratuita e intuitiva.

En términos de configuración de funciones del producto, cuando los usuarios están básicamente satisfechos con los resultados generados pero desean ajustar los detalles, PixVerse admite funciones de edición secundaria y transformación libre, lo que permite a los usuarios ajustar de manera flexible el efecto de visualización de video de acuerdo con las necesidades de diferentes plataformas y escenarios. Además, PixVerse también puede elegir diferentes estilos y relaciones de aspecto, brindando a los usuarios un mayor grado de libertad en la creación de videos.


Desde el pincel de movimiento hasta la función de coherencia de personajes y la generación de vídeo coherente de la versión V2, cada actualización está un paso más cerca de los usuarios. Este concepto innovador centrado en el usuario hace de PixVerse no sólo un producto realizado por la tecnología, sino también un socio para hacer realidad la creatividad de los usuarios.

1

2. La profundidad determina la innovación

Cuando evaluamos si un producto de generación de video es un juguete o una herramienta de productividad, la densidad de información es un indicador importante de la calidad del contenido.

Si una bolita se mueve de forma irregular sobre un fondo en blanco, puede moverse durante un tiempo infinito, pero proporciona muy poca información.

En PixVerse V2, Aishi Technology intenta aumentar la densidad de información de la generación de video a través de medios técnicos, liberando a los usuarios de la tediosa edición de material de video y entrando directamente en la creación de contenido de video creativo. La búsqueda definitiva de coherencia, que garantiza que el cuerpo principal de varios clips permanezca sin cambios, y otras funciones están destinadas a pasar directamente del material de vídeo al contenido de vídeo publicable.

El gerente de producto de PixVerse dijo: El equipo siempre se adhiere a la idea del producto de "caminar con los usuarios". En las primeras etapas del desarrollo del producto, el equipo llevará a cabo una investigación previa en profundidad, incluida la comunicación con los profesionales de la industria, la observación de los usuarios reales y la recopilación de comentarios de la comunidad. Este método integral de investigación de usuarios le permite a Aishi capturar las necesidades sutiles pero críticas de los usuarios. Incluso los puntos de características pequeños propuestos por los usuarios se tomarán en serio y se probarán.

Este concepto innovador impulsado por el usuario acerca las funciones de PixVerse a las necesidades reales de los usuarios. El gerente de producto de Aishi compartió el proceso de nacimiento de Magic Brush, que es un representante típico de la creación de productos de Aishi.

A principios de este año, Runway lanzó su primer pincel, Motion Brush. Los usuarios pueden ajustar la trayectoria de movimiento del sujeto seleccionando diferentes pinceles y ajustando los botones de control a continuación. Después de ver esta función y a través de investigaciones de mercado, entrevistas con usuarios y comentarios de la comunidad, descubrimos que los usuarios tienen una gran demanda de herramientas de edición de video más flexibles, pero el método de interacción de Motion Brush no es lo suficientemente flexible y la depuración no es precisa y suficientemente controlable.


Después de descubrir esta necesidad, el equipo de producto de PixVerse se centró en discutir: ¿Qué tipo de método de interacción puede permitir a los usuarios utilizar la función de pincel de forma más intuitiva y concisa?

Según una investigación preliminar de usuarios, el equipo del producto descubrió que, en primer lugar, los usuarios deben depurar las trayectorias de movimiento de múltiples sujetos y que no existe una función de selección de partición en Motion Brush. En segundo lugar, después de seleccionar un sujeto, las trayectorias de movimiento del sujeto se pueden cambiar; , arriba, abajo, izquierda y derecha Los botones de control no pueden simular efectos de movimiento reales. Por lo tanto, al crear Magic Brush, el equipo de producto eligió métodos de difuminado, selección inteligente de particiones y un método interactivo que permite a los usuarios dibujar libremente trayectorias de movimiento en 360 grados.


Sin embargo, este tipo de método de interacción es conveniente para los usuarios pero plantea mayores desafíos técnicos. Basado en la arquitectura DiT, el equipo técnico de Aishi desarrolló el algoritmo central para respaldar la función Magic Brush, que analiza los trazos del usuario y los convierte en efectos de movimiento en el video.

Magic Brush se lanzó rápidamente en solo un mes, desde el descubrimiento de las necesidades de los usuarios hasta el establecimiento del proyecto de producto y las soluciones técnicas. Esto es inseparable del modelo operativo empresarial "corto, plano y rápido" de Aishi.

El departamento de marketing puede recopilar rápidamente los comentarios de los usuarios y comunicarlos a los equipos técnicos y de producto de manera oportuna. Este rápido flujo de información y proceso de toma de decisiones le permite a Aishi considerar rápidamente la viabilidad de las necesidades, realizar pruebas A/B y tomar decisiones rápidas. Esta agilidad es una ventaja única de las empresas emergentes y también es la clave de la capacidad de Aishi para iterar productos rápidamente.

En comparación con las grandes empresas de tecnología, las startups tienen ciertas ventajas en cuanto a velocidad de respuesta y flexibilidad. Esta agilidad no sólo se refleja en el desarrollo de productos y las estrategias de mercado, sino que también afecta profundamente la cultura corporativa y la estructura organizacional. Debido a su menor tamaño, las startups son más flexibles a la hora de asignar recursos. Pueden mover rápidamente recursos de una tarea a otra, o de un proyecto a otro, asegurando la máxima utilización de los recursos.

Al mismo tiempo, prestamos más atención a los comentarios de los usuarios y ponemos las necesidades de los usuarios en el centro del desarrollo de productos. Este enfoque de desarrollo de productos impulsado por el usuario permite a las empresas emergentes lanzar productos que satisfagan las necesidades de los usuarios más rápidamente. Muchas startups adoptan métodos de desarrollo ágiles, que enfatizan la iteración rápida y la mejora continua. Lleve productos al mercado más rápido con lanzamientos periódicos de nuevas funciones y correcciones de errores, y optimícelos en función de los comentarios de los usuarios.

La agilidad y la profunda innovación encarnadas por Aishi son las ventajas únicas de las empresas de nueva creación en la nueva era de los grandes modelos.

1

3. Necesitamos buena tecnología y productos aún mejores.

Hoy hemos descubierto que en realidad queda un largo camino por recorrer antes de que la tecnología llegue a los usuarios y que los productos sean los conectores más importantes. La tecnología es la fuerza impulsora de la innovación, pero su valor sólo puede reflejarse verdaderamente cuando la tecnología se conecta con los usuarios a través de los productos.

Durante el proceso de desarrollo de PixVerse, el equipo de Aishi Technology pulió cuidadosamente cada detalle. En la versión V2, para mejorar la usabilidad del video, PixVerse admite la edición secundaria de los resultados generados. A través del reconocimiento inteligente de contenido y funciones de asociación automática, los usuarios pueden reemplazar y ajustar de manera flexible el sujeto, la acción, el entorno y el movimiento de la cámara. vídeo, enriqueciendo aún más las posibilidades creativas del sexo.


La persona a cargo de los productos de Aishi también dijo: "Las fortalezas y diferencias tecnológicas son importantes, pero la productización y las barreras de los usuarios y la retroalimentación técnica formada al conectar cada vez a más usuarios a través de los productos son aún más críticas".

Al mismo tiempo, en las primeras etapas del desarrollo tecnológico, los productos también son el punto de partida para la implementación de la tecnología. Transforme la tecnología avanzada de IA en funciones reales del producto que sean perceptibles y operables por los usuarios. Esta transformación de tecnología a productos no solo acelera la aplicación de la tecnología, sino que también brinda a los usuarios una comodidad y creatividad sin precedentes.

Especialmente cuando la tecnología aún no ha alcanzado el nivel objetivo, la promoción bidireccional entre tecnología y productos tiene una importancia más práctica.

Por ejemplo, con respecto al Pincel Mágico mencionado anteriormente, algunos creadores informaron: "En esta etapa, cuando la capacidad del modelo base no puede alcanzar el punto en el que varios sujetos se mueven según el mundo físico, personalizar el pincel de movimiento puede aumentar el espacio creativo. Algunos personajes ' El parpadeo, las expresiones y los movimientos relativos complejos se pueden lograr con pinceles de movimiento.

En esta etapa, Vincent Video, aunque conceptualmente atractivo, enfrenta limitaciones a la hora de generar contenido en la práctica. Debido a la densidad de información limitada del texto en sí, a menudo resulta difícil transmitir todos los detalles de escenas complejas y cambios dinámicos al convertir directamente descripciones de texto en contenido de vídeo. Por lo tanto, Tusheng Video surgió como una solución gradual.

En comparación con el video de Vincent, el video de Tusheng puede proporcionar una mayor densidad de información porque se genera en base a información visual y puede capturar y reproducir con mayor precisión la complejidad de la escena. Cuando las capacidades del modelo base aún no han resuelto la diferencia en la densidad de información entre texto y video, la introducción de Tusheng Video no es solo un reflejo del progreso tecnológico, sino también una innovación en las ideas de diseño de productos.

En los primeros días de la tecnología, la estrategia de Aishi se reflejaba en lograr avances tecnológicos y al mismo tiempo prestar más atención a la implementación del producto. Se forman barreras para los usuarios distintas de las barreras técnicas, y las barreras para los productos se establecen a través de la comprensión y el conocimiento de los usuarios, empujando así los límites de la tecnología y los límites de los productos.

Solo se puede dejar atrás un producto de generación de video que realmente se pueda utilizar. No solo debe satisfacer las necesidades actuales de los usuarios, sino también centrarse en el futuro y elegir un camino de desarrollo tecnológico sostenible.

Ya sea la "lucha muerta" inicial con la tecnología de consistencia, la iteración de Magic Brush o la nueva actualización de la versión PixVerse V2, la estrategia de producto de Aishi se basa en el presente y en la resolución de problemas prácticos, por un lado; mira hacia el futuro y elige el camino del desarrollo a largo plazo y se compromete a construir un futuro sostenible.

A través de la investigación y el desarrollo tecnológicos continuos, conocimientos profundos de los usuarios y un cuidadoso pulido de los detalles del producto, en la industria de generación de videos, las empresas, independientemente de su tamaño, necesitan avances tecnológicos continuos para crear productos que sean verdaderamente valiosos y puedan inspirar creatividad.

Al igual que el lema de PixVerse V2: Liberar el potencial creativo para todos, esta no es solo una oportunidad para PixVerse, sino también una oportunidad para todos los creadores en la era de los grandes modelos.