noticias

La beta pública gratuita abrumó al servidor y Sora ganó elogios por su sentido físico.

2024-07-24

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Autor: Zimo

Después de Sora, Runway y Pika, otro producto de inteligencia artificial basado en imágenes y generado por videos ha ganado popularidad: Dream Machine.

Detrás de Dream Machine hay una empresa estadounidense fundada en 2021 llamada Luma AI. En los últimos tres años, ha llevado a cabo con éxito tres rondas de financiación, por un monto total de financiación de 67,3 millones de dólares. La financiación Serie B más reciente de 43 millones de dólares se produjo en enero de este año, liderada por la conocida institución de capital de riesgo a16z, con la segunda inversión de NVIDIA, y la valoración posterior al dinero alcanzó los 200-300 millones de dólares.


En junio de este año, Dream Machine lanzó una versión beta pública gratuita en todo el mundo. Cada usuario tiene 30 oportunidades para generar videos gratis cada mes, y cada video tiene una duración de 5 segundos. Para comparar y competir con los que ingresaron primero al juego, destaca las características de "eficiencia", "física" y "movimiento de espejo". Una de las características principales es que solo se necesitan 120 segundos para generar un video de 120 cuadros (sin embargo, hubo demasiadas personas haciendo cola durante el período de la versión beta pública y los usuarios generalmente informaron que se necesitan entre 10 y 20 minutos para generar un video). (y algunos incluso toman 2 horas). La simulación del mundo físico también pone especial énfasis en la consistencia del personaje y puede usar habilidades naturales de la cámara para hacer la imagen más fluida y realista, integrándose con las emociones expresadas. La lluvia de ideas de los usuarios hace que los vídeos generados estén llenos de creatividad e imaginación, y su aplicación en publicidad, enseñanza y formación, creación de historias y otros campos también ha desempeñado un papel importante en la reducción de costes y el aumento de la eficiencia.

¿Qué producto de generación de vídeo con IA es el mejor?

En términos de diseño, la página de Dream Machine es intuitiva y sencilla, con dos funciones: Vincent Video y Tusheng Video. En los videos de Wensheng, las descripciones en inglés tendrán mejores efectos. Si desea que los videos generados se ajusten más a sus necesidades, debe utilizar descripciones de texto lo más precisas y detalladas posible. También puede agregar algunas palabras sobre expresiones emocionales. hacer que los efectos sean más realistas.

Sin embargo, para los usuarios que no son tan buenos en la capacidad de creación de texto, la función de video Tusheng será más popular, porque se parece más a un procesamiento secundario de una obra. Simplemente cargue una imagen y agregue una descripción de texto basada en la escena que tiene en mente para animar la imagen estática y contar la historia en forma de video.

En Twitter podemos ver varios videos creativos compartidos por los usuarios, incluidos divertidos que hacen que la Mona Lisa se mueva, usando selfies para restaurar la escena al tomar selfies, tiernos "resucitando" a personas importantes para recrear la escena, etc. Se puede decir que las herramientas de creación de IA y la rica imaginación de los usuarios dan nueva vitalidad a las obras.

En este sentido, el benchmarking siempre ha sido un tema inseparable. Desde un punto de vista arquitectónico, Dream Machine y Sora utilizan la arquitectura Diffusion Transformer, y la correlación será mayor desde la perspectiva del contenido generado, en comparación con Runway y Pika, la diferenciación de Dream Machine se refleja en una mayor gama de movimientos y Cambio de lente Hay más ángulos y más rápido, en lugar de simplemente hacer que los objetos en el video se muevan ligeramente, pero como el modelo aún está en su infancia, también surgen problemas de control. Por ejemplo, durante las pruebas de usuario, se produjo un fenómeno irrazonable de múltiples cabezas al cambiar las lentes de los animales. En general, hay muchos puntos que se pueden optimizar en los datos y el modelo.

Si observamos la duración de una sola generación de video, Dream Machine puede generar un video de 5 segundos en 120 segundos, Runway es más rápido y puede generar un video de 10 segundos en 90 segundos. En la última versión, se puede extender a 18. segundos, mientras que Pika sigue siendo un video de una sola vez. Solo puede generar un video de 3 segundos. Sora, como creador, ha superado el límite de tiempo y puede generar un video de 1 minuto, pero tarda casi una hora en renderizarse. . Comparando los precios de varios productos, después del período de prueba gratuito, Dream Machine tiene el precio general más alto, mientras que la versión profesional de Pika tiene un precio 6 veces mayor que el de su versión estándar, y otros productos rondan entre 2 y 3,5 veces.


(Comparación de precios de productos de generación de video AI)

Finalmente, a juzgar por el efecto de generación de video, el mismo párrafo de texto se expresa en diferentes estilos de videos generados por diferentes productos. En comparación con otros productos, la sensación cinematográfica y el realismo físico son una de las sensaciones más comunes que tienen los usuarios cuando utilizan Dream Machine. Las imágenes de vídeo y la sensación de inmersión que genera son más fuertes. En resumen, hay dos posibles razones: primero, el producto utiliza una gran cantidad de clips de película durante el entrenamiento del modelo, lo que también hace que el video generado esté lleno de imaginación no se limita a las cosas de la imagen original, sino que agrega algunas cosas adicionales. escenas, y también el procesamiento de personajes animados y la adición de movimientos de la boca los hacen parecer más realistas, otro punto está estrechamente relacionado con la tecnología y la experiencia acumulada por la empresa detrás en modelado 3D;

Las minifiguras 3D de Wen Sheng son posibles gracias a su acumulación de tecnología.

Luma AI se ha centrado en la generación de contenido 3D desde su creación. La aplicación de modelo Vincent 3D Genie1.0, lanzada anteriormente, se convirtió en un éxito mundial. La aplicación tiene una versión web para PC y una versión de aplicación móvil (llamada Luma AI), y también se puede utilizar en servidores de Discord que se utilizan ampliamente en el extranjero.

Simplemente ingrese una descripción de texto y se pueden generar 4 modelos 3D realistas en 10 segundos, similares a una "figura pequeña". Después de seleccionar según sus preferencias personales, también puede editar la textura usted mismo, incluida la original, suave y reflectante. Finalmente, se puede generar en múltiples formatos como fbx, gltf, obj, etc., para lograr una conexión perfecta con otros software de edición 3D (como Unity y Blender), permitiendo que el modelo se mueva, encajando perfectamente en juegos, animaciones y otros. escenas, logrando verdaderamente aguas abajo Proporcionar empoderamiento de la escena.


El bajo umbral técnico de Genie1.0 también permite a los usuarios reconstruir escenas 3D simplemente grabando videoclips. De acuerdo con los requisitos, tome fotografías de 360 ​​​​° del objeto desde tres ángulos: mirando hacia arriba, mirando hacia abajo y mirando hacia arriba. Después de cargarlo, espere unos minutos hasta que Genie 1.0 complete la representación 3D del video.

En términos de tecnología, se puede decir que Luma AI ha llevado NeRF (campo de radiación neuronal) al extremo. NeRF tradicional requiere el uso de equipos profesionales para tomar una gran cantidad de fotografías y se deben seguir estrictamente las ubicaciones de las coordenadas. Hoy en día, gracias al código fuente abierto, se han desarrollado modelos cada vez más simplificados y los requisitos de fotografías y ángulos de disparo requeridos se han reducido considerablemente. Genie1.0 ha alcanzado un nivel superior y se ha convertido en una guía que se puede utilizar. NeRF disponible en cualquier momento y en cualquier lugar.

La acumulación de tecnología y productos 3D ha ayudado a la empresa a pasar sin problemas de la generación 3D a la generación de vídeo, pero a la inversa, la generación de vídeo también ha creado condiciones de alta calidad para el 3D. En el concepto de Luma AI, el propósito de crear productos de generación de video es agregar dimensiones 3D y de tiempo para crear mejor 4D, y el video juega un papel intermedio aquí.

Podemos combinar los dos productos Genie1.0 y Dream Machine. El primero puede construir modelos 3D a través de videos de múltiples ángulos y el segundo utiliza la acumulación de modelos 3D para generar mejores videos. Y debido a que el 3D tiene limitaciones de datos en comparación con las imágenes y los videos, si desea crear mejor 3D, necesita más datos de modelo grandes para lograrlo. Para lograr el objetivo 4D final, se recopilan datos de vistas múltiples del video generado y luego se usan para generar efectos 4D. Se abre una cadena completa.

¿Dónde está la salida al final?

Desde este año, la pista de generación de videos de IA se ha ido llenando gradualmente, especialmente las principales empresas de Internet, ya sean modelos de desarrollo propio o inversiones, han hecho ciertos arreglos en este campo. A medida que el número de participantes continúa aumentando, gradualmente se exponen algunos problemas, que se reflejan principalmente en la controlabilidad y consistencia de los videos generados.

Estos dos problemas ocurren principalmente cuando se cambia el ángulo del video, como en la escena de animales con múltiples cabezas mencionada anteriormente, y en la escena del retrato. Dado que las expresiones faciales y los detalles de las personas cambian rápidamente y son difíciles de capturar, en el video Al cambiar. En el ángulo de la cara, la cara puede deformarse en el siguiente segundo, o incluso no ser la misma cara, y esta es una de las razones por las que la duración del vídeo es limitada. Cuanto más se tarda en generar un vídeo, más difícil es garantizar la coherencia.


(En el vídeo generado aparecen animales con múltiples cabezas)

Este problema también ha preocupado a muchos desarrolladores. Aunque todavía no existe una solución perfecta, se puede ver en sus acciones de desarrollo que ya están trabajando en esta dirección central. Por ejemplo, VideoCrafter2 desarrollado por Tencent AI Lab utiliza videos de baja calidad para garantizar la coherencia del movimiento de las cosas en la imagen. El modelo de generación de personajes Vimi lanzado por SenseTime puede imitar con precisión las microexpresiones de los personajes, centrándose en dos aspectos: personajes y controlabilidad.

En términos de grupos de audiencia, los productos de generación de videos de IA actualmente están dirigidos principalmente a usuarios finales C. En esta etapa, los usuarios están probando cosas emergentes a partir de la jugabilidad y la creatividad. Sin embargo, a medida que aumenta la cantidad de productos, esta moda se desvanece. También dependerá del apoyo del lado B. En la actualidad, este tipo de productos también está impulsando el aumento continuo de la demanda de API, lo que brinda a las empresas intermedias más posibilidades, ya sea para el reprocesamiento o el uso directo de videos generados, y reduce en gran medida el tiempo y el costo de creación.

Además, Kuaishou colaboró ​​recientemente con Bona para lanzar el primer corto dramático original de AIGC de China, que también subvirtió el pensamiento creativo de la industria tradicional del cine y la televisión. La combinación de las dos pistas emergentes también ha traído nuevos avances en los escenarios de aplicación de la generación de video de IA, y se abrirán más posibilidades. Aunque ambas se encuentran en las primeras etapas de desarrollo, ni la tecnología ni los productos están maduros, pero Facing. Teniendo en cuenta las tendencias duales y aprovechando los dos dividendos, la "marca compartida" seguramente impulsará rápidamente el proceso de desarrollo de la industria.

La innovación de los productos creados por IA aporta creatividad ilimitada y sorpresas a la vida de las personas, y también reduce la dificultad y el costo de producción. A juzgar por los productos actuales, tanto Wensheng Video como Tusheng Video han creado una jugabilidad muy interesante y novedosa, en la que la creatividad personal es el factor clave que impulsa una mejor producción de IA. Aunque algunos problemas técnicos han provocado errores ocasionales y la forma del producto depende en gran medida de las capacidades reales del modelo, a través de actualizaciones iterativas, una competencia saludable en el mercado y la combinación de pistas, creo que el modelo eventualmente se entrenará de manera cada vez más perfecta. Al mismo tiempo, también esperamos que el futuro de los productos de modelos grandes producidos en el país se haga un hueco propio en el mercado global.