Las grandes empresas han lanzado una "carrera armamentista" en la generación de vídeos. ¿Puede la IA realmente acabar con Hollywood?

2024-07-15

Informe del corazón de la máquina

Departamento editorial de Machine Heart

El círculo de vídeos de IA te está matando.

En el pie delantero, Kuaishou lanzó a Ke Ling de manera destacada. En el pie trasero, Luma no se quedó atrás y lanzó el último modelo de video Dream Machine. Luego, Runway intervino y lanzó el Gen-3, un gran asesino. .

Impulsados por la sutil atmósfera de FOMO, más jugadores se adhieren al propósito de "cansarse hasta morir, rodar hasta morir" y sumergirse en esta pista——

Alibaba DAMO Academy está apostando por la "Plataforma de creación de vídeos Xunguang", ByteDance AI está explorando "dramas cinematográficos generativos", Meitu MOKI se centra en la creación de cortometrajes con IA, Haiper AI se centra en la expresión creativa...

Shanghai el 5 de julio hacía mucho calor, al igual que la ansiedad en el círculo de videos de IA.

En este día, realización de la Sala de Conferencias.

El foro reúne a muchas empresas estrella y expertos en el campo del vídeo con IA para debatir los últimos avances en la tecnología de generación de vídeo y sus prácticas innovadoras en aplicaciones industriales.

Compartir en profundidad: las sentidas palabras de un círculo de expertos

Desde la aparición de ChatGPT, la tecnología de generación de video detonada por Sora es definitivamente el "pollo más caliente" en el mundo de la tecnología.

Aunque este campo aún está en sus inicios, la tecnología de generación de video está expandiendo constantemente los límites de la creación de contenido digital con su sorprendente velocidad de desarrollo y sus potenciales perspectivas de aplicación.

Chen Weihua, jefe de generación de video en la Academia Alibaba Damo, Ni Bingbing, profesor del Departamento de Electrónica de la Universidad Jiao Tong de Shanghai, Chen Jianyi, vicepresidente senior de Meitu Corporation, y Miao Yishu, fundador de Haiper AI, asistieron al foro y pronunció discursos de apertura.

Chen Weihua, jefe de generación de videos en Alibaba Damo Academy, dijo que el lanzamiento de Sora a principios de año no solo demostró el enorme potencial de la generación de videos con IA en términos de alta definición, alta fidelidad y alta calidad, sino que también inspiró la imaginación ilimitada de la gente sobre esta tecnología.

Aunque Sora es genial, el proceso de generación aún es difícil de controlar, la coherencia del protagonista es difícil de garantizar y requiere mucha posedición manual para lograr los mejores resultados.

"El control del contenido de vídeo es la mayor demanda en la creación y también es el mayor desafío al que se enfrenta nuestro algoritmo en la actualidad".

El último producto AIGC lanzado por Alibaba DAMO Academy: Xunguang Video Creation Platform, tiene como objetivo mejorar la eficiencia de la producción de video y resolver problemas de posedición de video. A través de una organización de tomas simple y capacidades ricas de edición de video, los usuarios pueden lograr el control del contenido de video. control preciso y mantenga la coherencia de personajes y escenas en múltiples videos.

Xunguang proporciona una plataforma de herramientas integral para la aplicación generalizada de videos con IA. La IA no reemplazará el trabajo del creador, pero optimizará el flujo de trabajo de la creación de videos y se convertirá en un nuevo motor impulsado por la creatividad.

Ni Bingbing, profesor del Departamento de Electrónica de la Universidad Jiao Tong de Shanghai, compartió tecnología de generación de contenido multimedia para vectorización.

Tan pronto como comenzó el discurso, le echó agua fría.

"Los algoritmos de la generación actual se enfrentan a problemas estructurales y detallados. Por ejemplo, el contenido generado puede tener más o menos elementos, o puede estar perforado a mano, etc. Para aquellos videos refinados que deben cumplir con reglas físicas, actualmente La tecnología de generación Todavía enfrenta desafíos ", dijo Ni Bingbing, la razón es que toda inteligencia generativa es esencialmente un proceso de muestreo y el video es un espacio de alta dimensión. Aunque la calidad del contenido se puede mejorar aumentando los datos de entrenamiento y reduciendo la precisión del muestreo, Sin embargo, debido Al espacio dimensional extremadamente alto, todavía es difícil lograr la perfección bajo el marco técnico actual.

Además, la limitación de la potencia informática también es un factor importante. En la actualidad, los indicadores de potencia informática, incluidos los grandes modelos de lenguaje y los modelos de generación de imágenes y videos, han alcanzado el nivel de decenas de terabytes, cientos de terabytes o incluso miles de terabytes. En el futuro, la tendencia de desarrollo de la inteligencia generativa definitivamente se hundirá hasta el lado final, y es imposible que el lado final utilice un muestreo ilimitado de gran potencia informática para resolver problemas.

En este sentido, Ni Bingbing propuso utilizar un marco de representación vectorial para crear instancias de contenido de video en parámetros de red, logrando así un control preciso del contenido generado y cumpliendo mejor con las reglas del mundo físico.

Él cree que el éxito actual de la inteligencia artificial generativa se debe al consumo excesivo de potencia informática y datos. En el futuro, deberíamos centrarnos en nuevas representaciones del contenido de los medios y nuevos paradigmas de la computación generativa, y crear activamente nuevas cualidades de los medios. con mayor calidad y eficiencia de las fuerzas productivas.

Chen Jianyi, vicepresidente senior de Meitu Group, analizó los escenarios de aplicación y los desafíos de la generación de videos con IA desde la perspectiva de un gerente de producto.

Durante la investigación de usuarios, descubrió dos fenómenos interesantes.

En primer lugar, los conocedores se sorprenderán porque el video es generado por IA, pero a los usuarios comunes, no les importa si el video es generado por IA, sino que se centran en si el contenido es atractivo.

"Esto significa que, independientemente de la experiencia visual que logre la tecnología de generación de videos con IA, debemos volver al contenido en sí y centrarnos en los valores y las historias que el video quiere transmitir", dijo Chen Jianyi.

En segundo lugar, la mayoría de los usuarios comunes no están familiarizados con términos profesionales como "Vincent Pictures" y "Vicent Videos" y no conocen sus usos específicos. Tomemos como ejemplo "Wen Sheng Tu". Este término es como la función "licuar" de PhotoShop en ese entonces, pero es difícil de entender si se limita a una escena y se describe como una función de "adelgazamiento facial". los usuarios pueden entenderlo de forma más intuitiva y comprender su valor. Lo mismo ocurre con "Vincent Video".

Al mismo tiempo, dijo que la tecnología de generación de video de IA hace que la expresión del contenido sea más concreta y enriquece la creatividad y la experiencia visual, pero aún necesita resolver cuestiones clave como la controlabilidad de la configuración visual, la controlabilidad dinámica y la controlabilidad del audio.

MOKI, la plataforma de creación de cortometrajes con inteligencia artificial de Meitu Discovery, está superando estas importantes dificultades.

Según los informes, MOKI ha creado un flujo de trabajo integral de cortometrajes con tecnología de generación de vídeo de IA como núcleo. En la etapa inicial, los creadores pueden escribir guiones, diseñar estilos visuales y establecer personajes, y luego usar tecnología de inteligencia artificial para generar materiales de video. Finalmente, a través de las capacidades de postproducción de la IA, todos los materiales se conectan para formar un cortometraje coherente.

Como fundadora de la startup de celebridades Haiper AI, Miao Yishu discutió profundamente la importancia y el valor de la tecnología de generación de videos.

Miao Yishu dijo: "A menudo escuchamos opiniones como 'El lenguaje es inteligencia' o 'Los grandes modelos de lenguaje son inteligencia artificial general (AGI)'. Sin embargo, ¿puede el aprendizaje de idiomas por sí solo realmente llevarnos directamente a AGI? Existen formas importantes para que los humanos adquieran conocimientos, pero no es la única manera de aprender a través de múltiples métodos de aprendizaje, como la visión, el oído, la lectura y la cinestésica. La IA también necesita aprender y construir un lenguaje verdaderamente universal mediante la integración de múltiples modalidades. . inteligente."

Después del lanzamiento de GPT-3.5, muchas personas plantearon la opinión de que "el procesamiento del lenguaje natural (NLP) ya no existe" porque los grandes modelos de lenguaje básicamente resuelven el aprendizaje y la semántica del sistema de lenguaje a través de modelos generativos autorregresivos (prediciendo la siguiente palabra cada vez). problemas de inferencia, ya ni siquiera necesitamos modelos discriminativos para afinar problemas de inferencia específicos.

De manera similar, los modelos de generación de video también construyen modelos generativos mediante autorregresión (prediciendo el siguiente cuadro de video cada vez), por lo que el modelo aprende implícitamente tareas importantes en el campo de la visión por computadora, como la predicción de profundidad, la anotación semántica y la segmentación semántica. Por lo tanto, en 2024 escucharemos comentarios como "La visión por computadora (CV) ya no existe" porque el modelo de generación de video ha ido dominando gradualmente las capacidades de percepción y las leyes físicas en el proceso de aprender a generar contenido de video.

“¿Necesitamos entender la primera ley de Newton como un cachorro para perseguir mariposas en la calle? ¿Necesitamos conocer todas las leyes de la física como un niño de 5 años para caminar y andar en bicicleta? La respuesta es no. esto a través de la interacción constante con el mundo y la observación, aprendiendo a través de varios modelos. De hecho, el modelo de generación de video ha construido un modelo mundial aprendiendo a generar contenido de video diverso, y podemos interactuar fácilmente con el modelo mundial a través de palabras para representar. el contenido de video que queremos, y todo esto no requiere que construyamos explícitamente un simulador para simular las llamadas leyes físicas".

Miao Yishu enfatizó: "La generación de videos va más allá de la generación de videos". En su opinión, el modelo de generación de video no solo puede generar contenido de video, sino que también es un paso importante en el aprendizaje de capacidades de percepción básicas a través del aprendizaje multimodal, y también es la única forma en que la inteligencia artificial avanza hacia AGI.

Mesa redonda: ¿Cómo abordar la generación de vídeo?

Además del intercambio de temas por parte de cuatro expertos y académicos, el foro también invitó a invitados del mundo académico, empresas, nuevas empresas e instituciones de inversión reconocidas a llevar a cabo mesas redondas en profundidad sobre tecnologías de vanguardia para la generación de videos y prácticas de aplicaciones innovadoras en Industrias de aterrizaje en escena.

En la primera mesa redonda, Zhu Jiang, fundador y director ejecutivo de Jingying Technology, Liu Ziwei, profesor asistente de la Universidad Tecnológica de Nanyang en Singapur, Li Feng, director de IA del Shengqu Game Technology Center, Le Yuan, socio de Yitian Capital y otros invitados. discutido "Impulsado por modelos grandes, ¿hacia dónde irá el camino de mejora de la tecnología de generación de video?" Este tema se discutió en profundidad y se discutieron las perspectivas para la implementación de la tecnología de generación de video en la industria.

Zhu Jiang, fundador y director ejecutivo de Jingying Technology, compara la tecnología de generación de video con la explosión de vida del Cámbrico y cree que actualmente se encuentra en una etapa de rápido desarrollo de tecnología y aplicaciones. Hizo hincapié en que las empresas de la capa de aplicaciones deben mantener su comprensión y liderazgo en tecnología y al mismo tiempo prestar atención a las necesidades de los usuarios para destacarse de la competencia. Dijo que al final tanto las empresas modelo como las de aplicaciones sobrevivirán, pero las empresas modelo pueden ser más genéricas, mientras que las empresas de aplicaciones deben prestar más atención a la comprensión de los usuarios y las empresas.

Liu Ziwei, profesor asistente de la Universidad Tecnológica de Nanyang en Singapur, cree que la tecnología de generación de video se encuentra actualmente en la era GPT-3 y todavía le falta aproximadamente medio año para alcanzar la madurez. Analizó las ventajas y desventajas de las tres vías técnicas de Difusión, Transformador y modelo de lenguaje, y consideró que pueden integrarse y desarrollarse en el futuro. También enfatizó la necesidad de explorar la "primera ley de Newton" de la tecnología de generación de video, es decir, cómo obtener mejoras predecibles invirtiendo en potencia informática y datos.

Desde la perspectiva de la industria de los juegos, Li Feng, director de IA del Centro de Tecnología de Juegos de Shengqu, cree que la tecnología de generación de video puede mejorar la eficiencia y la creatividad del desarrollo de juegos. Espera cooperar con empresas modelo para aplicar tecnología de generación de video al proceso de desarrollo de juegos, como hacer referencia a la idea de representación diferenciable para el diseño de niveles y la vista previa del diseño, la alineación visual de los métodos de comunicación durante la colaboración de I + D y la alineación visual con otros. generar imágenes de activos dinámicas.

Le Yuan, socio de Yitian Capital, analizó los desafíos que enfrenta la implementación comercial de la tecnología de generación de video desde una perspectiva de capital. Él cree que la tecnología de generación de video ha avanzado mucho más allá de las expectativas en los últimos dos o tres años, lo cual es sorprendente, sin embargo, objetivamente hablando, el nivel técnico actual aún no es suficiente para soportar la comercialización a gran escala de aplicaciones basadas en modelos de lenguaje. se utiliza La metodología y los desafíos encontrados también son aplicables a los campos de aplicación relacionados con el video.

La segunda mesa redonda del foro se centró en "Innovación y oportunidades en aplicaciones de generación de vídeo bajo la ola de IA generativa deconstruida". Los invitados de Wuyuan Capital, FancyTech, Morph AI y la Universidad de Stanford hablaron sobre inversión, aplicaciones, tecnología y arte, etc. Desde múltiples ángulos, se exploran la dirección de desarrollo y los escenarios de aplicación de la tecnología de generación de video.

Kong Jie, fundador y director ejecutivo de FancyTech, cree que la tecnología de generación de vídeo generará reformas en el lado de la oferta, permitiendo que más personas participen en la creación de contenidos. Presentó la plataforma de generación de video To B de FancyTech, que ayuda a los comerciantes a reducir los costos de creación de contenido al restaurar elementos reales en escenas virtuales.

Shi Yunfeng, vicepresidente de Wuyuan Capital, mencionó que la generación de video actual aún se encuentra en las primeras etapas de desarrollo, similar al estado de exploración cuando se lanzó por primera vez GPT2. Encontrar PMF es un gran desafío cuando la base de la tecnología aún no es sólida. Cree que aunque la tecnología sigue avanzando, los creadores están muy entusiasmados y tienen cierto rango de difusión, pero no hay un consumo generalizado de contenidos. Requiere gerentes de producto talentosos para adaptar el producto y crear nuevas formas de contenido que sean incompatibles con el flujo de información existente.

El fundador y director ejecutivo de Morph AI, Xu Huaizhe, cree que la tecnología y las aplicaciones de generación de video son igualmente importantes. Como equipo con experiencia técnica, es más importante coordinar el desarrollo de la capa de modelo y la capa de aplicación. Presentó Morph Studio, una herramienta de producción de video con IA todo en uno, que se basa en el modelo grande de video con IA líder de Morph. Actualmente se está probando a nivel mundial y ha recibido comentarios positivos. En el futuro, Morph continuará optimizando las funciones del producto y la experiencia del usuario a través de los comentarios de los usuarios, para que su tecnología de video de IA pueda implementarse más rápido a través de los productos y ayudar mejor a los creadores.

Desde la perspectiva de combinar arte y tecnología, Rao Anyi, investigador postdoctoral de la Universidad de Stanford, cree que la tecnología de generación de vídeo puede inspirar métodos de creación más interactivos. Enfatizó que ni las máquinas ni las personas pueden ser 100% correctas, por lo que es necesario introducir un mecanismo de mejora interactivo en el proceso creativo para permitir que las máquinas y las personas colaboren para completar la creación.

En general, los invitados a la mesa redonda están llenos de expectativas sobre las perspectivas de aplicación de la tecnología de generación de vídeo, pero también reconocen que la tecnología actual aún se encuentra en sus primeras etapas y es necesario explorar nuevos modelos de negocio y escenarios de aplicación para lograr un mayor valor. .

La exitosa celebración de este foro no solo proporciona una plataforma de comunicación y aprendizaje para los profesionales en el campo del video de IA, sino que también brinda más oportunidades de cooperación para todos los eslabones de la cadena industrial relacionada. De cara al futuro, la tecnología de vídeo con IA marcará el comienzo de un espacio de desarrollo más amplio y escenarios de aplicación más ricos, creando una mejor experiencia visual para los humanos.

noticias

Las grandes empresas han lanzado una "carrera armamentista" en la generación de vídeos. ¿Puede la IA realmente acabar con Hollywood?

Introducción

Mi informacion de contacto