¿puede la ia "generar" todas las cosas?

2024-08-29

medio año después del nacimiento de sora, sus "retadores" vinieron uno tras otro, e incluso nvidia, que "no podía esperar" y "no podía alcanzar", terminó personalmente.

hasta ahora, sora solo ha lanzado demostraciones y no ha estado abierto para su uso, mientras que kuaishou keling, zhipu qingying y vidu han tomado la iniciativa para abrir la puerta a la experiencia y llegar al público.

aunque la primera experiencia de "generación con un clic" no es perfecta, ha provocado un charco de agua de manantial en la industria de contenidos. muchos dramas cortos, anuncios y animaciones que nos rodean han comenzado a utilizar la ia como un "socio de eficiencia". la tecnología de generación de inteligencia artificial, desde las imágenes vicencianas de no hace mucho hasta los videos vicencianos de hoy, los videos tusheng y los videos generados por videos, el "universo aigc" continúa expandiéndose.

¿es la ia la "pluma mágica ma liang" en la mitología china? ¿cuánta imaginación y creatividad puede hacer que cobre vida y se mueva?

"wensheng video", cómo "vivir"

"wensheng video es un éxito de taquilla". en los últimos seis meses, el resurgimiento de sora desde grandes fabricantes hasta unicornios ilustra la importancia que la industria concede a la "generación".

en resumen, la generación de vídeo utiliza tecnología de inteligencia artificial generativa para convertir entradas multimodales, como texto e imágenes, en señales de vídeo.

actualmente, existen dos rutas técnicas principales para la generación de vídeo. uno es el modelo de difusión, que se divide en dos categorías: uno es el modelo de difusión basado en redes neuronales convolucionales, como emuvideo de meta, videocrafter lanzado por tencent, etc., el otro es el modelo de difusión basado en la arquitectura transformer; como sora de openai, keling ai de kuaishou, vidu de shengshu technology, etc. la otra es la ruta autorregresiva, como videopoet de google, phenaki, etc.

el 26 de julio de 2024, la empresa de tecnología china zhipu ai lanzó su modelo de video generado por inteligencia artificial qingying (ying) de desarrollo propio para usuarios globales. la imagen muestra la interfaz de inicio de sesión del usuario.

actualmente, el modelo de difusión basado en la arquitectura transformer es la opción principal para los modelos de generación de video, también conocido como "dit" (di es la abreviatura de diffusion, t es la abreviatura de transformer).

¿texto "difuso" como vídeo? "aquí la difusión se refiere a un método de modelado". yuan li, profesor asistente y supervisor de doctorado en la escuela de ingeniería de la información de la universidad de pekín, dio un ejemplo vívido:

cuando miguel ángel estaba tallando la famosa estatua de david, dijo esto: la escultura estaba originalmente en piedra, sólo quité las partes innecesarias. "esta frase describe vívidamente el proceso de modelado de la 'difusión'. el video original de ruido puro es como una piedra sin tallar. cómo golpear esta gran piedra y quitar el exceso hasta que quede en un contorno. el claro 'david', este el camino es la 'difusión'", afirmó yuan li.

yuan li explicó además: "transformer es una red neuronal que sigue la 'regla de escala' y realiza el proceso de romper piedras. puede procesar la información espacio-temporal de entrada, comprender el mundo real mediante la comprensión de sus complejas relaciones internas y permitir la "el modelo tiene capacidades de razonamiento. no solo puede capturar las conexiones sutiles entre cuadros de video, sino que también garantiza la coherencia visual y la suavidad temporal".

"socio de eficiencia", ¿qué tan rápido?

un ingenuo oso polar se despertó con el despertador, hizo las maletas, tomó un helicóptero, se trasladó a un tren de alta velocidad, se trasladó a un taxi, abordó un barco, cruzó montañas, ríos, lagos y mares, experimentó penurias y obstáculos, y finalmente llegó a la antártida para encontrarse con los pingüinos...

este cortometraje animado de un minuto y medio titulado "all the way south" fue completado por el modelo de generación de video vidu. lo que originalmente requería un mes de trabajo, con la incorporación de la ia como "socio de eficiencia", solo tomó una semana para producir trabajos excelentes: la eficiencia fue cuatro veces mayor que en el pasado.

esto hizo suspirar a chen liufang, ganador de la mejor película en la sección de cortometrajes aigc del festival de cine de beijing y director de ainimate lab ai: la tecnología de generación de video ha hecho que la animación de alto nivel ya no sea un "juego para quemar dinero" que solo los grandes estudios se atreven a jugar.

el equipo creativo de la animación con ia "all the way south" está formado por sólo tres personas: un director, un artista del guión gráfico y un experto en aplicaciones de tecnología aigc. para elaborarlo mediante procesos tradicionales se necesitan 20 personas. después del cálculo, el costo de producción por sí solo se reduce en más del 90%.

como dijo wan pengfei, director del centro de interacción y generación visual de kuaishou, la esencia de la generación de vídeo es muestrear y calcular píxeles a partir de la distribución objetivo. este método puede lograr un mayor grado de libertad de contenido a un costo menor.

al ingresar a la página de generación de videos de vidu, el autor también experimentó la libertad de la "generación con un solo clic". cargue una foto y configúrela como "cuadro inicial" o como "carácter de referencia", ingrese la descripción de texto de la escena que desea generar en el cuadro de diálogo, haga clic en "generar" y se generará un video corto inteligente y emocionante. generado automáticamente. desde ingresar a la página hasta completar la descarga, toma menos de 1 minuto.

envíe una imagen al modelo de vídeo doméstico vidu y se generará automáticamente un vídeo animado. la imagen muestra una captura de pantalla del vídeo.

"la era de 'todos se convierten en diseñadores' y 'todos se convierten en directores' llegará, al igual que en el pasado 'todos tienen un micrófono'", dijo zhang peng, director ejecutivo de zhipu ai.

"world simulator", ¿hay algún drama?

¿la generación de vídeo sólo subvertirá la industria de contenidos? obviamente, esta no es la intención original de openai. "generar vídeo" es sólo un "aperitivo".

antes del nacimiento de sora, openai no lo posicionó como una herramienta de implementación de aigc, sino como un "contenedor" para replicar el mundo físico: un simulador mundial. en este contenedor corren las leyes físicas, los comportamientos ambientales y la lógica de interacción del mundo real, tal como el mundo virtual representado en "the matrix", impactando nuestra imaginación y nuestros sentidos.

sin embargo, el mundo físico es tridimensional y los modelos actuales como el de sora sólo se basan en operaciones bidimensionales y no son motores de física reales, por lo que no existe una simulación profunda del mundo físico.

"durante años he dicho que 'ver' el mundo es 'comprenderlo'. pero ahora estoy dispuesto a llevar este concepto un paso más allá y 'ver' no se trata sólo de 'comprender' sino de 'hacer'. li feifei, un catedrático de la universidad de stanford declaró públicamente que el objetivo final de la inteligencia espacial es conectar "ver" y "hacer". un día, la ia lo hará.

cuando "ver" no es igual a "hacer", la creación de inteligencia artificial no puede parar. recientemente han surgido nuevas rutas técnicas. se persiguen unos a otros por diferentes rutas, avanzando juntos para avanzar en este mundo inteligente construido a partir de vectores y modelos.

la futura "visión del mundo" sigue siendo un misterio que aún no ha sido revelado. como dijo el físico estadounidense feynman: "no puedo crear un mundo que no comprendo". pero esto no significa que si comprendes un mundo, definitivamente podrás crear un mundo.

en este momento, todavía es víspera de la subversión. es por eso que cuando hacemos preguntas a los exploradores de tecnología sobre el futuro, obtenemos respuestas tremendamente diferentes. quizás la "incertidumbre" sea la bendición de esta era.

informe/comentarios

noticias

¿puede la ia "generar" todas las cosas?

introducción

mi información de contacto