¡sora fue superada nuevamente! el modelo de video meta ai explota, haciendo que la edición de video sea más fácil que p-pictures

¡sora fue superada nuevamente! el modelo de video meta ai explota, haciendo que la edición de video sea más fácil que las imágenes p

2024-10-05

zuckerberg ha estado ocupado recientemente "robándose el protagonismo" en todo el mundo.

no hace mucho inició su "segundo emprendimiento" y acaba de mostrarnos las gafas ar más potentes meta orion, que ha estado perfeccionando durante diez años. aunque se trata solo de un prototipo de máquina que apuesta al futuro, le ha robado el protagonismo. visión pro de apple.

anoche, meta una vez más se robó el show en la pista del modelo de generación de video.

meta dijo que el recién lanzado meta movie gen eslos "modelos media foundation" más avanzados hasta la fecha.

sin embargo, primero tomemos precauciones. los funcionarios de meta aún no han dado un calendario de apertura claro.

los funcionarios afirman estar comunicándose y cooperando activamente con profesionales y creadores de la industria del entretenimiento, y se espera que se integre en los productos y servicios de meta en algún momento del próximo año.

resuma brevemente las características de meta movie gen:

tiene funciones como generación de video personalizada, edición de video precisa y generación de audio.

admite la generación de videos largos de alta definición a 1080p, 16 segundos y 16 cuadros por segundo

capaz de generar hasta 45 segundos de audio de alta calidad y alta fidelidad

ingrese texto simple para lograr capacidades de edición de video sofisticadas y precisas.

la demostración fue excelente, pero no se espera que el producto esté oficialmente disponible para el público hasta el próximo año.

dígale adiós al "mimo" y céntrese en funciones amplias y completas

desglosado, movie gen tiene cuatro funciones principales: generación de video, generación de video personalizado, edición de video precisa y generación de audio.

la función de video vincent ha sido durante mucho tiempo una característica estándar de los modelos de generación de video. sin embargo, meta movie gen puede generar videos de alta definición con diferentes relaciones de aspecto según las necesidades del usuario, lo cual es el primero de su tipo en la industria.

resumen de entrada de texto: un perezoso con gafas de sol rosas yace sobre un flotador en forma de dona en una piscina. el perezoso sostiene una bebida tropical. el mundo es tropical. la luz del sol proyecta una sombra.

resumen de entrada de texto: la cámara está detrás de un hombre. el hombre está sin camisa y lleva una tela verde alrededor de la cintura. está descalzo. con un objeto ardiente en cada mano, crea amplios movimientos circulares. al fondo se ve un mar en calma. el ambiente es fascinante, con la danza del fuego.

además, meta movie gen proporciona funciones avanzadas de edición de video, lo que permite a los usuarios realizar tareas complejas de edición de video mediante la simple entrada de texto.

desde el estilo visual del vídeo hasta los efectos de transición entre videoclips y operaciones de edición más detalladas, este modelo también le brinda suficiente libertad.

en términos de generación de videos personalizados,meta movie gen también da un gran paso adelante.

los usuarios pueden cargar sus propias imágenes y utilizar meta movie gen para generar videos personalizados manteniendo el carácter y el movimiento.

resumen de entrada de texto: una vaquera con pantalones vaqueros está montada en un caballo blanco en una ciudad del viejo oeste. un cinturón de cuero le ciñe la cintura. el caballo es majestuoso, con su pelaje brillando a la luz del sol. las montañas rocosas están al fondo.

desde linternas kongming hasta burbujas de colores transparentes, puedes reemplazar fácilmente el mismo objeto en el vídeo con solo una frase.

entrada de texto: transforma la linterna en una burbuja que se eleva en el aire.

aunque este año se han presentado muchos modelos de video, la mayoría de ellos solo pueden generar "mimos". es una pena abandonarlos si meta movie gen no ha "repetido los mismos errores".

entrada de texto: una hermosa pieza orquestal que evoca una sensación de asombro.

los usuarios pueden proporcionar archivos de video o contenido de texto y dejar que meta movie gen genere el audio correspondiente en función de estas entradas. (pd: atención al doblaje del aterrizaje del monopatín)

y no sólo puede crear un único efecto de sonido, sino también crear música de fondo o incluso una banda sonora completa para todo el vídeo, mejorando así en gran medida la calidad general del vídeo y la experiencia de visualización de la audiencia.

después de ver la demostración, lex fridman expresó su admiración de manera sucinta.

muchos internautas una vez más "impulsaron" el futuro de openai sora, pero máslos internautas que han estado esperando ansiosamente han comenzado a esperar con ansias la apertura de las calificaciones de experiencia de prueba.

el científico jefe de meta ai, yann lecun, también promovió la plataforma meta movie gen en línea.

vale la pena esperar con ansias el pastel pintado por meta

cuando se lanzó meta movie gen, el equipo de investigación de meta ai también publicó un artículo técnico de 92 páginas al mismo tiempo.

según los informes, el equipo de investigación de ia de meta utiliza principalmente dos modelos básicos para lograr estas amplias funciones: los modelos movie gen video y movie gen audio.

entre ellos, movie gen video es un modelo básico con parámetros 30b, que se utiliza para la generación de texto a video y puede generar videos hd de alta calidad de hasta 16 segundos de duración.

la fase de preentrenamiento del modelo utiliza una gran cantidad de datos de imágenes y videos para comprender varios conceptos del mundo visual, incluido el movimiento de objetos, la interacción, la geometría, el movimiento de la cámara y las leyes físicas.

para mejorar la calidad de la generación de video, el modelo también se ajusta de forma supervisada (sft) utilizando un pequeño conjunto de videos y subtítulos de texto de alta calidad cuidadosamente seleccionados.

el informe muestra que el proceso posterior a la capacitación es una etapa importante en la capacitación del modelo movie gen video, que puede mejorar aún más la calidad de la generación de video, especialmente las funciones de personalización y edición de imágenes y videos.

vale la pena mencionar que el equipo de investigación también comparó el modelo movie gen video con los modelos convencionales de generación de video.

debido a que sora no está abierto actualmente, los investigadores solo pueden usar sus videos y consejos publicados públicamente para comparar. para otros modelos, como runway gen3, lumalabs y keling 1.5, los investigadores optan por generar videos ellos mismos a través de interfaces api.

y debido a que los videos publicados por sora tienen diferentes resoluciones y duraciones, los investigadores recortaron los videos de movie gen video para asegurarse de que tuvieran la misma resolución y duración en comparación.

los resultados muestran,el efecto de evaluación general de movie gen video es significativamente mejor que runway gen3 y lumalabs, tiene una ligera ventaja sobre openai sora y es equivalente a keling 1.5.

en el futuro, meta también planea publicar múltiples puntos de referencia, incluidos movie gen video bench, movie gen edit bench y movie gen audio bench, para acelerar la investigación sobre modelos de generación de video.

el modelo movie gen audio es un modelo de 13b de parámetros para generación de video y texto a audio, capaz de generar hasta 45 segundos de audio de alta calidad y fidelidad, incluidos efectos de sonido y música, y sincronizado con el video.

el modelo adopta un modelo generativo basado en flow matching y una arquitectura de modelo de transformador de difusión (dit), y agrega módulos condicionales adicionales para proporcionar control.

incluso el equipo de investigación de meta introdujo una tecnología de expansión de audio que permite al modelo generar audio coherente más allá del límite inicial de 45 segundos. es decir, el modelo puede generar audio coincidente sin importar la duración del video.

ayer, tim brooks, director de openai sora, anunció oficialmente su dimisión y se unió a google deepmind, lo que una vez más ensombreció el futuro incierto del proyecto sora.

según bloomberg, el vicepresidente de meta, connor hayes, dijo que meta movie gen actualmente no tiene planes de productos específicos. hayes reveló una razón importante para el retraso en el lanzamiento.

meta movie gen actualmente utiliza palabras de texto para generar un video que a menudo requiere decenas de minutos de espera, lo que afecta en gran medida la experiencia del usuario.

meta espera mejorar aún más la eficiencia de la generación de video y lanzar el servicio de video en terminales móviles lo antes posible para satisfacer mejor las necesidades de los consumidores.

de hecho, si miramos la forma del producto,el diseño funcional de meta movie gen se centra en ser grande y completo, yno hay una "pierna coja" como otros modelos de video.

la deficiencia más destacada es que tiene el mismo sabor de "futuro" que sora.

el ideal es muy pleno, la realidad es muy flaca.

se puede decir que así como sora está siendo superado actualmente por grandes modelos nacionales, cuando se lance meta movie gen, el panorama competitivo en el campo de la generación de video puede cambiar nuevamente.

pero al menos por ahora, el pastel pintado por meta es suficiente para que la gente lo trague.

noticias

¡sora fue superada nuevamente! el modelo de video meta ai explota, haciendo que la edición de video sea más fácil que las imágenes p

introducción

mi información de contacto