Mi información de contacto
Correo[email protected]
2024-08-16
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
Máquina Corazón Original
Departamento editorial de Machine Heart
Asistimos a otra ronda de innovación tecnológica. Esta vez, AIGC proporciona a los individuos herramientas para expresarse, haciendo que la creación sea más fácil y popular, pero el motor detrás de esto no es el "gran" modelo.
En los últimos dos años, la tecnología AIGC se ha desarrollado más rápido de lo que nadie imaginaba, abarcando todos los campos, desde texto hasta imágenes y videos. Las discusiones sobre el camino de comercialización de AIGC nunca han cesado. Entre ellas, existen consensos y diferencias en las rutas.
Por un lado, las poderosas capacidades de los modelos generales son sorprendentes y muestran potencial de aplicación en diversas industrias. En particular, la introducción de arquitecturas como DiT y VAR ha permitido a Scaling Law pasar de la generación de texto a la generación visual. Bajo la guía de esta regla, muchos grandes fabricantes de modelos continúan avanzando en la dirección de aumentar los datos de entrenamiento, la inversión en potencia informática y la acumulación de parámetros.
Por otro lado, también hemos visto que un modelo universal no significa "matar a todos". Frente a muchas tareas de pista subdivididas, un modelo vertical "bien entrenado" puede lograr mejores resultados.
A medida que la tecnología de modelos grandes entra en un período de implementación acelerada, esta última vía de comercialización ha recibido una atención cada vez mayor.
Durante esta evolución destacó FancyTech, una startup de China:Ha ampliado rápidamente el mercado con productos estandarizados para la generación de contenido visual comercial y ha verificado la superioridad del "modelo vertical" a nivel de implementación industrial antes que sus pares.
Al observar el círculo empresarial nacional de grandes modelos, el historial de comercialización de FancyTech es obvio para todos. Pero lo que es menos conocido es el modelo vertical y las ventajas tecnológicas que esta empresa, que nació hace apenas unos años, está a la vanguardia de la pista.
En entrevista exclusiva, Machine Heart conversó con FancyTech sobre la exploración tecnológica que están realizando.
FancyTech lanza el modelo vertical de vídeo DeepVideo
¿Cómo romper las barreras de la industria?
En términos generales, una vez que la capacidad de generalización de tiro cero de un modelo general alcanza un cierto nivel, se puede utilizar para tareas posteriores ajustándolo. Esta es también la forma en que se lanzan hoy en día muchos productos de modelos grandes. Pero desde el punto de vista real, el simple "ajuste" no puede satisfacer las necesidades de las aplicaciones industriales, porque las tareas de generación de contenido de cada industria tienen su propio conjunto de estándares específicos y complejos.
Un modelo general puede completar el 70% de las tareas rutinarias, pero lo que los clientes realmente necesitan es un "modelo vertical" que pueda satisfacer el 100% de sus necesidades. Tomemos como ejemplo el diseño visual comercial. En el pasado, el trabajo relacionado lo realizaban profesionales con una acumulación a largo plazo y debía diseñarse y ajustarse de acuerdo con las necesidades específicas de la marca, lo que implicaba mucha experiencia manual. Comparado con indicadores como la estética y el cumplimiento de las instrucciones, la "restauración del producto" es un punto al que las marcas prestan más atención en esta tarea, y también es el factor decisivo sobre si las marcas están dispuestas a pagar.
En el proceso de desarrollo propio de un modelo vertical para imágenes/videos comerciales, FancyTech desmontó el desafío principal: cómo hacer que el producto esté lo suficientemente restaurado e integrado en el fondo, especialmente en el video generado, para lograr un movimiento controlable del producto sin deformación. .
https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650930567&idx=1&sn=b5fc3170aa4c3be6701f2a21fb898120&chksm=84e439f9b393b0ef4b 8ce1756e95c59a9dce6205478feea33a68b6a594d400cd0ac1b62e037f&token=2065772502&lang=zh_CN#rd
Con el desarrollo actual de la tecnología de modelos grandes, para la capa de aplicación, tomar la ruta del código abierto o del código cerrado ya no es el problema central. El modelo vertical de FancyTech se basa en el marco del algoritmo subyacente de código abierto, superpuesto con sus propias anotaciones de datos y reentrenado, y solo requiere unos pocos cientos de GPU para iteraciones de entrenamiento continuo para lograr buenos resultados de generación. Por el contrario, los dos factores de "datos del producto" y "métodos de formación" son más críticos para el efecto de implementación final.
Con la premisa de acumular datos de entrenamiento 3D masivos, FancyTech introdujo la idea de inteligencia espacial para guiar la generación de contenido 2D del modelo.Específicamente, para la generación de contenido de imágenes, el equipo propuso un "dispositivo de función multimodal" para garantizar la restauración de productos y utilizó una recopilación de datos especial para garantizar la integración natural de productos y fondos para la generación de contenido de video; el equipo reconstruyó la generación de video; Los enlaces subyacentes, el marco de diseño direccional y la ingeniería de datos, logrando así la generación de video centrada en el producto.
Golpe de reducción de dimensionalidad real: ¿Cómo guía la "inteligencia espacial" la generación de contenido 2D?
La razón principal por la que los efectos de muchos productos de generación visual no son satisfactorios es que los modelos actuales de generación de imágenes y videos a menudo aprenden basándose en datos de entrenamiento 2D y no comprenden el mundo físico real.
Este punto ha alcanzado consenso en el campo, y algunos investigadores incluso creen que bajo el paradigma de aprendizaje autorregresivo, la comprensión del mundo por parte del modelo siempre es superficial.
Sin embargo, en la tarea de subdivisión de la generación visual comercial, mejorar la comprensión del mundo físico 3D del modelo y generar mejor contenido 2D no es completamente irresoluble.
FancyTech ha migrado las ideas de investigación en el campo de la "inteligencia espacial" a la construcción de modelos generativos visuales. A diferencia de los modelos generativos generales, la idea de la inteligencia espacial es aprender de las señales originales obtenidas por una gran cantidad de sensores y calibrar con precisión las señales originales obtenidas por los sensores para darle al modelo la capacidad de percibir y comprender el mundo real.
Por lo tanto, FancyTech utiliza escaneo LIDAR en lugar de la fotografía de estudio tradicional y ha acumulado una gran cantidad de pares de datos 3D de alta calidad que reflejan las diferencias antes y después de la integración del producto. Combina datos de nubes de puntos 3D con datos 2D como datos de entrenamiento del modelo. para mejorar la comprensión del mundo por parte del modelo.
Sabemos que en la generación de cualquier contenido visual, la configuración de efectos de luces y sombras es una tarea muy desafiante. Elementos como la iluminación, los cuerpos luminosos, la retroiluminación y los puntos de luz pueden fortalecer las capas espaciales de la imagen, pero este es un "punto de conocimiento" que es difícil de entender para los modelos generativos.
Para recopilar la mayor cantidad posible de datos de luz natural y sombras, FancyTech construyó docenas de luces con brillo y temperatura de color ajustables en cada entorno, lo que significa que cada par en los datos masivos se puede superponer con múltiples luces y diferentes temperaturas de brillo y color. . cambios.
Esta recopilación de datos de alta intensidad simula la iluminación de escenas de rodaje reales, acercándolas más a las características de las escenas de comercio electrónico.
Combinando la acumulación de datos 3D de alta calidad, FancyTech ha realizado una serie de innovaciones en el marco del algoritmo, combinando orgánicamente algoritmos espaciales con algoritmos de imagen y video para permitir que el modelo comprenda mejor la interacción entre los objetos centrales y el entorno.
Durante el proceso de entrenamiento, el modelo puede "emergir" una comprensión del mundo físico hasta cierto punto y tener una comprensión más profunda del espacio tridimensional, la profundidad, la reflexión y refracción de la luz y los resultados de la luz que opera en diferentes medios. y diferentes materiales sabiendo esto, finalmente logramos una "fuerte reducción" e "hiperfusión" de los productos en los resultados generados.
¿Cuáles son las innovaciones algorítmicas detrás de la “fuerte reducción” y la “hiperfusión”?
Para las tareas comunes de generación de imágenes de escenas de productos, el método principal actual utiliza principalmente texturas para garantizar la restauración de la parte del producto y luego implementa la edición de escenas de imágenes basadas en la tecnología Inpainting. El usuario selecciona el área que necesita cambiarse e ingresa un mensaje o proporciona una imagen de referencia para guiar la generación de la escena del producto. El efecto de fusión de este método es mejor, pero la desventaja es que la controlabilidad de los resultados de la generación de escenas no es alta, por ejemplo, no es lo suficientemente clara o demasiado simple y no puede garantizar la alta tasa de disponibilidad de una sola salida.
En respuesta a los problemas que no pueden resolverse con los métodos actuales, FancyTech propuso un "dispositivo de funciones multimodal" patentado que extrae características del producto en múltiples dimensiones y luego utiliza estas funciones para generar gráficos de escenas integrados.
El trabajo de extracción de características se puede dividir en "características globales" y "características locales". Las características globales incluyen el contorno, el color y otros elementos del producto, que se extraen mediante codificadores VAE. Las características locales incluyen detalles del producto en todas partes, que se extraen; utilizando redes neuronales gráficas. Uno de los grandes beneficios de la red neuronal gráfica es que puede extraer la información de cada píxel clave del producto y la relación entre los píxeles clave, y mejorar la restauración de detalles dentro del producto.
En la generación de contenidos de productos de materiales flexibles, el efecto obtenido mediante este método mejora significativamente:
https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650930567&idx=1&sn=b5fc3170aa4c3be6701f2a21fb898120&chksm=84e439f9b393b0ef4b 8ce1756e95c59a9dce6205478feea33a68b6a594d400cd0ac1b62e037f&token=2065772502&lang=zh_CN#rd
Comparado con las imágenes, la generación de vídeos también implica el control del movimiento del propio producto y los cambios de luces y sombras que éste aporta. Para los modelos generales de generación de vídeo, la dificultad radica en la imposibilidad de proteger de forma independiente una determinada parte del vídeo. Para resolver este problema, FancyTech dividió la tarea en dos ramas: "generación de movimiento de producto" e "integración de escena de video".
A nivel de datos, además de utilizar los recursos de datos de productos exclusivos de FancyTech para brindar capacitación en control y protección del producto, también se agregan múltiples conjuntos de datos de código abierto para garantizar capacidades de generalización de escenas. El plan de formación combina el aprendizaje comparativo y el aprendizaje del curso y, en última instancia, logra el efecto de protección de los bienes.
Dejemos que los dividendos de la era AIGC
Desde el modelo vertical hasta la gente más corriente.
Ya sea "universal" o "vertical", el objetivo final de ambas rutas es la comercialización.
El beneficiario más directo de la implementación del modelo vertical de FancyTech es la marca. En el pasado, el ciclo de producción de un vídeo publicitario podía durar varias semanas desde la planificación, filmación y edición. Pero en la era AIGC, solo se necesitan diez minutos para crear un video publicitario de este tipo y el costo es solo una quinta parte del costo original.
Con las ventajas de una gran cantidad de datos únicos y conocimientos de la industria, FancyTech ha ganado un amplio reconocimiento en el país y en el extranjero gracias a las ventajas del modelo vertical. Ha firmado contratos con Samsung y LG con socios coreanos y ha cooperado con Lazada, una empresa de gran prestigio. conocida plataforma de comercio electrónico en el sudeste asiático; en los Estados Unidos, ha sido favorecida por marcas locales como Kate Sommerville y Solawave en Europa, ha ganado el Premio a la Innovación LVMH y mantiene una estrecha cooperación con los clientes europeos.
Además del modelo vertical central, FancyTech también ofrece capacidades de publicación automática de enlace completo y retroalimentación de datos para videos cortos de IA, lo que impulsa un crecimiento continuo en las ventas de productos.
Más importante aún,El modelo vertical visualiza el camino para que el público en general utilice la tecnología AIGC para mejorar la productividad.Por ejemplo, un estudio fotográfico tradicional en la calle puede completar la transformación del negocio desde una simple toma de retratos hasta la producción de material visual comercial de nivel profesional sin agregar equipos y profesionales profesionales con la ayuda de los productos de FancyTech.
https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650930567&idx=1&sn=b5fc3170aa4c3be6701f2a21fb898120&chksm=84e439f9b393b0ef4b 8ce1756e95c59a9dce6205478feea33a68b6a594d400cd0ac1b62e037f&token=2065772502&lang=zh_CN#rd
Ahora, con solo levantar un teléfono móvil, casi todo el mundo puede grabar vídeos, grabar música y compartir sus creaciones con el mundo. Imagine un futuro en el que AIGC desate una vez más la creatividad individual——
Permitir que la gente común cruce los umbrales profesionales y convierta las ideas en realidad más fácilmente, permitiendo así que la productividad de cada industria avance y genere más industrias emergentes. A partir de este momento, los dividendos de los tiempos que trae la tecnología AIGC realmente se convertirán en algo común. gente.