Revelando los secretos de FancyTech: la innovación algorítmica detrás de la “fuerte reducción” y la “hiperconvergencia”
2024-08-25
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
En la reciente ola de cambio tecnológico, AIGC (contenido generado por inteligencia artificial) se está convirtiendo en una herramienta importante para la autoexpresión y la creación de las personas. La fuerza impulsora de esta ola de innovación tecnológica no son solo enormes modelos algorítmicos, sino soluciones profundamente personalizadas que se centran en las necesidades de campos específicos. En los últimos dos años, AIGC se ha desarrollado más rápido de lo que muchos esperaban y sus aplicaciones se han expandido desde la generación de texto hasta toda la gama de imágenes y vídeos.
Recientemente, "Heart of the Machine" realizó una entrevista exclusiva con una nueva empresa china llamada FancyTech. La empresa no sólo amplió rápidamente el mercado ofreciendo productos de generación de contenido visual comercial estandarizados, sino que también fue la primera en demostrar las ventajas del modelo vertical en aplicaciones prácticas.
"Heart of the Machine" también presenta en detalle el último modelo de video vertical de FancyTech, DeepVideo, que enfrenta con éxito el desafío de cómo restaurar con precisión e integrar de forma natural productos en videos, asegurando que los productos permanezcan sin cambios en movimiento.
El modelo vertical de FancyTech se basa en el marco del algoritmo subyacente de código abierto, superpuesto con sus propias anotaciones de datos y reentrenado, y solo requiere unos pocos cientos de GPU para iteraciones de entrenamiento continuo para lograr buenos resultados de generación. Por el contrario, los dos factores "datos del producto" y "métodos de formación" son más críticos para el efecto de implementación final.
Basado en la acumulación de una gran cantidad de datos de entrenamiento 3D, FancyTech introdujo la idea de inteligencia espacial para guiar la generación de contenido 2D del modelo. En términos de generación de contenido de imágenes, el equipo propuso un "dispositivo de funciones multimodal" para garantizar la restauración de los bienes y aseguró la integración natural de los bienes y el fondo mediante la recopilación de datos especiales. En términos de generación de contenido de video, el equipo reconstruyó los vínculos subyacentes de generación de video, marco de diseño direccional e ingeniería de datos para generar videos centrados en productos.
Además, "Heart of the Machine" revela en profundidad cómo FancyTech aplica ideas de investigación de inteligencia espacial a modelos de generación visual. A diferencia de los modelos generativos tradicionales, la inteligencia espacial analiza grandes cantidades de datos de sensores y realiza una calibración precisa, lo que permite que el modelo perciba y comprenda el mundo real.
FancyTech utiliza escaneo LIDAR en lugar de la fotografía de estudio tradicional y ha acumulado una gran cantidad de datos 3D de alta calidad. Estos datos se combinan con datos 2D para servir como datos de entrenamiento del modelo, lo que mejora en gran medida la comprensión del mundo real por parte del modelo.
Para la desafiante tarea de dar forma a los efectos de luces y sombras en la generación de contenido visual, FancyTech implementó múltiples luces con brillo y temperatura de color ajustables en cada entorno para recopilar la mayor cantidad posible de datos de luz natural y sombras para mejorar las capas espaciales de las imágenes generadas.
Esta recopilación de datos de alta intensidad simula la iluminación de escenas de rodaje reales, acercándolas más a las características de las escenas de comercio electrónico. Combinando la acumulación de datos 3D de alta calidad, FancyTech ha realizado una serie de innovaciones en el marco del algoritmo, combinando orgánicamente algoritmos espaciales con algoritmos de imagen y video, lo que permite que el modelo comprenda mejor la interacción entre los objetos centrales y el entorno.
La exploración de la comercialización nunca se ha detenido en el campo de AIGC. Aunque existe consenso, también existen diferentes direcciones de desarrollo. "Heart of the Machine" revela en el artículo la innovación del algoritmo de FancyTech detrás de la "fuerte reducción" y la "hiperfusión".
El “generador de características multimodal” de FancyTech extrae características del producto en múltiples dimensiones y luego las utiliza para generar imágenes que se mezclan con la escena. La extracción de características se divide en características globales y características locales: las características globales incluyen elementos básicos como el contorno y el color del producto, que se extraen mediante codificadores VAE; las características locales se centran en los detalles del producto y se extraen a través de redes neuronales de gráficos. Este método puede capturar en detalle las características internas del producto y la relación entre los detalles y los píxeles clave, mejorando así la precisión de la restauración de los detalles del producto.
En el camino hacia la comercialización, ya sea que se adopte un modelo general o un modelo vertical, el objetivo final es lograr el éxito comercial. FancyTech ha aprovechado su riqueza de datos únicos y experiencia en la industria para obtener un amplio reconocimiento en los mercados nacionales y extranjeros y ha establecido relaciones de cooperación con socios internacionales como Samsung, LG y la plataforma de comercio electrónico Lazada del sudeste asiático en los Estados Unidos; Kate Somerville y Favorecida por marcas locales como Solawave en Europa, ganó el Premio a la Innovación LVMH y mantiene una estrecha cooperación con los clientes europeos.
Además, FancyTech también proporciona funciones de publicación automática de enlace completo y retroalimentación de datos de videos cortos de IA, impulsando efectivamente el crecimiento continuo de las ventas de productos.
La aplicación exitosa del modelo vertical no solo promueve el desarrollo del mercado comercial, sino que también facilita que el público en general utilice la tecnología AIGC para mejorar la productividad.
Con la expansión de la tecnología, casi todo el mundo puede grabar vídeos, grabar música y compartir sus creaciones con el mundo a través de sus teléfonos móviles. Esperamos un futuro en el que la tecnología AIGC desate una vez más la creatividad personal, permitiendo a la gente corriente cruzar fácilmente los umbrales profesionales y transformar ideas en realidad, promoviendo así saltos de productividad en todos los ámbitos de la vida y dando origen a más industrias emergentes.
Texto/Lin Ke, que se centra en la IA