noticias

La IA produce imágenes más rápido y comprende mejor tus pensamientos. ¿Qué secretos técnicos ha cultivado el modelo de imagen Vincent de gran belleza?

2024-08-12

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina



Con el lanzamiento de modelos grandes y presionando el botón del acelerador, los diagramas vicencianos son sin duda una de las direcciones de aplicación más populares.

Desde el nacimiento de Stable Diffusion, ha habido un flujo interminable de grandes modelos de figuras vicencianas en el país y en el extranjero, y por un tiempo se sintió como una "lucha entre dioses". En tan solo unos meses, el título de "El artista de IA más fuerte" ha cambiado de manos varias veces. Cada iteración tecnológica continúa superando el límite superior de la calidad y velocidad de generación de imágenes de IA.

Ahora podemos obtener cualquier imagen que queramos ingresando unas pocas palabras. Ya sea un cartel comercial de nivel profesional o una fotografía hiperrealista, la fidelidad de los mapas de IA nos ha sorprendido. La IA incluso ganó el Sony World Photography Award 2023. Antes de que se anunciara el gran premio, esta "foto" se había exhibido en Somerset House en Londres; si el autor no la revelaba públicamente, nadie podría descubrir que la foto fue realmente creada por AI.



Eldagse y su trabajo "Electricista" generado por IA

Cómo hacer que las imágenes dibujadas por IA sean más hermosas no puede separarse de los esfuerzos persistentes de los técnicos de IA.El sexto número de "AIGC Experience School" invitó al experto técnico de Doubao Vincent Chart, Li Liang, y al arquitecto de soluciones de NVIDIA, Zhao Yijia, a brindarnos un análisis en profundidad de la tecnología detrás del modelo Vincent Chart para producir imágenes más hermosas, más rápidas y más rápidas. y comprender mejor la mente del usuario.

Al comienzo de la transmisión en vivo, Li Liang primero analizó en detalle la actualización técnica del modelo de diagrama Vincent del reciente modelo grande nacional "de primer nivel": el modelo grande ByteDance Doubao.

Li Liang dijo que los problemas que el equipo de Doubao quiere resolver incluyen principalmente tres aspectos: primero, cómo lograr una mayor coincidencia de imágenes y textos para cumplir con el diseño de la idea del usuario; segundo, cómo generar imágenes más hermosas para brindar una mejor experiencia a los usuarios; el tercero es cómo producir gráficos más rápidamente para atender llamadas de servicio a gran escala.

En términos de coincidencia de imágenes y texto, el equipo de Doubao comenzó con datos, refinó y filtró datos masivos de imágenes y texto y finalmente almacenó cientos de miles de millones de imágenes de alta calidad en la base de datos. Además, el equipo también entrenó especialmente un modelo de lenguaje grande multimodal para la tarea de recapitulación. Este modelo describirá de manera más completa y objetiva las relaciones físicas de las imágenes en las imágenes.



Después de tener imágenes y datos de texto de alta calidad y muy detallados, si desea aprovechar mejor la solidez del modelo, debe mejorar la capacidad del módulo de comprensión de texto. El equipo utiliza un modelo de lenguaje grande bilingüe nativo como codificador de texto, lo que mejora significativamente la capacidad del modelo para comprender el chino. Por lo tanto, frente a elementos nacionales como la "Dinastía Tang" y el "Festival de los Linternas", los modelos de diagramas de Doubao y Vincent. También muestran una comprensión más profunda.



Para la arquitectura del modelo Diffsuion, el equipo de Doubao también inyectó secretos únicos. Utilizaron UNet para un escalado efectivo. Al aumentar la cantidad de parámetros, el modelo gráfico de Doubao-Vensen mejoró aún más la comprensión de los pares de imagen y texto y las capacidades de generación de alta fidelidad. .



Para lograr el estilo estético más obvio que los usuarios sienten intuitivamente, el equipo de Doubao ha introducido una guía estética profesional y siempre presta atención a las preferencias estéticas de los usuarios y del público. Al mismo tiempo, el equipo también trabajó arduamente en la arquitectura de modelos y datos. Muchas veces, la comparación entre las imágenes que obtiene el usuario y la visualización de demostración es como una "muestra del comprador" y una "muestra del vendedor". De hecho, el mensaje proporcionado no es lo suficientemente detallado y claro para el modelo y el diagrama de Doubao Vincent. El modelo introduce un "Reformulador" y, al tiempo que sigue la intención original del usuario, agrega descripciones más detalladas a las palabras solicitadas, para que todos los usuarios experimenten un efecto de generación más perfecto.



Para hacer que el modelo produzca imágenes más rápido y consuma menos dinero por imagen, el equipo de Doubao también brindó nuevas ideas de resolución de problemas en el método de destilación del modelo. Un logro representativo es Hyber-SD, que es una destilación de un modelo de difusión novedoso. marco que mantiene un rendimiento casi sin pérdidas mientras comprime el número de pasos de eliminación de ruido.



A continuación, el arquitecto de soluciones de NVIDIA, Zhao Yijia, partió de la tecnología subyacente y explicó las dos arquitecturas de modelos SD y DIT basadas en Unet más populares de Vincent Graph y sus características correspondientes, y presentó las herramientas Tensorrt, Tensorrt-LLM, Triton y How de NVIDIA como Nemo. Megatron brinda soporte para la implementación de modelos y ayuda a los modelos grandes a razonar de manera más eficiente.

Zhao Yijia primero compartió una explicación detallada de los principios del modelo detrás de Stable Diffusion y explicó en detalle los principios de funcionamiento de componentes clave como Clip, VAE y Unet. A medida que Sora se hizo popular, también se hizo popular con la arquitectura DiT (Transformador de difusión) detrás. Zhao Yijia hizo además una comparación exhaustiva de las ventajas de SD y DiT desde tres aspectos: estructura del modelo, características y consumo de energía informática.



Cuando utiliza la difusión estable para generar imágenes, a menudo siente que el contenido de las palabras solicitadas se presenta en los resultados generados, pero la imagen no es lo que desea. Esto se debe a que la difusión estable basada en la representación de texto no es buena para controlar los detalles. de la imagen, como la composición, los movimientos, los rasgos faciales, las relaciones espaciales, etc. Por lo tanto, basándose en el principio de funcionamiento de la difusión estable, los investigadores han diseñado muchos módulos de control para compensar las deficiencias de la difusión estable. Zhao Yijia agregó el adaptador IP representativo y ControlNet.



Para acelerar la inferencia del modelo gráfico vicentino, que requiere un uso computacional intensivo, el soporte técnico de NVIDIA desempeña un papel clave. Zhao Yijia presentó las herramientas Nvidia TensorRT y TensorRT-LLM, que optimizan el proceso de inferencia de modelos de generación de imágenes y texto a través de convolución de alto rendimiento, programación eficiente y tecnologías de implementación distribuida. Al mismo tiempo, Ada, Hopper y la próxima arquitectura de hardware BlackWell de NVIDIA ya admiten el entrenamiento y la inferencia del FP8, lo que brindará una experiencia más fluida en el entrenamiento de modelos.



Después de seis maravillosas transmisiones en vivo, la "AIGC Experience Party" lanzada conjuntamente por Volcano Engine, NVIDIA y CMO CLUB llegó a una conclusión exitosa. A través de estos seis programas, creo que todos tienen una comprensión más profunda de cómo AIGC pasa de "interesante" a "útil". También esperamos que la "Escuela de Experiencia AIGC" no solo permanezca en la discusión del programa, sino que también acelere el proceso de actualización inteligente en el campo del marketing en la práctica.

Reseña de la dirección de los seis números de "AIGC Experience School":https://vtizr.xetlk.com/s/7CjTy