noticias

Meta Company lanza Imagine Yourself: modelo de IA de generación de imágenes personalizado que no necesita ser ajustado para objetos específicos

2024-08-23

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

IT House News el 23 de agosto, desde las redes sociales hasta la realidad virtual, la generación de imágenes personalizadas ha atraído cada vez más atención debido a su potencial en diversas aplicaciones. Los métodos tradicionales suelen requerir muchos ajustes para cada usuario, lo que limita la eficiencia y la escalabilidad. Por este motivo, Meta Company propuso de forma innovadora el modelo de IA "Imagine Yourself".

Desafíos de los métodos tradicionales de generación de imágenes personalizadas

Los métodos actuales de generación de imágenes personalizadas a menudo se basan en la adaptación de modelos para cada usuario, lo cual es ineficiente y carece de generalidad. Si bien los métodos más nuevos intentan lograr la personalización sin ajustes, a menudo se adaptan demasiado, lo que genera un efecto de copiar y pegar.

Imagínate Innovación

El modelo Imagine Yourself no necesita ser ajustado para usuarios específicos y puede satisfacer las necesidades de diferentes usuarios a través de un solo modelo.

Este modelo aborda las deficiencias de los métodos existentes, como la tendencia a copiar imágenes de referencia sin cambios, allanando así el camino para un proceso de generación de imágenes más versátil y fácil de usar.

Imagine Yourself sobresale en áreas clave como la preservación de la identidad, la calidad visual y la alineación oportuna, superando significativamente a los modelos anteriores.

Los principales componentes del modelo incluyen:

Generar datos sintéticos emparejados para fomentar la diversidad;

Una arquitectura de atención totalmente paralela que integra tres codificadores de texto y un codificador visual entrenable;

y un proceso de ajuste fino de varias etapas de grueso a fino

Estas técnicas innovadoras permiten que el modelo genere imágenes diversas y de alta calidad manteniendo al mismo tiempo una sólida protección de la identidad y capacidades de alineación del texto.

Imagine Yourself utiliza un codificador de parche CLIP entrenable para extraer información de identidad y la integra con indicaciones de texto a través de un módulo de atención cruzada paralelo, preservando con precisión la información de identidad y reaccionando a indicaciones complejas.

El modelo utiliza adaptadores de bajo orden (LoRA) para ajustar solo partes específicas de la arquitectura, manteniendo así una alta calidad visual.

Una característica destacada de Imagine Yourself es la generación de datos SynPairs. Al crear datos emparejados de alta calidad que incluyen cambios en la expresión, la pose y la iluminación, el modelo puede aprender de manera más eficiente y producir resultados diversos.

En particular, logra una mejora significativa del +27,8 % en la alineación del texto en comparación con el modelo de última generación en el manejo de palabras clave complejas.

Los investigadores evaluaron cuantitativamente Imagine Yourself utilizando un conjunto de 51 identidades diferentes y 65 señales, generando 3315 imágenes para evaluación humana.

El modelo se compara con modelos basados ​​en adaptadores y modelos basados ​​en control de última generación (SOTA), centrándose en métricas como el atractivo visual, la preservación de la identidad y la alineación de señales.

Los anotadores humanos califican las imágenes generadas según la similitud de identidad, la alineación oportuna y el atractivo visual. Imagine Yourself logra una mejora significativa del 45,1% en la alineación de señales en comparación con el modelo basado en adaptador y una mejora del 30,8% en comparación con el modelo basado en control, demostrando una vez más su superioridad.

El modelo Imagine Yourself es un gran avance en la generación de imágenes personalizadas. El modelo elimina la necesidad de realizar ajustes específicos por tema e introduce componentes innovadores como la generación de datos sintéticos emparejados y una arquitectura de atención paralela, abordando así los desafíos clave que enfrentaron los enfoques anteriores.