notícias

Meta Company lança Imagine Yourself: modelo de IA de geração de imagens personalizado que não precisa ser ajustado para objetos específicos

2024-08-23

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

IT House News no dia 23 de agosto, das mídias sociais à realidade virtual, a geração de imagens personalizadas tem atraído cada vez mais atenção devido ao seu potencial em diversas aplicações. Os métodos tradicionais geralmente exigem muitos ajustes para cada usuário, limitando assim a eficiência e a escalabilidade. Por esse motivo, a Meta Company propôs de forma inovadora o modelo de IA "Imagine Yourself".

Desafios dos métodos tradicionais de geração de imagens personalizadas

Os métodos atuais de geração de imagens personalizadas muitas vezes dependem da adaptação de modelos para cada usuário, o que é ineficiente e carece de generalidade. Embora os métodos mais recentes tentem alcançar a personalização sem ajustes, muitas vezes eles se ajustam demais, levando a um efeito de copiar e colar.

Imagine-se Inovação

O modelo Imagine Yourself não precisa ser ajustado para usuários específicos e pode atender às necessidades de diferentes usuários por meio de um único modelo.

Este modelo aborda as deficiências dos métodos existentes, como a tendência de copiar imagens de referência sem alterações, abrindo caminho para um processo de geração de imagens mais versátil e fácil de usar.

Imagine Yourself se destaca em áreas-chave como preservação de identidade, qualidade visual e alinhamento oportuno, superando significativamente os modelos anteriores.

Os principais componentes do modelo incluem:

Gerar dados emparelhados sintéticos para incentivar a diversidade;

Uma arquitetura de atenção totalmente paralela integrando três codificadores de texto e um codificador visual treinável;

e um processo de ajuste fino em vários estágios, de grosso a fino

Essas técnicas inovadoras permitem que o modelo gere imagens diversas e de alta qualidade, mantendo fortes recursos de proteção de identidade e alinhamento de texto.

Imagine Yourself usa um codificador de patch CLIP treinável para extrair informações de identidade e integrá-las com prompts de texto por meio de um módulo paralelo de atenção cruzada, preservando com precisão as informações de identidade e reagindo a prompts complexos.

O modelo utiliza adaptadores de baixa ordem (LoRA) para ajustar apenas partes específicas da arquitetura, mantendo assim a alta qualidade visual.

Um recurso de destaque do Imagine Yourself é a geração de dados SynPairs. Ao criar dados emparelhados de alta qualidade que incluem mudanças na expressão, pose e iluminação, o modelo pode aprender com mais eficiência e produzir resultados diversos.

Notavelmente, ele alcança uma melhoria significativa de +27,8% no alinhamento do texto em comparação com o modelo de última geração no tratamento de palavras-chave complexas.

Os pesquisadores avaliaram quantitativamente o Imagine Yourself usando um conjunto de 51 identidades diferentes e 65 pistas, gerando 3.315 imagens para avaliação humana.

O modelo é comparado com modelos baseados em adaptadores de última geração (SOTA) e modelos baseados em controle, com foco em métricas como apelo visual, preservação de identidade e alinhamento de dicas.

Anotadores humanos pontuam as imagens geradas com base na similaridade de identidade, alinhamento oportuno e apelo visual. Imagine Yourself alcança uma melhoria significativa de 45,1% no alinhamento de sugestões em comparação com o modelo baseado em adaptador e uma melhoria de 30,8% em comparação com o modelo baseado em controle, provando mais uma vez sua superioridade.

O modelo Imagine Yourself é um grande avanço na geração de imagens personalizadas. O modelo elimina a necessidade de ajuste específico do assunto e introduz componentes inovadores, como geração de dados emparelhados sintéticos e uma arquitetura de atenção paralela, abordando assim os principais desafios enfrentados pelas abordagens anteriores.