notícias

O novo método de pesquisa e desenvolvimento da Meta: integração de modelos de IA de linguagem e difusão para reduzir a quantidade de cálculos, melhorar a eficiência da computação e otimizar a geração de imagens

2024-08-24

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

A IT House informou em 24 de agosto que a Meta AI Company lançou recentemente um novo método chamado Transfusion, que pode combinar modelos de linguagem e modelos de geração de imagens e integrá-los em um sistema unificado de IA.

A IT Home citou a equipe dizendo que o Transfusion combina as vantagens dos modelos de linguagem no processamento de dados discretos, como texto, e a capacidade dos modelos de difusão na geração de dados contínuos, como imagens.

Meta explica que os sistemas atuais de geração de imagens normalmente usam codificadores de texto pré-treinados para processar palavras-chave de entrada, que são então combinadas com um modelo de difusão separado para gerar imagens.

Muitos modelos de linguagem multimodal funcionam de forma semelhante, concatenando modelos de texto pré-treinados com codificadores especializados para outras modalidades.

No entanto, o Transfusion usa uma arquitetura Transformer única e unificada que é adequada para todos os modos e realiza treinamento completo em dados de texto e imagem. Texto e imagens usam diferentes funções de perda: o texto usa a previsão do próximo token e as imagens usam difusão.

Para processar texto e imagens simultaneamente, as imagens são convertidas em sequências de fragmentos de imagens. Dessa forma, o modelo pode processar tags de texto e fragmentos de imagem simultaneamente em uma sequência, e uma máscara de atenção especial permite ao modelo capturar as relações dentro da imagem.

Diferente dos métodos existentes do Meta, como o Chameleon (que converte imagens em marcadores discretos e depois os processa da mesma forma que o texto), o Transfusion mantém a representação contínua das imagens e evita a perda de informações causada pela quantização.

Os experimentos também mostram que o Fusion é dimensionado com mais eficiência do que métodos semelhantes. Em termos de geração de imagens, alcança resultados semelhantes aos modelos especializados, mas com significativamente menos esforço computacional e, surpreendentemente, a integração de dados de imagem também melhora as capacidades de processamento de texto.

Os pesquisadores treinaram um modelo de 7 bilhões de parâmetros em 2 trilhões de tags de texto e imagem. O modelo alcança resultados semelhantes aos de sistemas maduros, como o DALL-E 2, na geração de imagens e ao mesmo tempo no processamento de texto.