Minhas informações de contato
Correspondênciaadmin@informação.bz
2024-08-24
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
A IT House informou em 24 de agosto que a Meta AI Company lançou recentemente um novo método chamado Transfusion, que pode combinar modelos de linguagem e modelos de geração de imagens e integrá-los em um sistema unificado de IA.
A IT Home citou a equipe dizendo que o Transfusion combina as vantagens dos modelos de linguagem no processamento de dados discretos, como texto, e a capacidade dos modelos de difusão na geração de dados contínuos, como imagens.
Meta explica que os sistemas atuais de geração de imagens normalmente usam codificadores de texto pré-treinados para processar palavras-chave de entrada, que são então combinadas com um modelo de difusão separado para gerar imagens.
Muitos modelos de linguagem multimodal funcionam de forma semelhante, concatenando modelos de texto pré-treinados com codificadores especializados para outras modalidades.
No entanto, o Transfusion usa uma arquitetura Transformer única e unificada que é adequada para todos os modos e realiza treinamento completo em dados de texto e imagem. Texto e imagens usam diferentes funções de perda: o texto usa a previsão do próximo token e as imagens usam difusão.
Para processar texto e imagens simultaneamente, as imagens são convertidas em sequências de fragmentos de imagens. Dessa forma, o modelo pode processar tags de texto e fragmentos de imagem simultaneamente em uma sequência, e uma máscara de atenção especial permite ao modelo capturar as relações dentro da imagem.
Diferente dos métodos existentes do Meta, como o Chameleon (que converte imagens em marcadores discretos e depois os processa da mesma forma que o texto), o Transfusion mantém a representação contínua das imagens e evita a perda de informações causada pela quantização.
Os experimentos também mostram que o Fusion é dimensionado com mais eficiência do que métodos semelhantes. Em termos de geração de imagens, alcança resultados semelhantes aos modelos especializados, mas com significativamente menos esforço computacional e, surpreendentemente, a integração de dados de imagem também melhora as capacidades de processamento de texto.
Os pesquisadores treinaram um modelo de 7 bilhões de parâmetros em 2 trilhões de tags de texto e imagem. O modelo alcança resultados semelhantes aos de sistemas maduros, como o DALL-E 2, na geração de imagens e ao mesmo tempo no processamento de texto.