Capaz de perceber múltiplas modalidades e agir de acordo com a situação, Meta propõe especialista ciente da modalidade hybrid

Capaz de perceber múltiplas modalidades e agir de acordo com a situação, Meta propõe um híbrido especialista consciente da modalidade

2024-08-14

Relatório do coração da máquina

Especialistas mistos também possuem especializações em suas profissões.

Para os atuais modelos básicos de modalidade mista, um projeto arquitetônico comum é fundir codificadores ou decodificadores de modalidades específicas. No entanto, esse método tem limitações: ele não pode integrar informações de diferentes modalidades e é difícil produzir conteúdo contendo múltiplas modalidades.

Para superar essa limitação, a equipe Chameleon da Meta FAIR propôs uma nova arquitetura de Transformer única no artigo recente "Chameleon: modelos de fundação de fusão precoce de modos mistos", que pode prever o próximo token com base nas sequências modais mistas. compostos por tokens discretos de imagem e texto são modelados para permitir raciocínio e geração contínuos entre diferentes modalidades.

Depois de concluir o pré-treinamento em aproximadamente 10 trilhões de tokens modais mistos, o Chameleon demonstrou a capacidade de se adaptar a uma ampla gama de visão e linguagem e pode lidar bem com uma variedade de tarefas posteriores diferentes. O desempenho do Chameleon é particularmente impressionante na tarefa de gerar respostas longas modais mistas. Ele supera até mesmo modelos comerciais como Gemini 1.0 Pro e GPT-4V. No entanto, para um modelo como o Chameleon, onde várias modalidades são misturadas nos estágios iniciais do treinamento do modelo, expandir suas capacidades requer investir muito poder computacional.

Com base nos problemas acima, a equipe Meta FAIR conduziu algumas pesquisas e explorações em arquitetura esparsa roteada e propôs o MoMa: uma arquitetura híbrida especializada com reconhecimento de modalidade.

Título do artigo: MoMa: Pré-treinamento eficiente de fusão precoce com mistura de especialistas conscientes da modalidade

Endereço do artigo: https://arxiv.org/pdf/2407.21770

Pesquisas anteriores mostraram que este tipo de arquitetura pode efetivamente expandir as capacidades dos modelos básicos unimodais e também melhorar o desempenho dos modelos de aprendizagem contrastivos multimodais. No entanto, utilizá-lo para treinamento inicial de modelos que integrem diversas modalidades ainda é um tema com oportunidades e desafios, e poucas pessoas o estudaram.

A pesquisa da equipe baseia-se na percepção de que diferentes modalidades são inerentemente heterogêneas – tokens de texto e imagem têm diferentes densidades de informação e padrões de redundância.

Ao integrar esses tokens em uma arquitetura de fusão unificada, a equipe também propôs otimizar ainda mais a estrutura integrando módulos para modalidades específicas. A equipe chama esse conceito de dispersão com reconhecimento de modalidade, ou MaS, para abreviar; ele permite que o modelo capture melhor as características de cada modalidade, ao mesmo tempo que usa compartilhamento parcial de parâmetros e mecanismos de atenção.

Estudos anteriores, como VLMo, BEiT-3 e VL-MoE, adotaram o método de especialistas em modalidade mista (MoME/mixture-of-modality-experts) para treinar codificadores de linguagem visual e modelagem de linguagem mascarada, da FAIR. escopo utilizável do MoE um passo adiante.

Arquitetura do modelo

fusão precoce

O novo modelo proposto neste artigo é baseado na arquitetura de fusão inicial do Chameleon, que representa imagens e texto como uma série de tokens discretos em um Transformer unificado. O núcleo do Chameleon é um modelo baseado em Transformer que aplica um mecanismo de autoatenção a uma sequência combinada de tokens de imagem e texto. Isso permite que o modelo capture correlações complexas dentro e entre modalidades. O modelo é treinado com o objetivo de prever o próximo token, gerando tokens de texto e imagem de forma autorregressiva.

No Chameleon, o esquema de tokenização de imagem usa um tokenizador de imagem de aprendizagem, que codifica uma imagem 512 × 512 em 1.024 tokens discretos com base em um livro de códigos de tamanho 8.192. Para segmentação de texto, será utilizado um tokenizer BPE com tamanho de vocabulário de 65.536, que contém tokens de imagem. Este método unificado de segmentação de palavras permite que o modelo lide perfeitamente com qualquer sequência de tokens de imagem e texto entrelaçados.

Com este método, o novo modelo herda as vantagens da representação unificada, boa flexibilidade, alta escalabilidade e suporte para aprendizagem ponta a ponta.

Nesta base (Figura 1a), a fim de melhorar ainda mais a eficiência e o desempenho do modelo de fusão inicial, a equipe também introduziu tecnologia de dispersão com reconhecimento de modalidade.

Extensão de largura: especialistas híbridos conscientes da modalidade

A equipe propõe uma abordagem de ampla escala: estendendo a arquitetura padrão de especialistas mistos (MoE), integrando a escassez de módulos com reconhecimento de modalidade em módulos avançados.

Este método é baseado na percepção de que tokens de modos diferentes têm características e densidades de informação diferentes.

Ao construir diferentes grupos de especialistas para cada modalidade, o modelo pode desenvolver caminhos de processamento especializados, mantendo ao mesmo tempo a capacidade de integrar informações entre modalidades.

A Figura 1b ilustra os principais componentes desta mistura de especialistas conscientes da modalidade (MoMa). Simplificando, os especialistas de cada modalidade específica são primeiro agrupados, depois o roteamento hierárquico é implementado (dividido em roteamento com reconhecimento de modalidade e roteamento intramodal) e, finalmente, os especialistas são selecionados. Consulte o artigo original para obter o processo detalhado.

Em geral, para um token de entrada x, a definição formal do módulo MoMa é:

Após os cálculos do MoMa, a equipe usou ainda conexões residuais e normalização do Swin Transformer.

Mistura de Profundezas (MoD)

Pesquisadores anteriores também exploraram a introdução da dispersão na dimensão de profundidade. Sua abordagem consistia em descartar aleatoriamente certas camadas ou usar roteadores que podem ser aprendidos.

A abordagem da equipe é baseada na segunda abordagem, ao mesmo tempo que integra a tecnologia Hybrid Depth (MoD) recentemente proposta. Para obter mais informações sobre o MoD, consulte o relatório Heart of Machine "DeepMind atualiza o Transformer, FLOPs de passagem direta podem ser reduzidos pela metade."

Especificamente, conforme mostrado na figura abaixo, a abordagem da equipe é integrar o MoD antes do roteamento especialista híbrido (MoE) em cada camada do MoD, garantindo assim que o MoD possa ser aplicado a todo o lote de dados antes da separação modal.

raciocínio

Na fase de inferência, não podemos usar diretamente o roteamento de seleção de especialistas do MoE ou o roteamento de seleção de camadas do MoD, porque as principais seleções (selecionar as k principais) em um lote de dados destruirão a relação causal.

Para garantir a relação causal do raciocínio, inspirado no artigo do MoD mencionado acima, a equipe de pesquisa introduziu um roteador auxiliar, cuja função é prever a possibilidade de o token ser selecionado por um determinado especialista ou camada com base apenas no oculto representação do token.

Reciclagem

Existe uma dificuldade única para uma arquitetura MoE treinada do zero em termos de otimização do espaço de representação e do mecanismo de roteamento. A equipe descobriu que o roteador MoE é responsável por dividir o espaço de representação de cada especialista. No entanto, nos estágios iniciais do treinamento do modelo, esse espaço de representação não é ideal, o que fará com que a função de roteamento obtida pelo treinamento seja subótima.

Para superar esta limitação, eles propuseram um método de atualização baseado no artigo "Sparse upcycling: Training mix-of-experts from denso checkpoints" de Komatsuzaki et al.

Especificamente, primeiro é treinada uma arquitetura com um especialista em FFN para cada modalidade. Após algumas etapas predefinidas, o modelo é atualizado e transformado. O método específico é: converter o FFN de cada modalidade específica em um módulo MoE selecionado por especialistas e inicializar cada especialista para o primeiro estágio de treinamento de especialistas. Isso redefinirá o agendador de taxa de aprendizagem, mantendo o estado do carregador de dados do estágio anterior para garantir que os dados atualizados possam ser usados no segundo estágio de treinamento.

Para tornar os especialistas mais especializados, a equipe também usou o ruído Gumbel para aprimorar a função de roteamento do MoE, permitindo que o novo roteador amostrasse especialistas de maneira diferenciável.

Este método de atualização juntamente com a tecnologia Gumbel-Sigmoid pode superar as limitações dos roteadores aprendidos e, assim, melhorar o desempenho da arquitetura esparsa com reconhecimento de modalidade recentemente proposta.

Otimização de eficiência

Para facilitar o treinamento distribuído do MoMa, a equipe adotou Fully Sharded Data Parallel (FSDP/Fully Sharded Data Parallel). No entanto, em comparação com o MoE convencional, este método apresenta alguns problemas de eficiência únicos, incluindo problemas de balanceamento de carga e problemas de eficiência de execução especializada.

Para o problema de balanceamento de carga, a equipe desenvolveu um método de mistura de dados balanceado que mantém a proporção de dados de texto para imagem em cada GPU consistente com a proporção de especialistas.

Em relação à eficiência da execução pericial, a equipe explorou algumas estratégias que podem ajudar a melhorar a eficiência da execução pericial em diferentes modalidades:

Limitar especialistas em cada modalidade a especialistas isomórficos e proibir o roteamento de tokens de texto para especialistas em imagens e vice-versa;

Use a dispersão de blocos para melhorar a eficiência de execução;

Quando o número de modalidades é limitado, especialistas em diferentes modalidades são executados sequencialmente.

Como cada GPU no experimento processou tokens suficientes, a utilização do hardware não foi um grande problema, mesmo se várias multiplicações de matrizes em lote fossem usadas. Portanto, a equipe acredita que o método de execução sequencial é a melhor escolha para a escala atual do ambiente experimental.

Outras otimizações

Para melhorar ainda mais o rendimento, a equipe também usou várias outras técnicas de otimização.

Isso inclui operações gerais de otimização, como redução do volume de comunicação de gradiente e fusão automatizada de núcleo de GPU. A equipe de pesquisa também implementou otimização de gráfico por meio de torch.compile.

Além disso, eles desenvolveram algumas técnicas de otimização para o MoMa, incluindo a multiplexação de índices de tokens modais em diferentes camadas para sincronizar dispositivos entre CPU e GPU de maneira mais eficiente.

experimentar

configurar

O conjunto de dados de pré-treinamento e o processo de pré-processamento usado no experimento são os mesmos do Chameleon. Para avaliar o desempenho do escalonamento, eles treinaram o modelo usando mais de 1 trilhão de tokens.

A Tabela 1 fornece a configuração detalhada dos modelos densos e esparsos.

Dimensionando o desempenho em diferentes níveis de computação

A equipe analisou o desempenho de escalonamento de diferentes modelos em diferentes níveis computacionais (FLOPs) equivalentes a três tamanhos de modelos densos: 90M, 435M e 1,4B.

Resultados experimentais mostram que um modelo esparso usando apenas 1/η do total de FLOPs pode corresponder à perda pré-treinamento de um modelo denso de FLOPs equivalentes (η representa o fator de aceleração pré-treinamento).

Desagregação modal

A introdução de agrupamentos de especialistas específicos por modalidade pode melhorar a eficiência de pré-treinamento de modelos de diferentes tamanhos, o que é especialmente benéfico para modalidades de imagem. Conforme mostrado na Figura 3, a configuração moe_1t1i usando 1 especialista em imagem e 1 especialista em texto supera significativamente o modelo denso correspondente.

A expansão do número de especialistas por grupo modal pode melhorar ainda mais o desempenho do modelo.

Misture profundidade e experiência

A equipe observou que a velocidade de convergência da perda de treinamento melhora ao usar MoE, MoD e suas combinações. Conforme mostrado na Figura 4, adicionar MoD (mod_moe_1t1i) à arquitetura moe_1t1i pode melhorar significativamente o desempenho do modelo em diferentes tamanhos de modelo.

Além disso, mod_moe_1t1i pode igualar ou até exceder moe_4t4i em diferentes tamanhos e modos de modelo, o que mostra que a introdução de dispersão na dimensão de profundidade também pode melhorar efetivamente a eficiência do treinamento.

Por outro lado, você também pode ver que os benefícios do empilhamento do MoD e do MoE diminuirão gradualmente.

Expandir o número de especialistas

Para estudar o impacto da expansão do número de especialistas, a equipe realizou mais experimentos de ablação. Exploraram dois cenários: atribuir um número igual de especialistas a cada modalidade (equilibrado) e atribuir um número diferente de especialistas a cada modalidade (desequilibrado). Os resultados são mostrados na Figura 5.

Para o cenário equilibrado, pode-se observar na Figura 5a que à medida que o número de especialistas aumenta, a perda de treinamento diminuirá significativamente. Mas as perdas de texto e imagem exibem diferentes padrões de escala. Isto sugere que as características inerentes de cada modalidade levam a diferentes comportamentos de modelagem esparsa.

Para o cenário desequilibrado, a Figura 5b compara três configurações diferentes com número total equivalente de especialistas (8). Percebe-se que quanto mais especialistas houver em uma modalidade, melhor será o desempenho geral do modelo nessa modalidade.

Atualizar

A equipe naturalmente também verificou o efeito das atualizações mencionadas. A Figura 6 compara as curvas de treinamento de diferentes variantes do modelo.

Os resultados mostram que a atualização pode de fato melhorar ainda mais o treinamento do modelo: quando o primeiro estágio tem 10 mil etapas, a atualização pode trazer 1,2 vezes o benefício dos FLOPs e quando o número de etapas é 20k, há também 1,16 vezes o benefício dos FLOPs;

Além disso, pode-se observar que à medida que o treinamento avança, aumenta a lacuna de desempenho entre o modelo atualizado e o modelo treinado do zero.

Análise de rendimento

Os modelos esparsos muitas vezes não fornecem ganhos imediatos de desempenho porque os modelos esparsos aumentam a dinâmica e os problemas associados de balanceamento de dados. Para quantificar o impacto do método recentemente proposto na eficiência do treinamento, a equipe comparou o rendimento do treinamento de diferentes arquiteturas em experimentos com variáveis geralmente controladas. Os resultados são mostrados na Tabela 2.

Pode-se observar que, em comparação com modelos densos, o desempenho esparso baseado em modalidade alcança melhores compensações entre qualidade e rendimento e pode demonstrar escalabilidade razoável à medida que o número de especialistas cresce. Por outro lado, embora as variantes do MoD alcancem as melhores perdas absolutas, elas também tendem a ser mais caras do ponto de vista computacional devido a dinâmicas e desequilíbrios adicionais.

Desempenho do tempo de inferência

A equipe também avaliou o desempenho do modelo em dados de modelagem de linguagem retidos e tarefas downstream. Os resultados são mostrados nas Tabelas 3 e 4.

Conforme mostrado na Tabela 3, usando vários especialistas em imagens, o modelo 1.4B MoMa 1t1i supera o modelo denso correspondente na maioria das métricas, com exceção das métricas de perplexidade condicional de imagem para texto no COCO e no Flickr. Expandir ainda mais o número de especialistas também pode melhorar o desempenho, com 1,4B MoE 8x alcançando o melhor desempenho de imagem para texto.

Além disso, conforme mostrado na Tabela 4, o modelo 1.4B MoE 8x também é muito bom em tarefas de texto para texto. 1.4B MoMa 4t4i tem melhor desempenho em todas as métricas de perplexidade de imagem condicional, enquanto sua perplexidade de texto na maioria dos benchmarks também está muito próxima de 1.4B MoE 8x.

No geral, o modelo 1.4B MoMa 4t4i tem os melhores resultados de modelagem em modalidades mistas de texto e imagem.

Para mais detalhes, leia o artigo original.

notícias

Capaz de perceber múltiplas modalidades e agir de acordo com a situação, Meta propõe um híbrido especialista consciente da modalidade

Introdução

Minhas informações de contato