Algoritmos, sistemas e aplicações, uma compreensão abrangente de especialistas híbridos (MoE) a partir de três perspectivas

2024-07-26

Relatório do coração da máquina

Editor: PandaW

O LLM é muito forte e, para alcançar a expansão sustentável do LLM, é necessário encontrar e implementar métodos que possam melhorar a sua eficiência. O Hybrid Expert (MoE) é um membro importante deste método.

Recentemente, a nova geração de grandes modelos propostos por diversas empresas de tecnologia utiliza invariavelmente o método Mixture of Experts (MoE).

O conceito de especialistas híbridos nasceu no artigo “Misturas adaptativas de especialistas locais” em 1991, e tem sido extensivamente explorado e desenvolvido ao longo dos últimos trinta anos. Nos últimos anos, com o surgimento e desenvolvimento de MoE esparsos, especialmente quando combinados com modelos de linguagem de grande escala baseados no Transformer, esta tecnologia com uma história de mais de 30 anos ganhou nova vitalidade.

O quadro do MoE baseia-se numa ideia simples mas poderosa: diferentes partes do modelo (chamadas especialistas) concentram-se em diferentes tarefas ou diferentes aspectos dos dados.

Ao utilizar este paradigma, apenas especialistas relevantes (Experts) participarão no processamento de uma entrada, de modo que o custo computacional possa ser controlado e ao mesmo tempo beneficiar de uma grande quantidade de conhecimentos especializados. Portanto, o MoE pode melhorar as capacidades de grandes modelos de linguagem sem aumentar significativamente os requisitos computacionais.

Conforme mostrado na Figura 1, a pesquisa relacionada ao MoE cresceu fortemente, especialmente após o surgimento do Mixtral-8x7B e de vários LLMs de nível industrial, como Grok-1, DBRX, Arctic e DeepSeek-V2 em 2024.

Esta imagem vem de um relatório de revisão do MoE divulgado recentemente por uma equipe de pesquisa da Universidade de Ciência e Tecnologia de Hong Kong (Guangzhou). Ele resume de forma clara e abrangente a pesquisa relacionada ao MoE e propõe um novo método de classificação para classificar esses algoritmos e sistemas. e aplicações.

Título do artigo: Uma Pesquisa sobre a Mistura de Especialistas

Endereço do artigo: https://arxiv.org/pdf/2407.06204

Heart of the Machine compilou o conteúdo principal deste relatório de revisão para ajudar os leitores a compreender a visão geral do desenvolvimento atual do MoE. Para obter mais detalhes, leia o artigo original. Além disso, também compilamos alguns relatórios relacionados ao MoE no final do artigo.

Combinando conhecimento especializado

Em um modelo de linguagem grande (LLM) baseado em Transformer, a composição de cada camada especialista mista (MoE) é geralmente uma "rede especialista" {_1, ..., _} emparelhada com uma "rede de acesso" G.

Esta rede fechada geralmente tem a forma de uma rede linear usando uma função de ativação softmax, cuja função é guiar a entrada para a rede especialista apropriada. A camada MoE é colocada no módulo Transformer e tem como função selecionar a rede direta (FFN), geralmente localizada após a subcamada de autoatenção (SA). Este posicionamento é crítico porque à medida que o modelo cresce, os requisitos computacionais do FFN aumentam. Por exemplo, no modelo PaLM com 540 bilhões de parâmetros, 90% dos parâmetros estão localizados na sua camada FFN.

Colocando de forma matemática: cada rede especialista_ (geralmente uma rede linear - ReLU - linear) é parametrizada por W_, que recebe a mesma entrada x e gera uma saída_ (x; W_). Ao mesmo tempo, uma rede fechada G com parâmetros Θ (geralmente composta por uma rede linear-ReLU-linear-softmax) obtém a saída G (x; Θ). De acordo com o método de design da função de disparo, a camada MoE pode ser dividida aproximadamente nas duas categorias a seguir.

MoE denso

A camada especialista mista densa ativa todas as redes especialistas {_1, ..., _} durante cada iteração. Os primeiros estudos do Ministério da Educação adoptaram geralmente esta estratégia. Nos últimos tempos, algumas pesquisas têm utilizado MoE denso, como EvoMoE, MoLE, LoRAMoE e DS-MoE. A Figura 2a mostra a estrutura da densa camada MoE. Portanto, a saída da camada densa do MoE pode ser expressa como:

Entre eles, (x; Θ) é o valor da porta antes da operação softmax.

MoE esparso

Embora a precisão da previsão dos especialistas em híbridos densos seja geralmente maior, sua carga computacional também é muito alta.

Para resolver este problema, o artigo "Redes neurais escandalosamente grandes: a camada de mistura de especialistas escassamente fechada" de Shazeer et al. introduz uma camada MoE escassamente fechada, que ativa apenas aqueles selecionados em cada subconjunto de especialistas. Esta estratégia atinge a dispersão calculando a soma ponderada dos resultados dos principais especialistas, em vez de agregar os resultados de todos os especialistas. A Figura 2b mostra a estrutura desta camada esparsa de MoE.

De acordo com a estrutura proposta no artigo acima, a Equação 2.2 pode ser modificada para refletir o mecanismo de gate esparso:

Aqui está uma explicação: A função TopK (・, ) retém apenas os primeiros k itens do valor original do vetor, enquanto define os outros itens como −∞. Isto é seguido por uma operação softmax onde todos os termos −∞ tornam-se aproximadamente zero. O hiperparâmetro k deve ser selecionado de acordo com a aplicação específica. As opções comuns são = 1 ou = 2. Adicionar o termo ruído R_noise é uma estratégia comum para treinar camadas MoE esparsamente fechadas, o que pode promover a exploração entre especialistas e melhorar a estabilidade do treinamento MoE.

Embora o gate esparso G (x; Θ) possa expandir significativamente o espaço de parâmetros do modelo sem aumentar o custo computacional correspondente, ele também pode levar a problemas de balanceamento de carga. O problema de balanceamento de carga refere-se à distribuição desigual de carga entre os especialistas - alguns especialistas são usados com frequência, enquanto outros raramente ou nunca são usados.

Para resolver este problema, cada camada do MoE deve integrar uma função auxiliar de perda, cujo papel é fazer com que cada lote de tokens seja distribuído uniformemente entre vários especialistas. A partir da descrição da forma matemática, primeiro defina um lote de consulta B = {x_1, x_2, ..., x_} contendo T tokens e N especialistas. Então sua perda de balanceamento de carga auxiliar é definida como:

Onde D_i é a proporção de tokens atribuídos ao especialista i, e P_i é a proporção de probabilidades atribuídas ao especialista i. Para garantir que o lote seja distribuído uniformemente entre N especialistas, a função de perda de balanceamento de carga L_{load-balancing} deve ser minimizada. Quando a cada especialista é atribuído o mesmo número de tokens D_ = 1/ e a mesma probabilidade de ativação P_ = 1/, a condição ideal é alcançada:

Neste ponto, a carga de cada especialista está equilibrada.

A seguir, salvo indicação explícita em contrário, o termo "MoE" refere-se apenas a "MoE esparso".

Classificação de Especialistas Mistos

Para ajudar os pesquisadores a encontrar alvos no grande número de estudos de LLM que empregam MoE, a equipe desenvolveu um método de classificação para classificar esses modelos de acordo com três aspectos: design de algoritmo, design de sistema e aplicação.

A Figura 3 mostra esta taxonomia e alguns resultados representativos de pesquisas.

A seguir fornecerá uma introdução abrangente e aprofundada a cada categoria.

Design de algoritmo por especialistas híbridos

função de portão

As funções de gating (também conhecidas como funções de roteamento ou roteadores) são o componente fundamental de todas as arquiteturas do MoE, coordenando o uso de cálculos especializados e combinando os resultados dos especialistas.

Dependendo de como cada entrada é processada, o gate pode ser dividido em três tipos: esparso, denso e suave. O mecanismo de ativação esparso ativa alguns especialistas, o mecanismo de ativação denso ativa todos os especialistas e o mecanismo de ativação suave inclui métodos completamente diferenciáveis, incluindo fusão de token de entrada e fusão de especialistas. A Figura 4 mostra as diversas funções de gating usadas no modelo MoE.

escasso

A função de controle esparso ativa uma parcela selecionada de especialistas ao processar cada token de entrada, o que pode ser considerado uma forma de computação condicional.

As funções de gate podem implementar muitas formas de decisões de gate, como decisões binárias, decisões esparsas ou contínuas, decisões aleatórias ou determinísticas. Elas foram estudadas em profundidade e podem ser implementadas usando várias formas de aprendizagem por reforço e trem de retropropagação.

O estudo "Redes neurais escandalosamente grandes: a camada de mistura de especialistas escassamente controlada" de Shazeer et al. foi o pioneiro em um método heurístico diferenciável usando uma perda de balanceamento de carga auxiliar, na qual os especialistas podem ser calculados com base em suas probabilidades de seleção. é ponderado. Isso introduz diferenciabilidade no processo de gating, onde a otimização da função de gating pode ser guiada por gradientes.

Mais tarde, este paradigma tornou-se o paradigma dominante no campo da investigação do MoE. Como esse método seleciona um especialista para cada token de entrada, ele pode ser considerado uma função de controle seletivo de token.

A seguir estão os pontos principais desta seção, consulte o artigo original para obter detalhes:

controle seletivo de token

Perda auxiliar para ativação seletiva de token

capacidade especializada de token para controle seletivo

Outros avanços no controle seletivo de token

Controle seletivo de token não treinável

Controle Seletivo Especializado

Intensivo

MoE denso significa que todos os especialistas são ativados ao processar cada entrada.

Embora o MoE esparso tenha vantagens em termos de eficiência, a direção de um MoE denso ainda acolhe a inovação. Em particular, a ativação densa tem um bom desempenho no ajuste fino de LoRA-MoE e tem sobrecarga computacional relativamente baixa para especialistas em LoRA. Essa abordagem permite a integração eficiente e flexível de vários LoRAs para concluir diversas tarefas posteriores. Isso preserva as capacidades generativas do modelo pré-treinado original, ao mesmo tempo que mantém as características únicas de cada LoRA para cada tarefa.

estilo suave

Para MoE esparso, um problema de otimização discreto fundamental é como decidir quais especialistas apropriados atribuir a cada token. Para garantir a participação equilibrada de especialistas e minimizar tokens não alocados, isso geralmente requer perdas assistidas por heurística. Este problema é particularmente significativo em cenários que envolvem dados fora de distribuição (como pequenos lotes de inferência, novos insumos ou aprendizagem por transferência).

Semelhante ao MoE denso, os métodos soft MoE também utilizam todos os especialistas ao processar cada entrada, mantendo assim a diferenciabilidade total e evitando assim os problemas inerentes aos métodos discretos de seleção de especialistas. A diferença entre o MoE suave e o MoE denso é que o primeiro alivia os requisitos computacionais por meio da fusão controlada e ponderada de tokens de entrada ou especialistas.

especialista

Esta secção apresentará a arquitectura da rede de peritos no âmbito do MoE e discutirá as funções de controlo que coordenam a activação destes peritos.

Tipo de rede

Como o MoE está integrado à arquitetura do Transformer, ele frequentemente substitui o módulo de rede direta (FFN) nesses modelos. Normalmente, cada especialista na camada MoE copia a arquitetura do FFN que substitui.

Este paradigma de utilização do FFN como especialista ainda é comum, mas muitas melhorias foram feitas.

hiperparâmetros

O tamanho do modelo esparso do MoE é controlado por vários hiperparâmetros principais, incluindo:

Número de especialistas por camada do MoE

tamanho de cada especialista

Com que frequência as camadas MoE são colocadas em todo o modelo

A escolha desses hiperparâmetros é crucial, pois afeta profundamente o desempenho e a eficiência computacional do modelo em diversas tarefas. Portanto, os hiperparâmetros ideais são selecionados com base nos requisitos específicos da aplicação e na infraestrutura computacional. A Tabela 2 mostra algumas configurações de modelos utilizando MoE.

Além disso, a Tabela 3 lista o número de parâmetros e o desempenho de benchmark de alguns modelos recentes de código aberto.

função de ativação

O modelo MoE esparso construído na arquitetura densa do Transformer adota uma função de ativação semelhante aos principais LLMs densos, como BERT, T5, GPT e LLAMA. As funções de ativação evoluíram do ReLU para opções mais avançadas, como GeLU, GeGLU, SwiGLU e assim por diante.

Essa tendência também se estende a outros componentes dos modelos MoE, que muitas vezes incorporam técnicas como normalização da camada quadrática média (RMSNorm), atenção de consulta agrupada (GQA) e incorporação de posição rotacionada (RoPE).

Especialistas compartilhados

DeepSpeed-MoE introduz de forma inovadora a arquitetura residual MoE (Residual-MoE), na qual cada token é processado por um especialista fixo mais um especialista selecionado pelo portão, percebendo que cada camada tem dois especialistas participando do processamento ao mesmo tempo. o custo de comunicação não excederá o método de ativação principal. Este método trata o especialista MoE selecionado pela porta como um auxiliar de correção de erros para FFN denso fixo.

O roteamento MoE condicional (CMR/Roteamento Condicional MoE) usado no NLLB também adota um método semelhante, combinando a saída de camadas densas de FFN e MoE.

O paradigma que integra FFN fixo e MoE esparso é frequentemente chamado de especialistas compartilhados, conforme mostrado na Figura 5b.

Recentemente, modelos como DeepSeekMoE, OpenMoE, Qwen1.5-MoE e MoCLE adotaram esse paradigma, indicando que ele está se tornando uma configuração convencional. No entanto, DeepSeekMoE e Qwen1.5-MoE usam vários especialistas compartilhados em vez de um único.

Especialista em eficiência de parâmetros de mistura

O ajuste fino com eficiência de parâmetros (PEFT) é um método para melhorar a eficiência do ajuste fino. Simplificando, o PEFT atualiza apenas uma pequena parte dos parâmetros do modelo básico durante o ajuste fino.

O PEFT é bem sucedido, mas devido aos seus parâmetros treináveis limitados e possíveis problemas de esquecimento catastróficos, o método é difícil de usar em situações onde é necessária a generalização para múltiplas tarefas.

Para aliviar essas limitações, nasceu o Mixed Parameter Efficient Expert (MoPE), que integra a estrutura do MoE com o PEFT. O MoPE integra o mecanismo de controle e a arquitetura multi-especialista do MoE, e cada especialista é construído usando a tecnologia PEFT. Esta combinação inteligente pode melhorar significativamente o desempenho do PEFT em cenários multitarefa. Além disso, como o PEFT é usado para formar especialistas, o MoPE utiliza menos parâmetros e é muito mais eficiente em termos de recursos do que o modelo tradicional do MoE.

O MoPE combina as características multitarefa do MoE e a eficiência de recursos do PEFT, e é uma direção de pesquisa promissora. A Figura 6 classifica o MoPE de acordo com sua posição na arquitetura do modelo Transformer. Para uma introdução mais detalhada aos resultados da pesquisa sobre MoPE, consulte o artigo original.

Soluções de treinamento e inferência

Os especialistas híbridos estão avançando, assim como as soluções associadas de treinamento e inferência.

A solução inicial de treinamento e inferência requer o treinamento do modelo MoE do zero e o uso direto da configuração do modelo treinado para realizar a inferência.

Mas agora, surgiram muitos novos paradigmas na formação e inferência de modelos MoE, incluindo a combinação das vantagens de modelos densos e esparsos para se complementarem.

A Figura 7 mostra as soluções de treinamento e inferência relacionadas ao MoE. Pode-se observar que as soluções emergentes podem ser divididas em três categorias:

Denso para esparso: comece com treinamento de modelo denso e faça a transição gradual para configuração MoE esparsa;

Esparso para denso: envolve rebaixar o modelo MoE esparso para uma forma densa, o que é benéfico para implementar a inferência na forma de hardware;

Fusão de modelos especialistas: integre vários modelos especialistas densos pré-treinados em um modelo MoE unificado.

Tecnologias derivadas de MoE

O Mix of Expertise (MoE) inspirou muitas técnicas variantes diferentes. Por exemplo, o artigo de Xue et al. "Vá mais longe em vez de mais fundo" propõe WideNet com maior largura de modelo. O método consiste em substituir a rede direta (FFN) pela camada MoE, mantendo a treinabilidade compartilhada nos parâmetros da camada Transformer. , exceto para a camada de normalização.

Existem também SYT (Sparse Universal Transformer) proposto por Tan et al., MoT (Hybrid Token) proposto por Antoniak et al., SMoP (Sparse Hybrid Prompter) proposto por Choi et al., e Lifelong- proposto por Chen et al. MoE, MoD (profundidade de mistura) proposto por Raposo et al., etc.

Resumindo, o desenvolvimento de tecnologias derivadas do MoE revela uma tendência: o MoE tem cada vez mais funções e é cada vez mais adaptável a diferentes campos.

Projeto de sistema de especialistas híbridos

Embora Mixed Experts (MoE) possa aprimorar as capacidades de grandes modelos de linguagem, também traz novos desafios técnicos devido à sua carga computacional esparsa e dinâmica.

GShard introduz paralelismo especializado, que pode agendar tokens locais segmentados de acordo com as restrições de balanceamento de carga dos recursos especializados, alcançando assim cálculos paralelos e cálculos especializados. Este paradigma tornou-se uma estratégia básica para promover a expansão eficiente dos modelos do MoE. Podemos pensar nesta abordagem como uma versão melhorada do paralelismo de dados – cada especialista na camada MoE é atribuído a um dispositivo diferente, enquanto todas as camadas não especializadas são duplicadas em todos os dispositivos.

Conforme mostrado na Figura 8a, o fluxo de trabalho da paralelização especializada consiste em realizar as seguintes operações em sequência: roteamento de porta, codificação de entrada, agendamento tudo para todos, cálculo especialista, combinação tudo para todos e decodificação de saída.

Em geral, o tamanho de entrada de um GEMM precisa ser grande o suficiente para utilizar totalmente o dispositivo computacional. Portanto, a codificação de entrada é usada para agregar os tokens de entrada do mesmo especialista em um espaço de memória contínuo, que é determinado pelo "mapeamento token-especialista" no roteamento do portão. Posteriormente, a função do agendamento All-to-All é distribuir os tokens de entrada aos especialistas correspondentes em cada dispositivo. Isto é seguido por cálculos de localização especializados. Após a conclusão do cálculo, ele é resumido por meio da combinação All-to-All e, em seguida, decodificado e gerado, e o layout dos dados originais é restaurado de acordo com o índice de gate.

Além disso, alguns pesquisadores estão explorando a sinergia entre o paralelismo especializado e outras estratégias paralelas existentes (como tensores, pipelines e paralelização de sequências) para melhorar a escalabilidade e a eficiência dos modelos MoE em ambientes distribuídos em grande escala.

Alguns exemplos de paralelização híbrida são dados na Figura 8, incluindo (b) paralelização de dados + especialista + tensor, (c) paralelização de dados + especialista + pipeline, (d) paralelização de especialista + tensor.

É importante perceber que existem interações complexas entre eficiência computacional, carga de comunicação e consumo de memória, que serão afetadas pela escolha da estratégia de paralelização distribuída e também serão afetadas por diferentes configurações de hardware. Portanto, ao implementar estratégias para aplicações práticas, devem ser feitas compensações cuidadosas e devem ser feitos ajustes a cenários específicos.

Posteriormente, a equipe apresentou os desafios de design de sistema enfrentados pelo desenvolvimento do modelo do MoE e os resultados da pesquisa para resolver esses problemas em três seções principais: computação, comunicação e armazenamento. Para detalhes, consulte o artigo original. A Tabela 4 apresenta uma visão geral da estrutura do MoE de código aberto.

Misturando aplicativos especializados

No campo de grandes modelos de linguagem (LLM) atualmente dominados pelo Transformer, o paradigma de especialista misto (MoE) é atraente porque pode melhorar significativamente as capacidades do modelo sem introduzir requisitos computacionais excessivos para os estágios de treinamento e inferência. Este tipo de tecnologia pode melhorar significativamente o desempenho do LLM em uma variedade de tarefas posteriores e até mesmo criar algumas aplicações de IA que ultrapassam os níveis humanos.

Há rumores de que o GPT-4, que é tão poderoso, também pode adotar algum tipo de arquitetura MoE – composta por 8 especialistas com 220 bilhões de parâmetros, treinados em diversos conjuntos de dados e tarefas, e usando um processo de raciocínio iterativo de 16 vezes. Para obter mais detalhes sobre esse boato, consulte o relatório Heart of the Machine "Ultimate" Revelation ": a arquitetura do modelo GPT-4, os custos de treinamento e as informações do conjunto de dados foram revelados."

Portanto, não é nenhuma surpresa que o MoE esteja florescendo no processamento de linguagem natural, na visão computacional, nos sistemas de recomendação e nas aplicações multimodais.

Essas aplicações requerem essencialmente o uso de cálculos condicionais para aumentar significativamente o número de parâmetros do modelo para melhorar o desempenho do modelo a um custo computacional fixo ou para implementar a seleção dinâmica de especialistas por meio de um mecanismo de controle para obter um aprendizado multitarefa eficiente.

A equipe também introduziu aplicações representativas do MoE nesses diferentes campos, o que pode ajudar os leitores a entender como usar o MoE para tarefas específicas. Veja o artigo original para obter detalhes.

Desafios e oportunidades

Especialistas híbridos, poderosos, reduzem custos e melhoram o desempenho. Embora as perspectivas sejam boas, ainda existem desafios.

Nesta secção, a equipa classifica os principais desafios relacionados com o MoE e aponta direções de investigação futuras que prometem resultados importantes. Esses desafios e direções de pesquisa estão brevemente listados abaixo e consulte o artigo original para obter mais detalhes.

Estabilidade de treinamento e balanceamento de carga

Escalabilidade e sobrecarga de comunicação

Especialização e colaboração especializada

Ativação esparsa e eficiência computacional

Generalização e robustez

Explicabilidade e transparência

Arquitetura especializada ideal

Integre-se com estruturas existentes

notícias

Algoritmos, sistemas e aplicações, uma compreensão abrangente de especialistas híbridos (MoE) a partir de três perspectivas

Introdução

minhas informações de contato