Algoritmos, sistemas y aplicaciones, una comprensión integral de los expertos híbridos (MoE) desde tres perspectivas

2024-07-26

Informe del corazón de la máquina

Editor: Panda W.

LLM es muy sólido y, para lograr una expansión sostenible de LLM, es necesario encontrar e implementar métodos que puedan mejorar su eficiencia. El Experto Híbrido (MoE) es un miembro importante de este método.

Recientemente, la nueva generación de modelos grandes propuestos por varias empresas de tecnología utiliza invariablemente el método de Mezcla de Expertos (MoE).

El concepto de expertos híbridos nació por primera vez en el artículo "Mezclas adaptativas de expertos locales" en 1991 y ha sido ampliamente explorado y desarrollado durante los últimos treinta años. En los últimos años, con la aparición y el desarrollo de MoE cerrado disperso, especialmente cuando se combina con modelos de lenguaje a gran escala basados en Transformer, esta tecnología con una historia de más de 30 años ha adquirido una nueva vitalidad.

El marco del MoE se basa en una idea simple pero poderosa: diferentes partes del modelo (llamadas expertos) se centran en diferentes tareas o diferentes aspectos de los datos.

Cuando se utiliza este paradigma, solo los expertos relevantes (Expertos) participarán en el procesamiento de una entrada, de modo que el costo computacional pueda controlarse y al mismo tiempo beneficiarse de una gran cantidad de experiencia. Por lo tanto, MoE puede mejorar las capacidades de modelos de lenguaje grandes sin aumentar significativamente los requisitos computacionales.

Como se muestra en la Figura 1, la investigación relacionada con el MoE ha crecido considerablemente, especialmente después de la aparición de Mixtral-8x7B y varios LLM de nivel industrial como Grok-1, DBRX, Arctic y DeepSeek-V2 en 2024.

Esta imagen proviene de un informe de revisión del MoE publicado recientemente por un equipo de investigación de la Universidad de Ciencia y Tecnología de Hong Kong (Guangzhou). Resume de manera clara y completa la investigación relacionada con el MoE y propone un nuevo método de clasificación para clasificar estos algoritmos y sistemas. y aplicaciones.

Título del artículo: Una encuesta sobre la combinación de expertos

Dirección del artículo: https://arxiv.org/pdf/2407.06204

Heart of the Machine ha compilado el contenido principal de este informe de revisión para ayudar a los lectores a comprender la descripción general del desarrollo actual de MoE. Para obtener más detalles, lea el documento original. Además, también hemos recopilado algunos informes relacionados con el Ministerio de Educación al final del artículo.

Combinar conocimientos previos de expertos

En un modelo de lenguaje grande (LLM) basado en Transformer, la composición de cada capa mixta experta (MoE) suele ser una "red experta" {_1, ..., _} emparejada con una "red de activación" G.

Esta red cerrada suele tener la forma de una red lineal que utiliza una función de activación softmax, cuya función es guiar la entrada a la red experta adecuada. La capa MoE se coloca en el módulo Transformer y su función es seleccionar la red directa (FFN), generalmente ubicada después de la subcapa de autoatención (SA). Esta ubicación es fundamental porque a medida que crece el modelo, aumentan los requisitos computacionales del FFN. Por ejemplo, en el modelo PaLM con 540 mil millones de parámetros, el 90% de los parámetros se encuentran en su capa FFN.

Para decirlo en forma matemática: cada red experta_ (generalmente una red lineal - ReLU - lineal) está parametrizada por W_, que recibe la misma entrada x y genera una salida_ (x; W_). Al mismo tiempo, una red cerrada G con parámetros Θ (generalmente compuesta por una red lineal-ReLU-lineal-softmax) obtiene la salida G (x; Θ). Según el método de diseño de la función de activación, la capa MoE se puede dividir aproximadamente en las dos categorías siguientes.

MoE denso

La capa experta mixta densa activa todas las redes expertas {_1,..., _} durante cada iteración. Los primeros estudios del Ministerio de Educación generalmente adoptaron esta estrategia. En los últimos tiempos, algunas investigaciones han utilizado MoE denso, como EvoMoE, MoLE, LoRAMoE y DS-MoE. La Figura 2a muestra la estructura de la densa capa de MoE. Por lo tanto, la salida de la capa densa de MoE se puede expresar como:

Entre ellos, (x; Θ) es el valor de la puerta antes de la operación softmax.

MoE escaso

Aunque la precisión de la predicción de los expertos en híbridos densos es generalmente mayor, su carga computacional también es muy alta.

Para resolver este problema, el artículo "Redes neuronales escandalosamente grandes: la capa de mezcla de expertos escasamente cerrada" de Shazeer et al. introduce una capa MoE escasamente cerrada, que activa solo las seleccionadas en cada subconjunto de expertos. Esta estrategia logra la escasez al calcular la suma ponderada de los resultados de los k expertos principales en lugar de agregar los resultados de todos los expertos. La Figura 2b muestra la estructura de esta escasa capa de MoE.

Según el marco propuesto en el artículo anterior, la Ecuación 2.2 se puede modificar para reflejar el mecanismo de activación dispersa:

Aquí hay una explicación: La función TopK (・, ) retiene solo los primeros k elementos del valor original del vector, mientras establece los otros elementos en −∞. A esto le sigue una operación softmax donde todos los términos −∞ se vuelven aproximadamente cero. El hiperparámetro k debe seleccionarse según la aplicación específica. Las opciones comunes son = 1 o = 2. Agregar el término de ruido R_noise es una estrategia común para entrenar capas MoE escasamente cerradas, que puede promover la exploración entre expertos y mejorar la estabilidad del entrenamiento MoE.

Aunque la activación dispersa G (x; Θ) puede expandir significativamente el espacio de parámetros del modelo sin aumentar el costo computacional correspondiente, también puede generar problemas de equilibrio de carga. El problema del equilibrio de carga se refiere a la distribución desigual de la carga entre los expertos: algunos expertos se utilizan con frecuencia, mientras que otros rara vez o nunca se utilizan.

Para resolver este problema, cada capa de MoE debe integrar una función de pérdida auxiliar, cuya función es instar a que cada lote de tokens se distribuya uniformemente entre varios expertos. A partir de la descripción de la forma matemática, primero defina un lote de consultas B = {x_1, x_2, ..., x_} que contenga T tokens y N expertos. Entonces su pérdida de equilibrio de carga auxiliar se define como:

Donde D_i es la proporción de tokens asignados al experto i y P_i es la proporción de probabilidades de activación asignadas al experto i. Para garantizar que el lote se distribuya uniformemente entre N expertos, se debe minimizar la función de pérdida de equilibrio de carga L_ {load-balancing}. Cuando a cada experto se le asigna el mismo número de tokens D_ = 1/ y la misma probabilidad de activación P_ = 1/, se alcanza la condición óptima:

En este punto, la carga de cada experto está equilibrada.

A continuación, a menos que se indique explícitamente lo contrario, el término "MoE" se refiere únicamente a "MoE escaso".

Clasificación de Peritos Mixtos

Para ayudar a los investigadores a encontrar objetivos en la gran cantidad de estudios de LLM que emplean MoE, el equipo desarrolló un método de clasificación para clasificar estos modelos según tres aspectos: diseño de algoritmos, diseño de sistemas y aplicación.

La Figura 3 muestra esta taxonomía y algunos resultados de investigación representativos.

A continuación se proporcionará una introducción completa y profunda a cada categoría.

Diseño de algoritmos por expertos en híbridos.

función de compuerta

Las funciones de activación (también conocidas como funciones de enrutamiento o enrutadores) son el componente fundamental de todas las arquitecturas MoE, ya que coordinan el uso de cálculos expertos y combinan las salidas de los expertos.

Dependiendo de cómo se procese cada entrada, la compuerta se puede dividir en tres tipos: escasa, densa y suave. El mecanismo de activación escasa activa a algunos expertos, el mecanismo de activación densa activa a todos los expertos y el mecanismo de activación suave incluye métodos completamente diferenciables, incluida la fusión de tokens de entrada y la fusión de expertos. La Figura 4 muestra las diversas funciones de activación utilizadas en el modelo MoE.

escaso

La función de activación dispersa activa una porción seleccionada de expertos al procesar cada token de entrada, lo que puede considerarse como una forma de cálculo condicional.

Las funciones de activación pueden implementar muchas formas de decisiones de activación, como decisiones binarias, decisiones dispersas o continuas, decisiones aleatorias o deterministas. Se han estudiado en profundidad y se pueden implementar utilizando varias formas de aprendizaje por refuerzo y tren de retropropagación.

El estudio "Redes neuronales escandalosamente grandes: la capa de mezcla de expertos escasamente cerrada" de Shazeer et al fue pionero en un método heurístico diferenciable que utiliza una pérdida de equilibrio de carga auxiliar, en el que los expertos pueden calcularse en función de sus probabilidades de selección. está ponderado. Esto introduce diferenciabilidad en el proceso de activación, por lo que la optimización de la función de activación puede guiarse por gradientes.

Posteriormente, este paradigma se convirtió en el paradigma dominante en el campo de la investigación del Ministerio de Educación. Dado que este método selecciona un experto para cada token de entrada, se puede considerar como una función de activación selectiva de tokens.

Los siguientes son los puntos principales de esta sección; consulte el documento original para obtener más detalles:

puerta selectiva de tokens

Pérdida auxiliar para activación selectiva de tokens

capacidad de experto en tokens para activación selectiva

Otros avances en la activación selectiva de tokens

Puerta selectiva de tokens no entrenables

Puerta selectiva experta

Intensivo

MoE denso significa que todos los expertos se activan al procesar cada entrada.

Aunque un MoE escaso tiene ventajas en términos de eficiencia, la dirección de un MoE denso sigue dando la bienvenida a la innovación. En particular, la activación densa funciona bien en el ajuste fino de LoRA-MoE y tiene una sobrecarga computacional relativamente baja para los expertos de LoRA. Este enfoque permite una integración eficiente y flexible de múltiples LoRA para completar diversas tareas posteriores. Esto preserva las capacidades generativas del modelo original previamente entrenado al tiempo que conserva las características únicas de cada LoRA para cada tarea.

estilo suave

Para MoE escaso, un problema fundamental de optimización discreta es cómo decidir qué expertos apropiados asignar a cada token. Para garantizar una participación equilibrada de los expertos y minimizar los tokens no asignados, esto a menudo requiere pérdidas asistidas por heurísticas. Este problema es particularmente significativo en escenarios que involucran datos fuera de distribución (como pequeños lotes de inferencia, insumos novedosos o transferencia de aprendizaje).

Al igual que el MoE denso, los métodos MoE blandos también utilizan a todos los expertos al procesar cada entrada, manteniendo así la diferenciabilidad total y evitando así los problemas inherentes de los métodos de selección de expertos discretos. La diferencia entre MoE suave y MoE denso es que el primero alivia los requisitos computacionales mediante la fusión cerrada y ponderada de tokens de entrada o expertos.

experto

Esta sección presentará la arquitectura de la red de expertos dentro del marco del MoE y discutirá las funciones de activación que coordinan la activación de estos expertos.

Tipo de red

Dado que MoE está integrado en la arquitectura Transformer, a menudo reemplaza el módulo de red directa (FFN) en estos modelos. Normalmente, cada experto en la capa MoE copia la arquitectura del FFN que reemplaza.

Este paradigma de utilizar FFN como experto todavía es común, pero se han realizado muchas mejoras.

hiperparámetros

El tamaño del modelo MoE disperso está controlado por varios hiperparámetros clave, que incluyen:

Número de expertos por capa del MoE

tamaño de cada experto

Con qué frecuencia se colocan capas MoE en todo el modelo

La elección de estos hiperparámetros es crucial ya que afecta profundamente el rendimiento y la eficiencia computacional del modelo en diversas tareas. Por lo tanto, los hiperparámetros óptimos se seleccionan en función de los requisitos específicos de la aplicación y la infraestructura informática. La Tabla 2 muestra algunas configuraciones de modelos que utilizan MoE.

Además, la Tabla 3 enumera la cantidad de parámetros y el rendimiento de referencia de algunos modelos recientes de código abierto.

función de activación

El modelo MoE escaso construido sobre la arquitectura densa de Transformer adopta una función de activación similar a los LLM densos líderes como BERT, T5, GPT y LLAMA. Las funciones de activación han evolucionado desde ReLU a opciones más avanzadas como GeLU, GeGLU, SwiGLU, etc.

Esta tendencia también se extiende a otros componentes de los modelos MoE, que a menudo incorporan técnicas como la normalización de la capa cuadrática media (RMSNorm), la atención de consultas agrupadas (GQA) y la incrustación de posición rotada (RoPE).

Expertos compartidos

DeepSpeed-MoE introduce de forma innovadora la arquitectura MoE residual (Residual-MoE), en la que cada token es procesado por un experto fijo más un experto seleccionado por puerta, dándose cuenta de que cada capa tiene dos expertos participando en el procesamiento al mismo tiempo. El costo de comunicación no excederá el método de activación principal. Este método trata al experto en MoE seleccionado por la puerta como una ayuda para la corrección de errores para FFN denso fijo.

El enrutamiento MoE condicional (CMR/enrutamiento MoE condicional) utilizado en NLLB también adopta un método similar, combinando la salida de capas densas FFN y MoE.

El paradigma que integra FFN fijo y MoE escaso a menudo se denomina expertos compartidos, como se muestra en la Figura 5b.

Recientemente, modelos como DeepSeekMoE, OpenMoE, Qwen1.5-MoE y MoCLE han adoptado este paradigma, lo que indica que se está convirtiendo en una configuración convencional. Sin embargo, DeepSeekMoE y Qwen1.5-MoE utilizan varios expertos compartidos en lugar de uno solo.

Experto en eficiencia de parámetros de mezcla

El ajuste eficiente de parámetros (PEFT) es un método para mejorar la eficiencia del ajuste. En pocas palabras, PEFT actualiza solo una pequeña parte de los parámetros del modelo base durante el ajuste fino.

PEFT tiene éxito, pero debido a sus limitados parámetros entrenables y posibles problemas de olvido catastróficos, el método es difícil de utilizar en situaciones donde se requiere la generalización a múltiples tareas.

Para aliviar estas limitaciones, nació Mixed Parameter Efficient Expert (MoPE), que integra el marco MoE con PEFT. MoPE integra el mecanismo de activación de MoE y la arquitectura de múltiples expertos, y cada experto se construye utilizando tecnología PEFT. Esta inteligente combinación puede mejorar enormemente el rendimiento de PEFT en escenarios de múltiples tareas. Además, dado que PEFT se utiliza para formar expertos, MoPE utiliza menos parámetros y es mucho más eficiente en cuanto a recursos que el modelo MoE tradicional.

MoPE combina las características multitarea de MoE y la eficiencia de recursos de PEFT, y es una dirección de investigación prometedora. La Figura 6 clasifica MoPE según su posición en la arquitectura del modelo Transformer. Para obtener una introducción más detallada a los resultados de la investigación sobre MoPE, consulte el artículo original.

Soluciones de entrenamiento e inferencia

Los expertos híbridos están avanzando, al igual que las soluciones de inferencia y capacitación asociadas.

La solución inicial de entrenamiento e inferencia requiere entrenar el modelo MoE desde cero y utilizar directamente la configuración del modelo entrenado para realizar la inferencia.

Pero ahora, han surgido muchos paradigmas nuevos en el entrenamiento y la inferencia de modelos MoE, incluida la combinación de las ventajas de los modelos densos y dispersos para complementarse entre sí.

La Figura 7 muestra las soluciones de capacitación e inferencia relacionadas con MoE. Se puede ver que las soluciones emergentes se pueden dividir en tres categorías:

Denso a disperso: comience con el entrenamiento del modelo denso y realice la transición gradualmente a una configuración MoE dispersa;

De disperso a denso: implica degradar el modelo MoE disperso a una forma densa, lo cual es beneficioso para implementar la inferencia en forma de hardware;

Fusión de modelos expertos: integre múltiples modelos expertos densos previamente entrenados en un modelo MoE unificado.

Tecnologías derivadas de MoE

La Combinación de Experiencia (MoE) inspiró muchas técnicas variantes diferentes. Por ejemplo, el artículo de Xue et al. "Ampliar en lugar de profundizar" propone WideNet con un ancho de modelo aumentado. El método consiste en reemplazar la red directa (FFN) con la capa MoE mientras se mantiene la capacidad de entrenamiento compartida en la capa Transformer. , excepto la capa de normalización.

También hay SYT (Sparse Universal Transformer) propuesto por Tan et al., MoT (Hybrid Token) propuesto por Antoniak et al., SMoP (Sparse Hybrid Prompter) propuesto por Choi et al., y Lifelong, propuesto por Chen et al. MoE, MoD (profundidad de mezcla) propuesto por Raposo et al., etc.

En resumen, el desarrollo de tecnologías derivadas del MoE revela una tendencia: el MoE tiene cada vez más funciones y es cada vez más adaptable a diferentes campos.

Diseño de sistemas por expertos en híbridos

Si bien los expertos mixtos (MoE) pueden mejorar las capacidades de modelos de lenguaje grandes, también plantea nuevos desafíos técnicos debido a su carga computacional escasa y dinámica.

GShard introduce el paralelismo experto, que puede programar tokens locales segmentados de acuerdo con las limitaciones de equilibrio de carga de las capacidades de los expertos, logrando así activación paralela y cálculos expertos. Este paradigma se ha convertido en una estrategia básica para promover la expansión eficiente de los modelos MoE. Podemos pensar en este enfoque como una versión mejorada del paralelismo de datos: cada experto en la capa MoE se asigna a un dispositivo diferente, mientras que todas las capas no expertas se duplican en todos los dispositivos.

Como se muestra en la Figura 8a, el flujo de trabajo de la paralelización experta consiste en realizar las siguientes operaciones en secuencia: enrutamiento de puerta, codificación de entrada, programación total, cálculo experto, combinación total y decodificación de salida.

En general, el tamaño de entrada de un GEMM debe ser lo suficientemente grande para utilizar completamente el dispositivo informático. Por lo tanto, la codificación de entrada se utiliza para agregar los tokens de entrada del mismo experto en un espacio de memoria continuo, que está determinado por el "mapeo token-experto" en el enrutamiento de puerta. Posteriormente, la función de la programación All-to-All es distribuir los tokens de entrada a los expertos correspondientes en cada dispositivo. A esto le siguen cálculos de localización expertos. Una vez completado el cálculo, se resume mediante una combinación de todo a todos y luego se decodifica y genera, y el diseño de los datos originales se restaura de acuerdo con el índice de activación.

Además, algunos investigadores están explorando la sinergia entre el paralelismo experto y otras estrategias paralelas existentes (como tensores, canalizaciones y paralelización de secuencias) para mejorar la escalabilidad y eficiencia de los modelos MoE en entornos distribuidos a gran escala.

En la Figura 8 se dan algunos ejemplos de paralelización híbrida, que incluyen (b) datos + experto + paralelización de tensor, (c) datos + experto + paralelización de canalización, (d) experto + paralelización de tensor.

Es importante darse cuenta de que existen interacciones complejas entre la eficiencia computacional, la carga de comunicación y la huella de memoria, que se verán afectadas por la elección de la estrategia de paralelización distribuida y también por diferentes configuraciones de hardware. Por lo tanto, al implementar estrategias para aplicaciones prácticas, se deben hacer concesiones cuidadosas y se deben realizar ajustes a escenarios específicos.

Posteriormente, el equipo presentó los desafíos de diseño del sistema que enfrenta el desarrollo del modelo MoE y los resultados de la investigación para resolver estos problemas en tres secciones principales: informática, comunicación y almacenamiento. Para más detalles, consulte el artículo original. La Tabla 4 ofrece una descripción general del marco MoE de código abierto.

Mezcla de aplicaciones expertas

En el campo de los modelos de lenguajes grandes (LLM) actualmente dominado por Transformer, el paradigma de expertos mixtos (MoE) es atractivo porque puede mejorar significativamente las capacidades del modelo sin introducir requisitos computacionales excesivos para las etapas de entrenamiento e inferencia. Este tipo de tecnología puede mejorar significativamente el rendimiento de LLM en una variedad de tareas posteriores e incluso crear algunas aplicaciones de inteligencia artificial que superen los niveles humanos.

Hay rumores de que GPT-4, que es tan poderoso, también podría adoptar algún tipo de arquitectura MoE, compuesta por 8 expertos con 220 mil millones de parámetros, capacitados en diversos conjuntos de datos y tareas, y utilizando un proceso de razonamiento iterativo de 16 veces. Para obtener más detalles sobre este rumor, consulte el informe de Heart of the Machine "Revelación definitiva": se han revelado la arquitectura del modelo GPT-4, los costos de capacitación y la información del conjunto de datos".

Por lo tanto, no sorprende que MoE esté floreciendo en el procesamiento del lenguaje natural, la visión por computadora, los sistemas de recomendación y las aplicaciones multimodales.

Estas aplicaciones esencialmente requieren el uso de cálculos condicionales para aumentar en gran medida la cantidad de parámetros del modelo para mejorar el rendimiento del modelo a un costo computacional fijo, o para implementar una selección dinámica de expertos a través de un mecanismo de activación para lograr un aprendizaje multitarea eficiente.

El equipo también presentó aplicaciones MoE representativas en estos diferentes campos, que pueden ayudar a los lectores a comprender cómo utilizar MoE para tareas específicas. Consulte el artículo original para obtener más detalles.

Retos y oportunidades

Expertos híbridos, potentes, reducen costes, mejoran el rendimiento. Aunque las perspectivas son buenas, aún quedan desafíos.

En esta sección, el equipo clasifica los desafíos clave relacionados con el MoE y señala direcciones de investigación futuras que prometen resultados importantes. Estos desafíos y direcciones de investigación se enumeran brevemente a continuación; consulte el artículo original para obtener más detalles.

Estabilidad del entrenamiento y equilibrio de carga.

Escalabilidad y sobrecarga de comunicación.

Especialización y colaboración de expertos

Activación escasa y eficiencia computacional.

Generalización y robustez

Explicabilidad y transparencia

Arquitectura experta óptima

Integrar con marcos existentes

noticias

Algoritmos, sistemas y aplicaciones, una comprensión integral de los expertos híbridos (MoE) desde tres perspectivas

Introducción

Mi información de contacto