Mi información de contacto
Correo[email protected]
2024-08-14
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
Informe del corazón de la máquina
Los peritos mixtos también tienen especializaciones en su profesión.
Para los modelos básicos de modalidad mixta actuales, un diseño arquitectónico común es fusionar codificadores o decodificadores de modalidades específicas. Sin embargo, este método tiene limitaciones: no puede integrar información de diferentes modalidades y es difícil generar contenido que contenga múltiples modalidades.
Para superar esta limitación, el equipo Chameleon de Meta FAIR propuso una nueva arquitectura de transformador único en el artículo reciente "Chameleon: modelos básicos de fusión temprana de modos mixtos", que puede predecir el siguiente token en función del objetivo predicho. compuestos de imágenes discretas y tokens de texto se modelan para permitir un razonamiento y una generación fluidos entre diferentes modalidades.
Después de completar la capacitación previa en aproximadamente 10 billones de tokens de modo mixto, Chameleon ha demostrado la capacidad de adaptarse a una amplia gama de visión y lenguaje, y puede manejar bien una variedad de diferentes tareas posteriores. El rendimiento de Chameleon es particularmente impresionante en la tarea de generar respuestas largas de modo mixto. Incluso supera a modelos comerciales como Gemini 1.0 Pro y GPT-4V. Sin embargo, para un modelo como Chameleon, en el que se mezclan varias modalidades en las primeras etapas del entrenamiento del modelo, ampliar sus capacidades requiere invertir una gran cantidad de potencia informática.
Con base en los problemas anteriores, el equipo de Meta FAIR realizó algunas investigaciones y exploraciones sobre la arquitectura dispersa enrutada y propuso MoMa: una arquitectura híbrida experta que reconoce la modalidad.
Título del artículo: MoMa: Preentrenamiento eficiente de fusión temprana con una combinación de expertos conscientes de la modalidad
Dirección del artículo: https://arxiv.org/pdf/2407.21770
Investigaciones anteriores han demostrado que este tipo de arquitectura puede ampliar eficazmente las capacidades de los modelos básicos unimodales y también mejorar el rendimiento de los modelos de aprendizaje contrastivo multimodal. Sin embargo, usarlo para la capacitación temprana de modelos que integra varias modalidades sigue siendo un tema con oportunidades y desafíos, y pocas personas lo han estudiado.
La investigación del equipo se basa en la idea de que las diferentes modalidades son inherentemente heterogéneas: los tokens de texto e imagen tienen diferentes densidades de información y patrones de redundancia.
Al integrar estos tokens en una arquitectura de fusión unificada, el equipo también propuso optimizar aún más el marco integrando módulos para modalidades específicas. El equipo llama a este concepto escasez consciente de la modalidad, o MaS para abreviar; permite que el modelo capture mejor las características de cada modalidad y al mismo tiempo utiliza mecanismos de atención y intercambio parcial de parámetros para mantener un sólido rendimiento de integración intermodal.
Estudios anteriores como VLMo, BEiT-3 y VL-MoE han adoptado el método de expertos en modalidad mixta (MoME/mixture-of-modality-experts) para entrenar codificadores de lenguaje visual y modelado de lenguaje enmascarado, de FAIR. El equipo de investigación ha tomado la alcance utilizable del Ministerio de Educación un paso más allá.
Arquitectura modelo
fusión temprana
El nuevo modelo propuesto en este artículo se basa en la arquitectura de fusión inicial de Chameleon, que representa imágenes y texto como una serie de tokens discretos en un Transformer unificado. El núcleo de Chameleon es un modelo basado en Transformer que aplica un mecanismo de autoatención a una secuencia combinada de tokens de imagen y texto. Esto permite que el modelo capture correlaciones complejas dentro y entre modalidades. El modelo se entrena con el objetivo de predecir el siguiente token, generando tokens de texto e imágenes de forma autorregresiva.
En Chameleon, el esquema de tokenización de imágenes utiliza un tokenizador de imágenes de aprendizaje, que codifica una imagen de 512 × 512 en 1024 tokens discretos basados en un libro de códigos de tamaño 8192. Para la segmentación de texto, se utilizará un tokenizador BPE con un tamaño de vocabulario de 65.536, que contiene tokens de imágenes. Este método unificado de segmentación de palabras permite que el modelo maneje sin problemas cualquier secuencia de imágenes y tokens de texto entrelazados.
Con este método, el nuevo modelo hereda las ventajas de representación unificada, buena flexibilidad, alta escalabilidad y soporte para el aprendizaje de un extremo a otro.
Sobre esta base (Figura 1a), para mejorar aún más la eficiencia y el rendimiento del modelo de fusión inicial, el equipo también introdujo tecnología de escasez consciente de la modalidad.
Extensión de ancho: expertos híbridos conscientes de la modalidad
El equipo propone un enfoque de amplia escala: ampliar la arquitectura estándar de expertos mixtos (MoE) integrando la escasez de módulos conscientes de la modalidad en módulos directos.
Este método se basa en la idea de que los tokens de diferentes modos tienen diferentes características y densidades de información.
Al construir diferentes grupos de expertos para cada modalidad, el modelo puede desarrollar rutas de procesamiento especializadas manteniendo al mismo tiempo la capacidad de integrar información entre modalidades.
La Figura 1b ilustra los componentes clave de esta mezcla de expertos consciente de la modalidad (MoMa). En pocas palabras, primero se agrupan los expertos de cada modalidad específica, luego se implementa el enrutamiento jerárquico (dividido en enrutamiento según la modalidad y enrutamiento intramodal) y, finalmente, se seleccionan los expertos. Consulte el documento original para conocer el proceso detallado.
En general, para un token de entrada x, la definición formal del módulo MoMa es:
Después de los cálculos del MoMa, el equipo utilizó conexiones residuales y la normalización de Swin Transformer.
Mezcla de profundidades (MoD)
Investigadores anteriores también exploraron la introducción de escasez en la dimensión de profundidad. Su enfoque consistía en descartar aleatoriamente ciertas capas o utilizar enrutadores que se pudieran aprender.
El enfoque del equipo se basa en el segundo enfoque, al tiempo que integra la tecnología Hybrid Depth (MoD) propuesta recientemente. Para obtener más información sobre MoD, consulte el informe de Heart of Machine "DeepMind actualiza Transformer, los FLOP de paso directo se pueden reducir hasta a la mitad".
Específicamente, como se muestra en la figura siguiente, el enfoque del equipo es integrar MoD antes del enrutamiento híbrido experto (MoE) en cada capa de MoD, asegurando así que MoD se pueda aplicar a todo el lote de datos antes de la separación modal.
razonamiento
En la fase de inferencia, no podemos utilizar directamente el enrutamiento de selección de expertos de MoE o el enrutamiento de selección de capas de MoD, porque las selecciones top-k (seleccionar los k superiores) en un lote de datos destruirán la relación causal.
Para garantizar la relación causal del razonamiento, inspirado en el artículo del Ministerio de Defensa mencionado anteriormente, el equipo de investigación introdujo un enrutador auxiliar, cuya función es predecir la posibilidad de que el token sea seleccionado por un determinado experto o capa basándose únicamente en lo oculto. representación de la ficha.
Reciclaje
Existe una dificultad única para una arquitectura MoE entrenada desde cero en términos de optimizar el espacio de representación y el mecanismo de enrutamiento. El equipo descubrió que el enrutador MoE es responsable de dividir el espacio de representación de cada experto. Sin embargo, en las primeras etapas del entrenamiento del modelo, este espacio de representación no es óptimo, lo que hará que la función de enrutamiento obtenida mediante el entrenamiento sea subóptima.
Para superar esta limitación, propusieron un método de actualización basado en el artículo "Sparse upcycling: Training blend-of-experts from densa checkpoints" de Komatsuzaki et al.
En concreto, primero se entrena una arquitectura con un experto en FFN para cada modalidad. Después de algunos pasos preestablecidos, el modelo se actualiza y transforma. El método específico es: convertir el FFN de cada modalidad específica en un módulo MoE seleccionado por expertos e inicializar a cada experto en la primera etapa de capacitación. Esto restablecerá el programador de tasa de aprendizaje mientras conserva el estado del cargador de datos de la etapa anterior para garantizar que los datos actualizados se puedan usar en la segunda etapa de entrenamiento.
Para promover que los expertos sean más especializados, el equipo también utilizó el ruido de Gumbel para mejorar la función de enrutamiento MoE, permitiendo que el nuevo enrutador muestree a los expertos de una manera diferenciable.
Este método de actualización, junto con la tecnología Gumbel-Sigmoid, puede superar las limitaciones de los enrutadores aprendidos y, por lo tanto, mejorar el rendimiento de la arquitectura dispersa con reconocimiento de modalidades recientemente propuesta.
Optimización de la eficiencia
Para facilitar la capacitación distribuida del MoMa, el equipo adoptó Fully Sharded Data Parallel (FSDP/Fully Sharded Data Parallel). Sin embargo, en comparación con el MoE convencional, este método tiene algunos problemas de eficiencia únicos, incluidos problemas de equilibrio de carga y problemas de eficiencia de la ejecución experta.
Para el problema de equilibrio de carga, el equipo desarrolló un método de mezcla de datos equilibrado que mantiene la proporción de datos de texto e imagen en cada GPU consistente con la proporción experta.
En cuanto a la eficiencia de la ejecución de expertos, el equipo ha explorado algunas estrategias que pueden ayudar a mejorar la eficiencia de la ejecución de expertos en diferentes modalidades:
Limitar los expertos en cada modalidad a expertos isomórficos y prohibir el enrutamiento de tokens de texto a expertos en imágenes y viceversa;
Utilice la escasez de bloques para mejorar la eficiencia de la ejecución;
Cuando el número de modalidades es limitado, los expertos en diferentes modalidades se dirigen secuencialmente.
Dado que cada GPU en el experimento procesó suficientes tokens, la utilización del hardware no fue un gran problema incluso si se utilizaron múltiples multiplicaciones de matrices por lotes. Por lo tanto, el equipo cree que el método de ejecución secuencial es una mejor opción para la escala actual del entorno experimental.
Otras optimizaciones
Para mejorar aún más el rendimiento, el equipo también utilizó otras técnicas de optimización.
Estas incluyen operaciones de optimización generales, como la reducción del volumen de comunicación de gradiente y la fusión automatizada de núcleos de GPU. El equipo de investigación también implementó la optimización de gráficos a través de torch.compile.
Además, han desarrollado algunas técnicas de optimización para MoMa, incluida la multiplexación de índices de tokens modales en diferentes capas para sincronizar de manera más eficiente los dispositivos entre CPU y GPU.
experimento
configuración
El conjunto de datos de preentrenamiento y el proceso de preprocesamiento utilizados en el experimento son los mismos que los de Chameleon. Para evaluar el rendimiento de escalado, entrenaron el modelo utilizando más de 1 billón de tokens.
La Tabla 1 proporciona la configuración detallada de modelos densos y dispersos.
Escalar el rendimiento en diferentes niveles informáticos
El equipo analizó el rendimiento de escalado de diferentes modelos en diferentes niveles computacionales (FLOP) equivalentes a tres tamaños de modelos densos: 90M, 435M y 1.4B.
Los resultados experimentales muestran que un modelo disperso que utiliza solo 1/η del total de FLOP puede igualar la pérdida previa al entrenamiento de un modelo denso de FLOP equivalentes (η representa el factor de aceleración previo al entrenamiento).
Desagregación modal
La introducción de agrupaciones de expertos específicas de una modalidad puede mejorar la eficiencia del preentrenamiento de modelos de diferentes tamaños, lo que es especialmente beneficioso para las modalidades de imágenes. Como se muestra en la Figura 3, la configuración moe_1t1i que utiliza 1 experto en imágenes y 1 experto en texto supera significativamente al modelo denso correspondiente.
Ampliar el número de expertos por grupo modal puede mejorar aún más el rendimiento del modelo.
Combine profundidad y experiencia
El equipo observó que la velocidad de convergencia de la pérdida de entrenamiento mejora cuando se utilizan MoE, MoD y sus combinaciones. Como se muestra en la Figura 4, agregar MoD (mod_moe_1t1i) a la arquitectura moe_1t1i puede mejorar significativamente el rendimiento del modelo en diferentes tamaños.
Además, mod_moe_1t1i puede igualar o incluso superar a moe_4t4i en diferentes tamaños y modos de modelo, lo que demuestra que introducir escasez en la dimensión de profundidad también puede mejorar efectivamente la eficiencia del entrenamiento.
Por otro lado, también puede ver que los beneficios de acumular MoD y MoE disminuirán gradualmente.
Ampliar el número de expertos
Para estudiar el impacto de ampliar el número de expertos, el equipo llevó a cabo más experimentos de ablación. Exploraron dos escenarios: asignar un número igual de expertos a cada modalidad (equilibrado) y asignar un número diferente de expertos a cada modalidad (desequilibrado). Los resultados se muestran en la Figura 5.
Para el entorno equilibrado, se puede ver en la Figura 5a que a medida que aumenta el número de expertos, la pérdida de entrenamiento disminuirá significativamente. Pero las pérdidas de texto e imágenes muestran diferentes patrones de escala. Esto sugiere que las características inherentes de cada modalidad conducen a diferentes comportamientos de modelado disperso.
Para el entorno desequilibrado, la Figura 5b compara tres configuraciones diferentes con un número total equivalente de expertos (8). Se puede ver que cuantos más expertos haya en una modalidad, mejor se desempeñará generalmente el modelo en esa modalidad.
Mejora
Naturalmente, el equipo también verificó el efecto de las actualizaciones antes mencionadas. La Figura 6 compara las curvas de entrenamiento de diferentes variantes del modelo.
Los resultados muestran que la actualización puede mejorar aún más el entrenamiento del modelo: cuando la primera etapa tiene 10.000 pasos, la actualización puede generar 1,2 veces el beneficio de FLOP y cuando el número de pasos es de 20.000, también hay 1,16 veces el beneficio de FLOP;
Además, se puede observar que a medida que avanza la capacitación, aumenta la brecha de rendimiento entre el modelo actualizado y el modelo entrenado desde cero.
Análisis de rendimiento
Los modelos dispersos a menudo no proporcionan ganancias de rendimiento inmediatas porque aumentan la dinámica y los problemas de equilibrio de datos asociados. Para cuantificar el impacto del método recientemente propuesto en la eficiencia del entrenamiento, el equipo comparó el rendimiento del entrenamiento de diferentes arquitecturas en experimentos con variables generalmente controladas. Los resultados se muestran en la Tabla 2.
Se puede ver que, en comparación con los modelos densos, el rendimiento disperso basado en modalidades logra mejores compensaciones entre calidad y rendimiento y puede demostrar una escalabilidad razonable a medida que crece el número de expertos. Por otro lado, aunque las variantes MoD logran las mejores pérdidas absolutas, también tienden a ser más costosas computacionalmente debido a dinámicas y desequilibrios adicionales.
Rendimiento del tiempo de inferencia
El equipo también evaluó el rendimiento del modelo en datos de modelado de lenguaje retenidos y tareas posteriores. Los resultados se muestran en las Tablas 3 y 4.
Como se muestra en la Tabla 3, al utilizar múltiples expertos en imágenes, el modelo 1.4B MoMa 1t1i supera al modelo denso correspondiente en la mayoría de las métricas, con la excepción de las métricas de perplejidad condicional de imagen a texto en COCO y Flickr. Ampliar aún más el número de expertos también puede mejorar el rendimiento, con 1.400 millones de MoE 8x logrando el mejor rendimiento de imagen a texto.
Además, como se muestra en la Tabla 4, el modelo 1.4B MoE 8x también es muy bueno en tareas de texto a texto. 1.4B MoMa 4t4i funciona mejor en todas las métricas de perplejidad de imagen condicional, mientras que su perplejidad de texto en la mayoría de los puntos de referencia también está muy cerca de 1.4B MoE 8x.
En general, el modelo 1.4B MoMa 4t4i tiene los mejores resultados de modelado en modalidades mixtas de texto e imagen.
Para obtener más detalles, lea el artículo original.