noticias

¡La arquitectura sin transformador se destaca! El primer modelo grande que no requiere atención, superando a Llama 3.1.

2024-08-13

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina



Informe del corazón de la máquina

Editor: Du Wei, Chen Chen

El gran modelo de la arquitectura Mamba desafió una vez más a Transformer.

¿El modelo arquitectónico Mamba finalmente "se mantendrá firme" esta vez? Desde su lanzamiento inicial en diciembre de 2023, Mamba se ha convertido en un fuerte competidor de Transformer.

Desde entonces, han seguido apareciendo modelos que utilizan la arquitectura Mamba, como Codestral 7B, el primer modelo grande de código abierto basado en la arquitectura Mamba lanzado por Mistral.

Hoy, el Instituto de Innovación Tecnológica (TII) de Abu Dhabi publicó unNuevo modelo Mamba de código abierto: Falcon Mamba 7B



Primero resumamos los aspectos más destacados del Falcon Mamba 7B: puede manejar secuencias de cualquier longitud sin aumentar el almacenamiento de memoria y puede ejecutarse en una única GPU A10 de 24 GB.

Actualmente disponible para su visualización y uso en Hugging Face, Falcon Mamba 7B es un modelo de decodificador causal que utiliza un novedosoArquitectura del modelo de lenguaje espacial de estados de Mamba (SSLM)para manejar diversas tareas de generación de texto.

A juzgar por los resultados, el Falcon Mamba 7B superó a los modelos líderes en su clase de tamaño en algunos puntos de referencia, incluidos Meta's Llama 3 8B, Llama 3.1 8B y Mistral 7B.



Falcon Mamba 7B se divide en cuatro modelos variantes, a saber, la versión básica, la versión de comando optimizada, la versión de 4 bits y la versión de comando optimizada de 4 bits.



Como modelo de código abierto, Falcon Mamba 7B adopta la licencia basada en Apache 2.0 "Falcon License 2.0" para respaldar fines de investigación y aplicación.



Dirección de Hugging Face: https://huggingface.co/tiiuae/falcon-mamba-7b

Falcon Mamba 7B también se ha convertido en el cuarto modelo de código abierto de TII después de Falcon 180B, Falcon 40B y Falcon 2, y es elEl primer modelo de arquitectura Mamba SSLM



El primer modelo universal de Mamba pura a gran escala.

Los modelos basados ​​en transformadores han dominado durante mucho tiempo la IA generativa. Sin embargo, los investigadores han notado que las arquitecturas de transformadores pueden encontrar dificultades al procesar información de texto más larga.

Esencialmente, el mecanismo de atención en Transformer comprende el contexto comparando cada palabra (o token) con cada palabra del texto, lo que requiere más potencia informática y requisitos de memoria para manejar la creciente ventana de contexto.

Pero si los recursos informáticos no se escalan en consecuencia, la inferencia del modelo se ralentizará y el texto que supere una determinada longitud no podrá procesarse. Para superar estos obstáculos, la arquitectura del Modelo de lenguaje espacial de estados (SSLM), que funciona actualizando continuamente el estado mientras procesa palabras, ha surgido como una alternativa prometedora y está siendo implementada por muchas instituciones, incluido TII. Este tipo de arquitectura.

Falcon Mamba 7B utiliza la arquitectura Mamba SSM propuesta originalmente en un artículo de diciembre de 2023 por investigadores de la Universidad Carnegie Mellon y la Universidad de Princeton.

La arquitectura utiliza un mecanismo de selección que permite al modelo ajustar dinámicamente sus parámetros en función de la entrada. De esta manera, el modelo puede centrarse en entradas específicas o ignorarlas, de forma similar a cómo funciona el mecanismo de atención en Transformer, al tiempo que proporciona la capacidad de procesar largas secuencias de texto (como libros completos) sin requerir memoria ni recursos informáticos adicionales.

TII señaló que el enfoque hace que el modelo sea adecuado para tareas como traducción automática a nivel empresarial, resumen de texto, visión por computadora y procesamiento de audio, y estimación y predicción.

datos de entrenamiento

Halcón Mamba 7BDatos de entrenamiento hasta 5500GT, consta principalmente del conjunto de datos RefinedWeb, ampliado con datos técnicos de alta calidad, datos de código y datos matemáticos de fuentes públicas. Todos los datos se tokenizan a través del tokenizador Falcon-7B/11B.

Al igual que otros modelos de la serie Falcon, Falcon Mamba 7B utiliza una estrategia de entrenamiento de múltiples etapas para el entrenamiento.La longitud del contexto aumentó de 2048 a 8192.. Además, inspirado en el concepto de aprendizaje del curso, TII selecciona cuidadosamente datos mixtos a lo largo de la fase de capacitación, considerando plenamente la diversidad y complejidad de los datos.

En la fase de capacitación final, TII utiliza un pequeño conjunto de datos seleccionados de alta calidad (es decir, muestras de Fineweb-edu) para mejorar aún más el rendimiento.

Proceso de entrenamiento, hiperparámetros.

La mayor parte del entrenamiento para el Falcon Mamba 7B esHecho en 256 GPU H100 de 80 GB, se adopta una estrategia que combina paralelismo 3D (TP = 1, PP = 1, DP = 256) y ZeRO. La siguiente figura muestra los detalles de los hiperparámetros del modelo, incluida la precisión, el optimizador, la tasa de aprendizaje máxima, la disminución del peso y el tamaño del lote.



Específicamente, Falcon Mamba 7B se entrenó con el optimizador AdamW, el programa de tasa de aprendizaje WSD (warm-stabilize-decay) y el tamaño del lote aumentó de b_min=128 a b_max=2048 durante los primeros 50 GT de entrenamiento.

En la fase estable, TII usa una tasa de aprendizaje máxima η_max=6.4×10^−4, y luego la reduce al mínimo usando un programa exponencial de más de 500GT. Al mismo tiempo, TII utiliza BatchScaling en la fase de aceleración para reajustar la tasa de aprendizaje eta de modo que la temperatura del ruido de Adam permanezca constante.





Toda la formación del modelo duró unos dos meses.

Evaluación del modelo

Para comprender cómo se compara Falcon Mamba 7B con los principales modelos Transformer en su clase de tamaño, el estudio realizó una prueba para determinar la longitud máxima de contexto que el modelo podría manejar usando una sola GPU A10 de 24 GB.

Los resultados muestran que Falcon Mamba es capaz de adaptarse a secuencias más grandes que los modelos Transformer actuales, al mismo tiempo queTeóricamente capaz de adaptarse a longitudes de contexto ilimitadas



A continuación, medimos el rendimiento de generación del modelo utilizando un tamaño de lote de 1 y una configuración de hardware de GPU H100. Los resultados se muestran en la siguiente figura. Falcon Mamba genera todos los tokens con un rendimiento constante sin ningún aumento en la memoria máxima de CUDA. Para los modelos Transformer, la memoria máxima aumenta y la velocidad de generación se ralentiza a medida que aumenta la cantidad de tokens generados.



Incluso en los puntos de referencia estándar de la industria, el nuevo modelo funciona mejor o cerca de los modelos de transformadores populares, así como de los modelos de espacio de estados puros e híbridos.

Por ejemplo, en los puntos de referencia Arc, TruthfulQA y GSM8K, Falcon Mamba 7B obtuvo 62,03%, 53,42% y 52,54% respectivamente, superando a Llama 3 8 B, Llama 3.1 8B, Gemma 7B y Mistral 7B. Sin embargo, en los puntos de referencia MMLU y Hellaswag, el Falcon Mamba 7B está muy por detrás de estos modelos.



"El lanzamiento de Falcon Mamba 7B representa un gran paso adelante para la institución, inspirando nuevas perspectivas y promoviendo la exploración de sistemas inteligentes", dijo en un comunicado el investigador principal del TII, Hakim Hacid. En TII, están ampliando los límites de SSLM y los modelos de transformadores para inspirar una mayor innovación en la IA generativa.

Actualmente, la serie de modelos de lenguaje Falcon de TII se ha descargado más de 45 millones de veces, convirtiéndose en una de las versiones LLM de mayor éxito en los EAU.

El documento Falcon Mamba 7B se lanzará pronto, así que puedes esperar un momento.

https://huggingface.co/blog/falconmamba

https://venturebeat.com/ai/falcon-mamba-7bs-powerful-new-ai-architecture-offers-alternative-to-transformer-models/