Mi información de contacto
Correo[email protected]
2024-08-13
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
Mingmin viene del templo de Aofei.
Qubits | Cuenta pública QbitAI
Simplemente reemplace la arquitectura Transformer y el rendimiento mejorará inmediatamente en todos los aspectos, ¡haciendo posible convertirse en el mejor modelo de código abierto de la misma escala!
(El mecanismo de atención ya no existe)
Este es el últimoHalcón Mamba 7BModelo.
se utilizaArquitectura del modelo de lenguaje espacial de estados de Mambapara manejar diversas tareas de generación de texto.
Al cancelar el mecanismo de atención tradicional, se mejora efectivamente el problema de la baja eficiencia computacional cuando el modelo procesa secuencias largas.
puede manejarinfinitamente largosecuencia, pero los requisitos de memoria no aumentan.
No importa cuán largo sea el contexto,El tiempo para generar cada token es básicamente el mismo.。
Como resultado, el rendimiento del modelo Falcon Mamba se ha mejorado en todos los aspectos, superando a muchos modelos de arquitectura Transformer, como Llama-3.1 (8B), Mistral (7B) y Falcon-2 (11B).
Los resultados anteriores fueron aportados por el Instituto de Innovación Tecnológica (TII) de Abu Dhabi, Emiratos Árabes Unidos, que es el equipo de desarrollo del modelo Falcon.
Esta serie contiene un total de cuatro modelos: versión básica, versión de ajuste fino de instrucciones, versión de 4 bits y versión de 4 bits de ajuste fino de instrucciones.
El último modelo está abierto bajo la licencia TII Falcon 2.0, que está bajo la licencia Apache 2.0.
Los internautas y espectadores gritaron: ¡Las reglas del juego están a punto de cambiar!
El primer SSLM de código abierto del mundo
En términos de rendimiento, Falcon Mamba 7B supera a muchos modelos de código abierto en todos los aspectos.
Está basado en el Mamba de primera generación.
Mamba es unamodelo de espacio de estados(SSM, Modelo de Espacio de Estados). Combina las características de RNN y CNN y mejora la eficiencia del procesamiento de información de texto al introducir un mecanismo de selección que permite al modelo propagar u olvidar selectivamente información en función de la entrada actual.
Al mismo tiempo, diseña un algoritmo paralelo compatible con el hardware que se ejecuta en modo recursivo, evitando el acceso de E/S entre niveles de memoria de la GPU y mejorando la eficiencia informática.
Finalmente, también simplifica la arquitectura, combinando la arquitectura SSM y el bloque MLP en el Transformer en un solo bloque.
Cambiar de Transformer a Mamba permite que el modelo Falcon maneje secuencias arbitrariamente largas sin aumentar la memoria. Especialmente adecuado para una única GPU A10 de 24 GB.
El estudio también analiza dos enfoques diferentes para procesar secuencias.
El método de prellenado paralelo es adecuado para el procesamiento paralelo de GPU y tiene altos requisitos de memoria; el método de llenado secuencial es adecuado para modelos SSM y puede manejar secuencias de cualquier longitud sin estar sujeto a restricciones de memoria.
Para garantizar la estabilidad del entrenamiento a gran escala, el modelo Falcon Mamba utiliza una capa de normalización RMS adicional.
La capa de normalización RMS puede simplificar el proceso de cálculo de LayerNorm y reducir la cantidad de cálculo.
El modelo se entrenó utilizando datos 5500GT, que provienen principalmente del conjunto de datos RefedWeb y de datos públicos. El proceso de capacitación es básicamente uniforme y se agrega una pequeña cantidad de datos de planificación de alta calidad en las últimas etapas de la capacitación, lo que ayuda a optimizar el modelo en la etapa final.
En la prueba de generación de tokens en H100 con un tamaño de lote de 1 y una longitud de palabra de 1-130k, Falcon Mamba pudoMantenga un rendimiento estable al generar nuevos tokens, lo que significa que su rendimiento no se ve afectado por la longitud del texto y puede manejar secuencias largas de manera estable sin degradación del rendimiento.
Falcon Mamba admite múltiples API de Hugging Face, incluidas AutoModelForCausalLM y pipline.
También se lanzó una versión de ajuste de instrucciones, que puede hacer que el modelo sea más preciso al ajustar 5 mil millones de tokens adicionales.
Se puede acceder a los últimos modelos en Hugging Face y GitHub ~
Enlaces de referencia:
https://huggingface.co/blog/falconmamba#hardware-rendimiento