¡La obra original llega a su fin en persona! El primer modelo 7B Mamba de código abierto de Mistral, "Cleopatra", tiene efectos impresionantes

2024-07-17

Nuevo informe de sabiduría

Editor: Departamento Editorial

[Introducción a la Nueva Sabiduría] Recientemente, los modelos pequeños 7B se han convertido en una tendencia que los gigantes de la IA están intentando alcanzar. Después del Gemma2 7B de Google, Mistral lanzó hoy dos modelos 7B más, a saber, Mathstral para materias STEM y Codestral Mamba, un modelo de código que utiliza la arquitectura Mamaba.

¡Mistral tiene otra sorpresa!

Precisamente hoy, Mistral lanzó dos modelos pequeños: Mathstral 7B y Codestral Mamba 7B.

El primero es Mathstral 7B, diseñado para el razonamiento matemático y el descubrimiento científico.

En la prueba comparativa de MATH, logró una puntuación de 56,6 % aprobado@1, que es más de un 20 % superior a la del Minerva 540B. Mathstral obtuvo una puntuación del 68,4 % en MATEMÁTICAS y del 74,6 % utilizando el modelo de recompensa.

El modelo de código Codestral Mamba es uno de los primeros modelos de código abierto en adoptar la arquitectura Mamba 2.

Es el mejor de los modelos de código 7B disponibles, entrenado utilizando una longitud de contexto de 256k tokens.

Ambos modelos se lanzan bajo la licencia Apache 2.0 y los pesos están actualmente cargados en el almacén de HuggingFace.

Dirección de Hugging Face: https://huggingface.co/mistralai

Matemáticas

Curiosamente, según el anuncio oficial, el lanzamiento de Mathstral coincidió con la celebración del 2311 aniversario del nacimiento de Arquímedes.

Mathstral está diseñado para que las materias STEM resuelvan problemas matemáticos avanzados que requieren un razonamiento complejo de varios pasos. Los parámetros son solo 7B y la ventana de contexto es 32k.

Además, la investigación y el desarrollo de Mathstral también cuenta con un socio de peso pesado: Numina, que acaba de ganar el campeonato en la primera competencia de la Olimpiada de Matemáticas de IA de Kaggle la semana pasada.

Además, algunos usuarios de Twitter descubrieron que Mathstral puede responder correctamente a la pregunta "¿Cuál es más grande, 9.·11 o 9.9?". Esta pregunta ha dejado perplejos a muchos modelos grandes.

Los números enteros y decimales se comparan por separado y la cadena de pensamiento es clara. Se puede decir que es un modelo de excelente trabajo de modelo matemático.

Basado en las capacidades lingüísticas de Mistral 7B, Mathstral se centra aún más en materias STEM. Según los resultados de desglose de materias de MMLU, las matemáticas, la física, la biología, la química, la estadística, la informática y otros campos son las ventajas absolutas de Mathstral.

Según la publicación oficial del blog, Mathstral parece sacrificar algo de velocidad de inferencia a cambio del rendimiento del modelo, pero a juzgar por los resultados de la evaluación, esta compensación vale la pena.

En múltiples pruebas de referencia en los campos de matemáticas y razonamiento, Mathstral venció a modelos pequeños populares como Llama 3 8B y Gemma2 9B, alcanzando especialmente SOTA en preguntas de competencias de matemáticas como AMC 2023 y AIME 2024.

Además, el tiempo de inferencia se puede aumentar aún más para lograr mejores resultados del modelo.

Si se utiliza la votación por mayoría para 64 candidatos, la puntuación de Mathstral en MATH puede alcanzar el 68,37% y, si se añaden modelos de recompensa adicionales, se puede alcanzar una puntuación alta del 74,59%.

Además de las plataformas HuggingFace y Plateforme, también puede llamar a los dos SDK de código abierto lanzados oficialmente, Mistral-finetune y Mistral Inference, para usar o ajustar el modelo.

Mamba Codestral

Tras el lanzamiento de la serie Mixtral, que sigue la arquitectura Transformer, también se lanzó Codestral Mamba, el primer modelo de generación de código que utiliza la arquitectura Mamba2.

Además, el proceso de investigación y desarrollo también contó con la ayuda de los autores originales de Mamba, Albert Gu y Tri Dao.

Curiosamente, el artículo del anuncio oficial citó específicamente a la "Cleopatra" relacionada Cleopatra VII, quien dramáticamente terminó con su vida con una serpiente venenosa.

Después del lanzamiento de la arquitectura Mamba, su rendimiento experimental superior ha recibido atención y optimismo generalizados. Sin embargo, debido a que toda la comunidad de IA ha invertido demasiado dinero en Transformer, rara vez hemos visto modelos industriales que realmente utilicen Mamba.

En este momento, Codestral Mamba puede brindarnos una nueva perspectiva sobre el estudio de nuevas arquitecturas.

La arquitectura Mamba se lanzó por primera vez en diciembre de 2023 y los dos autores lanzaron una versión actualizada de Mamba-2 en mayo de este año.

A diferencia del Transformer, el modelo Mamba tiene la ventaja del razonamiento temporal lineal y es teóricamente capaz de modelar secuencias de longitud infinita.

Ambos son modelos 7B. Mientras que la ventana de contexto de Mathstral es de sólo 32k, Codestral Mamba se puede ampliar a 256k.

Esta ventaja de eficiencia en el tiempo de inferencia y la longitud del contexto, así como el potencial de respuestas rápidas, es particularmente importante en escenarios prácticos para mejorar la eficiencia de la codificación.

El equipo Mistral vio esta ventaja del modelo Mamba y tomó la delantera al probarlo. Según la prueba comparativa, el Codestral Mamba con parámetros 7B no sólo tiene ventajas obvias sobre otros modelos 7B, sino que incluso puede competir con modelos de mayor escala.

En 8 pruebas comparativas, Codestral Mamba básicamente igualó a Code Llama 34B, e incluso superó el rendimiento en 6 de las pruebas.

Sin embargo, en comparación con su hermana mayor Codestral 22B, la desventaja de parámetros de Codestral Mamba se refleja y todavía parece carecer de capacidades.

Vale la pena mencionar que Codestral 22B es un nuevo modelo lanzado hace menos de dos meses. Una vez más, lamento que Mistral, con sede en París, sea tan popular.

Codestral Mamba también se puede implementar utilizando Mistral-inference o la API de implementación rápida TensorRL-LLM lanzada por NVIDIA.

Dirección de GitHub: https://github.com/NVIDIA/TensorRT-LLM

Para operaciones locales, el blog oficial indica que puede prestar atención al soporte posterior de llama.cpp. Pero ollama actuó rápidamente y añadió Mathstral a la biblioteca de modelos.

Ante el impulso de los internautas de actualizar codestral mamba, ollama también dijo con mucha contundencia: "Ya estamos trabajando en ello, por favor no se impacienten".

Referencias:

https://mistral.ai/news/codestral-mamba/

https://mistral.ai/news/mathstral/

https://venturebeat.com/ai/mistral-releases-codestral-mamba-for-faster-longer-code-spawn/

noticias

¡La obra original llega a su fin en persona! El primer modelo 7B Mamba de código abierto de Mistral, "Cleopatra", tiene efectos impresionantes

Introducción

Mi informacion de contacto