¡Mamba realmente supera a Transformer en escritura de código! Artículo original seleccionado para las principales novedades de la conferencia

¡Mamba realmente supera a Transformer en escritura de código!Artículo original seleccionado para la nueva conferencia más importante

2024-07-17

El viento del oeste viene del templo de Aofei.
Qubits | Cuenta pública QbitAI

¡"European OpenAI" y "Transformer Challenger" han unido fuerzas!

Mistral AI acaba de lanzar su primeraMamba2Modelo de código abierto para arquitectura -Mamba Codestral(7B), especializado en generación de código.

A diferencia de la arquitectura Transformer, la arquitectura Mamba puede realizar un "razonamiento de tiempo lineal" y, en teoría, puede admitir entradas de longitud infinita.

Mistral AI: Es por eso que utilizamos el modelo de razonamiento de código lanzado por la arquitectura Mamba para resistir el ataque.

Mistral AI dice que tiene másContexto de token de 256kCodestral Mamba fue probado en .

En la prueba comparativa, el rendimiento general de Codestral Mamba superó a CodeGemma-1.1 7B, CodeLlama 7B, DeepSeek v1.5 7B y CodeLlama 34B.

Algunos internautas dijeron que esta ola es el ritmo al que Mistral AI hará avanzar la arquitectura Mamba.

Uno de los autores de la arquitectura Mamba, profesor asistente en CMUAlbert Guexpresar:

Diferentes modalidades o formatos de datos con "tokenizaciones" más débiles (por ejemplo, código, modelado a nivel de bytes) se beneficiarán cada vez más de modelos comprimidos como SSM.

Además de Codestral Mamba, Mistral AI también lanzó un nuevomodelo matemático——Matemáticas(7B).

Lo interesante es que los internautas han hecho que los modelos grandes se hayan volcado con frecuencia en los últimos días.¿Cuál es más grande, 9.11 o 9.9?" pregunta, Mathstral primero comparó los números enteros, luego comparó las partes decimales y finalmente logró hacerlo bien.

El rendimiento del 7B está cerca del 22BTransformer

Los resultados completos del benchmark Codestral Mamba son los siguientes:

En todos los puntos de referencia, como HumanEval C++/Java/JavaScript/Bash, Codestral Mamba supera ampliamente a CodeGemma-1.1 7B, CodeLlama 7B y supera al CodeLlama 34B más grande.

El modelo de programación de código abierto más potente anterior de Mistral AICódigo 22BNo hay una gran diferencia entre este y Codestral Mamba.

Además, DeepSeek v1.5 7B también destaca en el benchmark y va y viene con Codestral Mamba.

DeepSeek v1.5 7B es mejor que Codestral Mamba en términos de Spider (análisis semántico complejo entre dominios y tareas de texto a SQL), HumanEval Java, HumanEval Bash, MBPP, etc.

Además de los resultados de las pruebas comparativas, lo más interesante de Codestral Mamba es que es el primer lote de modelos de arquitectura Mamba2.

Arquitectura Mamba por el autor de FlashAttentionTri Daoy profesor asistente de CMU, cofundador y científico jefe de Cartesia AIAlbert Gupropuesto a finales del año pasado.

Anteriormente, los grandes modelos de arquitectura Transformer, como ChatGPT, tenían un problema importante: el procesamiento de textos largos consumía enormes cantidades de potencia informática. La razón detrás de esto es también la complejidad cuadrática del mecanismo de atención en la arquitectura Transformer.

Mamba es el primero en igualar verdaderamente el rendimiento de Transformermodelo de serie de tiempo lineal, también es un modelo de espacio de estados (SSM, State Space Model).

Mamba se basa en el SSM estructurado más moderno (S4, SSM estructurado) adecuado para el aprendizaje profundo y tiene similitudes con la arquitectura clásica RNN.

Hay tres innovaciones principales: procesamiento selectivo de la información de entrada, algoritmos compatibles con el hardware y una arquitectura más simple.

La arquitectura Mamba atrajo una gran atención en la industria tan pronto como apareció. El fundador de Stability AI y científico de NVIDIA, Jim Fan, y otros están entusiasmados con su aparición.

El artículo original de Mamba fue rechazado por ICLR a principios de año, lo que provocó una acalorada discusión en el círculo.

Sin embargo, recientemente ha sido aceptado por CoLM2024, la conferencia más importante de la nueva generación.

Mamba2 es su segunda generación, con el espacio estatal ampliado 8 veces y la velocidad de entrenamiento aumentada en un 50%.

En el artículo de Mamba2, se descubrió que el mecanismo de atención en Transformer tiene una conexión matemática muy estrecha con SSM, y el artículo fue seleccionado con éxito para ICML 2024.

También se publicó un modelo matemático.

Además de Codestral Mamba, Mistral AI también lanzó un modelo matemático de código abierto——Matemáticas(7B), como conmemoración del 2311 aniversario del nacimiento de Arquímedes.

Mathstral se basa en Mistral 7B, centrándose en STEM (Ciencia, Tecnología, Ingeniería, Matemáticas), con una ventana de contexto de 32k.

En la prueba de referencia, Mathstral MATH obtuvo una puntuación del 56,6% y MMLU alcanzó el 63,47%.

El punto es que Mathstral también puede lograr mejores resultados con más cálculos de tiempo de inferencia:

Al utilizar el mecanismo de votación mayoritaria, Mathstral 7B obtuvo una puntuación del 68,37 % en la prueba MATH, y al aplicar un modelo de recompensa sólido entre 64 modelos candidatos, la puntuación mejoró al 74,59 %.

La siguiente es la diferencia de rendimiento entre Mathstral 7B y Mistral 7B en varias materias de MMLU:

Enlaces de referencia:
[1]https://mistral.ai/news/codestral-mamba/
[2]https://mistral.ai/news/mathstral/
[3]https://x.com/MistralAI/status/1813222156265791531
[4]https://x.com/GuillaumeLample/status/1813231491154899012
[5]https://x.com/theo_gervet/status/1813226968600469824
[6]https://x.com/tuturetom/status/1813238885453033540
[7]https://x.com/WenhuChen/status/1812562112524226569

noticias

¡Mamba realmente supera a Transformer en escritura de código!Artículo original seleccionado para la nueva conferencia más importante

El rendimiento del 7B está cerca del 22BTransformer

También se publicó un modelo matemático.

Introducción

Mi información de contacto