O Mamba realmente supera o Transformer na escrita de código! Artigo original selecionado para as principais novas conferências

O Mamba realmente supera o Transformer na escrita de código!Artigo original selecionado para nova conferência

2024-07-17

O vento oeste vem do Templo Aofei
Qubits | Conta pública QbitAI

"European OpenAI" e "Transformer Challenger" uniram forças!

Mistral AI acaba de lançar seu primeiro baseado em IAMamba2Modelo de código aberto para arquitetura -Codestral Mamba(7B), especializado em geração de código.

Ao contrário da arquitetura Transformer, a arquitetura Mamba pode realizar "raciocínio de tempo linear" e pode, teoricamente, suportar entradas de comprimento infinito.

Mistral AI: É por isso que usamos o modelo de raciocínio de código lançado pela arquitetura Mamba para resistir ao ataque.

Mistral AI diz que tem maisContexto de token de 256 milCodestral Mamba foi testado em .

No teste de benchmark, o desempenho geral do Codestral Mamba superou CodeGemma-1.1 7B, CodeLlama 7B, DeepSeek v1.5 7B e CodeLlama 34B.

Alguns internautas disseram que esta onda é o ritmo com que a Mistral AI levará a arquitetura Mamba adiante.

Um dos autores da arquitetura Mamba, professor assistente da CMUAlberto Guexpressar:

Diferentes modalidades ou formatos de dados com “tokenizações” mais fracas (por exemplo, código, modelagem em nível de byte) se beneficiarão cada vez mais de modelos compactados como o SSM.

Além do Codestral Mamba, a Mistral AI também lançou um novomodelo matemático——Matemática(7B)。

O que é interessante é que os internautas fizeram com que grandes modelos tombassem com frequência nos últimos dias.Qual é maior, 9,11 ou 9,9?", o Mathstral primeiro comparou os números inteiros, depois comparou as partes decimais e finalmente conseguiu acertar.

O desempenho 7B está próximo do 22BTransformer

Os resultados completos do benchmark Codestral Mamba são os seguintes:

Em todos os benchmarks, como HumanEval C++/Java/JavaScript/Bash, Codestral Mamba supera CodeGemma-1.1 7B, CodeLlama 7B e supera o CodeLlama 34B maior.

O modelo de programação de código aberto anterior mais forte da Mistral AICódigo 22BNão há grande diferença entre ele e o Codestral Mamba.

Além disso, DeepSeek v1.5 7B também se destaca no benchmark, e vai e volta com Codestral Mamba.

DeepSeek v1.5 7B é melhor que Codestral Mamba em Spider (análise semântica complexa entre domínios e tarefas de texto para SQL), HumanEval Java, HumanEval Bash, MBPP, etc.

Além dos resultados do benchmark, o mais interessante do Codestral Mamba é que ele é o primeiro lote de modelos da arquitetura Mamba2.

Arquitetura Mamba do autor FlashAttentionTri Daoe professor assistente da CMU, cofundador e cientista-chefe da Cartesia AIAlberto Guproposta no final do ano passado.

Anteriormente, grandes modelos de arquitetura Transformer, como o ChatGPT, tinham um grande problema: o processamento de textos longos consumia enormes quantidades de poder de computação. A razão por trás disso é também a complexidade quadrática do mecanismo de atenção na arquitetura do Transformer.

Mamba é o primeiro a realmente igualar o desempenho do TransformerModelo linear de série temporal, também é um modelo de espaço de estados (SSM, State Space Model).

O Mamba é construído no SSM Estruturado mais moderno (S4, SSM Estruturado) adequado para aprendizado profundo e tem semelhanças com a arquitetura clássica RNN.

Existem três inovações principais: processamento seletivo de informações de entrada, algoritmos com reconhecimento de hardware e arquitetura mais simples.

A arquitetura Mamba atraiu ampla atenção na indústria assim que foi lançada. O fundador da Stability AI e cientista da NVIDIA, Jim Fan, e outros estão entusiasmados com seu surgimento.

O artigo original de Mamba foi rejeitado pelo ICLR no início do ano, o que causou acalorada discussão no círculo.

No entanto, foi recentemente aceite pelo CoLM2024, a principal conferência da nova geração.

Mamba2 é sua segunda geração, com espaço de estado ampliado em 8 vezes e velocidade de treinamento aumentada em 50%.

No artigo Mamba2, foi descoberto que o mecanismo de atenção do Transformer tem uma conexão matemática muito próxima com o SSM, e o artigo foi selecionado com sucesso para o ICML 2024.

Um modelo matemático também foi lançado

Além do Codestral Mamba, a Mistral AI também lançou um modelo matemático de código aberto——Matemática(7B), em comemoração ao 2.311º aniversário do nascimento de Arquimedes.

Mathstral é baseado no Mistral 7B, com foco em STEM (Ciência, Tecnologia, Engenharia, Matemática), com janela de contexto de 32k.

No teste de benchmark, o Mathstral MATH obteve pontuação de 56,6% e o MMLU atingiu 63,47%.

A questão é que o Mathstral também pode obter melhores resultados com mais cálculos de tempo de inferência:

Ao usar o mecanismo de votação majoritária, o Mathstral 7B obteve pontuação de 68,37% no teste MATH, e ao aplicar um modelo de recompensa forte entre 64 modelos candidatos, a pontuação melhorou para 74,59%.

A seguir está a diferença de desempenho entre Mathstral 7B e Mistral 7B em vários assuntos MMLU:

Links de referência:
[1]https://mistral.ai/news/codestral-mamba/
[2]https://mistral.ai/news/mathstral/
[3]https://x.com/MistralAI/status/1813222156265791531
[4]https://x.com/GuillaumeLample/status/1813231491154899012
[5]https://x.com/theo_gervet/status/1813226968600469824
[6]https://x.com/tuturetom/status/1813238885453033540
[7]https://x.com/WenhuChen/status/1812562112524226569

notícias

O Mamba realmente supera o Transformer na escrita de código!Artigo original selecionado para nova conferência

O desempenho 7B está próximo do 22BTransformer

Um modelo matemático também foi lançado

Introdução

minhas informações de contato