O trabalho original chega ao fim pessoalmente! O primeiro modelo 7B Mamba de código aberto da Mistral, "Cleopatra", tem efeitos impressionantes

2024-07-17

Novo Relatório de Sabedoria

Editor: Departamento Editorial

[Introdução à Nova Sabedoria] Recentemente, os pequenos modelos 7B tornaram-se uma tendência que os gigantes da IA estão correndo para acompanhar. Seguindo o Gemma2 7B do Google, a Mistral lançou hoje mais dois modelos 7B, nomeadamente Mathstral para assuntos STEM, e Codestral Mamba, um modelo de código usando a arquitetura Mamaba.

Mistral tem outra surpresa!

Ainda hoje, a Mistral lançou dois pequenos modelos: Mathstral 7B e Codestral Mamba 7B.

O primeiro é o Mathstral 7B, projetado para raciocínio matemático e descoberta científica.

No teste de benchmark MATH, obteve uma pontuação de 56,6% pass@1, que é mais de 20% superior à do Minerva 540B. Mathstral obteve 68,4% em MATEMÁTICA e 74,6% usando o modelo de recompensa.

O modelo de código Codestral Mamba é um dos primeiros modelos de código aberto a adotar a arquitetura Mamba 2.

É o melhor dos modelos de código 7B disponíveis, treinado usando um comprimento de contexto de 256 mil tokens.

Ambos os modelos são lançados sob a licença Apache 2.0 e os pesos são atualmente carregados no armazém HuggingFace.

Endereço do Hugging Face: https://huggingface.co/mistralai

Matemática

Curiosamente, de acordo com o anúncio oficial, o lançamento do Mathstral aconteceu para comemorar o 2.311º aniversário do nascimento de Arquimedes.

O Mathstral foi projetado para disciplinas STEM para resolver problemas matemáticos avançados que exigem raciocínio complexo e em várias etapas. Os parâmetros são apenas 7B e a janela de contexto é 32k.

Além disso, a pesquisa e desenvolvimento da Mathstral também conta com um parceiro de peso - Numina, que acabou de vencer o campeonato na primeira competição de Olimpíadas de Matemática de IA de Kaggle na semana passada.

Além disso, alguns usuários do Twitter descobriram que o Mathstral pode responder corretamente à pergunta "Qual é maior, 9.11 ou 9.9?" Esta questão deixou muitos modelos grandes perplexos.

Inteiros e decimais são comparados separadamente, e a cadeia de pensamento é clara. Pode-se dizer que é um modelo de excelente trabalho de modelo matemático.

Com base nas capacidades linguísticas do Mistral 7B, o Mathstral se concentra ainda mais em assuntos STEM. De acordo com os resultados da divisão de disciplinas do MMLU, matemática, física, biologia, química, estatística, ciência da computação e outras áreas são vantagens absolutas do Mathstral.

De acordo com a postagem do blog oficial, o Mathstral parece sacrificar alguma velocidade de inferência em troca do desempenho do modelo, mas a julgar pelos resultados da avaliação, essa compensação vale a pena.

Em vários testes de benchmark nas áreas de matemática e raciocínio, o Mathstral derrotou pequenos modelos populares, como Llama 3 8B e Gemma2 9B, alcançando especialmente SOTA em questões de competição de matemática, como AMC 2023 e AIME 2024.

Além disso, o tempo de inferência pode ser aumentado ainda mais para obter melhores resultados do modelo.

Se a votação por maioria for usada para 64 candidatos, a pontuação do Mathstral no MATH pode chegar a 68,37%. Adicionando ainda mais modelos de recompensa, pode atingir uma pontuação alta de 74,59%.

Além das plataformas HuggingFace e la Plateforme, você também pode chamar os dois SDKs de código aberto Mistral-finetune e Mistral Inference lançados oficialmente para usar ou ajustar o modelo.

Codestral Mamba

Após o lançamento da série Mixtral, que segue a arquitetura Transformer, também foi lançado o Codestral Mamba, o primeiro modelo de geração de código usando a arquitetura Mamba2.

Além disso, o processo de pesquisa e desenvolvimento também foi auxiliado pelos autores originais de Mamba, Albert Gu e Tri Dao.

O que é interessante é que o artigo do anúncio oficial mencionou especificamente a relacionada “Cleópatra” Cleópatra VII, que terminou dramaticamente a sua vida com uma cobra venenosa.

Após o lançamento da arquitetura Mamba, seu desempenho experimental superior recebeu ampla atenção e otimismo. No entanto, como toda a comunidade de IA investiu muito dinheiro no Transformer, raramente vimos modelos industriais que realmente usassem o Mamba.

Neste momento, Codestral Mamba pode nos fornecer uma nova perspectiva no estudo de novas arquiteturas.

A arquitetura Mamba foi lançada pela primeira vez em dezembro de 2023, e os dois autores lançaram uma versão atualizada do Mamba-2 em maio deste ano.

Ao contrário do Transformer, o modelo Mamba tem a vantagem do raciocínio linear no tempo e é teoricamente capaz de modelar sequências de comprimento infinito.

Ambos são modelos 7B. Enquanto a janela de contexto do Mathstral tem apenas 32k, o Codestral Mamba pode ser expandido para 256k.

Esta vantagem de eficiência no tempo de inferência e duração do contexto, bem como o potencial para respostas rápidas, é particularmente importante em cenários do mundo real para melhorar a eficiência da codificação.

A equipe Mistral viu essa vantagem do modelo Mamba e saiu na frente ao experimentá-lo. A julgar pelo teste de benchmark, o parâmetro 7B Codestral Mamba não só tem vantagens óbvias sobre outros modelos 7B, mas pode até competir com modelos de maior escala.

Em 8 testes de benchmark, o Codestral Mamba basicamente igualou o desempenho do Code Llama 34B, e até superou o desempenho em 6 dos testes.

No entanto, em comparação com sua irmã mais velha, Codestral 22B, a desvantagem de parâmetros do Codestral Mamba é refletida e ainda parece faltar capacidade.

Vale ressaltar que Codestral 22B é um novo modelo lançado há menos de dois meses. Mais uma vez, lamento que a Mistral, com sede em Paris, seja tão popular.

Codestral Mamba também pode ser implantado usando inferência Mistral ou a API de implantação rápida TensorRL-LLM lançada pela NVIDIA.

Endereço GitHub: https://github.com/NVIDIA/TensorRT-LLM

Para operação local, o blog oficial afirmou que você pode ficar atento ao suporte subsequente do llama.cpp. Mas ollama agiu rapidamente e adicionou o Mathstral à biblioteca de modelos.

Diante do apelo dos internautas para atualizar o codestral mamba, ollama também disse com muita veemência: “Já estamos trabalhando nisso, por favor, não fique impaciente”.

Referências:

https://mistral.ai/news/codestral-mamba/

https://mistral.ai/news/mathstral/

https://venturebeat.com/ai/mistral-releases-codestral-mamba-for-faster-longer-code-generation/

notícias

O trabalho original chega ao fim pessoalmente! O primeiro modelo 7B Mamba de código aberto da Mistral, "Cleopatra", tem efeitos impressionantes

Introdução

minhas informações de contato