notícias

Mistral AI dois lançamentos consecutivos: raciocínio matemático 7B dedicado, modelo grande de código de arquitetura Mamba2

2024-07-17

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Relatório do coração da máquina

Departamento Editorial de Coração de Máquina

Os internautas estão curiosos para saber se o Mathstral pode resolver o problema de “quem é maior, 9,11 ou 9,9?”

Ontem, o círculo de IA foi dominado por uma pergunta simples: "Quem é maior, 9.11 ou 9.9?" Grandes modelos de linguagem, incluindo OpenAI GPT-4o, Google Gemini, etc., foram derrubados.





Isso nos permite ver que grandes modelos de linguagem não conseguem compreender e dar respostas corretas como os humanos ao lidar com alguns problemas numéricos.

Para problemas matemáticos numéricos e complexos, os modelos especializados são mais especializados.

Hoje, o grande modelo unicórnio francês Mistral AI lançou umO modelo 7B "Mathstral" concentra-se no raciocínio matemático e na descoberta científica, para resolver problemas matemáticos avançados que exigem raciocínio lógico complexo e em várias etapas.

Este modelo é construído em Mistral 7B, suporta uma janela de contexto de 32k e segue o contrato de código aberto de licença Apache 2.0.

O Mathstral foi construído tendo em mente uma excelente compensação entre desempenho e velocidade, uma filosofia de desenvolvimento que a Mistral AI promove ativamente, especialmente com seus recursos de ajuste fino.



Ao mesmo tempo, o Mathstral é um modelo imperativo que pode ser usado ou ajustado. Os pesos do modelo foram colocados no HuggingFace.

  • Pesos do modelo: https://huggingface.co/mistralai/mathstral-7B-v0.1

O gráfico abaixo mostra a diferença de desempenho MMLU entre Mathstral 7B e Mistral 7B por assunto.

Mathstral alcança desempenho de inferência de última geração em sua escala em uma variedade de benchmarks padrão da indústria. Especialmente no conjunto de dados MATH, alcançou uma taxa de aprovação de 56,6% e uma taxa de aprovação de 63,47% no MMLU.



Ao mesmo tempo, a taxa de aprovação do Mathstral em MATEMÁTICA (56,6%) é mais de 20% superior à do Minerva 540B. Além disso, Mathstral obteve 68,4% em MATH com votação majoritária @64 e 74,6% usando o modelo de recompensa.



Esse resultado também deixou os internautas curiosos para saber se o Mathstral pode resolver o problema de “quem é maior, 9,11 ou 9,9?”



Código Mamba: Codestral Mamba



  • Pesos do modelo: https://huggingface.co/mistralai/mamba-codestral-7B-v0.1

Lançado junto com o Mathstral 7B, há também um modelo Codestral Mamba especialmente utilizado para geração de código, que utiliza a arquitetura Mamba2 e também segue o contrato de licença de código aberto Apache 2.0. Este é um modelo de orientação com mais de 7 bilhões de parâmetros que os pesquisadores podem usar, modificar e distribuir gratuitamente.

Vale ressaltar que Codestral Mamba foi desenhado com a ajuda dos autores do Mamba Albert Gu e Tri Dao.

A arquitetura do Transformer sempre apoiou metade do campo de IA. No entanto, ao contrário do Transformer, o modelo Mamba tem a vantagem do raciocínio de tempo linear e pode, teoricamente, modelar sequências de comprimento infinito. A arquitetura permite que os usuários interajam com o modelo de forma ampla e rápida, sem serem limitados pelo comprimento da entrada. Essa eficiência é especialmente importante para geração de código.

Em testes de benchmark, Codestral Mamba superou os modelos concorrentes de código aberto CodeLlama 7B, CodeGemma-1.17B e DeepSeek no teste HumanEval.



Mistral testou o modelo, que está disponível gratuitamente na API la Plateforme da Mistral, e pode lidar com entradas de até 256.000 tokens – o dobro do GPT-4o da OpenAI.

Com o lançamento do Codestral Mamba, alguns internautas o utilizaram no VSCode, e é muito suave.