notícias

O unicórnio Star AI Mistral AI revela um novo rei de modelos grandes, com codificação e habilidades matemáticas superiores

2024-07-17

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Zhidixi (conta pública: zhidxcom)

Compilado |

Editor |

Zhidongzhi News em 17 de julho, de acordo com VentureBeat ontem, a startup francesa de IA Mistral AI lançou recentemente dois novos modelos de IA. Um é o Codestral Mamba 7B, um modelo de geração de código para programadores e desenvolvedores, e o outro é projetado para matemática. Modelo de IA projetado para raciocínio relevante e descoberta científica.

Codestral Mamba 7B apresenta inferência mais rápida e contexto mais longo, proporcionando tempos de resposta rápidos mesmo com texto de entrada longo. Ao mesmo tempo, o modelo pode lidar com entradas de até 256 mil tokens, o dobro do GPT-4o.

Mathstral 7B possui uma janela de contexto de 32K e usará a licença de código aberto Apache 2.0. Ele pode obter melhores resultados do que outros modelos de raciocínio matemático em benchmarks com mais cálculos de tempo de inferência.

1. Modelos de geração de código podem lidar com contextos mais longos

A bem financiada startup francesa de IA Mistral AI, conhecida por seus poderosos modelos de IA de código aberto, lançou hoje duas novas entradas em sua crescente família de modelos de grandes linguagens (LLMs): um modelo baseado em matemática e outro para programadores e um modelo de geração de código para desenvolvedores baseados no Mamba, uma nova arquitetura desenvolvida por outros pesquisadores no final do ano passado.

O Mamba tenta melhorar a eficiência da arquitetura do transformador usada pela maioria dos LLMs líderes, simplificando seu mecanismo de atenção. Os modelos baseados em Mamba diferem dos modelos mais comuns baseados em Transformer porque podem ter velocidades de inferência mais rápidas e janelas de contexto maiores. Outras empresas e desenvolvedores, incluindo AI21, lançaram novos modelos de IA baseados nele.

Agora, com esta nova arquitetura, Mistral AI nomeia-a apropriadamenteCodestral Mamba 7B , que fornece tempos de resposta rápidos mesmo quando o texto de entrada é longo. Codestral Mamba é adequado para casos de uso de produtividade de código, especialmente para projetos de codificação mais locais.

A Mistral AI testou o modelo, que estará disponível gratuitamente na API Plateforme da Mistral AI, processando entradas de até 256.000 tokens, duas vezes mais rápido que o GPT-4o da OpenAI.

Mistral AI mostra que Codestral Mamba tem desempenho melhor do que os modelos de código aberto concorrentes CodeLlama 7B, CodeGemma-1.17B e DeepSeek em benchmarks como HumanEval.

Os desenvolvedores podem modificar e implantar Codestral Mamba a partir de seu repositório GitHub e HuggingFace. Ele estará disponível sob a licença de código aberto Apache 2.0.

A Mistral AI afirma que as primeiras versões do Codestral são superiores a outros geradores de código como CodeLlama 70B e DeepSeek Coder 33B.

A geração de código e os assistentes de codificação tornaram-se aplicativos amplamente utilizados para modelos de IA, com plataformas como Copilot do GitHub, CodeWhisperer da Amazon e Codenium alimentado por OpenAI crescendo em popularidade.

2. O modelo de raciocínio matemático possui excelentes capacidades e também possui capacidades de ajuste fino.

O segundo modelo lançado pela Mistral AI éMatemática 7B , um modelo de IA projetado para raciocínio relacionado à matemática e descobertas científicas. A Mistral AI desenvolveu o Mathstral através do Projeto Numina.

Mathstral tem uma janela de contexto de 32K e usará a licença de código aberto Apache 2.0. Mistral AI afirma que o modelo supera todos os modelos projetados para raciocínio matemático. Ele pode alcançar “resultados significativamente melhores” em benchmarks com mais cálculos de tempo de inferência. Os usuários podem usá-lo como está ou ajustar o modelo.

Mistral AI disse em uma postagem no blog: “Mathstral é outro exemplo de como alcançar excelente desempenho ao construir modelos para uma finalidade específica – uma filosofia de desenvolvimento que promovemos ativamente à la Plateforme, especialmente com sua nova função de ajuste fino.”

Mathstral pode ser acessado via Mistral AI a la Plataforme e HuggingFace.

A Mistral AI prefere disponibilizar seus modelos em sistemas de código aberto, e a empresa tem competido com outros desenvolvedores de IA, como OpenAI e Anthropic.

A empresa levantou recentemente US$ 640 milhões em financiamento da Série B, avaliando-a em quase US$ 6 bilhões. A empresa também recebeu investimentos de gigantes da tecnologia como Microsoft e IBM.

Conclusão: A batalha de desempenho de modelos grandes atinge novos patamares

Do ponto de vista da indústria, os novos modelos da Mistral AI destacam a tendência de as ferramentas de IA se tornarem mais profissionais. Ao fornecer modelos poderosos e acessíveis como Mistral 7B e Codestral Mamba 7B, a Mistral AI está se tornando um player importante no campo da IA. o desenvolvimento de aplicações inovadoras e práticas.

Estes modelos também enfatizam a importância da IA ​​de código aberto, incentivando a colaboração e uma maior transparência dentro da comunidade tecnológica. Ao fornecer ferramentas poderosas de IA para um público mais amplo, avançaremos ainda mais na rápida iteração e desenvolvimento do grande campo de modelos de IA.

Fonte: VentureBeat