Il lavoro originale giunge al termine di persona! Il primo modello open source 7B Mamba di Mistral "Cleopatra" ha effetti straordinari

Il lavoro originale giunge al termine di persona! Il primo modello 7B Mamba open source di Mistral "Cleopatra" ha effetti sorprendenti

2024-07-17

Nuovo rapporto sulla saggezza

Redattore: Dipartimento editoriale

[Introduzione alla Nuova Saggezza] Recentemente, i piccoli modelli 7B sono diventati una tendenza che i giganti dell’intelligenza artificiale stanno cercando di raggiungere. Dopo Gemma2 7B di Google, Mistral ha rilasciato oggi altri due modelli 7B, ovvero Mathstral per materie STEM e Codestral Mamba, un modello di codice che utilizza l'architettura Mamaba.

Mistral ha un'altra sorpresa!

Proprio oggi Mistral ha rilasciato due piccoli modelli: Mathstral 7B e Codestral Mamba 7B.

Il primo è Mathstral 7B, progettato per il ragionamento matematico e la scoperta scientifica.

Nel test benchmark MATH, ha ottenuto un punteggio del 56,6% pass@1, che è superiore di oltre il 20% rispetto al Minerva 540B. Mathstral ha ottenuto il 68,4% su MATH e il 74,6% utilizzando il modello di ricompensa.

Il modello di codice Codestral Mamba è uno dei primi modelli open source ad adottare l'architettura Mamba 2.

È il migliore dei modelli di codice 7B disponibili, addestrato utilizzando una lunghezza del contesto di 256.000 token.

Entrambi i modelli sono rilasciati con la licenza Apache 2.0 e i pesi sono attualmente caricati nel magazzino di HuggingFace.

Indirizzo di Hugging Face: https://huggingface.co/mistralai

Matematica

È interessante notare che, secondo l'annuncio ufficiale, il rilascio di Mathstral è avvenuto per celebrare il 2311° anniversario della nascita di Archimede.

Mathstral è progettato per le materie STEM per risolvere problemi di matematica avanzati che richiedono un ragionamento complesso in più fasi. I parametri sono solo 7B e la finestra di contesto è 32k.

Inoltre, il reparto di ricerca e sviluppo di Mathstral ha anche un partner importante: Numina, che ha appena vinto il campionato nella prima competizione delle Olimpiadi di matematica AI di Kaggle la scorsa settimana.

Inoltre, alcuni utenti di Twitter hanno scoperto che Mathstral può rispondere correttamente alla domanda "Qual è più grande, 9.·11 o 9.9?" Questa domanda ha lasciato perplessi molti grandi modelli.

Numeri interi e decimali vengono confrontati separatamente e la catena di pensiero è chiara. Si può dire che sia un modello di eccellente lavoro di modello matematico.

Basandosi sulle capacità linguistiche di Mistral 7B, Mathstral si concentra ulteriormente sulle materie STEM. Secondo i risultati della suddivisione per argomenti di MMLU, matematica, fisica, biologia, chimica, statistica, informatica e altri campi sono i vantaggi assoluti di Mathstral.

Secondo il post sul blog ufficiale, Mathstral sembra sacrificare una certa velocità di inferenza in cambio delle prestazioni del modello, ma a giudicare dai risultati della valutazione, questo compromesso vale la pena.

In numerosi test di benchmark nei campi della matematica e del ragionamento, Mathstral ha sconfitto modelli piccoli e popolari come Llama 3 8B e Gemma2 9B, raggiungendo soprattutto il SOTA su domande di concorsi di matematica come AMC 2023 e AIME 2024.

Inoltre, il tempo di inferenza può essere ulteriormente aumentato per ottenere risultati migliori del modello.

Se si utilizza il voto a maggioranza per 64 candidati, il punteggio di Mathstral su MATH può raggiungere il 68,37%. Aggiungendo ulteriori modelli di ricompensa, può raggiungere un punteggio elevato del 74,59%.

Oltre alle piattaforme HuggingFace e la Plateforme, puoi anche richiamare i due SDK open source rilasciati ufficialmente di Mistral-finetune e Mistral Inference per utilizzare o mettere a punto il modello.

Mamba Codestrale

Dopo il rilascio della serie Mixtral, che segue l'architettura Transformer, è stato rilasciato anche Codestral Mamba, il primo modello di generazione di codice che utilizza l'architettura Mamba2.

Inoltre, il processo di ricerca e sviluppo è stato assistito anche dagli autori originali di Mamba, Albert Gu e Tri Dao.

È interessante notare che l'articolo dell'annuncio ufficiale citava specificamente la relativa "Cleopatra" Cleopatra VII, che pose drammaticamente fine alla sua vita con un serpente velenoso.

Dopo il rilascio dell'architettura Mamba, le sue prestazioni sperimentali superiori hanno ricevuto ampia attenzione e ottimismo. Tuttavia, poiché l'intera comunità dell'intelligenza artificiale ha investito troppi soldi in Transformer, raramente abbiamo visto modelli industriali che utilizzano effettivamente Mamba.

In questo momento, Codestral Mamba può fornirci una nuova prospettiva sullo studio di nuove architetture.

L'architettura Mamba è stata lanciata per la prima volta nel dicembre 2023 e i due autori hanno lanciato una versione aggiornata di Mamba-2 nel maggio di quest'anno.

A differenza del Transformer, il modello Mamba ha il vantaggio del ragionamento temporale lineare ed è teoricamente in grado di modellare sequenze di lunghezza infinita.

Entrambi sono modelli 7B Mentre la finestra di contesto di Mathstral è di soli 32k, Codestral Mamba può essere estesa a 256k.

Questo vantaggio in termini di efficienza nel tempo di inferenza e nella lunghezza del contesto, nonché il potenziale per risposte rapide, è particolarmente importante negli scenari pratici per migliorare l'efficienza della codifica.

Il team Mistral ha visto questo vantaggio del modello Mamba e ha preso l'iniziativa di provarlo. Dal test benchmark, il parametro 7B Codestral Mamba non solo presenta evidenti vantaggi rispetto ad altri modelli 7B, ma può anche competere con modelli su scala più grande.

In 8 test benchmark, Codestral Mamba ha sostanzialmente eguagliato Code Llama 34B e ha addirittura superato le prestazioni in 6 test.

Tuttavia, rispetto alla sorella maggiore Codestral 22B, si riflette lo svantaggio parametrico del Codestral Mamba, che sembra ancora carente in termini di capacità.

Vale la pena ricordare che Codestral 22B è un nuovo modello rilasciato meno di due mesi fa. Ancora una volta, mi lamento che Mistral, con sede a Parigi, sia così popolare.

Codestral Mamba può anche essere distribuito utilizzando Mistral-inference o l'API di distribuzione rapida TensorRL-LLM rilasciata da NVIDIA.

Indirizzo GitHub: https://github.com/NVIDIA/TensorRT-LLM

Per il funzionamento locale, il blog ufficiale afferma che è possibile prestare attenzione al successivo supporto di llama.cpp. Ma Ollama ha agito rapidamente e ha aggiunto Mathstral alla libreria dei modelli.

Di fronte all'insistenza dei netizen di aggiornare codestral mamba, Ollama ha anche detto con forza: "Ci stiamo già lavorando, per favore non siate impazienti."

Riferimenti:

https://mistral.ai/news/codestral-mamba/

https://mistral.ai/news/mathstral/

https://venturebeat.com/ai/mistral-releases-codestral-mamba-for-faster-longer-code- generation/

notizia

Il lavoro originale giunge al termine di persona! Il primo modello 7B Mamba open source di Mistral "Cleopatra" ha effetti sorprendenti

introduzione

le mie informazioni di contatto