notizia

L'unicorno Star AI Mistral AI rivela un nuovo re dei modelli di grandi dimensioni, con capacità di codifica e matematiche superiori

2024-07-17

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Zhidixi (account pubblico: zhidxcom)

Compilato |. Luo Tianjin

Editore |

Zhidongzhi News del 17 luglio, secondo VentureBeat di ieri, la startup francese di intelligenza artificiale Mistral AI ha recentemente lanciato due nuovi modelli di intelligenza artificiale. Uno è Codestral Mamba 7B, un modello di generazione di codice per programmatori e sviluppatori, e l'altro è progettato per la matematica Modello di intelligenza artificiale progettato per il ragionamento pertinente e la scoperta scientifica.

Codestral Mamba 7B offre un'inferenza più rapida e un contesto più lungo, offrendo tempi di risposta rapidi anche con testo di input lungo. Allo stesso tempo, il modello può gestire input fino a 256.000 token, il doppio di GPT-4o.

Mathstral 7B ha una finestra di contesto da 32K e utilizzerà la licenza open source Apache 2.0. Può ottenere risultati migliori rispetto ad altri modelli di ragionamento matematico su benchmark con più calcoli del tempo di inferenza. Il modello ha anche capacità di messa a punto.

1. I modelli di generazione del codice possono gestire contesti più lunghi

La startup francese di intelligenza artificiale Mistral AI, ben finanziata, nota per i suoi potenti modelli di intelligenza artificiale open source, ha lanciato oggi due nuove voci nella sua crescente famiglia di modelli linguistici di grandi dimensioni (LLM): un modello basato sulla matematica e uno per programmatori e un modello di generazione di codice per sviluppatori basati su Mamba, una nuova architettura sviluppata da altri ricercatori alla fine dell'anno scorso.

Mamba tenta di migliorare l'efficienza dell'architettura del trasformatore utilizzata dalla maggior parte dei principali LLM semplificando il suo meccanismo di attenzione. I modelli basati su Mamba differiscono dai modelli più comuni basati su Transformer in quanto possono avere velocità di inferenza più elevate e finestre di contesto più ampie. Altre aziende e sviluppatori, tra cui AI21, hanno rilasciato nuovi modelli di intelligenza artificiale basati su di esso.

Ora, con questa nuova architettura, Mistral AI le dà il nome appropriatoMamba Codestrale 7B , che fornisce tempi di risposta rapidi anche quando il testo di input è lungo. Codestral Mamba è adatto per casi d'uso di produttività del codice, in particolare per progetti di codifica più locali.

Mistral AI ha testato il modello, che sarà disponibile gratuitamente sull'API Plateforme di Mistral AI, elaborando input fino a 256.000 token, due volte più velocemente del GPT-4o di OpenAI.

Mistral AI mostra che Codestral Mamba offre prestazioni migliori rispetto ai modelli open source concorrenti CodeLlama 7B, CodeGemma-1.17B e DeepSeek su benchmark come HumanEval.

Gli sviluppatori possono modificare e distribuire Codestral Mamba dal suo repository GitHub e HuggingFace. Sarà disponibile con la licenza open source Apache 2.0.

Mistral AI afferma che le prime versioni di Codestral sono superiori ad altri generatori di codice come CodeLlama 70B e DeepSeek Coder 33B.

La generazione di codice e gli assistenti di codifica sono diventati applicazioni ampiamente utilizzate per i modelli di intelligenza artificiale, con piattaforme come Copilot di GitHub, CodeWhisperer di Amazon e Codenium basato su OpenAI che stanno diventando sempre più popolari.

2. Il modello di ragionamento matematico ha capacità eccellenti e ha anche capacità di messa a punto.

Il secondo modello lanciato da Mistral AI èMatematica 7B , un modello di intelligenza artificiale progettato per il ragionamento matematico e la scoperta scientifica. Mistral AI ha sviluppato Mathstral attraverso il progetto Numina.

Mathstral ha una finestra di contesto da 32K e utilizzerà la licenza open source Apache 2.0. Mistral AI afferma che il modello supera tutti i modelli progettati per il ragionamento matematico. Può ottenere "risultati significativamente migliori" sui benchmark con più calcoli del tempo di inferenza. Gli utenti possono utilizzarlo così com'è o perfezionare il modello.

Mistral AI ha affermato in un post sul blog: "Mathstral è un altro esempio di come ottenere prestazioni eccellenti quando si costruiscono modelli per uno scopo specifico: una filosofia di sviluppo che promuoviamo attivamente alla Plateforme, in particolare con la sua nuova funzione di messa a punto."

È possibile accedere a Mathstral tramite Mistral AI a la Plataforme e HuggingFace.

Mistral AI preferisce rendere disponibili i suoi modelli su sistemi open source e l'azienda è in competizione con altri sviluppatori di intelligenza artificiale come OpenAI e Anthropic.

La società ha recentemente raccolto 640 milioni di dollari in finanziamenti di serie B, per un valore di quasi 6 miliardi di dollari. L’azienda ha anche ricevuto investimenti da giganti della tecnologia come Microsoft e IBM.

Conclusione: la battaglia sulle prestazioni dei modelli di grandi dimensioni raggiunge nuove vette

Dal punto di vista del settore, i nuovi modelli di Mistral AI evidenziano la tendenza degli strumenti di intelligenza artificiale a diventare più professionali Fornendo modelli potenti e accessibili come Mistral 7B e Codestral Mamba 7B, Mistral AI sta diventando un attore importante nel campo dell’intelligenza artificiale lo sviluppo di applicazioni innovative e pratiche.

Questi modelli sottolineano inoltre l’importanza dell’intelligenza artificiale open source, incoraggiando la collaborazione e una maggiore trasparenza all’interno della comunità tecnologica. Fornendo potenti strumenti di intelligenza artificiale a un pubblico più ampio, faremo avanzare ulteriormente la rapida iterazione e lo sviluppo del campo dei grandi modelli di intelligenza artificiale.

Fonte: VentureBeat