Το Star AI unicorn Mistral AI παρουσιάζει το νέο του μοντέλο μεγάλου μοντέλου, με ανώτερη κωδικοποίηση και μαθηματικές ικανότητες

Το Star AI unicorn Mistral AI αποκαλύπτει έναν νέο βασιλιά μεγάλων μοντέλων, με ανώτερες κωδικοποιήσεις και μαθηματικές ικανότητες

2024-07-17

Zhidixi (δημόσιος λογαριασμός: zhidxcom)

Σύνταξη |. Luo Tianjin

Συντάκτης |

Το Zhidongzhi News στις 17 Ιουλίου, σύμφωνα με το VentureBeat χθες, η γαλλική startup τεχνητής νοημοσύνης Mistral κυκλοφόρησε πρόσφατα δύο νέα μοντέλα τεχνητής νοημοσύνης Το ένα είναι το Codestral Mamba 7B, ένα μοντέλο παραγωγής κώδικα για προγραμματιστές και το άλλο είναι σχεδιασμένο για τα μαθηματικά Μοντέλο AI σχεδιασμένο για σχετικούς συλλογισμούς και επιστημονικές ανακαλύψεις.

Το Codestral Mamba 7B διαθέτει ταχύτερη εξαγωγή συμπερασμάτων και μεγαλύτερο πλαίσιο, παρέχοντας γρήγορους χρόνους απόκρισης ακόμη και με μεγάλο κείμενο εισαγωγής. Ταυτόχρονα, το μοντέλο μπορεί να χειριστεί εισόδους έως και 256.000 tokens, διπλάσια από το GPT-4o.

Το Mathstral 7B έχει ένα παράθυρο περιβάλλοντος 32K και θα χρησιμοποιεί την άδεια χρήσης ανοιχτού κώδικα Apache 2.0. Μπορεί να επιτύχει καλύτερα αποτελέσματα από άλλα μοντέλα μαθηματικής συλλογιστικής σε σημεία αναφοράς με περισσότερους υπολογισμούς χρόνου.

1. Τα μοντέλα δημιουργίας κώδικα μπορούν να χειριστούν μεγαλύτερα περιβάλλοντα

Η καλά χρηματοδοτούμενη γαλλική startup τεχνητής νοημοσύνης Mistral AI, γνωστή για τα ισχυρά μοντέλα τεχνητής νοημοσύνης ανοιχτού κώδικα, παρουσίασε σήμερα δύο νέες καταχωρήσεις στην αυξανόμενη οικογένεια μεγάλων γλωσσικών μοντέλων (LLMs): ένα μοντέλο βασισμένο σε μαθηματικά και ένα για προγραμματιστές και ένα μοντέλο δημιουργίας κώδικα για προγραμματιστές που βασίζονται στο Mamba, μια νέα αρχιτεκτονική που αναπτύχθηκε από άλλους ερευνητές στα τέλη του περασμένου έτους.

Το Mamba προσπαθεί να βελτιώσει την απόδοση της αρχιτεκτονικής μετασχηματιστή που χρησιμοποιείται από τα περισσότερα κορυφαία LLM απλοποιώντας τον μηχανισμό προσοχής του. Τα μοντέλα που βασίζονται σε Mamba διαφέρουν από τα πιο κοινά μοντέλα που βασίζονται σε μετασχηματιστές στο ότι μπορεί να έχουν μεγαλύτερες ταχύτητες συμπερασμάτων και μεγαλύτερα παράθυρα περιβάλλοντος. Άλλες εταιρείες και προγραμματιστές, συμπεριλαμβανομένου του AI21, κυκλοφόρησαν νέα μοντέλα AI που βασίζονται σε αυτό.

Τώρα, με αυτή τη νέα αρχιτεκτονική, το Mistral AI την ονομάζει εύστοχαCodestral Mamba 7B , το οποίο παρέχει γρήγορους χρόνους απόκρισης ακόμη και όταν το κείμενο εισαγωγής είναι μεγάλο. Το Codestral Mamba είναι κατάλληλο για περιπτώσεις χρήσης παραγωγικότητας κώδικα, ειδικά για περισσότερα τοπικά έργα κωδικοποίησης.

Το Mistral AI δοκίμασε το μοντέλο, το οποίο θα είναι διαθέσιμο δωρεάν στο Plateforme API του Mistral AI, επεξεργάζοντας εισόδους έως και 256.000 tokens, δύο φορές ταχύτερα από το GPT-4o του OpenAI.

Το Mistral AI δείχνει ότι το Codestral Mamba αποδίδει καλύτερα από τα ανταγωνιστικά μοντέλα ανοιχτού κώδικα CodeLlama 7B, CodeGemma-1.17B και DeepSeek σε σημεία αναφοράς όπως το HumanEval.

Οι προγραμματιστές μπορούν να τροποποιήσουν και να αναπτύξουν το Codestral Mamba από το αποθετήριο GitHub και το HuggingFace. Θα είναι διαθέσιμο με την άδεια ανοιχτού κώδικα Apache 2.0.

Η Mistral AI ισχυρίζεται ότι οι πρώιμες εκδόσεις του Codestral είναι ανώτερες από άλλες παραγωγές κώδικα όπως το CodeLlama 70B και το DeepSeek Coder 33B.

Η παραγωγή κώδικα και οι βοηθοί κωδικοποίησης έχουν γίνει ευρέως χρησιμοποιούμενες εφαρμογές για μοντέλα τεχνητής νοημοσύνης, με πλατφόρμες όπως το Copilot του GitHub, το CodeWhisperer της Amazon και το Codenium που υποστηρίζονται από το OpenAI να αυξάνονται σε δημοτικότητα.

2. Το μοντέλο μαθηματικού συλλογισμού έχει εξαιρετικές δυνατότητες και έχει επίσης δυνατότητες μικρορύθμισης.

Το δεύτερο μοντέλο που λανσαρίστηκε από τη Mistral AI είναιMathstral 7B , ένα μοντέλο τεχνητής νοημοσύνης σχεδιασμένο για συλλογισμό που σχετίζεται με τα μαθηματικά και επιστημονικές ανακαλύψεις. Η Mistral AI ανέπτυξε το Mathstral μέσω του Project Numina.

Το Mathstral έχει ένα παράθυρο περιβάλλοντος 32K και θα χρησιμοποιεί την άδεια ανοιχτού κώδικα Apache 2.0. Η Mistral AI λέει ότι το μοντέλο ξεπερνά όλα τα μοντέλα που έχουν σχεδιαστεί για μαθηματική λογική. Μπορεί να επιτύχει "σημαντικά καλύτερα αποτελέσματα" σε σημεία αναφοράς με περισσότερους υπολογισμούς χρόνου συμπερασμάτων. Οι χρήστες μπορούν να το χρησιμοποιήσουν ως έχει ή να ρυθμίσουν με ακρίβεια το μοντέλο.

Το Mistral AI είπε σε μια ανάρτηση στο blog: «Το Mathstral είναι ένα άλλο παράδειγμα επίτευξης εξαιρετικής απόδοσης κατά την κατασκευή μοντέλων για συγκεκριμένο σκοπό - μια φιλοσοφία ανάπτυξης που προωθούμε ενεργά το a la Plateforme, ειδικά με τη νέα λειτουργία Fine-tuning».

Η πρόσβαση στο Mathstral είναι δυνατή μέσω του Mistral AI a la Plataforme και του HuggingFace.

Η Mistral AI προτιμά να κάνει τα μοντέλα της διαθέσιμα σε συστήματα ανοιχτού κώδικα και η εταιρεία ανταγωνίζεται άλλους προγραμματιστές τεχνητής νοημοσύνης όπως το OpenAI και το Anthropic.

Η εταιρεία συγκέντρωσε πρόσφατα 640 εκατομμύρια δολάρια σε χρηματοδότηση της Σειράς Β, εκτιμώντας την σε σχεδόν 6 δισεκατομμύρια δολάρια. Η εταιρεία έχει επίσης λάβει επενδύσεις από τεχνολογικούς κολοσσούς όπως η Microsoft και η IBM.

Συμπέρασμα: Η μάχη επιδόσεων των μεγάλων μοντέλων φτάνει σε νέα ύψη

Από τη σκοπιά του κλάδου, τα νέα μοντέλα της Mistral AI υπογραμμίζουν την τάση των εργαλείων τεχνητής νοημοσύνης να γίνονται πιο επαγγελματικά Παρέχοντας ισχυρά και προσβάσιμα μοντέλα όπως το Mistral 7B και το Codestral Mamba 7B, το Mistral AI γίνεται ένας σημαντικός παίκτης στον τομέα της τεχνητής νοημοσύνης την ανάπτυξη καινοτόμων και πρακτικών εφαρμογών.

Αυτά τα μοντέλα τονίζουν επίσης τη σημασία της τεχνητής νοημοσύνης ανοιχτού κώδικα, ενθαρρύνοντας τη συνεργασία και τη μεγαλύτερη διαφάνεια στην τεχνολογική κοινότητα. Παρέχοντας ισχυρά εργαλεία τεχνητής νοημοσύνης σε ένα ευρύτερο κοινό, θα προωθήσουμε περαιτέρω την ταχεία επανάληψη και ανάπτυξη του μεγάλου πεδίου μοντέλων της τεχνητής νοημοσύνης.

Πηγή: VentureBeat

Νέα

Το Star AI unicorn Mistral AI αποκαλύπτει έναν νέο βασιλιά μεγάλων μοντέλων, με ανώτερες κωδικοποιήσεις και μαθηματικές ικανότητες

1. Τα μοντέλα δημιουργίας κώδικα μπορούν να χειριστούν μεγαλύτερα περιβάλλοντα

2. Το μοντέλο μαθηματικού συλλογισμού έχει εξαιρετικές δυνατότητες και έχει επίσης δυνατότητες μικρορύθμισης.

Συμπέρασμα: Η μάχη επιδόσεων των μεγάλων μοντέλων φτάνει σε νέα ύψη

Εισαγωγή

τα στοιχεία επικοινωνίας μου