Νέα

Το πρωτότυπο έργο τελειώνει αυτοπροσώπως! Το πρώτο μοντέλο ανοιχτού κώδικα 7B Mamba της Mistral "Cleopatra" έχει εκπληκτικά εφέ

2024-07-17

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


Νέα Έκθεση Σοφίας

Επιμέλεια: Τμήμα Σύνταξης

[Εισαγωγή στη Νέα Σοφία] Πρόσφατα, τα μικρά μοντέλα 7Β έχουν γίνει μια τάση που οι γίγαντες της τεχνητής νοημοσύνης αγωνίζονται να φτάσουν. Μετά το Gemma2 7B της Google, η Mistral κυκλοφόρησε σήμερα δύο ακόμη μοντέλα 7Β, δηλαδή το Mathstral για θέματα STEM και το Codestral Mamba, ένα μοντέλο κώδικα που χρησιμοποιεί την αρχιτεκτονική Mamaba.

Το Mistral έχει άλλη μια έκπληξη!

Μόλις σήμερα, η Mistral κυκλοφόρησε δύο μικρά μοντέλα: Mathstral 7B και Codestral Mamba 7B.

Το πρώτο είναι το Mathstral 7B, σχεδιασμένο για μαθηματική λογική και επιστημονική ανακάλυψη.

Στη δοκιμή αναφοράς MATH, πέτυχε βαθμολογία 56,6% pass@1, που είναι περισσότερο από 20% υψηλότερη από τη Minerva 540B. Ο Mathstral σημείωσε 68,4% στα ΜΑΘ και 74,6% χρησιμοποιώντας το μοντέλο ανταμοιβής.

Το μοντέλο κώδικα Codestral Mamba είναι ένα από τα πρώτα μοντέλα ανοιχτού κώδικα που υιοθετούν την αρχιτεκτονική Mamba 2.

Είναι το καλύτερο από τα διαθέσιμα μοντέλα κωδικών 7Β, εκπαιδευμένο με μήκος περιβάλλοντος 256 χιλιάδων κουπονιών.


Και τα δύο μοντέλα κυκλοφορούν με την άδεια Apache 2.0 και τα βάρη μεταφορτώνονται αυτήν τη στιγμή στην αποθήκη HuggingFace.


Διεύθυνση Hugging Face: https://huggingface.co/mistralai

Mathstral

Είναι ενδιαφέρον ότι, σύμφωνα με την επίσημη ανακοίνωση, η κυκλοφορία του Mathstral συνέβη για τον εορτασμό της 2311ης επετείου από τη γέννηση του Αρχιμήδη.

Το Mathstral έχει σχεδιαστεί για θέματα STEM για την επίλυση προχωρημένων μαθηματικών προβλημάτων που απαιτούν πολύπλοκο συλλογισμό πολλών βημάτων. Οι παράμετροι είναι μόνο 7B και το παράθυρο περιβάλλοντος είναι 32k.

Επιπλέον, η έρευνα και η ανάπτυξη της Mathstral έχει επίσης έναν συνεργάτη βαρέων βαρών, τη Numina, η οποία μόλις κέρδισε το πρωτάθλημα στον πρώτο διαγωνισμό Μαθηματικής Ολυμπιάδας AI του Kaggle την περασμένη εβδομάδα.


Επιπλέον, ορισμένοι χρήστες του Twitter ανακάλυψαν ότι το Mathstral μπορεί να απαντήσει σωστά στην ερώτηση "Ποιο είναι μεγαλύτερο, 9,11 ή 9,9;"

Οι ακέραιοι και οι δεκαδικοί συγκρίνονται χωριστά και η αλυσίδα σκέψης είναι ξεκάθαρη.


Με βάση τις γλωσσικές δυνατότητες του Mistral 7B, το Mathstral εστιάζει περαιτέρω σε θέματα STEM. Σύμφωνα με τα αποτελέσματα κατανομής του θέματος του MMLU, τα μαθηματικά, η φυσική, η βιολογία, η χημεία, η στατιστική, η επιστήμη των υπολογιστών και άλλοι τομείς είναι τα απόλυτα πλεονεκτήματα του Mathstral.


Σύμφωνα με την επίσημη ανάρτηση ιστολογίου, το Mathstral φαίνεται να θυσιάζει κάποια ταχύτητα συμπερασμάτων σε αντάλλαγμα για την απόδοση του μοντέλου, αλλά αν κρίνουμε από τα αποτελέσματα της αξιολόγησης, αυτή η ανταλλαγή αξίζει τον κόπο.

Σε πολλαπλά τεστ αναφοράς στους τομείς των μαθηματικών και του συλλογισμού, ο Mathstral νίκησε δημοφιλή μικρά μοντέλα όπως το Llama 3 8B και το Gemma2 9B, ειδικά φτάνοντας στο SOTA σε ερωτήσεις μαθηματικών διαγωνισμών όπως το AMC 2023 και το AIME 2024.


Επιπλέον, ο χρόνος συμπερασμάτων μπορεί να αυξηθεί περαιτέρω για να επιτευχθούν καλύτερα αποτελέσματα του μοντέλου.

Εάν η πλειοψηφία χρησιμοποιείται για 64 υποψηφίους, η βαθμολογία του Mathstral στα ΜΑΘ μπορεί να φτάσει το 68,37%.

Εκτός από τις πλατφόρμες HuggingFace και la Plateforme, μπορείτε επίσης να καλέσετε τα επίσημα κυκλοφορημένα δύο SDK ανοιχτού κώδικα των Mistral-finetune και Mistral Inference για να χρησιμοποιήσετε ή να βελτιστοποιήσετε το μοντέλο.

Codestral Mamba

Μετά την κυκλοφορία της σειράς Mixtral, η οποία ακολουθεί την αρχιτεκτονική του Transformer, κυκλοφόρησε επίσης το Codestral Mamba, το πρώτο μοντέλο παραγωγής κώδικα που χρησιμοποιεί την αρχιτεκτονική Mamba2.

Επιπλέον, η διαδικασία έρευνας και ανάπτυξης υποβοηθήθηκε επίσης από τους αρχικούς συγγραφείς του Mamba, Albert Gu και Tri Dao.

Είναι ενδιαφέρον ότι το άρθρο της επίσημης ανακοίνωσης ανέφερε συγκεκριμένα τη σχετική «Κλεοπάτρα» Κλεοπάτρα VII, η οποία έβαλε δραματικά τέλος στη ζωή της με ένα δηλητηριώδες φίδι.

Μετά την κυκλοφορία της αρχιτεκτονικής Mamba, η ανώτερη πειραματική της απόδοση έχει λάβει ευρεία προσοχή και αισιοδοξία, ωστόσο, επειδή ολόκληρη η κοινότητα AI έχει επενδύσει πάρα πολλά χρήματα στο Transformer, σπάνια έχουμε δει βιομηχανικά μοντέλα που χρησιμοποιούν πραγματικά το Mamba.

Αυτή τη στιγμή, το Codestral Mamba μπορεί να μας προσφέρει μια νέα προοπτική για τη μελέτη νέων αρχιτεκτονικών.

Η αρχιτεκτονική Mamba κυκλοφόρησε για πρώτη φορά τον Δεκέμβριο του 2023 και οι δύο συγγραφείς κυκλοφόρησαν μια ενημερωμένη έκδοση του Mamba-2 τον Μάιο του τρέχοντος έτους.

Σε αντίθεση με το Transformer, το μοντέλο Mamba έχει το πλεονέκτημα της γραμμικής χρονικής συλλογιστικής και είναι θεωρητικά ικανό να μοντελοποιεί ακολουθίες απεριόριστου μήκους.

Και τα δύο είναι μοντέλα 7B Ενώ το παράθυρο περιβάλλοντος του Mathstral είναι μόνο 32k, το Codestral Mamba μπορεί να επεκταθεί σε 256k.

Αυτό το πλεονέκτημα απόδοσης σε χρόνο συμπερασμάτων και μήκος περιβάλλοντος, καθώς και η δυνατότητα για γρήγορες αποκρίσεις, είναι ιδιαίτερα σημαντικό σε πρακτικά σενάρια για τη βελτίωση της αποτελεσματικότητας της κωδικοποίησης.

Η ομάδα Mistral είδε αυτό το πλεονέκτημα του μοντέλου Mamba και πρωτοστάτησε στη δοκιμή του. Από τη δοκιμή αναφοράς, η παράμετρος 7Β Codestral Mamba όχι μόνο έχει προφανή πλεονεκτήματα σε σχέση με άλλα μοντέλα 7Β, αλλά μπορεί ακόμη και να ανταγωνιστεί μοντέλα μεγαλύτερης κλίμακας.


Σε 8 δοκιμές αναφοράς, το Codestral Mamba ταίριαξε βασικά με τον Code Llama 34B και ξεπέρασε ακόμη και την απόδοση σε 6 από τις δοκιμές.

Ωστόσο, σε σύγκριση με τη μεγάλη αδερφή του Codestral 22B, το μειονέκτημα παραμέτρων του Codestral Mamba αντικατοπτρίζεται και εξακολουθεί να φαίνεται να στερείται δυνατοτήτων.

Αξίζει να αναφέρουμε ότι το Codestral 22B είναι ένα νέο μοντέλο που κυκλοφόρησε πριν από λιγότερο από δύο μήνες.

Το Codestral Mamba μπορεί επίσης να αναπτυχθεί χρησιμοποιώντας το Mistral-Inference ή το API ταχείας ανάπτυξης TensorRL-LLM που κυκλοφόρησε από την NVIDIA.


Διεύθυνση GitHub: https://github.com/NVIDIA/TensorRT-LLM

Για τοπική λειτουργία, το επίσημο ιστολόγιο ανέφερε ότι μπορείτε να δώσετε προσοχή στην επακόλουθη υποστήριξη του llama.cpp. Αλλά ο Olama ενήργησε γρήγορα και πρόσθεσε τον Mathstral στη βιβλιοθήκη μοντέλων.


Αντιμέτωπος με την παρότρυνση των χρηστών του Διαδικτύου να ενημερώσει το codestral mamba, ο ollama είπε επίσης πολύ έντονα: «Εργαζόμαστε ήδη πάνω σε αυτό, μην είστε ανυπόμονοι».


Βιβλιογραφικές αναφορές:

https://mistral.ai/news/codestral-mamba/

https://mistral.ai/news/mathstral/

https://venturebeat.com/ai/mistral-releases-codestral-mamba-for-faster-longer-code-generation/