Νέα

Το Mamba ξεπερνάει πραγματικά το Transformer στη συγγραφή κώδικα!Επιλέχθηκε πρωτότυπη εργασία για κορυφαίο νέο συνέδριο

2024-07-17

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Ο δυτικός άνεμος προέρχεται από τον ναό Aofei
Qubits | Δημόσιος λογαριασμός QbitAI

Το «European OpenAI» και το «Transformer Challenger» ένωσαν τις δυνάμεις τους!

Το Mistral AI μόλις κυκλοφόρησε το πρώτο τουMamba2Μοντέλο ανοιχτού κώδικα για την αρχιτεκτονική -Codestral Mamba(7B), που ειδικεύεται στη δημιουργία κώδικα.



Σε αντίθεση με την αρχιτεκτονική του μετασχηματιστή, η αρχιτεκτονική Mamba μπορεί να εκτελέσει "γραμμικό συλλογισμό χρόνου" και μπορεί θεωρητικά να υποστηρίξει είσοδο απεριόριστου μήκους.

Mistral AI: Αυτός είναι ο λόγος για τον οποίο χρησιμοποιούμε το μοντέλο συλλογιστικής κώδικα που ξεκίνησε από την αρχιτεκτονική Mamba για να αντισταθούμε στην επίθεση.



Η Mistral AI λέει ότι έχει τα περισσότερα256k διακριτικό πλαίσιοΤο Codestral Mamba δοκιμάστηκε στο .

Στη δοκιμή αναφοράς, η συνολική απόδοση του Codestral Mamba ξεπέρασε τα CodeGemma-1.1 7B, CodeLlama 7B, DeepSeek v1.5 7B και CodeLlama 34B.

Μερικοί χρήστες του Διαδικτύου είπαν ότι αυτό το κύμα είναι ο ρυθμός με τον οποίο η Mistral AI θα προωθήσει την αρχιτεκτονική Mamba.

Ένας από τους συγγραφείς της αρχιτεκτονικής Mamba, επίκουρος καθηγητής στο CMUΆλμπερτ Γκουεξπρές:

Διαφορετικοί τρόποι ή μορφές δεδομένων με πιο αδύναμες "tokenizations" (π.χ. κώδικας, μοντελοποίηση σε επίπεδο byte) θα επωφελούνται όλο και περισσότερο από τα συμπιεσμένα μοντέλα όπως το SSM.



Εκτός από το Codestral Mamba, το Mistral AI κυκλοφόρησε επίσης ένα νέομαθηματικό μοντέλο——Mathstral(7Β).

Αυτό που είναι ενδιαφέρον είναι ότι οι χρήστες του Διαδικτύου το έχουν κάνει έτσι ώστε τα μεγάλα μοντέλα έχουν συχνά ανατραπεί τις τελευταίες ημέρες.Ποιο είναι μεγαλύτερο, 9.11 ή 9.9;Ερώτηση, το Mathstral πρώτα συνέκρινε τους ακέραιους αριθμούς, μετά συνέκρινε τα δεκαδικά μέρη και τελικά κατάφερε να το κάνει σωστά.





Η απόδοση 7B είναι κοντά στο 22BTransformer

Τα πλήρη αποτελέσματα αναφοράς Codestral Mamba έχουν ως εξής:



Σε όλα τα σημεία αναφοράς όπως το HumanEval C++/Java/JavaScript/Bash, το Codestral Mamba ξεπερνά συνολικά τα CodeGemma-1.1 7B, CodeLlama 7B και ξεπερνά το μεγαλύτερο CodeLlama 34B.

Το προηγούμενο ισχυρότερο μοντέλο προγραμματισμού ανοιχτού κώδικα της Mistral AICodestral 22BΔεν υπάρχει μεγάλο χάσμα μεταξύ αυτού και του Codestral Mamba.

Επιπλέον, το DeepSeek v1.5 7B ξεχωρίζει επίσης στο σημείο αναφοράς και πηγαίνει πέρα ​​δώθε με το Codestral Mamba.

Το DeepSeek v1.5 7B είναι καλύτερο από το Codestral Mamba όσον αφορά το Spider (σύνθετη σημασιολογική ανάλυση μεταξύ τομέων και εργασίες μετατροπής κειμένου σε SQL), HumanEval Java, HumanEval Bash, MBPP κ.λπ.

Εκτός από τα αποτελέσματα αναφοράς, το πιο ενδιαφέρον πράγμα για το Codestral Mamba είναι ότι είναι η πρώτη παρτίδα μοντέλων αρχιτεκτονικής Mamba2.

Αρχιτεκτονική Mamba από τον συγγραφέα FlashAttentionΤρι Ντάοκαι επίκουρος καθηγητής CMU, συνιδρυτής και επικεφαλής επιστήμονας της Cartesia AIΆλμπερτ Γκουπροτάθηκε στα τέλη του περασμένου έτους.



Προηγουμένως, μεγάλα μοντέλα αρχιτεκτονικής Transformer όπως το ChatGPT είχαν ένα σημαντικό σημείο πόνου: η επεξεργασία μεγάλου κειμένου κατανάλωνε τεράστια ποσά υπολογιστικής ισχύος. Ο λόγος πίσω από αυτό είναι επίσης η τετραγωνική πολυπλοκότητα του μηχανισμού προσοχής στην αρχιτεκτονική του Transformer.

Το Mamba είναι το πρώτο που ταιριάζει πραγματικά με την απόδοση του Transformerμοντέλο γραμμικής χρονοσειράς, είναι επίσης ένα μοντέλο χώρου κατάστασης (SSM, State Space Model).

Το Mamba είναι χτισμένο στο πιο σύγχρονο δομημένο SSM (S4, Structured SSM) κατάλληλο για βαθιά μάθηση και έχει ομοιότητες με την κλασική αρχιτεκτονική RNN.

Υπάρχουν τρεις κύριες καινοτομίες: επιλεκτική επεξεργασία πληροφοριών εισόδου, αλγόριθμοι με επίγνωση υλικού και απλούστερη αρχιτεκτονική.

Η αρχιτεκτονική Mamba τράβηξε ευρεία προσοχή στη βιομηχανία μόλις εμφανίστηκε. Ο ιδρυτής του Stability AI και επιστήμονας της NVIDIA Jim Fan και άλλοι είναι ενθουσιασμένοι με την εμφάνισή του.





Η αρχική εργασία του Mamba απορρίφθηκε από την ICLR στις αρχές του έτους, γεγονός που προκάλεσε έντονη συζήτηση στον κύκλο.

Ωστόσο, πρόσφατα έγινε αποδεκτό από το CoLM2024, το κορυφαίο συνέδριο της νέας γενιάς.



Το Mamba2 είναι η δεύτερη γενιά του, με τον χώρο της κατάστασης να επεκτείνεται κατά 8 φορές και την ταχύτητα προπόνησης αυξημένη κατά 50%.

Στην εργασία Mamba2, ανακαλύφθηκε ότι ο μηχανισμός προσοχής στο Transformer έχει πολύ στενή μαθηματική σύνδεση με το SSM και το χαρτί επιλέχθηκε με επιτυχία για το ICML 2024.



Κυκλοφόρησε επίσης ένα μαθηματικό μοντέλο

Εκτός από το Codestral Mamba, το Mistral AI ξεκίνησε επίσης ένα μαθηματικό μοντέλο ανοιχτού κώδικα——Mathstral(7Β), ως ανάμνηση της 2311ης επετείου από τη γέννηση του Αρχιμήδη.

Το Mathstral βασίζεται στο Mistral 7B, εστιάζοντας στο STEM (Science, Technology, Engineering, Mathematics), με παράθυρο περιβάλλοντος 32k.

Στη δοκιμή αναφοράς, το Mathstral MATH σημείωσε 56,6% και το MMLU έφτασε στο 63,47%.

Το θέμα είναι ότι το Mathstral μπορεί επίσης να επιτύχει καλύτερα αποτελέσματα με περισσότερους υπολογισμούς χρόνου συμπερασμάτων:

Όταν χρησιμοποιούσε τον μηχανισμό της πλειοψηφίας, το Mathstral 7B σημείωσε 68,37% στο τεστ MATH και κατά την εφαρμογή ενός ισχυρού μοντέλου ανταμοιβής μεταξύ 64 υποψηφίων μοντέλων, η βαθμολογία βελτιώθηκε στο 74,59%.



Ακολουθεί η διαφορά απόδοσης μεταξύ του Mathstral 7B και του Mistral 7B σε διάφορα θέματα MMLU:



Σύνδεσμοι αναφοράς:
[1]https://mistral.ai/news/codestral-mamba/
[2]https://mistral.ai/news/mathstral/
[3]https://x.com/MistralAI/status/1813222156265791531
[4]https://x.com/GuillaumeLample/status/1813231491154899012
[5]https://x.com/theo_gervet/status/1813226968600469824
[6]https://x.com/tuturetom/status/1813238885453033540
[7]https://x.com/WenhuChen/status/1812562112524226569