Τα στοιχεία επικοινωνίας μου
Ταχυδρομείο[email protected]
2024-08-13
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
Αναφορά Μηχανικής Καρδιάς
Επιμέλεια: Du Wei, Chen Chen
Το μεγάλο μοντέλο αρχιτεκτονικής Mamba προκάλεσε για άλλη μια φορά το Transformer.
Θα «σηκωθεί» επιτέλους αυτή τη φορά το αρχιτεκτονικό μοντέλο Mamba; Από την αρχική του κυκλοφορία τον Δεκέμβριο του 2023, το Mamba έχει γίνει ισχυρός ανταγωνιστής του Transformer.
Έκτοτε, μοντέλα που χρησιμοποιούν την αρχιτεκτονική Mamba συνέχισαν να εμφανίζονται, όπως το Codestral 7B, το πρώτο μεγάλο μοντέλο ανοιχτού κώδικα που βασίζεται στην αρχιτεκτονική Mamba που κυκλοφόρησε από τη Mistral.
Σήμερα, το Ινστιτούτο Τεχνολογικής Καινοτομίας του Άμπου Ντάμπι (TII) κυκλοφόρησε έναΝέο μοντέλο ανοιχτού κώδικα Mamba – Falcon Mamba 7B。
Ας συνοψίσουμε πρώτα τα κυριότερα σημεία του Falcon Mamba 7B: μπορεί να χειριστεί ακολουθίες οποιουδήποτε μήκους χωρίς να αυξάνει την αποθήκευση μνήμης και μπορεί να τρέξει σε μία μόνο GPU 24 GB A10.
Προς το παρόν διαθέσιμο για προβολή και χρήση στο Hugging Face, το Falcon Mamba 7B είναι ένα μοντέλο μόνο με αιτιώδη αποκωδικοποιητή που χρησιμοποιεί ένα μυθιστόρημαΑρχιτεκτονική Mamba State Space Language Model (SSLM).για να χειριστεί διάφορες εργασίες δημιουργίας κειμένου.
Κρίνοντας από τα αποτελέσματα, το Falcon Mamba 7B ξεπέρασε τα κορυφαία μοντέλα στην κατηγορία μεγέθους του σε ορισμένα σημεία αναφοράς, όπως τα Llama 3 8B της Meta, Llama 3.1 8B και Mistral 7B.
Το Falcon Mamba 7B χωρίζεται σε τέσσερα μοντέλα παραλλαγών, δηλαδή τη βασική έκδοση, την έκδοση με ακρίβεια εντολών, την έκδοση 4 bit και την έκδοση 4 bit με λεπτομέρεια.
Ως μοντέλο ανοιχτού κώδικα, το Falcon Mamba 7B υιοθετεί την άδεια χρήσης "Falcon License 2.0" που βασίζεται σε Apache 2.0 για να υποστηρίζει σκοπούς έρευνας και εφαρμογής.
Διεύθυνση Hugging Face: https://huggingface.co/tiiuae/falcon-mamba-7b
Το Falcon Mamba 7B έχει γίνει επίσης το τέταρτο μοντέλο ανοιχτού κώδικα από την TII μετά τα Falcon 180B, Falcon 40B και Falcon 2, και είναι τοΤο πρώτο μοντέλο αρχιτεκτονικής Mamba SSLM。
Το πρώτο καθολικό, μεγάλης κλίμακας καθαρό μοντέλο Mamba
Τα μοντέλα που βασίζονται σε μετασχηματιστές κυριαρχούν εδώ και πολύ καιρό στη γενετική τεχνητή νοημοσύνη, ωστόσο, οι ερευνητές έχουν παρατηρήσει ότι οι αρχιτεκτονικές μετασχηματιστών ενδέχεται να αντιμετωπίσουν δυσκολίες κατά την επεξεργασία πληροφοριών μεγαλύτερου κειμένου.
Ουσιαστικά, ο μηχανισμός προσοχής στο Transformer κατανοεί το πλαίσιο συγκρίνοντας κάθε λέξη (ή διακριτικό) με κάθε λέξη στο κείμενο, κάτι που απαιτεί περισσότερη υπολογιστική ισχύ και απαιτήσεις μνήμης για να χειριστεί το αναπτυσσόμενο παράθυρο περιβάλλοντος.
Αλλά εάν οι υπολογιστικοί πόροι δεν κλιμακωθούν ανάλογα, η εξαγωγή συμπερασμάτων μοντέλου θα επιβραδυνθεί και το κείμενο που υπερβαίνει ένα ορισμένο μήκος δεν μπορεί να επεξεργαστεί. Για να ξεπεραστούν αυτά τα εμπόδια, η αρχιτεκτονική State Space Language Model (SSLM), η οποία λειτουργεί με συνεχή ενημέρωση της κατάστασης κατά την επεξεργασία λέξεων, έχει αναδειχθεί ως μια πολλά υποσχόμενη εναλλακτική λύση και αναπτύσσεται από πολλά ιδρύματα, συμπεριλαμβανομένης της TII αυτού του είδους αρχιτεκτονικής.
Το Falcon Mamba 7B χρησιμοποιεί την αρχιτεκτονική Mamba SSM που προτάθηκε αρχικά σε μια εργασία του Δεκεμβρίου 2023 από ερευνητές στο Πανεπιστήμιο Carnegie Mellon και στο Πανεπιστήμιο Princeton.
Η αρχιτεκτονική χρησιμοποιεί έναν μηχανισμό επιλογής που επιτρέπει στο μοντέλο να προσαρμόζει δυναμικά τις παραμέτρους του με βάση την είσοδο. Με αυτόν τον τρόπο, το μοντέλο μπορεί να εστιάσει ή να αγνοήσει συγκεκριμένες εισόδους, παρόμοια με το πώς λειτουργεί ο μηχανισμός προσοχής στο Transformer, ενώ παρέχει τη δυνατότητα επεξεργασίας μεγάλων ακολουθιών κειμένου (όπως ολόκληρα βιβλία) χωρίς να απαιτείται πρόσθετη μνήμη ή υπολογιστικούς πόρους.
Η TII σημείωσε ότι η προσέγγιση καθιστά το μοντέλο κατάλληλο για εργασίες όπως η αυτόματη μετάφραση σε εταιρικό επίπεδο, η σύνοψη κειμένου, η όραση υπολογιστή και οι εργασίες επεξεργασίας ήχου και η εκτίμηση και η πρόβλεψη.
δεδομένα εκπαίδευσης
Falcon Mamba 7BΔεδομένα προπόνησης έως 5500GT, αποτελείται κυρίως από το σύνολο δεδομένων RefinedWeb, επαυξημένο με τεχνικά δεδομένα υψηλής ποιότητας, δεδομένα κώδικα και μαθηματικά δεδομένα από δημόσιες πηγές. Όλα τα δεδομένα κωδικοποιούνται μέσω του Tokenizer Falcon-7B/11B.
Παρόμοια με άλλα μοντέλα της σειράς Falcon, το Falcon Mamba 7B χρησιμοποιεί μια στρατηγική εκπαίδευσης πολλαπλών σταδίων για προπόνηση.Το μήκος του περιβάλλοντος αυξήθηκε από το 2048 σε 8192. Επιπλέον, εμπνευσμένο από την έννοια της μάθησης μαθημάτων, το TII επιλέγει προσεκτικά μικτά δεδομένα σε όλη τη φάση της εκπαίδευσης, λαμβάνοντας πλήρως υπόψη την ποικιλομορφία και την πολυπλοκότητα των δεδομένων.
Στην τελική φάση εκπαίδευσης, το TII χρησιμοποιεί ένα μικρό σύνολο επιμελημένων δεδομένων υψηλής ποιότητας (δηλαδή, δείγματα από το Fineweb-edu) για να βελτιώσει περαιτέρω την απόδοση.
Εκπαιδευτική διαδικασία, υπερπαράμετροι
Το μεγαλύτερο μέρος της εκπαίδευσης για το Falcon Mamba 7B είναιΈγινε σε 256 H100 80 GB GPU, υιοθετείται μια στρατηγική που συνδυάζει τρισδιάστατο παραλληλισμό (TP=1, PP=1, DP=256) και ZeRO. Το παρακάτω σχήμα δείχνει τις λεπτομέρειες των υπερπαραμέτρων του μοντέλου, συμπεριλαμβανομένης της ακρίβειας, του βελτιστοποιητή, του μέγιστου ρυθμού εκμάθησης, της μείωσης βάρους και του μεγέθους παρτίδας.
Συγκεκριμένα, το Falcon Mamba 7B εκπαιδεύτηκε με τον βελτιστοποιητή AdamW, πρόγραμμα ρυθμού εκμάθησης WSD (warm-stabilize-decay) και το μέγεθος παρτίδας αυξήθηκε από b_min=128 σε b_max=2048 κατά τη διάρκεια των πρώτων 50 GT εκπαίδευσης.
Στη σταθερή φάση, το TII χρησιμοποιεί έναν μέγιστο ρυθμό εκμάθησης η_max=6,4×10^−4, και στη συνέχεια τον μειώνει στο ελάχιστο χρησιμοποιώντας ένα εκθετικό χρονοδιάγραμμα άνω των 500GT. Ταυτόχρονα, το TII χρησιμοποιεί το BatchScaling στη φάση της επιτάχυνσης για να προσαρμόσει εκ νέου τον ρυθμό εκμάθησης και έτσι ώστε η θερμοκρασία θορύβου Adam να παραμένει σταθερή.
Ολόκληρη η εκπαίδευση του μοντέλου κράτησε περίπου δύο μήνες。
Αξιολόγηση μοντέλου
Για να κατανοήσουμε πώς το Falcon Mamba 7B συγκρίνεται με κορυφαία μοντέλα Transformer στην κατηγορία μεγέθους του, η μελέτη διεξήγαγε μια δοκιμή για τον προσδιορισμό του μέγιστου μήκους περιβάλλοντος που θα μπορούσε να χειριστεί το μοντέλο χρησιμοποιώντας μια ενιαία GPU 24 GB A10.
Τα αποτελέσματα δείχνουν ότι το Falcon Mamba είναι σε θέση να προσαρμοστεί σε μεγαλύτερες ακολουθίες από τα τρέχοντα μοντέλα Transformer, ενώ επίσηςΘεωρητικά ικανό να φιλοξενήσει απεριόριστα μήκη περιβάλλοντος。
Στη συνέχεια, μετρήσαμε την απόδοση παραγωγής μοντέλου χρησιμοποιώντας ένα μέγεθος παρτίδας 1 και μια ρύθμιση υλικού H100 GPU. Τα αποτελέσματα φαίνονται στην παρακάτω εικόνα. Για το μοντέλο Transformer, η μνήμη αιχμής θα αυξηθεί και η ταχύτητα παραγωγής θα επιβραδυνθεί καθώς αυξάνεται ο αριθμός των κουπονιών που δημιουργούνται.
Ακόμη και σε τυπικά σημεία αναφοράς της βιομηχανίας, το νέο μοντέλο αποδίδει καλύτερα ή κοντά σε δημοφιλή μοντέλα μετασχηματιστών, καθώς και σε καθαρά και υβριδικά μοντέλα κατάστασης χώρου.
Για παράδειγμα, στα σημεία αναφοράς Arc, TruthfulQA και GSM8K, το Falcon Mamba 7B σημείωσε 62,03%, 53,42% και 52,54% αντίστοιχα, ξεπερνώντας τα Llama 3 8 B, Llama 3,1 8B, Gemma 7B και Mistral 7B. Ωστόσο, στα σημεία αναφοράς MMLU και Hellaswag, το Falcon Mamba 7B υστερεί πολύ σε σχέση με αυτά τα μοντέλα.
«Η κυκλοφορία του Falcon Mamba 7B αντιπροσωπεύει ένα σημαντικό βήμα προς τα εμπρός για το ίδρυμα, εμπνέοντας νέες προοπτικές και προωθώντας την εξερεύνηση ευφυών συστημάτων», δήλωσε ο επικεφαλής ερευνητής της TII Hakim Hacid σε μια δήλωση. Στην TII, πιέζουν τα όρια των μοντέλων SSLM και μετασχηματιστών για να εμπνεύσουν περαιτέρω καινοτομία στη γενετική τεχνητή νοημοσύνη.
Επί του παρόντος, η σειρά μοντέλων γλωσσών Falcon της TII έχει ληφθεί περισσότερες από 45 εκατομμύρια φορές - καθιστώντας μια από τις πιο επιτυχημένες εκδόσεις LLM στα ΗΑΕ.
Το χαρτί Falcon Mamba 7B θα κυκλοφορήσει σύντομα, οπότε μπορείτε να περιμένετε λίγο.
https://huggingface.co/blog/falconmamba
https://venturebeat.com/ai/falcon-mamba-7bs-powerful-new-ai-architecture-offers-alternative-to-transformer-models/