νέα

Ένα άρθρο για να καταλάβετε τον Mamba, τον ισχυρότερο ανταγωνιστή του Transformer

2024-08-19

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina



Αναφορά Machine Heart

Επιμέλεια: Panda

Το Mamba είναι καλό, αλλά η ανάπτυξή του είναι ακόμα νωρίς.

Υπάρχουν πολλές αρχιτεκτονικές βαθιάς εκμάθησης, αλλά η πιο επιτυχημένη τα τελευταία χρόνια είναι το Transformer, το οποίο έχει καθιερώσει την κυριαρχία του σε πολλαπλούς τομείς εφαρμογών.

Βασικός μοχλός αυτής της επιτυχίας είναι ο μηχανισμός προσοχής, ο οποίος επιτρέπει στα μοντέλα που βασίζονται σε μετασχηματιστές να εστιάζουν σε σχετικά μέρη της ακολουθίας εισόδου για να επιτύχουν καλύτερη κατανόηση των συμφραζομένων. Ωστόσο, το μειονέκτημα του μηχανισμού προσοχής είναι ότι η υπολογιστική επιβάρυνση είναι υψηλή, η οποία θα αυξάνεται τετραγωνικά με το μέγεθος εισόδου, καθιστώντας δύσκολη την επεξεργασία πολύ μεγάλων κειμένων.

Ευτυχώς, μια νέα αρχιτεκτονική με μεγάλες δυνατότητες γεννήθηκε πριν από λίγο καιρό: το μοντέλο ακολουθίας διαστήματος δομημένης κατάστασης (SSM). Αυτή η αρχιτεκτονική μπορεί να συλλάβει αποτελεσματικά πολύπλοκες εξαρτήσεις σε δεδομένα ακολουθίας, καθιστώντας την ισχυρό αντίπαλο του Transformer.

Ο σχεδιασμός αυτού του τύπου μοντέλου είναι εμπνευσμένος από το κλασικό μοντέλο του χώρου κατάστασης - μπορούμε να το σκεφτούμε ως ένα μοντέλο σύντηξης επαναλαμβανόμενων νευρωνικών δικτύων και συνελικτικών νευρωνικών δικτύων. Μπορούν να υπολογιστούν αποτελεσματικά χρησιμοποιώντας λειτουργίες βρόχου ή συνέλιξης, επιτρέποντας στην υπολογιστική επιβάρυνση να κλιμακωθεί γραμμικά ή σχεδόν γραμμικά με το μήκος της ακολουθίας, μειώνοντας έτσι σημαντικά το υπολογιστικό κόστος.

Πιο συγκεκριμένα, το Mamba, μια από τις πιο επιτυχημένες παραλλαγές του SSM, έχει ήδη δυνατότητες μοντελοποίησης συγκρίσιμες με αυτές του Transformer, διατηρώντας παράλληλα γραμμική επεκτασιμότητα με μήκος ακολουθίας.

Το Mamba εισάγει αρχικά έναν απλό αλλά αποτελεσματικό μηχανισμό επιλογής που επαναπαραμετροποιεί τα SSM με βάση τις εισόδους, επιτρέποντας στο μοντέλο να διατηρεί τα απαραίτητα και σχετικά δεδομένα επ' αόριστον, ενώ φιλτράρει άσχετες πληροφορίες. Στη συνέχεια, το Mamba περιλαμβάνει επίσης έναν αλγόριθμο με επίγνωση υλικού που χρησιμοποιεί σαρώσεις αντί για συνελίξεις για τον κυκλικό υπολογισμό του μοντέλου, γεγονός που μπορεί να αυξήσει την ταχύτητα υπολογισμού κατά 3 φορές στην GPU A100.

Όπως φαίνεται στο σχήμα 1, με την ισχυρή του ικανότητα να μοντελοποιεί σύνθετα δεδομένα μεγάλης ακολουθίας και σχεδόν γραμμική επεκτασιμότητα, το Mamba έχει αναδειχθεί ως βασικό μοντέλο και αναμένεται να φέρει επανάσταση σε πολλούς τομείς έρευνας και ανάπτυξης όπως η όραση υπολογιστή, η επεξεργασία φυσικής γλώσσας και η ιατρική Περιοχές εφαρμογής.



Ως εκ τούτου, η βιβλιογραφία σχετικά με την έρευνα και την εφαρμογή του Mamba αυξάνεται ταχέως και προκαλεί ίλιγγο, και μια περιεκτική αναφορά ανασκόπησης θα είναι πολύ ωφέλιμη. Πρόσφατα, μια ερευνητική ομάδα από το Πολυτεχνείο του Χονγκ Κονγκ δημοσίευσε τις συνεισφορές της στο arXiv.



  • Τίτλος εργασίας: A Survey of Mamba
  • Διεύθυνση χαρτιού: https://arxiv.org/pdf/2408.01129

Αυτή η αναφορά ανασκόπησης συνοψίζει το Mamba από πολλές οπτικές γωνίες, οι οποίες όχι μόνο μπορούν να βοηθήσουν τους αρχάριους να μάθουν τον βασικό μηχανισμό λειτουργίας του Mamba, αλλά και να βοηθήσουν τους έμπειρους επαγγελματίες να κατανοήσουν την τελευταία πρόοδο.

Το Mamba είναι μια δημοφιλής κατεύθυνση έρευνας, και ως εκ τούτου πολλές ομάδες προσπαθούν να γράψουν αναφορές ανασκόπησης, εκτός από αυτές που παρουσιάζονται σε αυτό το άρθρο, υπάρχουν και άλλες κριτικές που επικεντρώνονται σε μοντέλα διαστήματος κατάστασης ή οπτικό Mamba :

  • Mamba-360: Έρευνα μοντέλων χώρου κατάστασης ως εναλλακτική λύση μετασχηματιστή για μοντελοποίηση μακράς ακολουθίας: Μέθοδοι, εφαρμογές και προκλήσεις. arXiv:2404.16112
  • Κατάσταση διαστημικού μοντέλου για εναλλακτική λύση δικτύου νέας γενιάς σε μετασχηματιστές: Μια έρευνα. arXiv:2404.09516
  • Vision Mamba: Μια ολοκληρωμένη έρευνα και ταξινόμηση. arXiv:2405.04404
  • Μια έρευνα για το όραμα mamba: Μοντέλα, εφαρμογές και προκλήσεις. arXiv:2404.18861
  • Μια έρευνα για το οπτικό mamba. arXiv:2404.15956

Προκαταρκτικές γνώσεις

Το Mamba συνδυάζει το κυκλικό πλαίσιο του Recurrent Neural Network (RNN), τον παράλληλο μηχανισμό υπολογισμού και προσοχής του Μετασχηματιστή και τα γραμμικά χαρακτηριστικά του State Space Model (SSM). Επομένως, για να κατανοήσετε πλήρως το Mamba, πρέπει πρώτα να κατανοήσετε αυτές τις τρεις αρχιτεκτονικές.

επαναλαμβανόμενο νευρωνικό δίκτυο

Τα επαναλαμβανόμενα νευρωνικά δίκτυα (RNN) είναι καλά στην επεξεργασία δεδομένων ακολουθίας λόγω της ικανότητάς τους να διατηρούν την εσωτερική μνήμη.

Συγκεκριμένα, σε κάθε διακριτό χρονικό βήμα k, ένα τυπικό RNN επεξεργάζεται ένα διάνυσμα μαζί με την κρυφή κατάσταση του προηγούμενου χρονικού βήματος, και στη συνέχεια βγάζει ένα άλλο διάνυσμα και ενημερώνει την κρυφή κατάσταση. Αυτή η κρυφή κατάσταση μπορεί να χρησιμοποιηθεί ως μνήμη του RNN, το οποίο μπορεί να διατηρήσει τις πληροφορίες εισόδου που έχουν δει στο παρελθόν. Αυτή η δυναμική μνήμη επιτρέπει στο RNN να χειρίζεται ακολουθίες διαφορετικού μήκους.

Δηλαδή, το RNN είναι ένα μη γραμμικό επαναλαμβανόμενο μοντέλο που καταγράφει αποτελεσματικά χρονικά μοτίβα χρησιμοποιώντας ιστορική γνώση που είναι αποθηκευμένη σε κρυφές καταστάσεις.

Μετασχηματιστής

Ο μηχανισμός αυτοπροσοχής του Transformer βοηθά στην αποτύπωση παγκόσμιων εξαρτήσεων μεταξύ των εισόδων. Αυτό γίνεται με την ανάθεση βαρών σε κάθε θέση με βάση τη σημασία τους σε σχέση με άλλες θέσεις. Πιο συγκεκριμένα, η αρχική είσοδος μετατρέπεται πρώτα γραμμικά για να μετατραπεί η ακολουθία x των διανυσμάτων εισόδου σε τρεις τύπους διανυσμάτων: ερώτημα Q, κλειδί K και τιμή V.

Στη συνέχεια υπολογίζεται η κανονικοποιημένη βαθμολογία προσοχής S και υπολογίζεται το βάρος προσοχής.

Εκτός από τη δυνατότητα εκτέλεσης μιας ενιαίας λειτουργίας προσοχής, μπορούμε επίσης να εκτελούμε την προσοχή πολλών κεφαλών. Αυτό επιτρέπει στο μοντέλο να καταγράφει διαφορετικούς τύπους σχέσεων και να κατανοεί τις ακολουθίες εισόδου από πολλαπλές προοπτικές. Η προσοχή πολλαπλών κεφαλών χρησιμοποιεί πολλαπλά σετ μονάδων αυτοπροσοχής για την παράλληλη επεξεργασία των ακολουθιών εισόδου. Κάθε μία από αυτές τις κεφαλές λειτουργεί ανεξάρτητα και εκτελεί τους ίδιους υπολογισμούς με τους τυπικούς μηχανισμούς αυτοπροσοχής.

Στη συνέχεια, τα βάρη προσοχής κάθε κεφαλής συγκεντρώνονται και συνδυάζονται για να ληφθεί το σταθμισμένο άθροισμα των διανυσμάτων τιμών. Αυτό το βήμα συνάθροισης επιτρέπει στο μοντέλο να χρησιμοποιεί πληροφορίες από πολλές κεφαλές και να καταγράφει πολλά διαφορετικά μοτίβα και σχέσεις στην ακολουθία εισόδου.

χώρος κατάστασης

Το μοντέλο χώρου κατάστασης (SSM) είναι ένα παραδοσιακό μαθηματικό πλαίσιο που μπορεί να χρησιμοποιηθεί για να περιγράψει τη δυναμική συμπεριφορά ενός συστήματος με την πάροδο του χρόνου. Τα τελευταία χρόνια, το SSM έχει χρησιμοποιηθεί ευρέως σε πολλούς διαφορετικούς τομείς όπως η κυβερνητική, η ρομποτική και η οικονομία.

Στον πυρήνα του, το SSM αντανακλά τη συμπεριφορά του συστήματος μέσω ενός συνόλου κρυφών μεταβλητών που ονομάζονται "κατάσταση", επιτρέποντάς του να συλλαμβάνει αποτελεσματικά τις εξαρτήσεις των δεδομένων χρόνου. Σε αντίθεση με το RNN, το SSM είναι ένα γραμμικό μοντέλο με συσχετιστικές ιδιότητες. Συγκεκριμένα, το κλασικό μοντέλο χώρου κατάστασης κατασκευάζει δύο βασικές εξισώσεις (εξίσωση κατάστασης και εξίσωση παρατήρησης) για να μοντελοποιήσει τη σχέση μεταξύ της εισόδου x και της εξόδου y την τρέχουσα χρονική στιγμή t μέσω μιας κρυφής κατάστασης N-διαστάσεων h (t) .

  • διακριτοποίηση

Προκειμένου να καλύψει τις ανάγκες της μηχανικής μάθησης, το SSM πρέπει να υποβληθεί σε διαδικασία διακριτοποίησης-μετατροπής συνεχών παραμέτρων σε διακριτές παραμέτρους. Σε γενικές γραμμές, ο στόχος των μεθόδων διακριτοποίησης είναι να διαιρεθεί ο συνεχής χρόνος σε K διακριτά διαστήματα με όσο το δυνατόν ίσο ακέραιο εμβαδόν. Για να επιτευχθεί αυτός ο στόχος, μία από τις πιο αντιπροσωπευτικές λύσεις που υιοθετεί το SSM είναι η κράτηση μηδενικής τάξης (ZOH), η οποία υποθέτει ότι η τιμή της συνάρτησης στο διάστημα Δ = [_{−1}, _ ] παραμένει σταθερή. Το διακριτό SSM έχει παρόμοια δομή με ένα επαναλαμβανόμενο νευρωνικό δίκτυο, επομένως το διακριτό SSM μπορεί να εκτελέσει τη διαδικασία εξαγωγής συμπερασμάτων πιο αποτελεσματικά από τα μοντέλα που βασίζονται σε μετασχηματιστές.

  • Υπολογισμός συνέλιξης

Το διακριτό SSM είναι ένα γραμμικό σύστημα με συσχετιστικές ιδιότητες και επομένως μπορεί να ενσωματωθεί απρόσκοπτα με συνελικτικούς υπολογισμούς.

Η σχέση μεταξύ RNN, Transformer και SSM

Το σχήμα 2 δείχνει τους αλγόριθμους υπολογισμού των RNN, Transformer και SSM.



Από τη μία πλευρά, τα συμβατικά RNN λειτουργούν με βάση ένα μη γραμμικό επαναλαμβανόμενο πλαίσιο, όπου κάθε υπολογισμός εξαρτάται μόνο από την προηγούμενη κρυφή κατάσταση και την τρέχουσα είσοδο.

Παρόλο που αυτή η φόρμα επιτρέπει στο RNN να παράγει γρήγορα έξοδο κατά τη διάρκεια της αυτόματης παλινδρόμησης συμπερασμάτων, καθιστά επίσης δύσκολο για το RNN να χρησιμοποιήσει πλήρως την παράλληλη υπολογιστική ισχύ της GPU, με αποτέλεσμα την πιο αργή εκπαίδευση του μοντέλου.

Η αρχιτεκτονική του Transformer, από την άλλη πλευρά, εκτελεί πολλαπλασιασμούς μήτρας σε πολλαπλά ζεύγη ερωτημάτων-κλειδιά παράλληλα και οι πολλαπλασιασμοί μήτρας μπορούν να κατανεμηθούν αποτελεσματικά σε πόρους υλικού, επιτρέποντας ταχύτερη εκπαίδευση μοντέλων που βασίζονται στην προσοχή. Ωστόσο, εάν θέλετε ένα μοντέλο που βασίζεται σε μετασχηματιστή να δημιουργεί αποκρίσεις ή προβλέψεις, η διαδικασία εξαγωγής συμπερασμάτων μπορεί να είναι πολύ χρονοβόρα.

Σε αντίθεση με το RNN και το Transformer, που υποστηρίζουν μόνο έναν τύπο υπολογισμού, το διακριτό SSM είναι πολύ ευέλικτο χάρη στη γραμμική του φύση, μπορεί να υποστηρίξει τόσο τον υπολογισμό βρόχου όσο και τον υπολογισμό συνέλιξης. Αυτή η δυνατότητα επιτρέπει στο SSM όχι μόνο να επιτυγχάνει αποτελεσματικά συμπεράσματα αλλά και παράλληλη εκπαίδευση. Ωστόσο, πρέπει να επισημανθεί ότι το πιο συμβατικό SSM είναι αναλλοίωτο στο χρόνο, δηλαδή τα Α, Β, Γ και Δ του είναι ανεξάρτητα από την είσοδο του μοντέλου x. Αυτό θα περιορίσει τις δυνατότητες μοντελοποίησης με επίγνωση του περιβάλλοντος, με αποτέλεσμα το SSM να έχει κακή απόδοση σε ορισμένες συγκεκριμένες εργασίες, όπως η επιλεκτική αντιγραφή.

Μάμπα

Προκειμένου να λυθούν οι παραπάνω ελλείψεις του παραδοσιακού SSM και να επιτευχθεί μοντελοποίηση με επίγνωση του πλαισίου, ο Albert Gu και ο Tri Dao πρότειναν το Mamba, το οποίο μπορεί να χρησιμοποιηθεί ως το βασικό δίκτυο ενός βασικού μοντέλου καθολικής ακολουθίας Δείτε την αναφορά Machine Heart "Πέντε φορές απόδοση Η απόδοση περιβάλλει ολοκληρωμένα το Transformer: Η νέα αρχιτεκτονική Mamba πυροδοτεί τον κύκλο της AI».

Μετά από αυτό, οι δύο τους πρότειναν περαιτέρω το Mamba-2, στο οποίο το Structured Space-State Duality (SSD/Structured Space-State Duality) κατασκεύασε ένα ισχυρό θεωρητικό πλαίσιο που συνδέει το δομημένο SSM με διάφορες μορφές προσοχής Οι αλγόριθμοι και οι τεχνολογίες βελτιστοποίησης συστήματος που αναπτύχθηκαν αρχικά για το Transformer σε SSM Μπορείτε επίσης να ανατρέξετε στην αναφορά Heart of the Machine "Fighting Transformer Again!" Το Mamba 2, με επικεφαλής τον αρχικό συγγραφέα, είναι εδώ και η αποτελεσματικότητα εκπαίδευσης της νέας αρχιτεκτονικής έχει βελτιωθεί σημαντικά."

Mamba-1: Μοντέλο χώρου επιλεκτικής κατάστασης χρησιμοποιώντας αλγόριθμους με επίγνωση υλικού

Το Mamba-1 εισάγει τρεις κύριες καινοτόμες τεχνολογίες που βασίζονται στο μοντέλο του δομημένου χώρου κατάστασης, δηλαδή αρχικοποίηση μνήμης, μηχανισμό επιλογής και υπολογισμό με επίγνωση υλικού βασισμένου σε τελεστή πολυωνυμικής προβολής υψηλής τάξης (HiPPO). Όπως φαίνεται στο Σχήμα 3. Ο στόχος αυτών των τεχνικών είναι να βελτιώσουν τις δυνατότητες μοντελοποίησης γραμμικών χρονοσειρών μεγάλης εμβέλειας του SSM.



Συγκεκριμένα, η στρατηγική αρχικοποίησης κατασκευάζει μια συνεκτική μήτρα κρυφής κατάστασης για την αποτελεσματική προώθηση της μνήμης μεγάλης εμβέλειας.

Στη συνέχεια, οι μηχανισμοί επιλογής επιτρέπουν στο SSM να αποκτήσει αναπαραστάσεις αντιληπτού περιεχομένου.

Τέλος, προκειμένου να βελτιωθεί η αποτελεσματικότητα της προπόνησης, το Mamba περιλαμβάνει επίσης δύο υπολογιστικούς αλγόριθμους με γνώση υλικού: Parallel Associative Scan και Memory Recomputation.

Mamba-2: κρατική διαστημική δυαδικότητα

Το Transformer έχει εμπνεύσει την ανάπτυξη πολλών διαφορετικών τεχνολογιών, όπως η μικρορύθμιση αποδοτικής παραμέτρου, ο μετριασμός της καταστροφικής λήθης και η κβαντοποίηση μοντέλων. Προκειμένου τα διαστημικά μοντέλα κατάστασης να επωφεληθούν επίσης από αυτές τις τεχνολογίες που αναπτύχθηκαν αρχικά για το Transformer, το Mamba-2 εισάγει ένα νέο πλαίσιο: Structured State Space Duality (SSD). Αυτό το πλαίσιο θεωρητικά συνδέει το SSM και διαφορετικές μορφές προσοχής.

Ουσιαστικά, ο SSD δείχνει ότι τόσο ο μηχανισμός προσοχής που χρησιμοποιείται από το Transformer όσο και το γραμμικό σύστημα αναλλοίωτου χρόνου που χρησιμοποιείται στο SSM μπορούν να θεωρηθούν ως ημιδιαχωρίσιμοι μετασχηματισμοί μήτρας.

Επιπλέον, οι Albert Gu και Tri Dao απέδειξαν επίσης ότι το επιλεκτικό SSM είναι ισοδύναμο με έναν μηχανισμό δομημένης γραμμικής προσοχής που εφαρμόζεται χρησιμοποιώντας μια ημιδιαχωριζόμενη μήτρα μάσκας.

Το Mamba-2 σχεδιάζει μια υπολογιστική μέθοδο βασισμένη σε SSD που χρησιμοποιεί το υλικό πιο αποτελεσματικά, χρησιμοποιώντας έναν αλγόριθμο πολλαπλασιασμού μήτρας αποσύνθεσης μπλοκ.

Συγκεκριμένα, αντιμετωπίζοντας το μοντέλο κατάστασης χώρου ως ημι-διαχωρίσιμου πίνακα μέσω αυτού του μετασχηματισμού μήτρας, το Mamba-2 είναι σε θέση να αποσυνθέσει αυτόν τον υπολογισμό σε μπλοκ μήτρας, όπου τα διαγώνια μπλοκ αντιπροσωπεύουν υπολογισμούς εντός του μπλοκ. Ενώ τα μη διαγώνια μπλοκ αντιπροσωπεύουν υπολογισμό μεταξύ μπλοκ μέσω αποσύνθεσης κρυφής κατάστασης του SSM. Αυτή η μέθοδος επιτρέπει στην ταχύτητα εκπαίδευσης του Mamba-2 να είναι 2-8 φορές μεγαλύτερη από την παράλληλη σάρωση συσχέτισης του Mamba-1, ενώ η απόδοση είναι συγκρίσιμη με το Transformer.

Μπλοκ Mamba

Ας ρίξουμε μια ματιά στα σχέδια μπλοκ των Mamba-1 και Mamba-2. Το Σχήμα 4 συγκρίνει τις δύο αρχιτεκτονικές.



Ο σχεδιασμός του Mamba-1 είναι SSM-centric, όπου η αποστολή του επιλεκτικού επιπέδου SSM είναι να εκτελέσει την αντιστοίχιση από την ακολουθία εισόδου X έως Y. Σε αυτό το σχέδιο, αφού δημιουργηθεί αρχικά μια γραμμική προβολή του Χ, χρησιμοποιείται μια γραμμική προβολή του (Α, Β, Γ). Στη συνέχεια, το διακριτικό εισόδου και ο πίνακας κατάστασης σαρώνονται μέσω της επιλεκτικής μονάδας SSM χρησιμοποιώντας παράλληλη συσχέτιση για να ληφθεί η έξοδος Y. Στη συνέχεια, το Mamba-1 υιοθετεί μια σύνδεση παράβλεψης για να ενθαρρύνει την επαναχρησιμοποίηση των χαρακτηριστικών και να μετριάσει το πρόβλημα υποβάθμισης της απόδοσης που εμφανίζεται συχνά κατά τη διάρκεια της εκπαίδευσης μοντέλων. Τέλος, το μοντέλο Mamba κατασκευάζεται με κλιμακωτή στοίβαξη αυτής της μονάδας με τυπική κανονικοποίηση και υπολειπόμενες συνδέσεις.

Όσο για το Mamba-2, το επίπεδο SSD εισάγεται για να δημιουργήσει μια αντιστοίχιση από το [X, A, B, C] στο Y. Αυτό επιτυγχάνεται χρησιμοποιώντας μία μόνο προβολή στην αρχή του μπλοκ για την ταυτόχρονη επεξεργασία [X, A, B, C], παρόμοια με τον τρόπο με τον οποίο οι τυπικές αρχιτεκτονικές προσοχής παράγουν προβολές Q, K, V παράλληλα.

Δηλαδή, το μπλοκ Mamba-2 απλοποιείται με βάση το μπλοκ Mamba-1 αφαιρώντας τη γραμμική προβολή της ακολουθίας. Αυτό επιτρέπει στην αρχιτεκτονική SSD να εκτελεί υπολογισμούς πιο γρήγορα από την παράλληλη επιλεκτική σάρωση του Mamba-1. Επιπλέον, προκειμένου να βελτιωθεί η σταθερότητα της προπόνησης, το Mamba-2 προσθέτει επίσης ένα στρώμα κανονικοποίησης μετά τη σύνδεση παράβλεψης.

Το μοντέλο Mamba εξελίσσεται

Το κρατικό διαστημικό μοντέλο και το Mamba αναπτύχθηκαν γρήγορα πρόσφατα και έχουν γίνει μια βασική επιλογή δικτύου κορμού του μοντέλου με μεγάλες δυνατότητες. Αν και το Mamba αποδίδει καλά σε εργασίες επεξεργασίας φυσικής γλώσσας, εξακολουθεί να έχει ορισμένα προβλήματα, όπως απώλεια μνήμης, δυσκολία γενίκευσης σε διαφορετικές εργασίες και κακή απόδοση σε πολύπλοκα μοτίβα σε σύγκριση με μοντέλα γλώσσας που βασίζονται σε Transformer. Προκειμένου να λυθούν αυτά τα προβλήματα, η ερευνητική κοινότητα έχει προτείνει πολλές βελτιώσεις στην αρχιτεκτονική Mamba. Η υπάρχουσα έρευνα επικεντρώνεται κυρίως στον σχεδιασμό του μπλοκ τροποποίησης, στα μοτίβα σάρωσης και στη διαχείριση μνήμης. Ο Πίνακας 1 συνοψίζει σχετικές μελέτες ανά κατηγορία.



σχέδιο μπλοκ

Ο σχεδιασμός και η δομή του μπλοκ Mamba έχουν μεγάλο αντίκτυπο στη συνολική απόδοση του μοντέλου Mamba, και ως εκ τούτου αυτό έχει γίνει ένα σημαντικό ερευνητικό επίκεντρο.



Όπως φαίνεται στο Σχήμα 5, η υπάρχουσα έρευνα μπορεί να χωριστεί σε τρεις κατηγορίες με βάση διαφορετικές μεθόδους κατασκευής νέων ενοτήτων Mamba:

  • Μέθοδος ενσωμάτωσης: Ενσωματώστε μπλοκ Mamba με άλλα μοντέλα για να επιτύχετε μια ισορροπία μεταξύ εφέ και αποτελεσματικότητας.
  • Μέθοδος αντικατάστασης: Χρησιμοποιήστε μπλοκ Mamba για να αντικαταστήσετε τα κύρια επίπεδα σε άλλα πλαίσια μοντέλων.
  • Μέθοδος τροποποίησης: Τροποποιήστε τα στοιχεία στο κλασικό μπλοκ Mamba.

Λειτουργία σάρωσης

Η σάρωση παράλληλης συσχέτισης είναι ένα βασικό συστατικό στο μοντέλο Mamba Ο στόχος του είναι να λύσει τα υπολογιστικά προβλήματα που προκαλούνται από τον μηχανισμό επιλογής, να βελτιώσει την ταχύτητα της διαδικασίας εκπαίδευσης και να μειώσει τις απαιτήσεις μνήμης. Αυτό επιτυγχάνεται με την εκμετάλλευση της γραμμικής φύσης των χρονικά μεταβαλλόμενων SSM για το σχεδιασμό της σύντηξης πυρήνα και του επαναυπολογισμού σε επίπεδο υλικού. Ωστόσο, το μονόδρομο πρότυπο μοντελοποίησης ακολουθίας του Mamba δεν ευνοεί την ολοκληρωμένη εκμάθηση διαφορετικών δεδομένων, όπως εικόνες και βίντεο.



Για να μετριάσουν αυτό το πρόβλημα, ορισμένοι ερευνητές έχουν εξερευνήσει νέες αποτελεσματικές μεθόδους σάρωσης για να βελτιώσουν την απόδοση του μοντέλου Mamba και να διευκολύνουν τη διαδικασία εκπαίδευσής του. Όπως φαίνεται στο Σχήμα 6, όσον αφορά την ανάπτυξη τρόπων σάρωσης, τα υπάρχοντα ερευνητικά αποτελέσματα μπορούν να χωριστούν σε δύο κατηγορίες:

  • Επίπεδη μέθοδος σάρωσης: Δείτε την ακολουθία διακριτικών από μια πεπλατυσμένη προοπτική και επεξεργαστείτε την είσοδο του μοντέλου με βάση αυτό.
  • Μέθοδος στερεοσκοπικής σάρωσης: σάρωση εισόδου μοντέλου σε διαστάσεις, κανάλια ή κλίμακες, οι οποίες μπορούν να χωριστούν περαιτέρω σε τρεις κατηγορίες: ιεραρχική σάρωση, χωροχρονική σάρωση και υβριδική σάρωση.

διαχείριση μνήμης

Παρόμοια με το RNN, στο μοντέλο του χώρου κατάστασης, η μνήμη των κρυφών καταστάσεων αποθηκεύει αποτελεσματικά τις πληροφορίες των προηγούμενων βημάτων και επομένως έχει κρίσιμο αντίκτυπο στη συνολική απόδοση του SSM. Αν και το Mamba εισάγει μια μέθοδο που βασίζεται στο HiPPO για την προετοιμασία της μνήμης, εξακολουθεί να είναι δύσκολη η διαχείριση της μνήμης στη μονάδα SSM, η οποία περιλαμβάνει τη μεταφορά κρυφών πληροφοριών πριν από τα επίπεδα και την επίτευξη συμπίεσης μνήμης χωρίς απώλειες.

Για το σκοπό αυτό, αρκετές πρωτοποριακές μελέτες έχουν προτείνει μια σειρά από διαφορετικές λύσεις, συμπεριλαμβανομένης της προετοιμασίας μνήμης, της συμπίεσης και της συνένωσης.

Προσαρμόστε το Mamba σε διαφορετικά δεδομένα

Η αρχιτεκτονική Mamba είναι μια επέκταση του μοντέλου επιλεκτικού χώρου κατάστασης Έχει τα βασικά χαρακτηριστικά του κυκλικού μοντέλου και επομένως είναι πολύ κατάλληλο ως γενικό βασικό μοντέλο για την επεξεργασία δεδομένων ακολουθίας όπως κείμενο, χρονοσειρές και ομιλία.

Όχι μόνο αυτό, κάποια πρόσφατη πρωτοποριακή έρευνα έχει επεκτείνει τα σενάρια εφαρμογής της αρχιτεκτονικής Mamba, έτσι ώστε όχι μόνο να μπορεί να επεξεργαστεί δεδομένα ακολουθίας, αλλά και να χρησιμοποιηθεί σε πεδία όπως εικόνες και χάρτες, όπως φαίνεται στο Σχήμα 7.



Ο στόχος αυτών των μελετών είναι να εκμεταλλευτεί πλήρως την εξαιρετική ικανότητα του Mamba να αποκτά εξαρτήσεις μεγάλης εμβέλειας, επιτρέποντάς του επίσης να εκμεταλλευτεί την αποτελεσματικότητά του στις διαδικασίες μάθησης και συλλογισμού. Ο Πίνακας 2 συνοψίζει συνοπτικά αυτά τα ερευνητικά αποτελέσματα.



δεδομένα ακολουθίας

Τα δεδομένα ακολουθίας αναφέρονται σε δεδομένα που συλλέγονται και οργανώνονται με συγκεκριμένη σειρά, όπου η σειρά των σημείων δεδομένων είναι σημαντική. Αυτή η έκθεση ανασκόπησης συνοψίζει αναλυτικά την εφαρμογή του Mamba σε μια ποικιλία δεδομένων ακολουθίας, συμπεριλαμβανομένων των δεδομένων φυσικής γλώσσας, βίντεο, χρονοσειρών, ομιλίας και ανθρώπινης κίνησης. Δείτε το πρωτότυπο έγγραφο για λεπτομέρειες.

μη διαδοχικά δεδομένα

Σε αντίθεση με τα διαδοχικά δεδομένα, τα μη διαδοχικά δεδομένα δεν ακολουθούν συγκεκριμένη σειρά. Τα σημεία δεδομένων του μπορούν να οργανωθούν με οποιαδήποτε σειρά χωρίς να επηρεάζεται σημαντικά η σημασία των δεδομένων. Αυτή η έλλειψη εγγενούς σειράς μπορεί να είναι δύσκολη για επαναλαμβανόμενα μοντέλα (RNN, SSM, κ.λπ.) που έχουν σχεδιαστεί ειδικά για να καταγράφουν χρονικές εξαρτήσεις στα δεδομένα.

Παραδόξως, κάποια πρόσφατη έρευνα επέτρεψε με επιτυχία στο Mamba (ένα αντιπροσωπευτικό SSM) να επεξεργάζεται αποτελεσματικά μη διαδοχικά δεδομένα, συμπεριλαμβανομένων εικόνων, χαρτών και δεδομένων cloud point.

πολυτροπικά δεδομένα

Προκειμένου να βελτιωθούν οι δυνατότητες αντίληψης και κατανόησης σκηνής της τεχνητής νοημοσύνης, μπορούν να ενσωματωθούν δεδομένα από πολλαπλούς τρόπους, όπως γλώσσα (διαδοχικά δεδομένα) και εικόνες (μη διαδοχικά δεδομένα). Μια τέτοια ενοποίηση μπορεί να προσφέρει πολύτιμες και συμπληρωματικές πληροφορίες.

Τα τελευταία χρόνια, τα πολυτροπικά μεγάλα γλωσσικά μοντέλα (MLLM) είναι το πιο δημοφιλές ερευνητικό επίκεντρο αυτού του τύπου μοντέλων κληρονομεί τις ισχυρές δυνατότητες των μεγάλων γλωσσικών μοντέλων (LLM), συμπεριλαμβανομένων των δυνατοτήτων γλωσσικής έκφρασης και λογικής λογικής. Παρόλο που το Transformer έχει γίνει η κυρίαρχη μέθοδος στον τομέα αυτό, το Mamba αναδεικνύεται επίσης ως ισχυρός υποψήφιος για την ευθυγράμμιση των δεδομένων μικτών πηγών και την επίτευξη γραμμικής κλιμάκωσης πολυπλοκότητας με το μήκος της ακολουθίας, κάνει το Mamba πολλά υποσχόμενο στην εκμάθηση πολλαπλών τρόπων.

εφαρμογή

Μερικές αξιοσημείωτες εφαρμογές των μοντέλων που βασίζονται στο Mamba παρουσιάζονται παρακάτω. Η ομάδα χώρισε αυτές τις εφαρμογές στις ακόλουθες κατηγορίες: επεξεργασία φυσικής γλώσσας, όραση υπολογιστή, ανάλυση ομιλίας, ανακάλυψη φαρμάκων, συστήματα συστάσεων και ρομποτική και αυτόνομα συστήματα.

Δεν θα το παρουσιάσουμε πολύ εδώ, δείτε το πρωτότυπο έγγραφο για λεπτομέρειες.

Προκλήσεις και Ευκαιρίες

Παρόλο που το Mamba έχει επιτύχει εξαιρετικές επιδόσεις σε ορισμένους τομείς, συνολικά, η έρευνα για το Mamba είναι ακόμα σε αρχικό στάδιο και υπάρχουν ακόμη κάποιες προκλήσεις που πρέπει να ξεπεραστούν. Φυσικά, αυτές οι προκλήσεις είναι και ευκαιρίες.

  • Πώς να αναπτύξετε και να βελτιώσετε βασικά μοντέλα που βασίζονται στο Mamba;
  • Πώς να πραγματοποιήσετε πλήρως υπολογιστές με γνώση υλικού για να κάνετε πλήρη χρήση υλικού όπως GPU και TPU για τη βελτίωση της απόδοσης του μοντέλου.
  • Πώς να βελτιωθεί η αξιοπιστία του μοντέλου Mamba, το οποίο απαιτεί περαιτέρω έρευνα σχετικά με την ασφάλεια και την ευρωστία, τη δικαιοσύνη, την επεξήγηση και το απόρρητο.
  • Τρόπος χρήσης νέων τεχνολογιών στο πεδίο του μετασχηματιστή για το Mamba, όπως η λεπτομέρεια αποδοτικής παραμέτρου, ο μετριασμός της καταστροφικής λήθης και η επαυξημένη παραγωγή ανάκτησης (RAG).