νέα

Αντικαταστήστε το Transformer και το μοντέλο ανοιχτού κώδικα 7B φτάνει αμέσως στην κορυφή! Οποιαδήποτε μεγάλη ακολουθία μπορεί να υποβληθεί σε επεξεργασία

2024-08-13

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Το Mingmin προέρχεται από τον ναό Aofei
Qubits | Δημόσιος λογαριασμός QbitAI

Απλώς αντικαταστήστε την αρχιτεκτονική του Transformer και η απόδοση θα βελτιωθεί άμεσα από όλες τις απόψεις, καθιστώντας δυνατό να γίνετε το καλύτερο μοντέλο ανοιχτού κώδικα της ίδιας κλίμακας!

(Ο μηχανισμός προσοχής δεν υπάρχει πλέον)

Αυτό είναι το πιο πρόσφατοFalcon Mamba 7BΜοντέλο.



χρησιμοποιείΑρχιτεκτονική μοντέλου διαστημικής γλώσσας κατάστασης Mambaγια να χειριστεί διάφορες εργασίες δημιουργίας κειμένου.

Με την ακύρωση του παραδοσιακού μηχανισμού προσοχής, το πρόβλημα της χαμηλής υπολογιστικής απόδοσης όταν το μοντέλο επεξεργάζεται μεγάλες ακολουθίες βελτιώνεται αποτελεσματικά.

μπορεί να χειριστείαπείρως μακρύσειρά, αλλά οι απαιτήσεις μνήμης δεν αυξάνονται.

Ανεξάρτητα από το πόσο μακρύ είναι το πλαίσιο,Ο χρόνος δημιουργίας κάθε διακριτικού είναι βασικά ο ίδιος

Ως αποτέλεσμα, η απόδοση του μοντέλου Falcon Mamba έχει βελτιωθεί από όλες τις απόψεις, νικώντας πολλά μοντέλα αρχιτεκτονικής Transformer, όπως το Llama-3.1 (8B), το Mistral (7B) και το Falcon-2 (11B).



Τα παραπάνω αποτελέσματα έφερε το Ινστιτούτο Καινοτομίας Τεχνολογίας (TII) στο Άμπου Ντάμπι των Ηνωμένων Αραβικών Εμιράτων, το οποίο είναι η ομάδα ανάπτυξης του μοντέλου Falcon.

Αυτή η σειρά περιέχει συνολικά τέσσερα μοντέλα: βασική έκδοση, έκδοση λεπτομέρειας εντολών, έκδοση 4 bit και έκδοση λεπτομερούς ρύθμισης οδηγιών 4 bit.

Το πιο πρόσφατο μοντέλο είναι ανοιχτό με την άδεια TII Falcon 2.0, η οποία είναι υπό την άδεια Apache 2.0.

Οι θεατές του Διαδικτύου φώναξαν: Οι κανόνες του παιχνιδιού πρόκειται να αλλάξουν!



Το πρώτο SSLM ανοιχτού κώδικα στον κόσμο

Όσον αφορά την απόδοση, το Falcon Mamba 7B ξεπερνά πολλά μοντέλα ανοιχτού κώδικα από όλες τις απόψεις.



Βασίζεται στην πρώτη γενιά Mamba.

Το Mamba είναι έναμοντέλο του χώρου κατάστασης(SSM, State Space Model). Συνδυάζει τα χαρακτηριστικά του RNN και του CNN και βελτιώνει την αποτελεσματικότητα της επεξεργασίας πληροφοριών κειμένου εισάγοντας έναν μηχανισμό επιλογής που επιτρέπει στο μοντέλο να διαδίδει ή να ξεχνά επιλεκτικά πληροφορίες με βάση την τρέχουσα είσοδο.

Ταυτόχρονα, σχεδιάζει έναν παράλληλο αλγόριθμο με γνώση υλικού που εκτελείται σε αναδρομική λειτουργία, αποφεύγοντας την πρόσβαση IO μεταξύ των επιπέδων μνήμης GPU και βελτιώνοντας την υπολογιστική απόδοση.

Τέλος, απλοποιεί επίσης την αρχιτεκτονική, συνδυάζοντας την αρχιτεκτονική SSM και το μπλοκ MLP στο Transformer σε ένα ενιαίο μπλοκ.

Η αλλαγή από Transformer σε Mamba επιτρέπει στο μοντέλο Falcon να χειρίζεται αυθαίρετα μεγάλες ακολουθίες χωρίς αύξηση της μνήμης. Ιδιαίτερα κατάλληλο για μονή GPU A10 24 GB.

Η μελέτη συζητά επίσης δύο διαφορετικές προσεγγίσεις για την επεξεργασία ακολουθιών.

Η μέθοδος παράλληλης προπλήρωσης είναι κατάλληλη για παράλληλη επεξεργασία GPU και έχει υψηλές απαιτήσεις μνήμης.



Για να εξασφαλιστεί σταθερότητα προπόνησης μεγάλης κλίμακας, το μοντέλο Falcon Mamba χρησιμοποιεί ένα πρόσθετο επίπεδο κανονικοποίησης RMS.

Το επίπεδο κανονικοποίησης RMS μπορεί να απλοποιήσει τη διαδικασία υπολογισμού του LayerNorm και να μειώσει το ποσό υπολογισμού.

Το μοντέλο εκπαιδεύτηκε χρησιμοποιώντας δεδομένα 5500GT, τα οποία προέρχονται κυρίως από το σύνολο δεδομένων RefedWeb και δημόσια δεδομένα. Η διαδικασία εκπαίδευσης είναι βασικά ομοιόμορφη και προστίθεται μικρή ποσότητα δεδομένων σχεδιασμού υψηλής ποιότητας στα τελευταία στάδια της εκπαίδευσης, γεγονός που βοηθά το μοντέλο να βελτιστοποιηθεί στο τελικό στάδιο.

Στη δοκιμή δημιουργίας διακριτικών στο H100 με μέγεθος παρτίδας 1 και μήκος λέξης εντολών 1-130 χιλ., το Falcon Mamba μπόρεσε ναΔιατηρήστε σταθερή απόδοση κατά τη δημιουργία νέων διακριτικών, πράγμα που σημαίνει ότι η απόδοσή του δεν επηρεάζεται από το μήκος του κειμένου και μπορεί να χειριστεί μεγάλες ακολουθίες σταθερά χωρίς υποβάθμιση της απόδοσης.





Το Falcon Mamba υποστηρίζει πολλά API Hugging Face, συμπεριλαμβανομένων των AutoModelForCausalLM και pipline.

Έχει επίσης κυκλοφορήσει μια έκδοση συντονισμού εντολών, η οποία μπορεί να κάνει το μοντέλο πιο ακριβές, βελτιστοποιώντας επιπλέον 5 δισεκατομμύρια tokens.

Τα πιο πρόσφατα μοντέλα είναι διαθέσιμα στο Hugging Face και στο GitHub~

Σύνδεσμοι αναφοράς:
https://huggingface.co/blog/falconmamba#hardware-performance