Κυκλοφόρησε επίσημα το ισχυρότερο μοντέλο Llama 3.1 405B, Zuckerberg: Το ανοιχτό κώδικα οδηγεί μια νέα εποχή

2024-07-24

Αναφορά Μηχανικής Καρδιάς

Τμήμα Σύνταξης Machine Heart

Μόλις τώρα κυκλοφόρησε επίσημα το πολυαναμενόμενο Llama 3.1!

Η Meta εξέδωσε επίσημα μια φωνή ότι «το ανοιχτό κώδικα οδηγεί μια νέα εποχή».

Στο επίσημο ιστολόγιο, ο Meta είπε: "Μέχρι σήμερα, τα μοντέλα ανοιχτού κώδικα μεγάλων γλωσσών υστερούσαν ως επί το πλείστον σε σχέση με τα κλειστά μοντέλα όσον αφορά τη λειτουργικότητα και την απόδοση. Τώρα, εγκαινιάζουμε μια νέα εποχή που ηγείται από ανοιχτό κώδικα. Έχουμε κυκλοφορήσει δημόσια το Meta Llama 3.1 405B Πιστεύουμε ότι είναι το μεγαλύτερο και πιο ισχυρό μοντέλο βάσης ανοιχτού κώδικα στον κόσμο, με πάνω από 300 εκατομμύρια λήψεις σε όλες τις εκδόσεις Llama μέχρι σήμερα, και μόλις ξεκινήσαμε.

Ο ιδρυτής και διευθύνων σύμβουλος της Meta Zuckerberg έγραψε επίσης προσωπικά ένα εκτενές άρθρο "Το Open Source AI Is the Path Forward", εξηγώντας γιατί το open source είναι καλό για όλους τους προγραμματιστές, το Meta και τον κόσμο.

Τα κυριότερα σημεία αυτής της έκδοσης περιλαμβάνουν:

Η τελευταία σειρά μοντέλων επεκτείνει το μήκος περιβάλλοντος στα 128K, προσθέτει υποστήριξη για οκτώ γλώσσες και περιλαμβάνει το κορυφαίο μοντέλο ανοιχτού κώδικα Llama 3.1 405B.
Το Llama 3.1 405B βρίσκεται σε ένα δικό του πρωτάθλημα, με τη Meta να λέει επίσημα ότι είναι στο ίδιο επίπεδο με τα καλύτερα μοντέλα κλειστού κώδικα.
Αυτή η έκδοση παρέχει επίσης περισσότερα στοιχεία (συμπεριλαμβανομένων συστημάτων αναφοράς) που θα χρησιμοποιηθούν με το μοντέλο για τη δημιουργία του Llama ως συστήματος.
Οι χρήστες μπορούν να βιώσουν το Llama 3.1 405B μέσω WhatsApp και meta.ai.

Διεύθυνση: https://llama.meta.com/

Οι χρήστες του Διαδικτύου μπορούν να το κατεβάσουν και να το δοκιμάσουν.

Llama 3.1 Εισαγωγή

Το Llama 3.1 405B είναι το πρώτο διαθέσιμο στο κοινό μοντέλο που συναγωνίζεται τα κορυφαία μοντέλα τεχνητής νοημοσύνης όσον αφορά την κοινή λογική, τη δυνατότητα χειρισμού, τα μαθηματικά, τη χρήση εργαλείων και την πολύγλωσση μετάφραση.

Η Meta λέει ότι η τελευταία γενιά του Llama θα εμπνεύσει νέες εφαρμογές και πρότυπα μοντελοποίησης, συμπεριλαμβανομένης της μόχλευσης παραγωγής συνθετικών δεδομένων για την ενίσχυση και εκπαίδευση μικρότερων μοντέλων και την απόσταξη μοντέλων - μια ικανότητα που δεν είχε ποτέ πριν επιτευχθεί στον χώρο ανοιχτού κώδικα.

Ταυτόχρονα, η Meta κυκλοφόρησε επίσης αναβαθμισμένες εκδόσεις των μοντέλων 8B και 70B, οι οποίες υποστηρίζουν πολλές γλώσσες, έχουν μήκος περιβάλλοντος 128K και ισχυρότερες δυνατότητες συλλογιστικής. Τα πιο πρόσφατα μοντέλα υποστηρίζουν περιπτώσεις προηγμένης χρήσης, όπως σύνοψη κειμένων μεγάλης μορφής, πολυγλωσσικούς συνομιλητές και βοηθούς κωδικοποίησης.

Για παράδειγμα, το Llama 3.1 μπορεί να μεταφράσει ιστορίες στα ισπανικά:

Όταν ο χρήστης ρωτά, "Υπάρχουν 3 πουκάμισα, 5 ζευγάρια σορτς και 1 φόρεμα. Ας υποθέσουμε ότι πρόκειται να ταξιδέψετε για 10 ημέρες. Είναι τα ρούχα αρκετά προετοιμασμένα;"

Εκτενές πλαίσιο: Για έγγραφα που έχουν μεταφορτωθεί, το Llama 3.1 είναι σε θέση να αναλύει και να συνοψίζει μεγάλα έγγραφα έως και 8k tokens.

Ο Βοηθός Κωδικοποίησης, για τις απαιτήσεις των χρηστών, μπορεί να γράψει γρήγορα κώδικα:

Επιπλέον, ο προγραμματιστής του Llama 3.1 405B ανέβασε επίσης στο Twitter "spoiler", λέγοντας ότι η ανάπτυξη ενός μοντέλου που ενσωματώνει φωνητικές και οπτικές δυνατότητες όπως το GPT-4o είναι ακόμα υπό ανάπτυξη.

Η Meta έκανε επίσης αλλαγές στην άδεια ανοιχτού κώδικα για να επιτρέψει στους προγραμματιστές να χρησιμοποιούν την έξοδο των μοντέλων Llama (συμπεριλαμβανομένου του 405B) για να βελτιώσουν άλλα μοντέλα. Επιπλέον, σύμφωνα με τη δέσμευσή της για ανοιχτό κώδικα, από σήμερα, η Meta καθιστά διαθέσιμα αυτά τα μοντέλα στην κοινότητα για λήψη στη διεύθυνση llama.meta.com και Hugging Face.

σύνδεσμος λήψης:

https://huggingface.co/meta-llama
https://llama.meta.com/

Αξιολόγηση μοντέλου

Το Meta αξιολογείται σε περισσότερα από 150 σύνολα δεδομένων αναφοράς, εκτός από την εκτενή ανθρώπινη αξιολόγηση.

Τα πειραματικά αποτελέσματα δείχνουν ότι το κορυφαίο μοντέλο Llama 3.1 405B είναι ανταγωνιστικό με κορυφαία βασικά μοντέλα, συμπεριλαμβανομένων των GPT-4, GPT-4o και Claude 3.5 Sonnet σε μια σειρά εργασιών. Επιπλέον, τα μικρά μοντέλα 8B και 70B είναι ανταγωνιστικά με μοντέλα κλειστού και ανοιχτού κώδικα με παρόμοιο αριθμό παραμέτρων.

Μοντέλο αρχιτεκτονικής

Ως το μεγαλύτερο μοντέλο της Meta μέχρι σήμερα, η εκπαίδευση του Llama 3.1 405B χρησιμοποιώντας περισσότερα από 15 τρισεκατομμύρια μάρκες είναι μια μεγάλη πρόκληση. Για να ενεργοποιήσει την εκπαίδευση σε αυτή την κλίμακα, η Meta βελτιστοποίησε ολόκληρη τη στοίβα εκπαίδευσης και εκπαιδεύτηκε σε περισσότερες από 16.000 GPU H100, καθιστώντας αυτό το μοντέλο το πρώτο μοντέλο Llama που εκπαιδεύτηκε σε αυτήν την κλίμακα.

Για να αντιμετωπίσει αυτό το ζήτημα, η Meta έκανε τις ακόλουθες σχεδιαστικές επιλογές, εστιάζοντας στο να διατηρήσει τη διαδικασία ανάπτυξης μοντέλου επεκτάσιμη και απλή.

Επιλέχθηκε μια τυπική αρχιτεκτονική μοντέλου αποκωδικοποιητή Transformer με μικρές μόνο προσαρμογές αντί για ένα υβριδικό έμπειρο μοντέλο για μεγιστοποίηση της σταθερότητας της προπόνησης.
Χρησιμοποιείται μια διαδικασία εκπαίδευσης μετά την επανάληψη, χρησιμοποιώντας εποπτευόμενη βελτιστοποίηση και άμεση βελτιστοποίηση προτιμήσεων σε κάθε γύρο. Αυτό επιτρέπει στο Meta να δημιουργεί συνθετικά δεδομένα υψηλότερης ποιότητας για κάθε γύρο και να βελτιώνει την απόδοση κάθε δυνατότητας.

Σε σύγκριση με τις προηγούμενες εκδόσεις του Llama, η Meta βελτίωσε την ποσότητα και την ποιότητα των δεδομένων που χρησιμοποιούνται για την προ-εκπαίδευση και τη μετεκπαίδευση, όπως η ανάπτυξη μιας πιο προσεκτικής γραμμής προεπεξεργασίας και διαχείρισης για τα προεκπαιδευτικά δεδομένα και η ανάπτυξη πιο αυστηρής διασφάλισης ποιότητας και διαχείριση δεδομένων μετά την εκπαίδευση.

Όπως αναμενόταν από τους νόμους κλιμάκωσης γλωσσικών μοντέλων, το νέο εμβληματικό μοντέλο της Meta ξεπέρασε τα μικρότερα μοντέλα που εκπαιδεύτηκαν με την ίδια διαδικασία. Η Meta χρησιμοποιεί επίσης ένα μοντέλο παραμέτρων 405B για να βελτιώσει την ποιότητα μετά την εκπαίδευση μικρότερων μοντέλων.

Για να υποστηρίξει την έξοδο συμπερασμάτων μεγάλης κλίμακας του μοντέλου 405B, η Meta κβαντοποίησε το μοντέλο από 16 bit (BF16) σε 8 bit (FP8), μειώνοντας αποτελεσματικά τις απαιτούμενες υπολογιστικές απαιτήσεις και επιτρέποντας στο μοντέλο να εκτελείται σε έναν μόνο κόμβο διακομιστή.

Τροποποιήσεις εντολών και συνομιλίας

Το Llama 3.1 405B προσπαθεί να βελτιώσει τη χρησιμότητα, την ποιότητα και τις λεπτομερείς οδηγίες που ακολουθούν τα μοντέλα ανταποκρινόμενο στις οδηγίες χρήστη, διασφαλίζοντας παράλληλα υψηλό επίπεδο ασφάλειας.

Στη φάση μετά την εκπαίδευση, η ερευνητική ομάδα κατασκεύασε το τελικό μοντέλο συνομιλίας εκτελώντας αρκετούς γύρους ευθυγράμμισης με βάση το προεκπαιδευμένο μοντέλο. Κάθε γύρος περιλαμβάνει εποπτευόμενη λεπτομέρεια (SFT), δειγματοληψία απόρριψης (RS) και βελτιστοποίηση άμεσης προτίμησης (DPO).

Η ερευνητική ομάδα χρησιμοποιεί τη δημιουργία συνθετικών δεδομένων για την παραγωγή της συντριπτικής πλειονότητας των παραδειγμάτων SFT, με πολλαπλές επαναλήψεις για την παραγωγή ολοένα και πιο υψηλής ποιότητας συνθετικών δεδομένων σε όλα τα χαρακτηριστικά. Επιπλέον, η ερευνητική ομάδα χρησιμοποίησε πολλαπλές τεχνικές επεξεργασίας δεδομένων για να φιλτράρει αυτά τα συνθετικά δεδομένα στην υψηλότερη ποιότητα και να ρυθμίσει με ακρίβεια τον όγκο δεδομένων σε όλη τη λειτουργική επεκτασιμότητα.

Σύστημα Λάμα

Το μοντέλο Llama υπήρχε πάντα ως μέρος ενός συστήματος AI και μπορεί να συντονίσει πολλαπλά στοιχεία, συμπεριλαμβανομένης της κλήσης εξωτερικών εργαλείων. Το Meta έχει σχεδιαστεί για να υπερβαίνει το βασικό μοντέλο και να παρέχει στους προγραμματιστές την ευελιξία να σχεδιάζουν και να δημιουργούν προσαρμοσμένα προϊόντα που ταιριάζουν στο όραμά τους.

Για να αναπτύξει υπεύθυνα την τεχνητή νοημοσύνη πέρα από το επίπεδο μοντέλου, η Meta κυκλοφόρησε ένα πλήρες σύστημα αναφοράς που περιλαμβάνει πολλαπλά παραδείγματα εφαρμογών καθώς και νέα στοιχεία όπως το Llama Guard 3, ένα πολύγλωσσο μοντέλο ασφαλείας και το Prompt Guard, ένα φίλτρο άμεσης έγχυσης). Αυτά τα δείγματα εφαρμογών είναι ανοιχτού κώδικα και μπορούν να δημιουργηθούν από την κοινότητα ανοιχτού κώδικα.

Προκειμένου να συνεργαστεί ευρύτερα με τη βιομηχανία, τις startups και την κοινότητα ανοιχτού κώδικα για να βοηθήσει στον καλύτερο καθορισμό των διεπαφών των στοιχείων, η Meta δημοσίευσε ένα αίτημα σχολίου για το "Llama Stack" στο GitHub. Το Llama Stack είναι ένα σύνολο τυποποιημένων διεπαφών για τη δημιουργία κανονικών στοιχείων αλυσίδας εργαλείων (λεπτομέρεια, παραγωγή συνθετικών δεδομένων) και εφαρμογών πρακτόρων. Αυτό βοηθά στην ευκολότερη επίτευξη διαλειτουργικότητας.

Σε αντίθεση με τα κλειστά μοντέλα, τα βάρη μοντέλων Llama είναι διαθέσιμα για λήψη. Οι προγραμματιστές μπορούν να προσαρμόσουν πλήρως το μοντέλο στις ανάγκες και τις εφαρμογές τους, να εκπαιδευτούν σε νέα σύνολα δεδομένων και να πραγματοποιήσουν πρόσθετη λεπτομέρεια.

Αναπτύχθηκε χρησιμοποιώντας το Llama 3.1 405B

Για τους απλούς προγραμματιστές, η ανάπτυξη ενός μοντέλου μεγάλης κλίμακας όπως το 405B είναι αναμφίβολα μια πρόκληση και απαιτεί μεγάλο όγκο υπολογιστικών πόρων και επαγγελματικές δεξιότητες. Επικοινωνώντας με την κοινότητα των προγραμματιστών, ο Meta συνειδητοποίησε ότι η ανάπτυξη της γενετικής τεχνητής νοημοσύνης είναι κάτι περισσότερο από την απλή εισαγωγή προτροπών στο μοντέλο. Αναμένουν από όλους τους προγραμματιστές να εκμεταλλευτούν πλήρως τις δυνατότητες του Llama 3.1 405B στους ακόλουθους τομείς:

Συμπεράσματα σε πραγματικό χρόνο και παρτίδες
εποπτευόμενη μικρορύθμιση
Δοκιμάστε και αξιολογήστε την απόδοση του μοντέλου σε συγκεκριμένες εφαρμογές
Συνεχής προπόνηση
Ανάκτηση επαυξημένης γενιάς (RAG)
κλήση λειτουργίας
Παραγωγή συνθετικών δεδομένων

Από την κυκλοφορία, όλες οι προηγμένες δυνατότητες του μοντέλου Llama 3.1 405B θα είναι διαθέσιμες στους προγραμματιστές για να ξεκινήσουν αμέσως. Οι προγραμματιστές μπορούν επίσης να εξερευνήσουν ροές εργασίας υψηλότερης τάξης, όπως η δημιουργία συνθετικών δεδομένων με βάση την απόσταξη μοντέλων. Σε αυτήν την αναβάθμιση, το Meta ενσωματώνει επίσης απρόσκοπτα λύσεις που παρέχονται από τους συνεργάτες AWS, NVIDIA και Databricks για να επιτύχει πιο αποτελεσματική παραγωγή αύξησης ανάκτησης (RAG). Επιπλέον, το Groq έχει βελτιστοποιηθεί για συμπέρασμα χαμηλής καθυστέρησης για την ανάπτυξη μοντέλων στο cloud και παρόμοιες βελτιώσεις απόδοσης έχουν γίνει για τοπικά συστήματα.

Η Meta έχει επίσης ενσωματώσει ένα "πακέτο δώρου εργαλείου" για το Llama 3.1 405B αυτή τη φορά, που περιλαμβάνει βασικά έργα όπως το vLLM, το TensorRT και το PyTorch, από την ανάπτυξη μοντέλων έως την ανάπτυξη "out of the box", σε ένα βήμα.

Σύνδεσμος αναφοράς: https://ai.meta.com/blog/meta-llama-3-1/

Νέα

Κυκλοφόρησε επίσημα το ισχυρότερο μοντέλο Llama 3.1 405B, Zuckerberg: Το ανοιχτό κώδικα οδηγεί μια νέα εποχή

Εισαγωγή

τα στοιχεία επικοινωνίας μου