Νέα

Πώς να δημιουργήσετε ένα μοντέλο ανοιχτού κώδικα που μπορεί να νικήσει το GPT-4o Τα πάντα για το Llama 3.1 405B είναι γραμμένα στο χαρτί

2024-07-24

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina



Αναφορά Μηχανικής Καρδιάς

Τμήμα Σύνταξης Machine Heart

Μετά από μια «τυχαία διαρροή» δύο μέρες νωρίτερα, το Llama 3.1 κυκλοφόρησε τελικά επίσημα χθες το βράδυ.

Το Llama 3.1 επεκτείνει το μήκος περιβάλλοντος στα 128K και έχει τρεις εκδόσεις: 8B, 70B και 405B, για άλλη μια φορά μεμονωμένα ανεβάζοντας τα ανταγωνιστικά πρότυπα για μεγάλες πίστες μοντέλων.

Για την κοινότητα AI, η πιο σημαντική σημασία του Llama 3.1 405B είναι ότι ανανεώνει το ανώτερο όριο των δυνατοτήτων του βασικού μοντέλου ανοιχτού κώδικα, οι υπεύθυνοι της Meta είπαν ότι σε μια σειρά εργασιών, η απόδοσή του είναι συγκρίσιμη με την καλύτερη κλειστή μοντέλο πηγής.

Ο παρακάτω πίνακας δείχνει την απόδοση των σημερινών μοντέλων της σειράς Llama 3 σε βασικά σημεία αναφοράς. Φαίνεται ότι η απόδοση του μοντέλου 405B είναι πολύ κοντά σε αυτή του GPT-4o.



Την ίδια στιγμή, η Meta δημοσίευσε την εργασία «The Llama 3 Herd of Models», αποκαλύπτοντας τις μέχρι τώρα ερευνητικές λεπτομέρειες των μοντέλων της σειράς Llama 3.



Διεύθυνση χαρτιού: https://ai.meta.com/research/publications/the-llama-3-herd-of-models/

Στη συνέχεια, ας ρίξουμε μια ματιά στο περιεχόμενο του χαρτιού.

Χαρτί επισημάνσεις Llama3

1. Μετά την προεκπαίδευση χρησιμοποιώντας μήκος περιβάλλοντος 8K, το Llama 3.1 405B χρησιμοποιεί μήκος περιβάλλοντος 128K για συνεχή εκπαίδευση και υποστηρίζει τη χρήση πολλαπλών γλωσσών και εργαλείων.

2. Σε σύγκριση με το προηγούμενο μοντέλο Llama, η Meta ενίσχυσε τους αγωγούς Curation των δεδομένων προεπεξεργασίας και προεκπαίδευσης, καθώς και τις μεθόδους διασφάλισης ποιότητας και φιλτραρίσματος των δεδομένων μετά την εκπαίδευση.

Η Meta πιστεύει ότι υπάρχουν τρεις βασικοί μοχλοί για την ανάπτυξη υποκείμενων μοντέλων υψηλής ποιότητας: δεδομένα, κλίμακα και διαχείριση πολυπλοκότητας.

Πρώτον, σε σύγκριση με προηγούμενες εκδόσεις του Llama, το Meta βελτιώνει τα δεδομένα που χρησιμοποιούνται για την προ-προπόνηση και μετά την προπόνηση τόσο σε ποσότητα όσο και σε ποιότητα. Η Meta προεκπαίδευσε το Llama 3 σε ένα σώμα περίπου 15 τρισεκατομμυρίων πολύγλωσσων μάρκες, σε σύγκριση με το Llama 2 που χρησιμοποιούσε μόνο 1,8 τρισεκατομμύρια μάρκες.

Η κλίμακα του μοντέλου που εκπαιδεύτηκε αυτή τη φορά είναι πολύ μεγαλύτερη από το προηγούμενο μοντέλο Llama: το μοντέλο της ναυαρχίδας γλώσσας χρησιμοποιεί 3,8 × 10²5 λειτουργίες κινητής υποδιαστολής (FLOPs) για προ-εκπαίδευση, που είναι σχεδόν 50 φορές μεγαλύτερη από τη μεγαλύτερη έκδοση του Llama 2 .

Βάσει του νόμου Scaling, στο πλαίσιο του προϋπολογισμού εκπαίδευσης της Meta, το τρέχον μοντέλο ναυαρχίδα έχει ήδη περίπου το υπολογιστικά βέλτιστο μέγεθος, αλλά ο χρόνος εκπαίδευσης του Meta για μικρότερα μοντέλα έχει υπερβεί κατά πολύ το υπολογιστικά βέλτιστο μήκος. Τα αποτελέσματα δείχνουν ότι αυτά τα μικρότερα μοντέλα υπερτερούν των υπολογιστικά βέλτιστων μοντέλων για τον ίδιο προϋπολογισμό συμπερασμάτων. Στη φάση μετά την εκπαίδευση, η Meta χρησιμοποίησε το εμβληματικό μοντέλο 405B για να βελτιώσει περαιτέρω την ποιότητα μικρότερων μοντέλων όπως τα μοντέλα 70B και 8B.

3. Για να υποστηρίξει συμπέρασμα μαζικής παραγωγής μοντέλων 405B, το Meta κβαντίζει τα 16-bit (BF16) σε 8-bit (FP8), μειώνοντας έτσι τις απαιτήσεις υπολογιστών και επιτρέποντας στο μοντέλο να εκτελείται σε έναν μόνο κόμβο διακομιστή.

4. Η προ-εκπαίδευση του 405B σε μάρκες 15,6 Τ (3,8x10²5 FLOP) είναι μια σημαντική πρόκληση που βελτιστοποίησε ολόκληρη τη στοίβα εκπαίδευσης και χρησιμοποίησε περισσότερες από 16K H100 GPU.

Όπως είπε ο ιδρυτής της PyTorch και διακεκριμένος μηχανικός της Meta, Soumith Chintala, η εφημερίδα Llama3 αποκαλύπτει πολλές ενδιαφέρουσες λεπτομέρειες, μία από τις οποίες είναι η κατασκευή της υποδομής.



5. Μετά την εκπαίδευση, το Meta βελτιώνει το μοντέλο Chat μέσω πολλαπλών γύρων ευθυγράμμισης, συμπεριλαμβανομένης της εποπτευόμενης λεπτομέρειας (SFT), της δειγματοληψίας απόρριψης και της βελτιστοποίησης άμεσης προτίμησης. Τα περισσότερα δείγματα SFT παράγονται από συνθετικά δεδομένα.

Οι ερευνητές έκαναν πολλές επιλογές στο σχεδιασμό για να μεγιστοποιήσουν την επεκτασιμότητα της διαδικασίας ανάπτυξης του μοντέλου. Για παράδειγμα, η τυπική πυκνή αρχιτεκτονική μοντέλου Transformer επιλέχθηκε με μικρές μόνο προσαρμογές αντί για ένα μείγμα μοντέλων ειδικών για τη μεγιστοποίηση της σταθερότητας της προπόνησης. Ομοίως, υιοθετείται μια σχετικά απλή διαδικασία μετά την εκπαίδευση, που βασίζεται σε εποπτευόμενη λεπτομέρεια (SFT), δειγματοληψία απόρριψης (RS) και βελτιστοποίηση άμεσης προτίμησης (DPO), αντί για πιο σύνθετους αλγόριθμους μάθησης ενίσχυσης, οι οποίοι τείνουν να είναι λιγότερο σταθεροί και πιο δύσκολο Extension.

6. Ως μέρος της διαδικασίας ανάπτυξης του Llama 3, η ομάδα Meta ανέπτυξε επίσης πολυτροπικές επεκτάσεις του μοντέλου για να επιτρέψει την αναγνώριση εικόνας, την αναγνώριση βίντεο και την κατανόηση ομιλίας. Αυτά τα μοντέλα είναι ακόμη υπό ενεργό ανάπτυξη και δεν είναι ακόμη έτοιμα για κυκλοφορία, αλλά το έγγραφο παρουσιάζει τα αποτελέσματα προκαταρκτικών πειραμάτων με αυτά τα πολυτροπικά μοντέλα.

7. Η Meta ενημέρωσε την άδεια χρήσης της για να επιτρέπει στους προγραμματιστές να χρησιμοποιούν την έξοδο του μοντέλου Llama για να βελτιώσουν άλλα μοντέλα.

Στο τέλος αυτής της εργασίας, βλέπουμε επίσης μια μακρά λίστα συντελεστών:





Αυτή η σειρά παραγόντων δημιούργησε τελικά τη σειρά Llama 3 σήμερα.

Φυσικά, για τους απλούς προγραμματιστές, ο τρόπος χρήσης μοντέλων κλίμακας 405B είναι μια πρόκληση και απαιτεί πολλούς υπολογιστικούς πόρους και τεχνογνωσία.

Μετά την κυκλοφορία, το οικοσύστημα του Llama 3.1 είναι έτοιμο, με περισσότερους από 25 συνεργάτες να προσφέρουν υπηρεσίες που λειτουργούν με το πιο πρόσφατο μοντέλο, συμπεριλαμβανομένων των Amazon Cloud Technologies, NVIDIA, Databricks, Groq, Dell, Azure, Google Cloud και Snowflake, μεταξύ άλλων.



Για περισσότερες τεχνικές λεπτομέρειες, ανατρέξτε στο πρωτότυπο έγγραφο.