Νέα

Το Llama 3.1 γεννιέται!Ο γίγαντας του ανοιχτού κώδικα νίκησε τον κλειστό κώδικα για πρώτη φορά και η εποχή του GPT-4 για όλους έρχεται

2024-07-24

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


Νέα Έκθεση Σοφίας

Επιμέλεια: Τμήμα Σύνταξης

[Εισαγωγή στη Νέα Σοφία] Το μοτίβο των μεγάλων μοντέλων άλλαξε ξανά μέσα σε μια νύχτα. Το Llama 3.1 405B έκανε ένα μεγάλο ντεμπούτο, ξεπερνώντας το GPT-4o και το Claude 3.5 Sonnet σε πολλαπλές δοκιμές. Για πρώτη φορά στην ιστορία, ένα μοντέλο ανοιχτού κώδικα νίκησε το ισχυρότερο μοντέλο κλειστού κώδικα του σήμερα. Ο Xiao Zha είπε με τόλμη: Η τεχνητή νοημοσύνη ανοιχτού κώδικα θα κερδίσει σίγουρα, όπως τελικά κέρδισε το Linux.

Ο νέος βασιλιάς του ανοιχτού κώδικα, Llama 3.1 405B, παρουσιάστηκε επίσημα χθες το βράδυ!

Σε πολλαπλά σημεία αναφοράς, τόσο το GPT-4o όσο και το Claude 3.5 Sonnet ξεπεράστηκαν. Με άλλα λόγια, το μοντέλο SOTA κλειστού κώδικα έχει ήδη παγιδευτεί από το μοντέλο ανοιχτού κώδικα.


Μέσα σε μια νύχτα, το Llama 3.1 405B έγινε το πιο ισχυρό μοντέλο στον κόσμο.

(Ταυτόχρονα στο Διαδίκτυο, υπάρχουν και νέες εκδόσεις των μοντέλων 70B και 8B)


Ο LeCun συνόψισε πολλά βασικά σημεία της οικογένειας μοντέλων Llama 3.1:

- Απόδοση 405B συγκρίσιμη με τα καλύτερα μοντέλα κλειστού κώδικα

- Ανοιχτός κώδικας/δωρεάν για χρήση βαρών και κώδικα, επιτρέποντας τη λεπτομέρεια, την απόσταξη σε άλλα μοντέλα και την ανάπτυξη οπουδήποτε

- 128k περιβάλλον, πολυγλωσσία, καλή ικανότητα δημιουργίας κώδικα, πολύπλοκη ικανότητα συλλογισμού και ικανότητα χρήσης εργαλείων

- Το Llama Stack API επιτρέπει την εύκολη ενσωμάτωση


Η Meta αυτή τη φορά μπορεί να πει κανείς ότι εφάρμοσε το πνεύμα του ανοιχτού κώδικα μέχρι τέλους, και ταυτόχρονα κυκλοφόρησε γενναιόδωρα μια εργασία με περισσότερες από 90 σελίδες.

Ο Thomas Wolf, επικεφαλής επιστήμονας της HuggingFace, επαίνεσε: Αν θέλετε να μελετήσετε μεγάλα μοντέλα από την αρχή, αυτό το χαρτί είναι αυτό που χρειάζεστε!

Καλύπτει κυριολεκτικά τα πάντα - δεδομένα προεκπαίδευσης, φιλτράρισμα, ανόπτηση, συνθετικά δεδομένα, νόμους κλιμάκωσης, υποδομή, παράλληλη επεξεργασία, μεθόδους εκπαίδευσης, προσαρμογή μετά την εκπαίδευση, χρήση εργαλείων, συγκριτική αξιολόγηση, στρατηγικές συμπερασμάτων, κβαντοποίηση, όραση, ομιλία και βίντεο……

Ο ερευνητής AI2 Nathan Lambert εκτιμά ότι αυτό το έγγραφο Llama 3.1 90 σελίδων θα ωθήσει άμεσα την πρόοδο του μοντέλου ανοιχτού κώδικα προς τα εμπρός κατά 3-9 μήνες!


Ο Διευθύνων Σύμβουλος της Meta, Xiao Zha, έγραψε περήφανα ένα μεγάλο άρθρο: Η τεχνητή νοημοσύνη ανοιχτού κώδικα είναι ο δρόμος προς τα εμπρός.


Σε μια συνέντευξη στους New York Times, ο Xiao Zha υποστηρίζει AI ανοιχτού κώδικα

Σε αυτό το άρθρο, ο Xiao Zha θυμήθηκε συναισθηματικά την αλλαγή του Meta στο κύμα LLM--

Πέρυσι, το Llama 2 ήταν συγκρίσιμο μόνο με τα οριακά παλαιότερα μοντέλα φέτος, το Llama 3 είναι ήδη μπροστά από τα πιο προηγμένα μοντέλα από το επόμενο έτος.

Σχετικά με την ερώτηση που του έχει γίνει πολλές φορές, «ανησυχείτε μήπως χάσετε τεχνικά πλεονεκτήματα λόγω του ανοιχτού κώδικα Llama, ο Xiao Zha συνέκρινε τον εαυτό του με το Linux;».

Είπε ότι στο παρελθόν, μεγάλες εταιρείες τεχνολογίας επένδυσαν πολλά στις δικές τους εκδόσεις του Unix, αλλά στο τέλος το Linux κέρδισε το ανοιχτό κώδικα επειδή επέτρεψε στους προγραμματιστές να τροποποιήσουν τον κώδικα κατά βούληση, ο οποίος ήταν πιο προηγμένος, πιο ασφαλής και πιο εκτεταμένος οικολογικά.

Το AI, επίσης, είναι βέβαιο ότι θα αναπτυχθεί με παρόμοιο τρόπο.

Για το σκοπό αυτό, η Meta χαλάρωσε συγκεκριμένα την άδειά της, επιτρέποντας στους προγραμματιστές για πρώτη φορά να χρησιμοποιήσουν την έξοδο υψηλής ποιότητας του μοντέλου Llama 3.1 για τη βελτίωση και την ανάπτυξη μοντέλων τεχνητής νοημοσύνης τρίτων.


Netizen: Μια νέα εποχή ξεκινά

Μετά την επίσημη άρση του Llama 3.1, προκάλεσε σάλο σε ολόκληρο το δίκτυο.

Ο δάσκαλος της AI Karpathy εξέφρασε αμέσως μερικές από τις σκέψεις του:

Σήμερα, με την κυκλοφορία του μοντέλου 405B, το υπερσύγχρονο μεγάλο μοντέλο του GPT-4/Claude 3.5 Sonnet είναι ανοιχτό σε όλους για χρήση και κατασκευή για πρώτη φορά. . Τα βάρη του είναι ανοιχτού κώδικα και διαθέτουν εμπορική άδεια, επιτρέποντας τη δημιουργία συνθετικών δεδομένων, την απόσταξη και τη λεπτομερή ρύθμιση των μοντέλων.

Αυτό είναι ένα πραγματικά ανοιχτό σύνορο LLM που κυκλοφόρησε από τη Meta. Επιπλέον, κυκλοφόρησαν επίσης μια τεχνική έκθεση 92 σελίδων, η οποία περιέχει πολλές λεπτομέρειες μοντέλου: https://ai.meta.com/research/publications/the-llama-3-herd-of-models/


Η φιλοσοφία πίσω από αυτήν την έκδοση μοντέλου αναλύεται σε ένα εκτενές άρθρο του Xiao Zha, το οποίο αξίζει να διαβαστεί γιατί καλύπτει καλά όλες τις κύριες απόψεις και επιχειρήματα που υποστηρίζουν την κοσμοθεωρία του ανοιχτού οικοσυστήματος AI:

Το AI ανοιχτού κώδικα είναι το μέλλον.

Έχω πει συχνά ότι είναι ακόμη νωρίς, όπως η δεκαετία του 1980 ξανά, για το LLM να είναι το επόμενο μεγάλο υπολογιστικό παράδειγμα, και η Meta τοποθετείται ξεκάθαρα ως ηγέτης στο ανοιχτό οικοσύστημά της.

- Οι χρήστες θα ζητήσουν και θα χρησιμοποιήσουν το RAG σε αυτά τα μοντέλα

- Οι άνθρωποι θα τελειοποιήσουν το μοντέλο

- Οι άνθρωποι θα τα αποστάξουν σε μικρότερα μοντέλα ειδικών για συγκεκριμένες εργασίες και εφαρμογές

- οι άνθρωποι το ερευνούν, το συγκρίνουν, το βελτιστοποιούν

Επιπλέον, το ανοιχτό οικοσύστημα αυτο-οργανώνεται σε προϊόντα, εφαρμογές και υπηρεσίες με αρθρωτό τρόπο και κάθε συμμετέχων μπορεί να συνεισφέρει τη μοναδική του τεχνογνωσία.

Ένα παράδειγμα είναι ότι η start-up Groq με τσιπ AI έχει ενσωματώσει το μοντέλο Llama 3.1, το οποίο μπορεί να επιτύχει σχεδόν στιγμιαία συλλογιστική των μοντέλων 8B.

Ο Karpathy είπε ότι λόγω της πίεσης του διακομιστή, φαινόταν να μην μπορεί να δοκιμάσει το 405B που τρέχει στο Groq, το οποίο μπορεί να είναι το πιο ισχυρό και ταχύτερο μεγάλο μοντέλο σήμερα.


Αναμένει επίσης ότι τα μοντέλα κλειστού κώδικα θα καλύψουν σύντομα τη διαφορά και ανυπομονεί.

Ο ερευνητής Meta Tian Yuandong είπε ότι μια νέα εποχή έχει ξεκινήσει! Το LLM ανοιχτού κώδικα είναι πλέον ισοδύναμο/καλύτερο από το LLM κλειστού κώδικα!


Ο νέος βασιλιάς των μοντέλων ανοιχτού κώδικα γεννιέται.


Μετά τη δοκιμή του τελειοποιημένου Llama 3.1 8B, ο ιδρυτής του OpenPipe είπε με συγκίνηση: Δεν υπήρξε ποτέ ένα τόσο μικρό και ισχυρό μοντέλο ανοιχτού κώδικα - αποδίδει καλύτερα από το GPT-4o mini σε κάθε εργασία!



Ο ανώτερος επιστήμονας της NVIDIA Jim Fan είπε ότι η δύναμη του GPT-4 είναι στα χέρια μας. Αυτή είναι μια ιστορική στιγμή.


Λίγοι άνθρωποι δίνουν σημασία στην υποδομή πίσω από την εκπαίδευση μοντέλων AI, ο Soumith Chintala, ο πατέρας του Pytorch, σηκώθηκε και είπε ότι σε μια εγκατάσταση που έχει κατασκευαστεί με 16.000 GPU, θα συμβούν επίσης αστοχίες.

Αυτές οι λεπτομέρειες είναι κρυμμένες στο χαρτί Llama 3.1, συμπεριλαμβανομένου του τρόπου παραλληλισμού και διατήρησης της αξιοπιστίας του συστήματος. Αξίζει να αναφέρουμε ότι η ομάδα Meta πέτυχε 90% αποτελεσματικό χρόνο εκπαίδευσης στην εκπαίδευση μοντέλων.



Ορισμένοι χρήστες του Διαδικτύου έχουν αναφέρει ότι κατά τη διάρκεια της διαδικασίας επανάληψης του μοντέλου Llama, η χρήση της GPU αυξάνεται επίσης.

Llama 1: 2048 GPU

Llama 2: 4096 GPU

Llama 3.1: 16384 GPU (Στην πραγματικότητα, το Llama 3 εκπαιδεύεται σε δύο συμπλέγματα με 24.000 GPU)

Λάμα 4:......


Η πιο ισχυρή οικογένεια μοντέλων ανοιχτού κώδικα

Στην πραγματικότητα, μερικά βασικά σημεία σχετικά με τα μοντέλα της σειράς Llama 3.1 ήταν βασικά χαλασμένα χθες.

Όπως αναφέρεται στις πληροφορίες που διέρρευσαν, το Llama 3.1 μπορεί να υποστηρίξει 8 γλώσσες (Αγγλικά, Γερμανικά, Γαλλικά, Ιταλικά, Πορτογαλικά, Χίντι, Ισπανικά και Ταϊλανδικά), πολυγλωσσικούς συνομιλητές, περιπτώσεις χρήσης μετάφρασης κ.λπ.

Όσον αφορά το μήκος περιβάλλοντος, σε σύγκριση με το Llama 2 και το Llama 3, όλα τα περιβάλλοντα στα μοντέλα της σειράς Llama 3.1 έχουν αυξηθεί κατά 16 φορές, στα 128K.


Ο Meta τόνισε ότι το Llama 3.1 έχει επίσης βελτιωθεί στη χρήση εργαλείων, υποστηρίζοντας τη χρήση εργαλείου μηδενικής λήψης, συμπεριλαμβανομένης της αναζήτησης στον ιστό, των μαθηματικών πράξεων και της εκτέλεσης κώδικα.

Με βάση το μακρύ πλαίσιο, το μοντέλο όχι μόνο γνωρίζει πότε να χρησιμοποιήσει ένα εργαλείο, αλλά και πώς να το χρησιμοποιήσει και πώς να ερμηνεύσει τα αποτελέσματα.

Επιπλέον, μέσω της μικρορύθμισης, το Llama 3.1 παρέχει μεγάλη ευελιξία στην κλήση προσαρμοσμένων εργαλείων.


Κύριες ικανότητες

Πρώτον, το Llama 3.1 μπορεί να εκτελεστεί ως σύστημα ικανό να εκτελεί εργασίες "πρακτόρων":

- Αναλύστε τις εργασίες και εκτελέστε συλλογισμό πολλαπλών βημάτων

- χρησιμοποιήστε εργαλεία

- Ενσωματωμένα εργαλεία: τα μοντέλα διαθέτουν τις δικές τους γνώσεις για εργαλεία όπως η αναζήτηση ή οι διερμηνείς κώδικα

- Μηδενική μάθηση: το μοντέλο μπορεί να μάθει να καλεί εργαλεία μέσω ορισμών εργαλείων με βάση τα συμφραζόμενα που δεν έχει δει στο παρελθόν

Για παράδειγμα, ρωτώντας το μοντέλο: "Αυτό είναι ένα αρχείο CSV, μπορείτε να περιγράψετε τι περιέχει;"

Θα αναγνωρίσει ότι: Αυτό το αρχείο CSV περιέχει μηνιαίους ρυθμούς πληθωρισμού για πολλά χρόνια και η στήλη έτους υποδεικνύει το έτος για κάθε σύνολο μηνιαίων ποσοστών πληθωρισμού.


Στη συνέχεια, μπορούμε να του ζητήσουμε να σχεδιάσει το γράφημα με την πάροδο του χρόνου.


Στη συνέχεια, μπορεί επίσης να ολοκληρώσει μια σειρά από δύσκολες εργασίες, όπως να σχεδιάσει την τάση του S&P500 στο ίδιο γράφημα.


Μόλις τελειώσετε, μπορείτε να αλλάξετε το μέγεθος του γραφήματος για να προσθέσετε πληροφορίες σε διαφορετικούς άξονες.


Όπως φαίνεται παραπάνω, το Llama 3.1 υποστηρίζει 8 γλώσσες, επομένως είναι ικανό για μετάφραση πολλών γλωσσών.

Μπορούμε να μεταφράσει το παραμύθι Χάνσελ και Γκρέτελ (The Candy House) στα ισπανικά.


Ακόμη και όταν αντιμετωπίζετε πιο περίπλοκες ερωτήσεις συλλογισμού, το Llama 3.1 μπορεί εύκολα να κερδίσει.

"Έχω 3 πουκάμισα, 5 ζευγάρια σορτς και 1 φόρεμα. Πάω ένα ταξίδι 10 ημερών. Είναι αρκετά ρούχα για τις διακοπές μου;"

Η τεχνητή νοημοσύνη αποσυνθέτει τις γνωστές συνθήκες, φαντάζεται ένα λογικό σχέδιο αντιστοίχισης για μπλούζες, σορτς και φούστες και προτείνει ότι είναι καλύτερο να φέρετε περισσότερα τοπ.


Αφού ολοκληρώθηκε το σκεπτικό, μας παρείχε επίσης προσεκτικά έναν πιο λεπτομερή ταξιδιωτικό οδηγό και λίστα αποσκευών.


Μπορούμε επίσης να αφήσουμε το AI να γράφει κώδικα με το χέρι.

Για παράδειγμα, αφήστε το να δημιουργήσει ένα πρόγραμμα που χρησιμοποιεί έναν αναδρομικό αλγόριθμο ανάδρομης παρακολούθησης ή έναν αλγόριθμο αναζήτησης πρώτου βάθους για να δημιουργήσει έναν τέλειο λαβύρινθο με προσαρμόσιμο μέγεθος και πολυπλοκότητα.

Μόλις ξεκίνησε το AI, βγήκε από τον κώδικα Python του προγράμματος λαβύρινθου.


Αφού συμπληρωθεί ο κώδικας, το AI δίνει επίσης μια λεπτομερή εξήγηση.


Στη συνέχεια, εάν θέλουμε να προσαρμόσουμε το πρόγραμμα, ο βοηθός κώδικα AI μας παρέχει αντίστοιχες προτάσεις κωδικών-ρυθμίζοντας το πλάτος και το ύψος.


Αποτελέσματα αξιολόγησης

Προκειμένου να αξιολογήσει την απόδοση του Llama3.1, το Meta όχι μόνο συμπεριέλαβε 150 σύνολα δεδομένων αναφοράς που καλύπτουν πολλές γλώσσες στη δοκιμή, αλλά το σύγκρινε και σε πραγματικά σενάρια.

Σε μια ποικιλία εργασιών, το 405B μπορεί να ανταγωνιστεί κορυφαία μοντέλα κλειστού κώδικα όπως τα GPT-4, GPT-4o και Claude 3.5 Sonnet.


Τα μικρά μοντέλα 8B και 70B είχαν επίσης καλή απόδοση σε μοντέλα κλειστού και ανοιχτού κώδικα με παρόμοια ποσά παραμέτρων.

Εκτός από τις εργασίες μακράς διάρκειας, τα μοντέλα 8B και 70B πέτυχαν SOTA σε γενικές εργασίες, κωδικοποίηση, μαθηματικά, συλλογισμό, χρήση εργαλείων και πολλές γλώσσες.


Στην ανθρώπινη αξιολόγηση, το μοντέλο Llama 3.1 405B είναι στο ίδιο επίπεδο με το GPT-4, αλλά ελαφρώς χειρότερο από το GPT-4o.

Ωστόσο, σε σύγκριση με το Claude 3.5 Sonnet, το μεγάλο μοντέλο 405B έχει ένα πλεονέκτημα, με ποσοστό νίκης 24,9%.


Επιπλέον, στην κατάταξη της Scale, η τελειοποιημένη έκδοση του Llama 3.1 405B συνέτριψε το Claude 3.5 Sonnet και το GPT-4o στις οδηγίες μετά την αξιολόγηση.

Στις μαθηματικές εργασίες, ο 405B κατετάγη δεύτερος πίσω από τον Claude 3.5 Sonnet. Ωστόσο, το Llama 3.1 σημείωσε σχετικά χαμηλή βαθμολογία στις εργασίες κωδικοποίησης.


Εξαιρετικά λεπτομερής τεχνική έκθεση 92 σελίδων

Κανείς δεν μπορεί να ανοίξει τόσο λεπτομερή κώδικα όσο το Meta Η μακροσκελής τεχνική έκθεση 92 σελίδων κυκλοφορεί επίσης σήμερα.


Διεύθυνση χαρτιού: https://ai.meta.com/research/publications/the-llama-3-herd-of-models/

Το έγγραφο προτείνει ότι το Llama 3.1, ένα βασικό μοντέλο υψηλής ποιότητας, έχει τρεις βασικούς μοχλούς: διαχείριση δεδομένων, κλίμακας και πολυπλοκότητας.

Όσον αφορά τα δεδομένα, σε σύγκριση με την προηγούμενη γενιά, ο συνολικός όγκος και η ποιότητα των δεδομένων στο Llama 3.1 έχουν βελτιωθεί, όπως πιο προσεκτική προεπεξεργασία και διαχείριση των δεδομένων προεκπαίδευσης και αυστηρότερες μέθοδοι διασφάλισης ποιότητας και φιλτραρίσματος για μετά την εκπαίδευση δεδομένα.

Το Llama 2 προπονήθηκε μόνο σε δεδομένα διακριτικών 1.8T, ενώ το πολυγλωσσικό προεκπαιδευτικό σώμα του Llama 3.1 έφτασε τα 15.6T token, μια αύξηση πάνω από 8 φορές.

Όσον αφορά την κλίμακα, η εκπαίδευση του Llama 3.1 χρησιμοποιεί περισσότερες από 16.000 NVIDIA H100 GPU και το συνολικό ποσό υπολογισμού φτάνει τα 3,8e25 FLOPS, που είναι σχεδόν 50× αυτού του Llama 2.

Προκειμένου να επιτευχθεί καλύτερα η "κλιμάκωση", το έγγραφο προτείνει συγκεκριμένα την πτυχή της "διαχείρισης πολυπλοκότητας". Κατά την επιλογή της αρχιτεκτονικής και των αλγορίθμων μοντέλων, πρέπει να δοθεί μεγαλύτερη προσοχή στη σταθερότητα και την επεκτασιμότητα τους.

Αξίζει να σημειωθεί ότι το Llama 3.1 δεν χρησιμοποιεί την πιο δημοφιλή αρχιτεκτονική MoE, αλλά έναν πυκνό Transformer αρχιτεκτονικής μόνο για αποκωδικοποιητή. Μόνο η αρχική αρχιτεκτονική του Transformer έχει τροποποιηθεί και προσαρμοστεί για να μεγιστοποιηθεί η σταθερότητα της εκπαίδευσης.

Παρόμοιες προσεγγίσεις περιλαμβάνουν τη χρήση απλών διαδικασιών μετά την εκπαίδευση, όπως SFT, RS και DPO αντί για πιο σύνθετους αλγόριθμους μάθησης ενίσχυσης.

Παρόμοια με πολλά μεγάλα μοντέλα, η ανάπτυξη του Llama 3 περιλαμβάνει κυρίως δύο στάδια: προ-εκπαίδευση και μετα-προπόνηση.

Κατά τη διάρκεια της προπόνησης, η "πρόβλεψη του επόμενου διακριτικού" χρησιμοποιείται επίσης ως στόχος εκπαίδευσης Πρώτα, το παράθυρο περιβάλλοντος ορίζεται σε 8K και, στη συνέχεια, επεκτείνεται σε 128K κατά το στάδιο της προπόνησης.

Η φάση μετά την εκπαίδευση βελτιώνει το μοντέλο μέσω πολλαπλών κύκλων επαναληπτικής ανθρώπινης ανατροφοδότησης, βελτιώνοντας σημαντικά την απόδοση κωδικοποίησης και συμπερασμάτων και ενσωματώνοντας τις δυνατότητες χρήσης του εργαλείου.

Επιπλέον, η εργασία επιχειρεί επίσης να χρησιμοποιήσει τρία πρόσθετα στάδια για την προσθήκη πολλαπλών λειτουργιών όπως εικόνες, βίντεο και φωνές στο Llama 3.1:

- Προεκπαίδευση κωδικοποιητή πολλαπλών τρόπων: Οι κωδικοποιητές εικόνας και ομιλίας εκπαιδεύονται χωριστά Τα προπονητικά δεδομένα για τους πρώτους είναι ζεύγη εικόνας-κειμένου, ενώ ο δεύτερος χρησιμοποιεί μια αυτοεποπτευόμενη μέθοδο για να προσπαθήσει να ανακατασκευάσει τα καλυμμένα μέρη του. ομιλία μέσω διακριτικών σημείων.

- Προσαρμογέας όρασης: αποτελείται από μια σειρά επιπέδων διασταυρούμενης προσοχής που εισάγουν αναπαραστάσεις από κωδικοποιητές εικόνας σε προεκπαιδευμένα μοντέλα γλώσσας. Με βάση εικόνες, η εφημερίδα προσπάθησε επίσης να εκπαιδεύσει έναν προσαρμογέα βίντεο σε ζεύγη βίντεο-κειμένου.

- Προσαρμογέας ομιλίας: συνδέει κωδικοποιητές ομιλίας και μοντέλα γλώσσας και επίσης ενσωματώνει συστήματα "κείμενο σε ομιλία".


Δυστυχώς, τα προαναφερθέντα χαρακτηριστικά πολλαπλών τρόπων είναι ακόμα υπό ανάπτυξη και ως εκ τούτου δεν περιλαμβάνονται στο νέο Llama 3.1 που κυκλοφόρησε.

Μοντέλο αρχιτεκτονικής

Το Llama 3.1 εξακολουθεί να χρησιμοποιεί τον τυπικό πυκνό Transformer και δεν υπάρχει σημαντική διαφορά στην αρχιτεκτονική από το Llama και το Llama 2. Η βελτίωση της απόδοσης προέρχεται κυρίως από τη βελτίωση της ποιότητας των δεδομένων εκπαίδευσης, της ποικιλομορφίας και της επέκτασης κλίμακας.


Σε σύγκριση με το Llama 3, η αρχιτεκτονική του Llama 3.1 έχει τις ακόλουθες βελτιώσεις:

- Ομαδοποιημένο ερώτημα Προσοχή (GQA): Με 8 κεφαλίδες κλειδιού-τιμής, βελτιώνει την ταχύτητα συμπερασμάτων και μειώνει την κρυφή μνήμη KV κατά την αποκωδικοποίηση

- Μάσκα προσοχής: Αποτρέψτε την αυτοπροσοχή μεταξύ διαφορετικών εγγράφων με την ίδια σειρά.Αυτή η τεχνική έχει περιορισμένη αποτελεσματικότητα στην τυπική προ-προπόνηση, αλλά είναι πολύ σημαντική όταν συνεχίζετε την προ-προπόνηση σε πολύ μεγάλες ακολουθίες.

- 128K token λεξιλόγιο: περιλαμβάνει 100K στο tiktoken και επιπλέον 28K για την καλύτερη υποστήριξη μη αγγλικών γλωσσών.Βελτιωμένος λόγος συμπίεσης τόσο για Αγγλικά όσο και για μη Αγγλικά σε σύγκριση με το Llama 2

- Ορίστε την υπερπαράμετρο θ του RoPE σε 500.000: καλύτερη υποστήριξη για μεγάλα περιβάλλοντα

Οι βασικές υπερπαράμετροι του μοντέλου φαίνονται στον Πίνακα 3. Με βάση την ποσότητα δεδομένων και την εκπαιδευτική υπολογιστική ισχύ, το μέγεθος του μοντέλου έχει φτάσει στη βελτιστοποίηση υπολογιστικής ισχύος που αποκαλύπτεται από τον νόμο κλιμάκωσης.


Παράλληλη αποτελεσματικότητα

Το να εκπαιδεύσετε ένα μοντέλο 405B σε 16.000 GPU, είναι ήδη ένα μεγάλο έργο, λαμβάνοντας υπόψη τον παραλληλισμό και τον χειρισμό σφαλμάτων.

Εκτός από το ίδιο το μοντέλο, η εργασία εξηγεί επίσης το σχήμα παραλληλοποίησης που χρησιμοποιείται στη διαδικασία εκπαίδευσης, καθώς και την αποθήκευση, το δίκτυο και άλλες υποδομές.

Η εκπαίδευση του Llama 3.1 χρησιμοποιεί 4D παραλληλισμό (τανυστής + αγωγός + πλαίσιο + δεδομένα, με ακρίβεια BF16, η χρήση GPU (MFU) είναι περίπου 38% έως 41%.


Ο χειρισμός σφαλμάτων του προπονητικού συμπλέγματος Llama 3.1 είναι επίσης πολύ καλός, αγγίζοντας περισσότερο από το 90% του αποτελεσματικού χρόνου προπόνησης, αλλά αυτό σημαίνει ότι υπάρχει τουλάχιστον μία διακοπή κάθε μέρα κατά τη διάρκεια των συνολικών 54 ημερών προ-προπόνησης.

Η εργασία παραθέτει λεπτομερώς τις αιτίες σφαλμάτων και των 419 απροσδόκητων διακοπών (Πίνακας 5), κάτι που έχει πολύ σημαντική σημασία αναφοράς για τη μελλοντική κατασκευή συμπλέγματος GPU. Μεταξύ αυτών, το 78% των προβλημάτων επιβεβαιώθηκε ή υποψιάστηκε ότι σχετίζονται με το υλικό.


Δεδομένου ότι η αυτοματοποιημένη λειτουργία και συντήρηση του συμπλέγματος είναι σχετικά ολοκληρωμένη, αν και υπάρχουν πολλές αστοχίες, οι περισσότερες από αυτές μπορούν να αντιμετωπιστούν αυτόματα. Κατά τη διάρκεια ολόκληρης της διαδικασίας, μόνο τρεις αστοχίες απαιτούσαν χειροκίνητη παρέμβαση.

Βελτιώστε την απόδοση συγκεκριμένων δυνατοτήτων

κώδικας

Για να βελτιώσει την ικανότητα κωδικοποίησης του μοντέλου, το Meta χρησιμοποιεί μεθόδους όπως εκπαίδευση ειδικών κωδικοποίησης, δημιουργία συνθετικών δεδομένων SFT, καθοδήγηση βελτιωμένων μορφών μέσω μηνυμάτων συστήματος και δημιουργία φίλτρων ποιότητας (αφαίρεση κακών δειγμάτων από τα δεδομένα εκπαίδευσης).


Μετατροπή κώδικα Python (αριστερά) σε κώδικα PHP (δεξιά) χρησιμοποιώντας το Llama 3 για να αυξήσετε το σύνολο δεδομένων SFT με ένα ευρύτερο φάσμα γλωσσών προγραμματισμού


Βελτιώστε την ποιότητα του κώδικα μέσω βελτιώσεων του συστήματος.Αριστερά: Δεν υπάρχει προτροπή συστήματος Δεξιά: Υπάρχει ερώτηση συστήματος.

πολύγλωσσος

Προκειμένου να βελτιωθούν οι πολυγλωσσικές δυνατότητες του Llama 3, η Meta εκπαίδευσε ειδικά έναν ειδικό που μπορεί να χειριστεί περισσότερα πολύγλωσσα δεδομένα για να αποκτήσει και να δημιουργήσει υψηλής ποιότητας δεδομένα λεπτομέρειας πολύγλωσσων οδηγιών (όπως γερμανικά, γαλλικά, ιταλικά, πορτογαλικά, χίντι (Αγγλικά, Ισπανικά και Ταϊλανδικά) και αντιμετωπίζουν συγκεκριμένες προκλήσεις στην πολύγλωσση ενσωμάτωση.


μαθηματικός συλλογισμός

Τα μοντέλα εκπαίδευσης που είναι καλά στη μαθηματική συλλογιστική αντιμετωπίζουν πολλές προκλήσεις, όπως έλλειψη υποδείξεων, έλλειψη πραγματικού CoT, λανθασμένα ενδιάμεσα βήματα, ανάγκη να διδάξουμε το μοντέλο να χρησιμοποιεί εξωτερικά εργαλεία, τη διαφορά μεταξύ εκπαίδευσης και συμπερασμάτων κ.λπ.

Για το σκοπό αυτό, η Meta υιοθετεί τις ακόλουθες μεθόδους: επίλυση του προβλήματος των ανεπαρκών υποδείξεων, ενίσχυση της σταδιακής διαδικασίας συλλογισμού στα δεδομένα εκπαίδευσης, φιλτράρισμα της λανθασμένης συλλογιστικής διαδικασίας, συνδυασμός συλλογισμού κώδικα και κειμένου και εκμάθηση από ανατροφοδότηση και σφάλματα.


μακρύ πλαίσιο

Στο τελικό στάδιο προ-προπόνησης, το Meta επεκτείνει το μήκος περιβάλλοντος του Llama 3 από 8K tokens σε 128K.

Στην πράξη, η ομάδα διαπίστωσε ότι η χρήση μόνο σύντομων δεδομένων περιβάλλοντος για το SFT θα οδηγούσε σε σημαντική υποβάθμιση των δυνατοτήτων μακροσκελούς περιβάλλοντος του μοντέλου και η ανάγνωση μεγάλων πλαισίων είναι πολύ κουραστική και χρονοβόρα, επομένως δεν είναι πρακτικό για τους ανθρώπους να επισημαίνουν τέτοια παραδείγματα.

Ως εκ τούτου, η Meta επέλεξε τα συνθετικά δεδομένα για να καλύψει αυτό το κενό.

Χρησιμοποιώντας μια πρώιμη έκδοση του Llama 3, δημιούργησαν συνθετικά δεδομένα βασισμένα σε βασικές περιπτώσεις χρήσης μακροπρόθεσμου πλαισίου: (πολλαπλοί γύροι) απάντηση ερωτήσεων, σύνοψη μακροσκελούς εγγράφου, συμπέρασμα βάσης κώδικα.

Χρήση εργαλείου

Η Meta εκπαίδευσε το Llama 3 να αλληλεπιδρά με μηχανές αναζήτησης, διερμηνείς Python και μηχανές μαθηματικών υπολογισμών.

Κατά τη διαδικασία ανάπτυξης, καθώς το Llama 3 βελτιωνόταν σταδιακά, ο Meta περιέπλεξε επίσης σταδιακά το πρωτόκολλο χειροκίνητου σχολιασμού. Ξεκινήστε με τον σχολιασμό της χρήσης εργαλείου μίας στροφής, μεταβείτε στη χρήση εργαλείων στις συνομιλίες και τελειώστε με τον σχολιασμό της χρήσης εργαλείων πολλαπλών βημάτων και της ανάλυσης δεδομένων.


Το Llama 3 εκτελεί σχεδιασμό πολλαπλών βημάτων, συλλογισμό και επίκληση εργαλείων για την επίλυση εργασιών


Με βάση το παρεχόμενο αρχείο, ζητήστε από το μοντέλο να συνοψίσει το περιεχόμενο του αρχείου, να βρει και να διορθώσει σφάλματα, να βελτιστοποιήσει τον κώδικα, να εκτελέσει ανάλυση δεδομένων ή οπτικοποίηση κ.λπ.

πραγματικός

Για το πρόβλημα των ψευδαισθήσεων, μια αναγνωρισμένη πρόκληση του LLM, ο Meta ακολουθεί μια προσέγγιση με την πρώτη παραίσθηση.

Η αρχή που ακολουθούν είναι ότι μετά την εκπαίδευση το μοντέλο πρέπει να «ξέρει τι ξέρει» αντί να προσθέτει γνώση.

Ικανότητα προς ελιγμό

Για το Llama 3, το Meta ενισχύει την ικανότητα ελιγμών του μέσω μηνυμάτων συστήματος με οδηγίες φυσικής γλώσσας, ειδικά σχετικά με το μήκος, τη μορφή, τον τόνο και την προσωπικότητα/προσωπικότητα της απόκρισης.


"Είστε ένα χρήσιμο, χαρούμενο chatbot AI που χρησιμεύει ως βοηθός προγραμματισμού γευμάτων για πολυάσχολες οικογένειες."

μέλος της ομάδας

Η ομάδα του Llama 3 μπορούμε να πούμε ότι είναι πολύ μεγάλη, με σχεδόν 220 βασικά μέλη μόνο και 312 άλλους συντελεστές.




Xiao Zha: Η τεχνητή νοημοσύνη ανοιχτού κώδικα είναι το μέλλον

Όπως όλοι γνωρίζουμε, ο Xiao Zha ήταν πάντα πιστός υποστηρικτής της τεχνητής νοημοσύνης ανοιχτού κώδικα.

Αυτή τη φορά δεν είναι τόσο απλό όσο η κυκλοφορία ενός νέου και ισχυρότερου μοντέλου, αλλά και η υπόσχεση να φέρει την τεχνητή νοημοσύνη ανοιχτού κώδικα στο προσκήνιο.


Στο blog του, ο Xiao Zha άντλησε άμεσα μαθήματα από την ιστορία. Στο παρελθόν, μεγάλες εταιρείες τεχνολογίας επένδυσαν πολλά στην ανάπτυξη εκδόσεων Unix κλειστού κώδικα.

Το πεδίο μάχης του Unix μάχεται σκληρά, αλλά αυτός που έχει το τελευταίο γέλιο είναι το Linux ανοιχτού κώδικα.


Το Linux αρχικά προτιμήθηκε από τους προγραμματιστές επειδή επέτρεπε στους προγραμματιστές να τροποποιήσουν τον κώδικα κατά βούληση και ήταν πιο προσιτό.

Αλλά με την πάροδο του χρόνου, έγινε πιο προηγμένο, πιο ασφαλές και είχε περισσότερες λειτουργίες που υποστηρίζονταν από ένα ευρύτερο οικοσύστημα από οποιοδήποτε κλειστό Unix.

Σήμερα, το Linux είναι το βιομηχανικό πρότυπο για το cloud computing και τα περισσότερα λειτουργικά συστήματα φορητών συσκευών, και όλοι επωφελούνται.

Ο Xiao Zha πιστεύει ότι η αναπτυξιακή τροχιά της τεχνητής νοημοσύνης θα είναι επίσης η ίδια και θα δείξει το δάχτυλο στο μοντέλο κλειστού κώδικα «πολλών εταιρειών τεχνολογίας».


«Σήμερα, αρκετές εταιρείες τεχνολογίας αναπτύσσουν κορυφαία κλειστά μοντέλα, αλλά ο ανοιχτός κώδικας κλείνει γρήγορα το χάσμα».

Το τόλμημα του Xiao Zha να το ονομάσει ευθέως ενισχύεται φυσικά από τη δύναμή του Πέρυσι, το Llama 2 εξακολουθούσε να υστερεί σε σχέση με το προηγμένο μοντέλο παλιάς γενιάς.

Φέτος, το Llama 3 μπορεί να ανταγωνιστεί άλλα γιγάντια μοντέλα όσον αφορά τις επιδόσεις.

Το Llama 3.1 405B είναι το πρώτο μοντέλο ανοιχτού κώδικα τεχνητής νοημοσύνης αιχμής.

Γιατί το AI ανοιχτού κώδικα είναι καλό για προγραμματιστές;

Για τους προγραμματιστές, υπάρχουν πέντε σημαντικά πλεονεκτήματα από την προσκόλληση στο μοντέλο ανοιχτού κώδικα:

Πρώτον, τα μοντέλα ανοιχτού κώδικα επιτρέπουν στους προγραμματιστές να εκπαιδεύουν ελεύθερα, να τελειοποιούν και να αποστάζουν τα δικά τους μοντέλα.

Οι ανάγκες κάθε προγραμματιστή είναι διαφορετικές, με τις εργασίες στη συσκευή και τις εργασίες ταξινόμησης να απαιτούν μικρά μοντέλα, ενώ οι πιο σύνθετες εργασίες απαιτούν μεγάλα μοντέλα.

Αξιοποιώντας υπερσύγχρονα μοντέλα ανοιχτού κώδικα, οι προγραμματιστές μπορούν να συνεχίσουν την εκπαίδευση με τα δικά τους δεδομένα, αποσταγμένα στο ιδανικό μέγεθος.

Δεύτερον, μπορείτε να αποφύγετε τους περιορισμούς από έναν μόνο προμηθευτή.

Οι προγραμματιστές δεν θέλουν να βασίζονται σε ένα μοντέλο που δεν μπορούν να τρέξουν και να ελέγξουν και δεν θέλουν οι προμηθευτές να αλλάξουν το μοντέλο, να τροποποιήσουν τους όρους χρήσης ή ακόμα και να σταματήσουν εντελώς την υπηρεσία.

Και ο ανοιχτός κώδικας επιτρέπει στα μοντέλα να εναλλάσσονται και να αναπτύσσονται εύκολα, δημιουργώντας ένα ευρύ οικοσύστημα.

Τρίτον, προστατεύστε την ασφάλεια των δεδομένων.

Οι προγραμματιστές πρέπει να διασφαλίζουν την ασφάλεια των δεδομένων όταν ασχολούνται με ευαίσθητα δεδομένα, κάτι που απαιτεί να μην μπορούν να τα στείλουν σε μοντέλα κλειστού κώδικα μέσω API.

Είναι γνωστό ότι το λογισμικό ανοιχτού κώδικα είναι γενικά πιο ασφαλές λόγω μιας πιο διαφανούς διαδικασίας ανάπτυξης.

Τέταρτον, λειτουργεί αποτελεσματικά και με χαμηλότερο κόστος.

Το κόστος συμπερασμάτων για προγραμματιστές που εκτελούν το Llama 3.1 405B είναι μόνο το μισό από αυτό του GPT-4o, είτε πρόκειται για εργασίες εξαγωγής συμπερασμάτων από την πλευρά του χρήστη είτε εκτός σύνδεσης.

Πέμπτον, από μακροπρόθεσμη προοπτική, ο ανοιχτός κώδικας θα γίνει πρότυπο για ολόκληρη τη βιομηχανία.

Στην πραγματικότητα, ο ανοιχτός κώδικας εξελίσσεται ταχύτερα από τα μοντέλα κλειστού κώδικα και οι προγραμματιστές θέλουν να μπορούν να χτίζουν τα συστήματά τους σε αρχιτεκτονικές που έχουν μακροπρόθεσμα πλεονεκτήματα.

Κατά την άποψη του Xiao Zha, η κυκλοφορία του Llama 3.1 θα γίνει σημείο καμπής στον κλάδο, καθιστώντας τον ανοιχτό κώδικα όλο και πιο ασταμάτητο.

Βιβλιογραφικές αναφορές:

https://ai.meta.com/blog/meta-llama-3-1/

https://llama.meta.com/

https://www.facebook.com/4/posts/10115716861061241/?rdid=VE0wPWaJDdF21j32