Ξεπέρασε το μοντέλο ανοιχτού κώδικα σε επίπεδο GPT4o, το Llama 3.1 διέρρευσε: 405 δισεκατομμύρια παράμετροι, οι σύνδεσμοι λήψης είναι διαθέσιμοι

Πέρα από το μοντέλο ανοιχτού κώδικα επιπέδου GPT4o, το Llama 3.1 διέρρευσε: 405 δισεκατομμύρια παράμετροι, ο σύνδεσμος λήψης είναι διαθέσιμος

2024-07-23

Αναφορά Μηχανικής Καρδιάς

Τμήμα Σύνταξης Machine Heart

Ετοιμάστε την GPU σας!

Το Llama 3.1 εμφανίστηκε τελικά, αλλά η πηγή δεν είναι επίσημη του Meta.

Σήμερα, η είδηση που διέρρευσε για το νέο μοντέλο Llama έγινε viral στο Reddit.Εκτός από το βασικό μοντέλο, περιλαμβάνει επίσης αποτελέσματα αναφοράς 8Β, 70Β και τη μεγαλύτερη παράμετρο 405Β。

Το παρακάτω σχήμα δείχνει τα αποτελέσματα σύγκρισης κάθε έκδοσης του Llama 3.1 με το OpenAI GPT-4o και το Llama 3 8B/70B. μπορεί να ειδωθεί,Ακόμη και η έκδοση 70B υπερβαίνει το GPT-4o σε πολλαπλά σημεία αναφοράς。

Πηγή εικόνας: https://x.com/mattshumer_/status/1815444612414087294

Προφανώς, τα μοντέλα 8B και 70B της έκδοσης 3.1 είναι απόσταξη από 405B, επομένως υπάρχει σημαντική βελτίωση απόδοσης σε σχέση με την προηγούμενη γενιά.

Κάποιοι χρήστες του Διαδικτύου είπαν ότι αυτό είναιΓια πρώτη φορά, το μοντέλο ανοιχτού κώδικα ξεπέρασε τα μοντέλα κλειστού κώδικα όπως το GPT4o και το Claude Sonnet 3.5, φτάνοντας στο SOTA σε πολλαπλά σημεία αναφοράς.。

Ταυτόχρονα, διέρρευσε η κάρτα μοντέλου του Llama 3.1, ενώ διέρρευσαν και οι λεπτομέρειες (η ημερομηνία που σημειώνεται στην κάρτα μοντέλου δείχνει ότι βασίζεται στην κυκλοφορία της 23ης Ιουλίου).

Κάποιος συνόψισε τα ακόλουθα κύρια σημεία:

Το μοντέλο χρησιμοποιεί κουπόνια 15T+ από δημόσιες πηγές για εκπαίδευση και η προθεσμία για τα δεδομένα προεκπαίδευσης είναι ο Δεκέμβριος του 2023.
Τα δεδομένα μικρορύθμισης περιλαμβάνουν το δημοσίως διαθέσιμο σύνολο δεδομένων λεπτομέρειας εντολών (σε αντίθεση με το Llama 3) και 15 εκατομμύρια συνθετικά δείγματα.
Το μοντέλο υποστηρίζει πολλές γλώσσες, όπως αγγλικά, γαλλικά, γερμανικά, χίντι, ιταλικά, πορτογαλικά, ισπανικά και ταϊλανδέζικα.

Πηγή εικόνας: https://x.com/iScienceLuvr/status/1815519917715730702

Αν και ο σύνδεσμος Github που διέρρευσε είναι επί του παρόντος 404, ορισμένοι χρήστες του Διαδικτύου έχουν δώσει τον σύνδεσμο λήψης (αλλά για ασφάλεια, συνιστάται να περιμένετε την επίσημη ανακοίνωση του καναλιού απόψε):

Ωστόσο, αυτό είναι ένα μεγάλο μοντέλο με κλίμακα εκατοντάδων δισεκατομμυρίων, επομένως προετοιμάστε αρκετό χώρο στον σκληρό δίσκο πριν κάνετε λήψη:

Τα ακόλουθα είναι τα σημαντικά περιεχόμενα της κάρτας μοντέλου Llama 3.1:

Μοντέλο βασικές πληροφορίες

Το σύνολο Meta Llama 3.1 Multilingual Large Language Model (LLM) είναι ένα σύνολο προεκπαιδευμένων και λεπτομερώς συντονισμένων μοντέλων παραγωγής μεγεθών 8B, 70B και 405B (εισαγωγή κειμένου/εξαγωγή κειμένου). Τα μοντέλα μόνο κειμένου με λεπτομερή ρύθμιση εντολών Llama 3.1 (8B, 70B, 405B) είναι βελτιστοποιημένα για περιπτώσεις χρήσης πολυγλωσσικών συνομιλιών και ξεπερνούν σε απόδοση πολλά διαθέσιμα μοντέλα συνομιλίας ανοιχτού κώδικα και κλειστού κώδικα σε κοινά σημεία αναφοράς του κλάδου.

Αρχιτεκτονική μοντέλου: Το Llama 3.1 είναι ένα βελτιστοποιημένο μοντέλο γλώσσας αυτοπαλίνδρομης αρχιτεκτονικής Transformer. Η τελειοποιημένη έκδοση χρησιμοποιεί SFT και RLHF για να ευθυγραμμίσει τις προτιμήσεις χρηστικότητας και ασφάλειας.

Υποστηριζόμενες γλώσσες: Αγγλικά, Γερμανικά, Γαλλικά, Ιταλικά, Πορτογαλικά, Χίντι, Ισπανικά και Ταϊλανδικά.

Από τις πληροφορίες της κάρτας μοντέλου μπορεί να συναχθεί ότιΤα μοντέλα της σειράς Llama 3.1 έχουν μήκος περιβάλλοντος 128k . Όλες οι εκδόσεις μοντέλων χρησιμοποιούν το Grouped Query Attention (GQA) για τη βελτίωση της επεκτασιμότητας των συμπερασμάτων.

αναμενόμενη χρήση

Υποθέσεις για προβλεπόμενη χρήση. Το Llama 3.1 προορίζεται για χρήση σε πολύγλωσσες επιχειρηματικές εφαρμογές και έρευνα. Τα μοντέλα μόνο κειμένου που έχουν συντονιστεί με οδηγίες είναι κατάλληλα για συνομιλία τύπου βοηθού, ενώ τα προεκπαιδευμένα μοντέλα μπορούν να προσαρμοστούν σε μια ποικιλία εργασιών δημιουργίας φυσικής γλώσσας.

Το σετ μοντέλων Llama 3.1 υποστηρίζει επίσης τη δυνατότητα αξιοποίησης της παραγωγής του μοντέλου για τη βελτίωση άλλων μοντέλων, συμπεριλαμβανομένης της παραγωγής και της απόσταξης συνθετικών δεδομένων. Η κοινοτική άδεια Llama 3.1 επιτρέπει αυτές τις περιπτώσεις χρήσης.

Το Llama 3.1 εκπαιδεύεται σε ένα ευρύτερο σύνολο γλωσσών από τις 8 υποστηριζόμενες γλώσσες. Οι προγραμματιστές μπορούν να ρυθμίσουν τα μοντέλα Llama 3.1 για γλώσσες άλλες από τις 8 υποστηριζόμενες γλώσσες, υπό την προϋπόθεση ότι συμμορφώνονται με την κοινοτική άδεια χρήσης Llama 3.1 και την Πολιτική αποδεκτής χρήσης και είναι υπεύθυνοι σε τέτοιες περιπτώσεις να διασφαλίζουν ότι χρησιμοποιούνται άλλες γλώσσες σε ασφαλής και υπεύθυνος τρόπος Γλώσσα Λάμα 3.1.

Υποδομή λογισμικού και υλικού

Το πρώτο είναι το εκπαιδευτικό στοιχείο Llama 3.1 που χρησιμοποιεί μια προσαρμοσμένη βιβλιοθήκη εκπαίδευσης, το προσαρμοσμένο σύμπλεγμα GPU της Meta και την υποδομή παραγωγής για προ-εκπαίδευση.

Το δεύτερο είναι η προπόνηση κατανάλωσης ενέργειας Llama 3.1 που χρησιμοποιεί συνολικά 39,3 M ώρες υπολογισμού GPU σε υλικό τύπου H100-80 GB (TDP είναι 700 W). Εδώ ο χρόνος εκπαίδευσης είναι ο συνολικός χρόνος GPU που απαιτείται για την εκπαίδευση κάθε μοντέλου και η κατανάλωση ενέργειας είναι η μέγιστη χωρητικότητα ισχύος κάθε συσκευής GPU, προσαρμοσμένη για απόδοση ισχύος.

Εκπαίδευση για τις εκπομπές αερίων του θερμοκηπίου. Οι συνολικές εκπομπές αερίων θερμοκηπίου με βάση γεωγραφικά σημεία αναφοράς κατά την περίοδο εκπαίδευσης Llama 3.1 υπολογίζονται σε 11.390 τόνους ισοδύναμου CO2. Από το 2020, η Meta διατηρεί καθαρές μηδενικές εκπομπές αερίων θερμοκηπίου σε όλες τις παγκόσμιες δραστηριότητές της και αντιστοίχισε το 100% της χρήσης ηλεκτρικής ενέργειας με ανανεώσιμες πηγές ενέργειας, με αποτέλεσμα συνολικές εκπομπές αερίων θερμοκηπίου βάσει της αγοράς 0 τόνων CO2e κατά την περίοδο εκπαίδευσης .

Οι μέθοδοι που χρησιμοποιούνται για τον προσδιορισμό της χρήσης ενέργειας στην εκπαίδευση και των εκπομπών αερίων θερμοκηπίου μπορούν να βρεθούν στην ακόλουθη εργασία. Επειδή η Meta δημοσιεύει αυτά τα μοντέλα δημόσια, άλλα δεν χρειάζεται να φέρουν το βάρος της εκπαίδευσης στη χρήση ενέργειας και τις εκπομπές αερίων του θερμοκηπίου.

Διεύθυνση χαρτιού: https://arxiv.org/pdf/2204.05149

δεδομένα εκπαίδευσης

Επισκόπηση: Το Llama 3.1 είναι προεκπαιδευμένο χρησιμοποιώντας περίπου 15 τρισεκατομμύρια token δεδομένα από δημόσιες πηγές. Τα δεδομένα λεπτομέρειας περιλαμβάνουν δημόσια διαθέσιμα σύνολα δεδομένων οδηγιών και περισσότερα από 25 εκατομμύρια παραδείγματα που δημιουργούνται συνθετικά.

Ανανέωση δεδομένων: Η προθεσμία για τα δεδομένα προεκπαίδευσης είναι ο Δεκέμβριος 2023.

Βαθμολογία αναφοράς

Σε αυτήν την ενότητα, το Meta αναφέρει τα αποτελέσματα βαθμολόγησης του μοντέλου Llama 3.1 στο σημείο αναφοράς σχολιασμού. Για όλες τις αξιολογήσεις, το Meta χρησιμοποιεί βιβλιοθήκες εσωτερικών αξιολογήσεων.

Θέματα κινδύνου για την ασφάλεια

Η ερευνητική ομάδα της Llama δεσμεύεται να παρέχει στην ερευνητική κοινότητα πολύτιμους πόρους για τη μελέτη της ευρωστίας της ασφαλούς λεπτομέρειας και την παροχή στους προγραμματιστές ασφαλή και στιβαρά μοντέλα εκτός ραφιού για μια ποικιλία εφαρμογών για τη μείωση του έργου των προγραμματιστών που αναπτύσσουν ασφαλή τεχνητή νοημοσύνη ποσότητα συστημάτων.

Η ερευνητική ομάδα χρησιμοποίησε μια πολύπλευρη προσέγγιση συλλογής δεδομένων που συνδύαζε δεδομένα που παράγονται από τον άνθρωπο από προμηθευτές με συνθετικά δεδομένα για τον μετριασμό πιθανών κινδύνων ασφαλείας. Η ερευνητική ομάδα ανέπτυξε έναν αριθμό ταξινομητών που βασίζονται σε μεγάλα γλωσσικά μοντέλα (LLM) για να επιλέγουν προσεκτικά προτροπές και απαντήσεις υψηλής ποιότητας, βελτιώνοντας έτσι τον έλεγχο ποιότητας δεδομένων.

Αξίζει να αναφέρουμε ότι το Llama 3.1 αποδίδει μεγάλη σημασία στην απόρριψη μοντέλου καλοήθων προτροπών και τον τόνο απόρριψης. Η ερευνητική ομάδα εισήγαγε εντολές ορίων και αντίθετες προτροπές στην πολιτική δεδομένων ασφαλείας και τροποποίησε την απόκριση δεδομένων ασφαλείας για να ακολουθήσει τις οδηγίες τόνου.

Το μοντέλο Llama 3.1 δεν έχει σχεδιαστεί για να αναπτύσσεται αυτόνομο, αλλά θα πρέπει να αναπτυχθεί ως μέρος ενός συνολικού συστήματος AI, με πρόσθετα «προστατευτικά κιγκλιδώματα» που παρέχονται ανάλογα με τις ανάγκες. Οι προγραμματιστές θα πρέπει να εφαρμόζουν μέτρα ασφαλείας συστήματος κατά την κατασκευή συστημάτων αντιπροσώπων.

Λάβετε υπόψη ότι αυτή η έκδοση εισάγει νέες δυνατότητες, όπως μεγαλύτερα παράθυρα περιβάλλοντος, πολύγλωσση είσοδο και έξοδο, και πιθανή ενσωμάτωση προγραμματιστών με εργαλεία τρίτων. Κατά τη δημιουργία με αυτές τις νέες δυνατότητες, εκτός από την εξέταση των βέλτιστων πρακτικών που ισχύουν γενικά για όλες τις περιπτώσεις χρήσης γενετικής τεχνητής νοημοσύνης, πρέπει επίσης να δώσετε ιδιαίτερη προσοχή στα ακόλουθα ζητήματα:

Χρήση εργαλείου: Όπως και με την τυπική ανάπτυξη λογισμικού, οι προγραμματιστές είναι υπεύθυνοι για την ενοποίηση του LLM με τα εργαλεία και τις υπηρεσίες της επιλογής τους. Θα πρέπει να αναπτύξουν σαφείς πολιτικές για τις περιπτώσεις χρήσης τους και να αξιολογήσουν την ακεραιότητα των υπηρεσιών τρίτων που χρησιμοποιούν για να κατανοήσουν τους περιορισμούς ασφάλειας και ασφάλειας κατά τη χρήση αυτής της λειτουργικότητας.

Πολύγλωσσο: Το Lama 3.1 υποστηρίζει 7 γλώσσες εκτός από τα Αγγλικά: Γαλλικά, Γερμανικά, Χίντι, Ιταλικά, Πορτογαλικά, Ισπανικά και Ταϊλανδικά. Το Llama μπορεί να μπορεί να εξάγει κείμενο σε άλλες γλώσσες, αλλά αυτό το κείμενο μπορεί να μην πληροί τα όρια απόδοσης ασφάλειας και βοηθητικότητας.

Οι βασικές αξίες του Llama 3.1 είναι η ανοιχτότητα, η συμπερίληψη και η εξυπηρετικότητα. Είναι σχεδιασμένο να εξυπηρετεί όλους και είναι κατάλληλο για ποικίλες περιπτώσεις χρήσης. Επομένως, το Llama 3.1 έχει σχεδιαστεί για να είναι προσβάσιμο σε άτομα κάθε προέλευσης, εμπειρίας και προοπτικής. Το Llama 3.1 επικεντρώνεται γύρω από τους χρήστες και τις ανάγκες τους, χωρίς να εισάγει περιττές κρίσεις ή κανόνες, ενώ αντικατοπτρίζει επίσης την αναγνώριση ότι ακόμη και το περιεχόμενο που μπορεί να φαίνεται προβληματικό σε ορισμένα πλαίσια μπορεί να είναι χρήσιμο σε άλλα. Το Llama 3.1 σέβεται την αξιοπρέπεια και την αυτονομία όλων των χρηστών και, ειδικότερα, σέβεται τις αξίες της ελεύθερης σκέψης και έκφρασης που τροφοδοτούν την καινοτομία και την πρόοδο.

Αλλά το Llama 3.1 είναι μια νέα τεχνολογία, και όπως κάθε νέα τεχνολογία, υπάρχουν κίνδυνοι που συνδέονται με τη χρήση της. Οι δοκιμές που έχουν πραγματοποιηθεί μέχρι σήμερα δεν έχουν και δεν μπορούν να καλύψουν όλες τις καταστάσεις. Επομένως, όπως όλα τα LLM, τα πιθανά αποτελέσματα του Llama 3.1 δεν μπορούν να προβλεφθούν εκ των προτέρων, και σε ορισμένες περιπτώσεις το μοντέλο μπορεί να ανταποκρίνεται στις προτροπές χρήστη ανακριβώς, μεροληπτικά ή με άλλο τρόπο απαράδεκτα. Επομένως, πριν από την ανάπτυξη οποιασδήποτε εφαρμογής του μοντέλου Llama 3.1, οι προγραμματιστές θα πρέπει να διεξάγουν δοκιμές ασφαλείας και λεπτομέρεια για τη συγκεκριμένη εφαρμογή του μοντέλου.

Πηγή κάρτας μοντέλου: https://pastebin.com/9jGkYbXY

Πληροφορίες αναφοράς: https://x.com/op7418/status/1815340034717069728

https://x.com/iScienceLuvr/status/1815519917715730702

https://x.com/mattshumer_/status/1815444612414087294

Νέα

Πέρα από το μοντέλο ανοιχτού κώδικα επιπέδου GPT4o, το Llama 3.1 διέρρευσε: 405 δισεκατομμύρια παράμετροι, ο σύνδεσμος λήψης είναι διαθέσιμος

Εισαγωγή

τα στοιχεία επικοινωνίας μου