Διέρρευσε ο μαγνητικός σύνδεσμος Llama 3.1 πριν από το χρονοδιάγραμμα! Ο θρόνος του μοντέλου ανοιχτού κώδικα άλλαξε χέρια μέσα σε μια νύχτα, το GPT-4o ξεπεράστηκε

Διέρρευσε ο μαγνητικός σύνδεσμος Llama 3.1 πριν από το χρονοδιάγραμμα!Ο θρόνος του μοντέλου ανοιχτού κώδικα άλλαξε χέρια μέσα σε μια νύχτα, το GPT-4o ξεπεράστηκε

2024-07-23

Νέα Έκθεση Σοφίας

Επιμέλεια: Τμήμα Σύνταξης

[Εισαγωγή στη Νέα Σοφία] Το Llama 3.1 διέρρευσε ξανά εκ των προτέρων! Η κοινότητα των προγραμματιστών είναι και πάλι σε φρενίτιδα: το μεγαλύτερο μοντέλο είναι το 405B, τα μοντέλα 8B και 70B αναβαθμίζονται επίσης ταυτόχρονα και το μέγεθος του μοντέλου είναι περίπου 820 GB. Τα αποτελέσματα των δοκιμών αναφοράς είναι εκπληκτικά και ο μαγνητικός σύνδεσμος κυκλοφορεί άγρια σε ολόκληρο το δίκτυο.

Η ιστορία επαναλαμβάνεται ξανά, το Llama 3.1 405B διέρρευσε εκ των προτέρων!

Τώρα, η είδηση έχει διαδοθεί για τα σημεία αναφοράς και τους μαγνητικούς συνδέσμους.

Εκτός από το μεγαλύτερο 405B, η Meta αναβάθμισε επίσης τα μοντέλα 8B και 70B που κυκλοφόρησαν στις αρχές Μαΐου αυτή τη φορά και αύξησε το μήκος περιβάλλοντος στα 128K.

Σε αυτό το σημείο, η έκδοση μοντέλου έχει επαναληφθεί επίσημα από το Llama 3 στο Llama 3.1.

Σύμφωνα με τις πληροφορίες που παρέχονται από το magnet link, το μέγεθος του νέου μοντέλου είναι 763,48GiB (περίπου 820GB).

Μπορεί να φανεί από τη «δοκιμή αναφοράς» που διέρρευσε ότι ακόμη και το μικρό μοντέλο 8Β είναι ικανό να παίξει, ενώ η απόδοση του μοντέλου 70Β μπορεί να φτάσει το GPT-4o σε πολλαπλά σημεία αναφοράς.

Οι προγραμματιστές ήταν έξαλλοι αφού είδαν τα αποτελέσματα των δοκιμών, ο Διευθύνων Σύμβουλος της Τοπολογίας, Aidan McLau, αναφώνησε ——

Εάν τα σημεία αναφοράς του Llama 3-405B ήταν αληθινά, θα ήταν

- Γίνε το καλύτερο μοντέλο στον κόσμο

- Ρυθμιζόμενο για όλους

- Φθηνότερο από το GPT-4o!

Ο Διευθύνων Σύμβουλος της HyperWriteAI Matt Schumer προβλέπει: Θα γίνει σίγουρα το SOTA στο μοντέλο ανοιχτού κώδικα. (Ακόμη και το 70B μπορεί να ανταγωνιστεί το GPT-4o, για να μην αναφέρουμε ότι αυτό είναι πριν από τη λεπτομερή ρύθμιση των οδηγιών.)

Φανταστείτε ένα μοντέλο επιπέδου GPT-4o που τρέχει με 330 μάρκες ανά δευτερόλεπτο και 10 φορές φθηνότερο. Αυτό είναι τόσο συναρπαστικό.

Αύριο θα είναι μια άγρια μέρα!

Και τα λόγια του Xiao Zha υπαινίσσονται την άφιξη του 405B - την ήσυχη στιγμή πριν από τη μοιραία εβδομάδα.

Πολλοί χρήστες του Διαδικτύου ρωτούν το OpenAI στο διαδίκτυο: Πότε θα κυκλοφορήσει το νέο μοντέλο;

Οικογένεια Llama 3.1, που κυκλοφόρησε αύριο

Σύμφωνα με την κάρτα μοντέλου που διέρρευσε, το Llama 3.1 θα κυκλοφορήσει στις 23.

Οι άδειες είναι "Custom Commercial License" και "Llama 3.1 Community License".

Κάρτα μοντέλου που διέρρευσε: https://pastebin.com/9jGkYbXY

Συγκεκριμένα, το πολύγλωσσο μεγάλο μοντέλο σειράς Llama 3.1 είναι ένα σύνολο προεκπαιδευμένων και βελτιστοποιημένων οδηγιών παραγωγής μοντέλων, συμπεριλαμβανομένων τριών μεγεθών παραμέτρων των 8B, 70B και 405B.

Μοντέλα Llama 3.1 μόνο για κείμενο (8B, 70B, 405B) μετά από τελειοποίηση οδηγιών, βελτιστοποιημένα για περιπτώσεις χρήσης πολυγλωσσικών συνομιλιών.

Εκτός από τα αγγλικά, μπορεί να υποστηρίξει 7 γλώσσες, συμπεριλαμβανομένων των γερμανικών, γαλλικών, ιταλικών, πορτογαλικών, χίντι, ισπανικών και ταϊλανδικών.

Σύμφωνα με αναφορές, οι νέες δυνατότητες του Llama 3.1 περιλαμβάνουν μεγαλύτερο πλαίσιο, υποστήριξη για εισαγωγή και έξοδο πολλαπλών γλωσσών και ενσωμάτωση προγραμματιστών με εργαλεία τρίτων.

Σημεία αναφοράς

Ένα γράφημα αναφοράς στο GitHub (τώρα 404) δείχνει την εξαιρετική απόδοση του Llama 3.1 στη δοκιμή αναφοράς.

Συγκεκριμένα, στην αξιολόγηση συγκριτικής αξιολόγησης του προεκπαιδευτικού μοντέλου αναφοράς, το Llama 3.1 405B έθεσε τα πιο πρόσφατα ρεκόρ σε γενικές εργασίες, συλλογιστική γνώσης και κατανόηση ανάγνωσης.

Ειδικά στα σημεία αναφοράς υποδιαίρεσης MMLU και SQuAD, η βελτίωση είναι πιο εμφανής.

Ταυτόχρονα, οι εκδόσεις παραμέτρων Llama 3.1 8B και 70B έχουν βελτιωθεί ελαφρώς σε σύγκριση με το Llama 3. Ωστόσο, σε ορισμένους δείκτες, το 70B Llama 3.1 δεν είναι τόσο καλό όσο η προηγούμενη γενιά.

Επιπλέον, στο μοντέλο τελειοποίησης οδηγιών, μπορεί να φανεί ότι το Llama 3.1 405B είναι ισχυρότερο από το προεκπαιδευμένο μοντέλο. Στη συλλογιστική, την κωδικοποίηση, τα μαθηματικά, τη χρήση εργαλείων και τα σημεία αναφοράς πολλών γλωσσών, έχουν συνθλίψει τις τελειοποιημένες εκδόσεις 8B και 70B.

Τα βελτιωμένα μοντέλα Llama 3.1 8B και 70B βελτίωσαν επίσης σημαντικά την απόδοση σε εργασίες πολλαπλών δυνατοτήτων.

Μερικοί χρήστες του Διαδικτύου έχουν συγκεντρώσει τα σημεία αναφοράς άλλων κορυφαίων μοντέλων Μέσω της σύγκρισης, μπορεί να φανεί ότι το Claude 3.5 Sonnet είναι ο βασιλιάς όλων των σημείων αναφοράς.

Η τελειοποιημένη έκδοση Llama 3.1 405B είναι η καλύτερη μόνο στο μαθηματικό σημείο αναφοράς MMLU Pro, ξεπερνώντας όλα τα μεγάλα μοντέλα με βαθμολογία 73,3%.

Επιπλέον, το 405B είναι στο ίδιο επίπεδο με το GPT-4o στα σημεία αναφοράς των GPQA (Graduate Level Professional Knowledge and Reasoning), Mathematics, DROP (Reading Comprehension), MGSM (Πολύγλωσσα Μαθηματικά), HumanEval (Προγραμματισμός) και BBH (Knowledge) .

Επιπλέον, το 405B είναι σημαντικά μπροστά από το τελευταίο μίνι μοντέλο GPT-4o.

Το Llama 3.1 είναι ένα μοντέλο γλώσσας αυτόματης παλινδρόμησης που χρησιμοποιεί μια βελτιστοποιημένη αρχιτεκτονική Transformer. Η προσαρμοσμένη έκδοση χρησιμοποιεί SFT και RLHF για να ταιριάζει με τις ανθρώπινες προτιμήσεις για ασφάλεια.

Για τα μοντέλα της σειράς Llama 3.1, ο αριθμός διακριτικών αναφέρεται μόνο σε δεδομένα προ-προπόνησης.

Όλες οι εκδόσεις μοντέλων χρησιμοποιούν το Grouped Query Attention (GQA) για τη βελτίωση της επεκτασιμότητας των συμπερασμάτων.

Δεδομένα εκπαίδευσης διακριτικών 15T

Όπως το Llama 3, το Llama 3.1 είναι προεκπαιδευμένο σε περίπου 15 τρισεκατομμύρια μάρκες από δημόσια διαθέσιμες πηγές.

Τα δεδομένα τελειοποίησης περιλαμβάνουν δημόσια διαθέσιμα σύνολα δεδομένων οδηγιών, καθώς και περισσότερα από 25 εκατομμύρια συνθετικά δείγματα και τα δεδομένα προεκπαίδευσης είναι διαθέσιμα μέχρι τον Δεκέμβριο του 2023.

Διατίθεται για εμπορική έρευνα

Το Llama 3.1 υποστηρίζει περιβάλλοντα πολλαπλών γλωσσών για εμπορική και ερευνητική χρήση.

Μοντέλα μόνο κειμένου που έχουν βελτιστοποιηθεί με οδηγίες είναι κατάλληλα για βοηθούς συνομιλίας, ενώ τα προεκπαιδευμένα μοντέλα μπορούν να προσαρμοστούν σε μια ποικιλία εργασιών δημιουργίας φυσικής γλώσσας. Η συλλογή μοντέλων Llama 3.1 υποστηρίζει επίσης τη μόχλευση της παραγωγής του μοντέλου για τη βελτίωση άλλων μοντέλων, συμπεριλαμβανομένης της παραγωγής συνθετικών δεδομένων και της απόσταξης μοντέλων.

Η παραβίαση των νόμων και κανονισμών χρήσης, των πολιτικών χρήσης και των απαγορευμένων και υποστηριζόμενων γλωσσών κοινοτικής άδειας Llama 3.1 είναι πέρα από το πεδίο εφαρμογής.

Και η ομάδα τόνισε ότι εκτός από τις 8 υποστηριζόμενες γλώσσες, το Llama 3.1 εκπαιδεύεται σε ένα ευρύτερο σύνολο γλωσσών. Οι προγραμματιστές μπορούν να το ρυθμίσουν και να το εφαρμόσουν σε άλλες γλώσσες, υπό την προϋπόθεση ότι ακολουθούνται πολιτικές όπως οι κοινοτικές άδειες και η χρήση είναι ασφαλής και υπεύθυνη.

39,3 εκατομμύρια ώρες εκπαίδευσης GPU

Κατά τη διάρκεια της προεκπαίδευσης, το Meta χρησιμοποιεί μια προσαρμοσμένη βιβλιοθήκη εκπαίδευσης, μετα-προσαρμοσμένο σύμπλεγμα GPU και υποδομή παραγωγής. Ο λεπτός συντονισμός, ο σχολιασμός και η αξιολόγηση πραγματοποιούνται επίσης στην υποδομή παραγωγής.

Η εκπαίδευση έχει χρησιμοποιήσει συνολικά 39,3 εκατομμύρια ώρες υπολογιστικού χρόνου GPU και ο τύπος υλικού είναι H100-80GB (TDP είναι 700W).

Ο χρόνος εκπαίδευσης είναι ο συνολικός χρόνος GPU που απαιτείται για την εκπαίδευση κάθε μοντέλου και η κατανάλωση ενέργειας είναι η μέγιστη χωρητικότητα ισχύος κάθε συσκευής GPU, προσαρμοσμένη για την αποδοτικότητα χρήσης ενέργειας.

Οι συνολικές εκπομπές αερίων θερμοκηπίου βάσει τοποθεσίας από την εκπαίδευση εκτιμάται ότι είναι 11.390 τόνοι ισοδύναμου διοξειδίου του άνθρακα (CO2eq).

Η Meta τόνισε ότι έχει διατηρήσει καθαρές μηδενικές εκπομπές αερίων θερμοκηπίου από το 2020 και ότι το 100% της ηλεκτρικής της ενέργειας παράγεται από ανανεώσιμες πηγές, επομένως οι συνολικές εκπομπές αερίων θερμοκηπίου με βάση ένα σημείο αναφοράς της αγοράς είναι 0 τόνοι ισοδύναμο διοξειδίου του άνθρακα.

σημαντικό κίνδυνο

Η Meta έχει επίσης πραγματοποιήσει δοκιμές για σημαντικούς κινδύνους.

Περιλαμβάνει τη χρησιμότητα CBRNE (Χημικά, Βιολογικά, Ραδιολογικά, Πυρηνικά και Εκρηκτικά Υλικά), την ασφάλεια των παιδιών και τις επιθέσεις στον κυβερνοχώρο.

Όσον αφορά τις επιθέσεις στον κυβερνοχώρο, η ομάδα ερεύνησε εάν τα LLMs θα μπορούσαν να βελτιώσουν τις ανθρώπινες ικανότητες σε εργασίες hacking, συμπεριλαμβανομένου του επιπέδου δεξιοτήτων και της ταχύτητας.

Η έρευνα επικεντρώνεται στην αξιολόγηση της ικανότητας των LLM να χρησιμοποιούνται ως αυτόνομοι πράκτορες σε επιχειρήσεις κυβερνοεπιθέσεων, ειδικά όταν δέχονται επίθεση από ransomware.

Ο κύριος στόχος είναι να αξιολογηθεί εάν αυτά τα μοντέλα μπορούν να εκτελέσουν αποτελεσματικά περίπλοκες επιθέσεις στον κυβερνοχώρο ως ανεξάρτητοι πράκτορες χωρίς ανθρώπινη παρέμβαση.

Οι χρήστες του Διαδικτύου τηγανίζουν την κατσαρόλα και ξαναβλέπουν την ιστορία

Μετά την απελευθέρωση του συνδέσμου μαγνήτη, οι ανυπόμονοι χρήστες του Διαδικτύου ξεκίνησαν τη λήψη απευθείας, αλλά αυτό μπορεί να διαρκέσει πολύ.

Μερικοί χρήστες του Διαδικτύου περιμένουν να κυκλοφορήσει αύριο το Llama 3.1 405B και να γίνουν μάρτυρες της ιστορίας ξανά!

Το χάσμα μεταξύ μοντέλων ανοιχτού και κλειστού κώδικα έχει μειωθεί ξανά.

Κάποιος δοκίμασε επίσης την κλασική ερώτηση παγίδας "Ποιος είναι μεγαλύτερος, 9.11 ή 9.9;" και το Llama 3.1-405B στην πραγματικότητα απάντησε σωστά.

Για τους "φτωχούς GPU", τα 820 GB είναι πολύ απρόθυμα να τρέξουν σε φορητό υπολογιστή.

Βιβλιογραφικές αναφορές:

https://x.com/bindureddy/status/1815443198459990098

https://x.com/kimmonismus/status/1815314833236984274

https://x.com/mattshumer_/status/1815453195717742838

https://x.com/swishfever/status/1815512729286815756

Νέα

Διέρρευσε ο μαγνητικός σύνδεσμος Llama 3.1 πριν από το χρονοδιάγραμμα!Ο θρόνος του μοντέλου ανοιχτού κώδικα άλλαξε χέρια μέσα σε μια νύχτα, το GPT-4o ξεπεράστηκε

Εισαγωγή

τα στοιχεία επικοινωνίας μου