Το Llama 3.1 διέρρευσε εκ των προτέρων, ρίχνοντας το GPT-4o από τον θρόνο του; Πιο γρήγορα και 10 φορές φθηνότερα

Το Llama 3.1 διέρρευσε εκ των προτέρων, ρίχνοντας το GPT-4o από τον θρόνο του;Πιο γρήγορα και 10 φορές φθηνότερα

2024-07-24

Κείμενο |. Chang Minxiao και Yuan Yingliang

Εκδότης Anita Tang

Αν είναι η μοίρα του μεγάλου μοντέλου της Llama να γίνει το ανώτατο όριο των μοντέλων ανοιχτού κώδικα, τότε η "τραγική διαρροή" είναι η καταστροφή που πρέπει να ξεπεράσει η Llama.

Τον Μάρτιο του 2023, το Llama 2 διέρρευσε εκ των προτέρων και ο Meta έπρεπε να κυκλοφορήσει το μοντέλο ως ανοιχτού κώδικα.

Σήμερα, η ιστορία επαναλαμβάνεται ξανά.

Στις 12 Ιουλίου, ώρα Ειρηνικού, ένας υπάλληλος της Meta αποκάλυψε ότι η Meta σχεδιάζει να κυκλοφορήσει τη μεγαλύτερη έκδοση της Llama σε κλίμακα παραμέτρων μέχρι σήμερα: Llama 3.1 405B στις 23 Ιουλίου 2024 τοπική ώρα. Αποκάλυψε ότι το 405B θα είναι το πρώτο πολυτροπικό μοντέλο στη σειρά Llama.

Ωστόσο, στις 22 Ιουλίου, ώρα Ειρηνικού, μία ημέρα πριν από την προγραμματισμένη κυκλοφορία, τα αποτελέσματα του μοντέλου και του σημείου αναφοράς του Llama 3.1 διέρρευσαν σε τεχνικές κοινότητες όπως το Reddit και ο μαγνητικός σύνδεσμος του Llama 3.1 (ένα πρόγραμμα που χρησιμοποιείται για τη λήψη εγγράφων). κυκλοφόρησε σε κοινότητες όπως το HuggingFace.

Κρίνοντας από τα αποτελέσματα που διέρρευσαν,Η απόδοση του Llama 3.1 είναι συγκρίσιμη με το GPT-4o του OpenAI!

Ορισμένοι bloggers AI επαίνεσαν ότι η κυκλοφορία του Llama 3.1 θα είναι μια άλλη μέρα που θα αλλάξει τη μοίρα του κόσμου της AI:

△Πηγή:Χ

Τα αποτελέσματα αναφοράς που διέρρευσαν δείχνουν ότι το Llama 3.1 έχει τρία μεγέθη: 8B, 70B και 405B. Το μοντέλο 70B με τον μικρότερο αριθμό παραμέτρων έχει απόδοση συγκρίσιμη με το GPT-4o από πολλές απόψεις.

△Η παραπάνω εικόνα δείχνει τη σύγκριση μεταξύ κάθε έκδοσης του Llama 3.1 και του OpenAI GPT-4o και του Llama 3 8B/70B Μεταξύ αυτών, η έκδοση 70B, η οποία βρίσκεται στη μέση της κλίμακας, ξεπερνά επίσης το GPT-4o σε πολλές πτυχές. Πηγή εικόνας: X χρήστης @mattshumer_

Ορισμένοι χρήστες του Διαδικτύου επεσήμαναν ότι εάν βασιστεί σε αυτό το σημείο αναφοράς, το Llama 3.1 405B ≈ GPT-4o, το Llama 3.1 70B θα γίνει το πρώτο ελαφρύ μοντέλο και το πρώτο GPT-4o mini που μπορεί να νικήσει το OpenAI.

△Πηγή εικόνας: X χρήστης @corbtt

Ωστόσο, πολλοί χρήστες του Διαδικτύου που έχουν κατεβάσει το μοντέλο για "πρώιμους χρήστες" ανακάλυψαν ότι η έκδοση του Llama 3.1 405B που διέρρευσε έχει μέγεθος αρχείου περίπου 820 GB, που απαιτεί σχεδόν τριπλάσια μνήμη από το Llama 2 (περίπου 280 GB) που διατηρεί πλήρη ακρίβεια.

Αυτό σημαίνει ότι εάν δεν έχετε ορυχείο στο σπίτι και μπορείτε να αντέξετε οικονομικά αρκετές GPU, θα είναι δύσκολο για μεμονωμένους προγραμματιστές να τρέξουν το Llama 3.1 στους δικούς τους υπολογιστές. Ορισμένοι χρήστες του Διαδικτύου εικάζουν ότι το Llama 3.1 δεν είναι για ιδιώτες, αλλά για ιδρύματα και επιχειρήσεις.

Το Llama 3.1, το οποίο δεν έχει ακόμη ανακοινωθεί επίσημα, έχει επίσης χυθεί κρύο νερό. Πολλοί χρήστες του Διαδικτύου παραπονέθηκαν: Το Llama 3.1 έχει πολύ υψηλές απαιτήσεις για την GPU και δεν είναι τόσο καλό όσο το GPT-4o mini από το OpenAI της διπλανής πόρτας.

△Σχόλια του Δικτύου στο X. Πηγή εικόνας: X χρήστης @_Talesh

Επανάληψη συνάρτησης, βελτιστοποίηση δεικτών και μείωση πόρων υπολογιστών

Σύμφωνα με πληροφορίες μοντέλου που διέρρευσαν, το Llama 3.1 έχει περισσότερες επαναλήψεις στη λειτουργικότητα από το Llama 3, το οποίο θα κυκλοφορήσει στις 19 Απριλίου 2024, συμπεριλαμβανομένων μεγαλύτερων παραθύρων περιβάλλοντος, εισαγωγής και εξόδου πολλαπλών γλωσσών και πιθανής ενσωμάτωσης εργαλείων προγραμματιστή και τρίτων.

Εκπαίδευση δεδομένων: Το Llama 3.1 εκπαιδεύτηκε χρησιμοποιώντας διακριτικά 15T+ από δημόσιες πηγές Τα δεδομένα μικρορύθμισης περιλαμβάνουν δημόσια διαθέσιμα σύνολα δεδομένων συντονισμού εντολών (σε αντίθεση με το Llama-3!) και περισσότερα από 25 εκατομμύρια παραδείγματα που δημιουργούνται συνθετικά. Πολύγλωσσος διάλογος: Το Llama 3.1 υποστηρίζει 8 γλώσσες: Αγγλικά, Γερμανικά, Γαλλικά, Ιταλικά, Πορτογαλικά, Χίντι, Ισπανικά και Ταϊλανδικά. Αν και δυστυχώς δεν είναι διαθέσιμο στα κινέζικα, οι προγραμματιστές μπορούν να ρυθμίσουν τα μοντέλα Llama 3.1 για γλώσσες άλλες από τις 8 υποστηριζόμενες γλώσσες. Παράθυρο περιβάλλοντος: Το μήκος περιβάλλοντος κάθε έκδοσης επεκτείνεται από 8k σε 128k, κάτι που ισοδυναμεί περίπου με το να μπορεί το μοντέλο να θυμάται, να κατανοεί και να επεξεργάζεται 96.000 λέξεις κάθε φορά, σχεδόν ένα ολόκληρο πρωτότυπο "Χάρι Πότερ".

Πολλοί χρήστες του Διαδικτύου είναι πρόθυμοι να το δοκιμάσουν και να αφήσουν το Llama 3.1 να ανταγωνιστεί τους «προκατόχους» του μοντέλου Διαπιστώνουν ότι όχι μόνο οι δείκτες έχουν βελτιωθεί σημαντικά, αλλά και οι υπολογιστικοί πόροι έχουν εξοικονομηθεί πολύ.

Με βάση δοκιμές από χρήστες του Διαδικτύου, σε σύγκριση με το Llama 3, οι δυνατότητες του Llama 3.1 έχουν βελτιωθεί σημαντικά. Μεταξύ αυτών, το human_eval και το truefulqa_mc1 έχουν σημειώσει σημαντική πρόοδο, πράγμα που σημαίνει ότι η δυνατότητα δημιουργίας κώδικα προγραμματισμού είναι ισχυρότερη και οι απαντήσεις σε ερωτήσεις είναι πιο αυθεντικές.

Ταυτόχρονα, σε σύγκριση με το βασικό μοντέλο, το μοντέλο οδηγιών του Llama 3 έχει βελτιώσει σημαντικά δείκτες όπως η άμεση εκμάθηση, η μάθηση με βάση τα συμφραζόμενα και η αποτελεσματική ρύθμιση παραμέτρων.

Αυτό είναι λογικό επειδή το βασικό μοντέλο δεν είναι συνήθως ρυθμισμένο για μια συγκεκριμένη εργασία, ενώ το μοντέλο εντολών είναι ειδικά εκπαιδευμένο για να ακολουθεί οδηγίες ή να ολοκληρώνει συγκεκριμένες εργασίες. Γενικά, οι δείκτες του μοντέλου εντολής αποδίδουν καλύτερα.

Αυτό κάνει τους ανθρώπους να περιμένουν ακόμη περισσότερο την επίσημη κυκλοφορία του Llama3.1. Τα αποτελέσματα δοκιμών του μοντέλου Llama3.1 που διέρρευσαν αυτή τη στιγμή αφορούν μόνο το βασικό μοντέλο, ενώ το μοντέλο οδηγιών μπορεί να έχει καλύτερη απόδοση!

△Πηγή εικόνας: X χρήστης @thenameless7741

Παραδόξως, στα αποτελέσματα των δοκιμών αναφοράς, το μοντέλο Llama 3.1 70B ισοφάρισε ή και κέρδισε το GPT-4o, ενώ το μοντέλο Llama 3.1 8B ήταν κοντά στην απόδοση του μοντέλου Llama 3 70B. Κάποιοι χρήστες του Διαδικτύου υπέθεσαν ότι αυτό μπορεί να χρησιμοποιούσε τεχνολογία απόσταξης μοντέλων, δηλαδή ότι τα μοντέλα 8B και 70B απλοποιήθηκαν από το μεγαλύτερο μοντέλο του 405B, καθιστώντας τα μεγάλα μοντέλα "μικρότερα".

Η τεχνολογία απόσταξης μοντέλου μπορεί να θεωρηθεί ως ένας μαθητής που μαθαίνει από έναν δάσκαλο. Το μεγάλο και ισχυρό μοντέλο (το μοντέλο του δασκάλου) είναι ο δάσκαλος και το μικρότερο και απλούστερο μοντέλο (το μοντέλο του μαθητή) είναι ο μαθητής. Το μοντέλο μαθητή μαθαίνει «μιμούμενος» το μοντέλο του δασκάλου, καθιστώντας το αποτέλεσμα όσο το δυνατόν πιο κοντά στο αποτέλεσμα του μοντέλου δασκάλου, μαθαίνοντας έτσι παρόμοιες γνώσεις και ικανότητες.

Το μοντέλο μαθητή που εκπαιδεύεται με απόσταξη μπορεί να μειώσει το μέγεθος του μοντέλου και τις απαιτήσεις υπολογιστικών πόρων διατηρώντας παράλληλα υψηλή απόδοση και σημαντική ακρίβεια.

△Πηγή: Reddit

Δεν μπορούν όλοι να το τρέξουν, αλλά η τιμή είναι λογική.

Το αν το Llama 3.1 θα είναι ανοιχτού κώδικα όπως αναμενόταν είναι ακόμα άγνωστο. Αλλά ακόμα κι αν είναι ανοιχτού κώδικα, αν θέλετε να μπορείτε να χρησιμοποιήσετε το Llama 3.1, πρέπει να έχετε ένα ορυχείο στο σπίτι.

Εάν θέλετε να εκτελέσετε το Llama 3.1, το πιο βασικό εισιτήριο εισόδου είναι μια επαρκής GPU.

Έγγραφα που διέρρευσαν δείχνουν ότι ο χρόνος εκπαίδευσης του Llama 3.1 405B σε υλικό τύπου H100-80GB είναι 30,84 εκατομμύρια ώρες GPU. Αυτό σημαίνει ότι, αν υποθέσουμε ότι χρησιμοποιείται μόνο ένα H100-80GB ανά ώρα, θα χρειαστούν 30,84 εκατομμύρια ώρες για να τρέξει το Llama 3.1 405B - θα χρειαστούν 3500 χρόνια μέχρι να λειτουργήσει το μοντέλο!

△Πηγή: Reddit

Εάν θέλετε να αναπτύξετε ιδιωτικά, εάν η επιχείρηση θέλει να εκτελέσει με επιτυχία το Llama 3.1 405B μέσα σε ένα μήνα, πρέπει να δεσμεύσει τουλάχιστον 43.000 H100-80 GB. Υπολογίστηκε με βάση την τιμή μονάδας H100 των 40.000 $ ΗΠΑ,Χρησιμοποιώντας εισιτήρια υπολογιστικής ισχύος Llama 3.1 405B, η τιμή φτάνει τα 1,7 δισεκατομμύρια δολάρια ΗΠΑ, που ισοδυναμεί με 12,5 δισεκατομμύρια γιουάν.

Αλλά τα καλά νέα είναι ότι το κόστος συμπερασμάτων του Llama 3.1 μπορεί να είναι φθηνότερο.

Σύμφωνα με την Τεχνητή Ανάλυση, το κόστος που απαιτείται για τη διεκπεραίωση 1 εκατομμυρίου Tokens, Llama 3.1 405B θα είναι φθηνότερο και πιο αποδοτικό από τα μοντέλα αιχμής παρόμοιας ποιότητας (GPT-4o και Claude 3.5 Sonnet).

△Πηγή εικόνας: X χρήστης @ArtificialAnlys

Επιπλέον, ορισμένοι χρήστες του Διαδικτύου υπέθεσαν μέσω του πηγαίου κώδικα του αρχείου ότι το Llama 3.1 405B μπορεί να γίνει προϊόν συνδρομής και οι χρήστες πρέπει να πληρώσουν όταν το χρησιμοποιούν. Ωστόσο, πρέπει ακόμα να περιμένουμε την επίσημη έκδοση ως προς την πραγματική κατάσταση.

△Πηγή εικόνας: X χρήστης @testingcatalog

(Ο συγγραφέας 36Kr Zhou Xinyu συνέβαλε επίσης σε αυτό το άρθρο)

Καλώς ήρθατε να επικοινωνήσετε

Νέα

Το Llama 3.1 διέρρευσε εκ των προτέρων, ρίχνοντας το GPT-4o από τον θρόνο του;Πιο γρήγορα και 10 φορές φθηνότερα

Εισαγωγή

τα στοιχεία επικοινωνίας μου