Στιγμή ChatGPT για μεγάλα μοντέλα ανοιχτού κώδικα; Το πολυαναμενόμενο Llama 3 405B πρόκειται να κυκλοφορήσει

Στιγμή ChatGPT για μεγάλα μοντέλα ανοιχτού κώδικα;Το πολυαναμενόμενο Llama 3 405B πρόκειται να κυκλοφορήσει

2024-07-23

Το πολυαναμενόμενο Llama 3 405B, που αρχικά είχε προγραμματιστεί να κυκλοφορήσει στις 23, έρχεται.

Ως το κορυφαίο μοντέλο της σειράς Llama 3, η έκδοση 405B έχει 405 δισεκατομμύρια παραμέτρους και είναι ένα από τα μεγαλύτερα μοντέλα ανοιχτού κώδικα μέχρι σήμερα.

Τις πρώτες πρωινές ώρες της χθεσινής νύχτας, το META διέρρευσε ξαφνικά δεδομένα αξιολόγησης του Llama 3.1-405B. Το περσινό μοντέλο της Λάμα ήταν το έκανε μια φορά».

Ορισμένοι αναλυτές πιστεύουν ότι το Llama 3 405B δεν είναι απλώς μια ακόμη βελτίωση στις δυνατότητες τεχνητής νοημοσύνης Για την τεχνητή νοημοσύνη ανοιχτού κώδικα, «αυτό είναι ένα δυναμικόChatGPTστιγμή», όπου η τεχνητή νοημοσύνη αιχμής εκδημοκρατίζεται πραγματικά και τίθεται απευθείας στα χέρια των προγραμματιστών.

Τρεις προβλέψεις για την επερχόμενη ανακοίνωση του Llama 3 405B

Ορισμένοι αναλυτές προέβλεψαν τα κυριότερα σημεία της επερχόμενης ανακοίνωσης του Llama 3 405B από τρεις οπτικές γωνίες: ποιότητα δεδομένων, οικοσύστημα μοντέλων και λύσεις API.

Πρώτον, το Llama 3 405B μπορεί να φέρει επανάσταση στην ποιότητα των δεδομένων για εξειδικευμένα μοντέλα.

Για τους προγραμματιστές που επικεντρώνονται στην κατασκευή επαγγελματικών μοντέλων τεχνητής νοημοσύνης, μια μακροπρόθεσμη πρόκληση είναι η απόκτηση δεδομένων εκπαίδευσης υψηλής ποιότητας. Τα μικρότερα έμπειρα μοντέλα (παράμετροι 1-10B) συχνά χρησιμοποιούν τεχνικές απόσταξης για να αυξήσουν το σύνολο δεδομένων εκπαίδευσης με την έξοδο του μεγαλύτερου μοντέλου.Ωστόσο, χρησιμοποιώνταςOpenAIΤέτοια δεδομένα από γίγαντες κλειστού κώδικα, όπως το Google Cloud, περιορίζονται αυστηρά, περιορίζοντας τις εμπορικές εφαρμογές.

Το Llama 3 405B δημιουργήθηκε. Ως τεχνίτης ανοιχτού κώδικα που συναγωνίζεται τη δύναμη των ιδιόκτητων μοντέλων, παρέχει μια νέα βάση στους προγραμματιστές να δημιουργήσουν πλούσια, απεριόριστα σύνολα δεδομένων. Αυτό σημαίνει ότι οι προγραμματιστές είναι ελεύθεροι να χρησιμοποιούν την αποσταγμένη παραγωγή του Llama 3 405B για να εκπαιδεύσουν εξειδικευμένα μοντέλα, επιταχύνοντας σημαντικά τους κύκλους καινοτομίας και ανάπτυξης σε επαγγελματικούς τομείς. Αναμένετε μια έκρηξη στην ανάπτυξη μοντέλων υψηλής απόδοσης, βελτιστοποιημένων μοντέλων που είναι τόσο ισχυρά όσο και ηθικά ανοιχτού κώδικα.

Δεύτερον, το Llama 3 405B θα σχηματίσει ένα νέο οικοσύστημα μοντέλων: από βασικά μοντέλα έως συνδυασμούς ειδικών

Η κυκλοφορία του Llama 3 405B μπορεί να επαναπροσδιορίσει την αρχιτεκτονική των συστημάτων AI. Το τεράστιο μέγεθος του μοντέλου (405 δισεκατομμύρια παράμετροι) μπορεί να σημαίνει μια λύση που ταιριάζει σε όλους, αλλά η πραγματική δύναμη έγκειται στην ενσωμάτωσή του με ένα ιεραρχικό σύστημα μοντέλων. Αυτή η προσέγγιση θα έχει ιδιαίτερη απήχηση για προγραμματιστές που εργάζονται με AI σε διαφορετικές κλίμακες.

Αναμένετε μια μετάβαση σε ένα πιο δυναμικό οικοσύστημα μοντέλων, με το Llama 3 405B να λειτουργεί ως η ραχοκοκαλιά, που υποστηρίζεται από μοντέλα μικρού και μεσαίου μεγέθους. Αυτά τα συστήματα μπορεί να χρησιμοποιούν τεχνικές όπως η κερδοσκοπική αποκωδικοποίηση, όπου λιγότερο σύνθετα μοντέλα χειρίζονται το μεγαλύτερο μέρος της επεξεργασίας, καλώντας το μοντέλο 405B μόνο όταν είναι απαραίτητο για επαλήθευση και διόρθωση σφαλμάτων. Αυτό όχι μόνο μεγιστοποιεί την αποτελεσματικότητα, αλλά ανοίγει επίσης νέους δρόμους για τη βελτιστοποίηση των υπολογιστικών πόρων και των χρόνων απόκρισης σε εφαρμογές σε πραγματικό χρόνο, ειδικά όταν εκτελούνται σε SambaNova RDU βελτιστοποιημένες για αυτές τις εργασίες.

Τέλος, το Llama 3 405B έχει τον ανταγωνισμό για το πιο αποτελεσματικό API

Η μεγάλη ισχύς συνοδεύεται από μεγάλη ευθύνη – και για το Llama 3 405B, η ανάπτυξη είναι μια μεγάλη πρόκληση. Οι προγραμματιστές και οι οργανισμοί πρέπει να είναι προσεκτικοί σχετικά με την πολυπλοκότητα του μοντέλου και τις λειτουργικές απαιτήσεις. Θα υπάρχει ανταγωνισμός μεταξύ των παρόχων cloud τεχνητής νοημοσύνης για την παροχή της πιο αποτελεσματικής και οικονομικής λύσης API για την ανάπτυξη του Llama 3 405B.

Αυτή η κατάσταση παρέχει στους προγραμματιστές μια μοναδική ευκαιρία να αλληλεπιδράσουν με διαφορετικές πλατφόρμες και να συγκρίνουν τον τρόπο με τον οποίο διάφορα API χειρίζονται τόσο μεγάλα μοντέλα.Οι νικητές σε αυτόν τον χώρο θα είναι εκείνοι που μπορούν να παρέχουν API που όχι μόνο διαχειρίζονται αποτελεσματικά τον υπολογιστικό φόρτο, αλλά δεν θυσιάζουν την ακρίβεια του μοντέλου ή δεν αυξάνουν δυσανάλογαΑποτύπωμα άνθρακα。

Συνοπτικά, το Llama 3 405B δεν είναι απλώς ένα άλλο εργαλείο στο οπλοστάσιο της τεχνητής νοημοσύνης, είναι μια θεμελιώδης στροφή προς την ανοιχτή, επεκτάσιμη και αποτελεσματική ανάπτυξη τεχνητής νοημοσύνης. Οι αναλυτές πιστεύουν ότι είτε πρόκειται για βελτιστοποίηση εξειδικευμένων μοντέλων, για την κατασκευή πολύπλοκων συστημάτων τεχνητής νοημοσύνης ή για τη βελτιστοποίηση των στρατηγικών ανάπτυξης, η άφιξη του Llama 3 405B θα ανοίξει νέους ορίζοντες στους χρήστες.

Τι πιστεύουν οι χρήστες του Διαδικτύου;

Οι χρήστες του Διαδικτύου δημοσίευσαν στο LocalLLaMA subreddit και μοιράστηκαν πληροφορίες σχετικά με το Meta Llama 3.1 με 405 δισεκατομμύρια παραμέτρους Κρίνοντας από τα αποτελέσματα αυτού του μοντέλου τεχνητής νοημοσύνης σε πολλά βασικά σημεία αναφοράς AI, η απόδοσή του ξεπέρασε τον σημερινό ηγέτη, δηλαδή το OpenAI.GPT-4o, σηματοδοτώντας την πρώτη φορά που ένα μοντέλο ανοιχτού κώδικα μπορεί να ξεπεράσει την τρέχουσα κλειστή πηγή προηγμένης τεχνολογίαςLLMΜοντέλο.

Όπως φαίνεται στα σημεία αναφοράς, το Meta Llama 3.1 ξεπερνά το GPT-4o σε αρκετές δοκιμές όπως GSM8K, Hellaswag, boolq, MMLU-humanities, MMLU-other, MMLU-stem και winograd Ωστόσο, ξεπερνά το GPT-4o σε HumanEval και MMLU-. social Από πλευράς επιστήμης, υστερεί σε σχέση με το GPT-4o.

Ο Ethan Mollick, αναπληρωτής καθηγητής στο Wharton School του Πανεπιστημίου της Πενσυλβάνια, γράφει:

Εάν αυτά τα στατιστικά στοιχεία είναι αληθή, μπορούμε να πούμε με ασφάλεια ότι τα κορυφαία μοντέλα Al θα είναι διαθέσιμα σε όλους δωρεάν από αυτήν την εβδομάδα.

Οι κυβερνήσεις, οι οργανισμοί και οι εταιρείες σε κάθε χώρα σε όλο τον κόσμο μπορούν να χρησιμοποιήσουν τις ίδιες δυνατότητες AI με όλους τους άλλους. Αυτό θα είναι διασκεδαστικό.

Μερικοί χρήστες του Διαδικτύου συνόψισαν αρκετά σημαντικά σημεία του μοντέλου Llama 3.1:

Το μοντέλο χρησιμοποιεί κουπόνια 15T+ από δημόσιες πηγές για εκπαίδευση και η προθεσμία για τα δεδομένα προεκπαίδευσης είναι ο Δεκέμβριος του 2023.

Τα δεδομένα μικρορύθμισης περιλαμβάνουν δημόσια διαθέσιμα δεδομένα λεπτομέρειας εντολών (σε αντίθεση με το Llama 3) και 15 εκατομμύρια συνθετικά δείγματα.

Το μοντέλο υποστηρίζει πολλές γλώσσες, όπως αγγλικά, γαλλικά, γερμανικά, χίντι, ιταλικά, πορτογαλικά, ισπανικά και ταϊλανδέζικα.

Ορισμένοι χρήστες του Διαδικτύου είπαν ότι αυτή είναι η πρώτη φορά που ένα μοντέλο ανοιχτού κώδικα ξεπέρασε τα μοντέλα κλειστού κώδικα όπως το GPT4o και το Claude Sonnet 3.5 και έφτασε στο SOTA σε πολλαπλά σημεία αναφοράς.

Νέα