Η Meta κυκλοφορεί το ισχυρότερο μοντέλο ανοιχτού κώδικα Llama 3.1, Zuckerberg: Θα γίνει σημείο καμπής στη βιομηχανία

Η Meta κυκλοφορεί το Llama 3.1, το ισχυρότερο μοντέλο ανοιχτού κώδικα, Zuckerberg: Θα γίνει σημείο καμπής για τη βιομηχανία

2024-07-24

Το βράδυ της 23ης Ιουλίου, ώρα Πεκίνου, η Meta κυκλοφόρησε επίσημα το τελευταίο μεγάλο μοντέλο ανοιχτού κώδικα σειράς Llama 3.1, μειώνοντας περαιτέρω το χάσμα μεταξύ μοντέλων ανοιχτού κώδικα και μοντέλων κλειστού κώδικα. Το Llama 3.1 περιλαμβάνει 3 μεγέθη παραμέτρων των 8B, 70B και 450B Το μοντέλο παραμέτρων 450B έχει ξεπεράσει το GPT-4o του OpenAI σε πολλαπλές δοκιμές αναφοράς και είναι συγκρίσιμο με κορυφαία μοντέλα κλειστού κώδικα, όπως το Claude 3.5 Sonnet.

Ο ιδρυτής και διευθύνων σύμβουλος της Meta δημοσίευσε ταυτόχρονα ένα ιστολόγιο στον επίσημο ιστότοπο για να δώσει ώθηση σε αυτήν την έκδοση. Είπε ότι η έκδοση Llama 3.1 θα γίνει σημείο καμπής στον κλάδο πηγή AI είναι η κατεύθυνση της ανάπτυξης.

Ο ανώτερος επιστήμονας της Nvidia, Jim Fan, δημοσίευσε ένα μήνυμα στο X για να συγχαρεί την ομάδα Meta. Ανέφερε: "Η δύναμη του GPT-4 είναι στα χέρια μας. (Αυτή είναι μια πραγματικά ιστορική στιγμή."

Όσον αφορά τις συγκεκριμένες λεπτομέρειες, το παράθυρο περιβάλλοντος μοντέλου των τριών εκδόσεων του Llama 3.1 έχει αυξηθεί από 8k σε 128K, επεκτάθηκε 16 φορές και υποστηρίζει 8 γλώσσες ταυτόχρονα. Το μοντέλο Llama 3.1 -405B χρησιμοποίησε περισσότερα από 15 τρισεκατομμύρια μάρκες για εκπαίδευση και για να πετύχει αυτή την κλίμακα εκπαίδευσης, η ομάδα χρησιμοποίησε 16.000 GPU H100. Επίσημα, το μοντέλο 405B είναι το πρώτο μοντέλο Llama που εκπαιδεύεται σε αυτή την κλίμακα.

Τα μοντέλα μεγάλων γλωσσών ανοιχτού κώδικα υστερούν ως επί το πλείστον σε σχέση με τα μοντέλα κλειστού κώδικα όσον αφορά τη λειτουργικότητα και την απόδοση, «αλλά τώρα εισερχόμαστε σε μια νέα εποχή που ηγείται του ανοιχτού κώδικα».

Στο επίσημο ιστολόγιο, η Meta αξιολόγησε την απόδοση περισσότερων από 150 συνόλων δεδομένων αναφοράς και συνέκρινε την απόδοση του Llama 3.1 με άλλα μοντέλα. και τα μαθηματικά -4, το GPT-4o είναι συγκρίσιμο με το Σονέτο Claude 3.5. Επιπλέον, τα μικρά μοντέλα 8B και 70B είναι ανταγωνιστικά με μοντέλα κλειστού και ανοιχτού κώδικα με παρόμοιο αριθμό παραμέτρων.

Σε πραγματικά σενάρια, το Llama 3.1 405B συγκρίθηκε με ανθρώπινη αξιολόγηση και η συνολική του απόδοση ήταν καλύτερη από το GPT-4o και το Σονέτο Claude 3.5.

Αυτή τη φορά η Meta ενημέρωσε επίσης την άδεια ανοιχτού κώδικα, επιτρέποντας στους προγραμματιστές να χρησιμοποιήσουν την έξοδο του μοντέλου Llama (συμπεριλαμβανομένου του 405B) για πρώτη φορά για να βελτιώσουν άλλα μοντέλα. Συγκριτικά με το GPT-4o, οι αξιωματούχοι είπαν ότι θα χρησιμοποιήσουν επίσης μια συνδυαστική μέθοδο για να ενσωματώσουν λειτουργίες εικόνας, βίντεο και φωνής στο Llama 3, έτσι ώστε το μοντέλο να αναγνωρίζει εικόνες και βίντεο και να υποστηρίζει την αλληλεπίδραση μέσω φωνής. Ωστόσο, αυτή η δυνατότητα είναι ακόμα υπό ανάπτυξη και δεν είναι ακόμη έτοιμη για κυκλοφορία.

Στο επίσημο blog, ο Meta είπε ότι οι συνολικές λήψεις όλων των εκδόσεων Llama μέχρι στιγμής έχουν ξεπεράσει τις 300 εκατομμύρια φορές.

Εκτός από αυτήν την έκδοση μοντέλου, ο Zuckerberg δημοσίευσε επίσης ένα εκτενές άρθρο "Open Source AI Is the Path Forward" στον επίσημο ιστότοπο, το οποίο ανέφερε τη σημασία του ανοιχτού κώδικα. Πιστεύει ότι ο ανοιχτός κώδικας είναι ωφέλιμος για όλους τους προγραμματιστές, για το Meta για τον κόσμο είναι καλό πράγμα.

Ο Zuckerberg ανέφερε ως παράδειγμα τη νίκη του συστήματος ανοιχτού κώδικα Linux έναντι του συστήματος κλειστού κώδικα Unix και πίστευε ότι η τεχνητή νοημοσύνη θα αναπτυχθεί με παρόμοιο τρόπο. «Υπάρχουν αρκετές εταιρείες τεχνολογίας που αναπτύσσουν κορυφαία κλειστά μοντέλα, αλλά ο ανοιχτός κώδικας κλείνει γρήγορα το χάσμα. Ανέφερε ότι πέρυσι, το Llama 2 μπορούσε να συγκριθεί μόνο με το μοντέλο παλαιότερης γενιάς». Και φέτος, το Llama 3 είναι ανταγωνιστικό σε ορισμένους τομείς και μάλιστα μπροστά από τα πιο προηγμένα μοντέλα σε ορισμένους τομείς.

Ο Zuckerberg πιστεύει ότι ο ανοιχτός κώδικας μπορεί να προωθήσει την καινοτομία, να μειώσει το κόστος και να βελτιώσει την ασφάλεια. Για τους προγραμματιστές, η αξιοποίηση του ανοιχτού κώδικα σάς επιτρέπει να εκπαιδεύσετε, να ρυθμίσετε και να αποστάσετε τα δικά σας μοντέλα Κάθε οργανισμός έχει διαφορετικές ανάγκες και αυτές οι ανάγκες εξυπηρετούνται καλύτερα με τη χρήση μοντέλων διαφορετικών μεγεθών που έχουν εκπαιδευτεί ή βελτιστοποιηθούν σε συγκεκριμένα δεδομένα. του.

Ταυτόχρονα, οι προγραμματιστές δεν είναι κλειδωμένοι σε κλειστούς προμηθευτές για την προστασία της ασφάλειας των δεδομένων. «Το λογισμικό ανοιχτού κώδικα τείνει να είναι πιο ασφαλές επειδή η ανάπτυξή του είναι πιο διαφανής και μπορεί να αναθεωρηθεί ευρέως».

Ο Zuckerberg ανέφερε επίσης ότι το μοντέλο ανοιχτού κώδικα είναι φθηνότερο και πιο αποτελεσματικό Οι προγραμματιστές μπορούν να εκτελέσουν συμπεράσματα στο Llama 3.1 405B με κόστος περίπου 50% σε σύγκριση με τη χρήση ενός κλειστού μοντέλου όπως το GPT-4o και εργασίες εξαγωγής συμπερασμάτων εκτός σύνδεσης.

«Η τεχνητή νοημοσύνη ανοιχτού κώδικα αντιπροσωπεύει την καλύτερη ευκαιρία στον κόσμο Κατά την άποψη του Zuckerberg, η χρήση αυτής της τεχνολογίας μπορεί να δημιουργήσει τις μεγαλύτερες οικονομικές ευκαιρίες και ασφάλεια».

Νέα

Η Meta κυκλοφορεί το Llama 3.1, το ισχυρότερο μοντέλο ανοιχτού κώδικα, Zuckerberg: Θα γίνει σημείο καμπής για τη βιομηχανία

Εισαγωγή

τα στοιχεία επικοινωνίας μου