Νέα

Το μοντέλο ανοιχτού κώδικα ξεπερνά το ισχυρότερο μοντέλο κλειστού κώδικα Μπορεί το Llama 3.1 να ανατρέψει το οικοσύστημα AI; |Jiazi Guangnian

2024-07-24

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


Ο Ζούκερμπεργκ ορκίζεται να συνεχίσει το ανοιχτό κώδικα μέχρι το τέλος.

Συγγραφέας Σουχόι

Συντάκτης· Zhao Jian

Το Llama 3.1 είναι επιτέλους εδώ.

Στις 23 Ιουλίου, τοπική ώρα στις Ηνωμένες Πολιτείες, η Meta κυκλοφόρησε επίσημα το Llama 3.1. Περιλαμβάνει τρία μεγέθη: 8B, 70B και 405B και το μέγιστο πλαίσιο αυξάνεται στα 128k. Το Llama είναι αυτή τη στιγμή μια από τις μεγάλες σειρές μοντέλων με τους περισσότερους χρήστες και τις πιο ισχυρές επιδόσεις στον τομέα ανοιχτού κώδικα.

Τα κύρια σημεία αυτού του Llama 3.1 είναι:

1. Υπάρχουν τρεις εκδόσεις: 8B, 70B και 405B, εκ των οποίων η έκδοση 405B είναι αυτή τη στιγμή ένα από τα μεγαλύτερα μοντέλα ανοιχτού κώδικα 2. Το μοντέλο έχει 405 δισεκατομμύρια παραμέτρους, ξεπερνώντας τα υπάρχοντα κορυφαία μοντέλα AI σε απόδοση Ένα μεγαλύτερο παράθυρο περιβάλλοντος (έως 128.000 διακριτικά), ικανό να χειριστεί πιο πολύπλοκες εργασίες και συνομιλίες σύνθετα μαθηματικά προβλήματα και δημιουργία περιεχομένου εν κινήσει.

Η Meta έγραψε στο επίσημο ιστολόγιό της: "Σήμερα, είναι ακόμα φυσιολογικό η απόδοση των μοντέλων ανοιχτού κώδικα μεγάλων γλωσσών να υστερεί σε σχέση με τα μοντέλα κλειστού κώδικα. Αλλά τώρα, εγκαινιάζουμε μια νέα εποχή που ηγείται από ανοιχτό κώδικα. Η δημόσια κυκλοφορία του Meta Το Llama 3.1 405B είναι το πρώτο στον κόσμο Το μεγαλύτερο και πιο ισχυρό μοντέλο βάσης ανοιχτού κώδικα στην αγορά, με πάνω από 300 εκατομμύρια αθροιστικές λήψεις όλων των εκδόσεων Llama μέχρι σήμερα, αυτή είναι μόνο η αρχή."

Η συζήτηση μεταξύ ανοιχτού κώδικα και κλειστού κώδικα ήταν πάντα ένα καυτό θέμα στον τομέα της τεχνολογίας.

Το λογισμικό ανοιχτού κώδικα είναι πιο διαφανές και ευέλικτο, επιτρέποντας στους προγραμματιστές σε όλο τον κόσμο να αναθεωρούν, να τροποποιούν και να βελτιώνουν από κοινού τον κώδικα, προωθώντας έτσι την ταχεία καινοτομία και την πρόοδο στην τεχνολογία. Τα μοντέλα κλειστού κώδικα αναπτύσσονται και συντηρούνται συνήθως από μία εταιρεία ή οργανισμό, η οποία μπορεί να παρέχει επαγγελματική υποστήριξη και υπηρεσίες για να διασφαλίσει την ασφάλεια και τη σταθερότητα του λογισμικού. Αλλά αυτό το μοντέλο περιορίζει επίσης τις δυνατότητες ελέγχου και προσαρμογής των χρηστών.

Μέχρι τώρα, το μοντέλο κλειστού κώδικα ήταν πάντα ελαφρώς καλύτερο. Μέχρι την κυκλοφορία του Llama 3.1, η συνεχιζόμενη σκληρή συζήτηση ανοιχτού και κλειστού κώδικα έχει επισημανθεί: το μοντέλο ανοιχτού κώδικα μπορεί τελικά να ανταγωνιστεί το μοντέλο κλειστού κώδικα.

Σύμφωνα με τα στοιχεία αναφοράς που παρέχει η Meta, η πιο δημοφιλής έκδοση του 405B είναι ήδη συγκρίσιμη με το GPT-4 και το Claude 3 όσον αφορά την απόδοση. Μεταξύ αυτών, η Ανθρώπινη Αξιολόγηση χρησιμοποιείται κυρίως για την αξιολόγηση της ικανότητας του μοντέλου να κατανοεί και να δημιουργεί κώδικα και να λύνει προβλήματα αφηρημένης λογικής. Σε ανταγωνισμό με άλλα μεγάλα μοντέλα, το Llama 3.1 405B φαίνεται να είναι ελαφρώς καλύτερο.


Το Llama 3.1 είναι στο ίδιο επίπεδο με το GPT-4 και το Claude 3.5 Πηγή: Meta

Ο Andrew Ng, αναπληρωτής καθηγητής επιστήμης υπολογιστών και ηλεκτρολόγων μηχανικών και διευθυντής του Εργαστηρίου Τεχνητής Νοημοσύνης στο Πανεπιστήμιο του Στάνφορντ, επαίνεσε «τις ομάδες Meta και Llama για την τεράστια συνεισφορά τους στον ανοιχτό κώδικα» στα μέσα κοινωνικής δικτύωσης. «Με το αυξημένο μήκος του πλαισίου και τη βελτιωμένη λειτουργικότητά του, το Llama 3.1 είναι ένα φανταστικό δώρο για όλους», είπε, και ήλπιζε ότι «ανόητοι κανονισμοί όπως ο προτεινόμενος SB1047 της Καλιφόρνια δεν θα αποτρέψουν τέτοιες καινοτομίες».


Τα μέσα κοινωνικής δικτύωσης του Ng Enda, πηγή: X

Ο Yann LeCun, νικητής του βραβείου Turing και επικεφαλής επιστήμονας τεχνητής νοημοσύνης στο Meta, ανέφερε την περιγραφή απόδοσης του The Verge για το Llama 3.1—Η Meta κυκλοφόρησε το μεγαλύτερο και καλύτερο μοντέλο τεχνητής νοημοσύνης ανοιχτού κώδικα μέχρι σήμερα: Το Llama 3.1 έχει καλή απόδοση σε ορισμένα σημεία αναφοράς Σε δοκιμές, ξεπέρασε OpenAI και άλλους ανταγωνιστές.


Μέσα κοινωνικής δικτύωσης του Yang Likun, πηγή: X

Είναι ενδιαφέρον ότι η έκδοση 405B του Llama 3.1 ήταν ύποπτη ότι είχε «κλαπεί» στο HugginFace και στο GitHub χθες.

Ο Mark Zuckerberg, ο ιδρυτής και διευθύνων σύμβουλος της Meta, έγραψε προσωπικά ένα εκτενές άρθρο με τίτλο "Open Source AI Is the Path Forward", περιγράφοντας λεπτομερώς τα οφέλη του ανοιχτού κώδικα για τους προγραμματιστές και το Meta και γιατί έχει παγκόσμια σημασία.

Προβλέπει ότι μέχρι το τέλος του τρέχοντος έτους, το Meta AI θα ξεπεράσει το ChatGPT ως ο πιο ευρέως χρησιμοποιούμενος βοηθός.

Είπε επίσης:Ορκιστείτε να εκτελέσετε το ανοιχτό κώδικα μέχρι το τέλος.


Τμήμα άρθρου του "Open Source AI Is the Path Forward", πηγή Meta

1.Η δημιουργία του Llama 3.1

Όσον αφορά την αρχιτεκτονική μοντέλων, ως το μεγαλύτερο μοντέλο της Meta μέχρι σήμερα, το Llama 3.1 εκπαιδεύεται σε δεδομένα περισσότερων από 15 τρισεκατομμύρια μάρκες και τα δεδομένα προεκπαίδευσης είναι διαθέσιμα μέχρι τον Δεκέμβριο του 2023.

Προκειμένου να υλοποιηθεί η εκπαίδευση σε τόσο μεγάλη κλίμακα σε εύλογο χρόνο και να επιτευχθούν τα επιθυμητά αποτελέσματα, η Meta βελτιστοποίησε ολόκληρη τη στοίβα εκπαίδευσης, χρησιμοποιώντας περισσότερα από 16.000 μπλοκ H100B είναι το πρώτο μοντέλο Llama που εκπαιδεύτηκε σε αυτήν την κλίμακα.


Αρχιτεκτονική μοντέλου μετασχηματιστή στη διαδικασία δημιουργίας κειμένου Llama 3.1, πηγή: Meta

Προκειμένου να μεγιστοποιήσει τη σταθερότητα και την ευκολία της εκπαίδευσης, η Meta επέλεξε την τυπική αρχιτεκτονική του μοντέλου Transformer μόνο με αποκωδικοποιητή για λεπτομέρεια, αντί για τη σημερινή δημοφιλή αρχιτεκτονική Mixed Expert Model (MoE).

Αυτή η απόφαση επιτρέπει στο Llama 3.1 να εξακολουθήσει να διασφαλίζει την παραγωγή σύντομου κειμένου υψηλής ποιότητας όταν υποστηρίζει μήκη περιβάλλοντος έως και 128K, επιτρέποντας την ευέλικτη επεξεργασία μεγάλου και σύντομου κειμένου, αντί να εστιάζει απλώς σε μεγάλο κείμενο.

Ταυτόχρονα, η ερευνητική ομάδα εφάρμοσε μια επαναληπτική μέθοδο μετά την εκπαίδευση για τη δημιουργία συνθετικών δεδομένων υψηλής ποιότητας και τη βελτίωση των διαφόρων λειτουργιών του μοντέλου μέσω κάθε γύρου εποπτευόμενης βελτιστοποίησης και άμεσης βελτιστοποίησης προτιμήσεων. Σε σύγκριση με προηγούμενες εκδόσεις, το Llama 3.1 αυξάνει την ποσότητα και την ποιότητα των δεδομένων πριν και μετά την εκπαίδευση, εισάγει πιο λεπτομερείς διαδικασίες προεπεξεργασίας και διαχείρισης και πιο αυστηρές τεχνολογίες διασφάλισης ποιότητας και φιλτραρίσματος.

Σύμφωνα με τον νόμο επέκτασης των γλωσσικών μοντέλων, το Llama 3.1 ξεπερνά τα προηγούμενα μικρά μοντέλα που χρησιμοποιούν την ίδια διαδικασία εκπαίδευσης στην απόδοση.

Προκειμένου να ανταποκριθεί στις απαιτήσεις λειτουργίας μεγάλων μοντέλων 405Β, η Meta κβαντοποίησε τα δεδομένα του μοντέλου από 16-bit (BF16) σε 8-bit (FP8), γεγονός που μείωσε σημαντικά τη ζήτηση για υπολογιστικούς πόρους και επέτρεψε στο μοντέλο να λειτουργεί σε έναν μόνο κόμβο διακομιστή.

Όσον αφορά τη λεπτομερή ρύθμιση εντολών και συνομιλίας του μοντέλου Llama 3.1 405B, η ομάδα ανάπτυξης έχει δεσμευτεί να βελτιώσει την ανταπόκριση, την πρακτικότητα και την ποιότητα του μοντέλου στις εντολές των χρηστών, διασφαλίζοντας παράλληλα υψηλό βαθμό ασφάλειας.

Στη φάση μετά την προπόνηση, η ομάδα έκανε αρκετούς γύρους προσαρμογών με βάση την προ-προπόνηση. Κάθε γύρος περιλαμβάνει εποπτευόμενη λεπτομέρεια (SFT), δειγματοληψία απόρριψης (RS) και βελτιστοποίηση άμεσης προτίμησης (DPO).Επιπλέον, η ομάδα χρησιμοποίησε τη δημιουργία συνθετικών δεδομένων για τη δημιουργία της συντριπτικής πλειονότητας των παραδειγμάτων SFT, που σημαίνει ότι δεν βασίστηκαν αποκλειστικά σε δεδομένα πραγματικού κόσμου, αλλά μάλλον σε δεδομένα που δημιουργήθηκαν αλγοριθμικά για την εκπαίδευση του μοντέλου.

Ταυτόχρονα, η ομάδα χρησιμοποιεί επίσης μια ποικιλία μεθόδων επεξεργασίας δεδομένων για να φιλτράρει αυτά τα δεδομένα για να εξασφαλίσει την υψηλότερη ποιότητα και να επεκτείνει το φάσμα εφαρμογών των λεπτομερώς συντονισμένων δεδομένων.

Η Meta διερευνά επίσης μια νέα στρατηγική, η οποία είναι να χρησιμοποιήσει το μοντέλο 405B ως "μοντέλο δασκάλου" για τα μοντέλα 70B και 8B, εξάγοντας έτσι μικρά προσαρμοσμένα μοντέλα από μεγάλα μοντέλα που ταιριάζουν στις ανάγκες διαφόρων βιομηχανιών. Αυτή η προσέγγιση συμπίπτει με τη στρατηγική του GPT-4o mini.Δηλαδή, "κάντε το πρώτα μεγάλο, μετά κάντε το μικρό"

Ο Andrej Karpathy, ένα από τα πρώην ιδρυτικά μέλη του OpenAI, σχολίασε κάποτε στο GPT-4o Mini: "Το μοντέλο πρέπει πρώτα να γίνει μεγαλύτερο για να μπορέσει να γίνει μικρότερο. Επισήμανε ότι αυτή η μέθοδος μπορεί να μεταφέρει αποτελεσματικά το βάθος και το εύρος της γνώσης μεγάλων μοντέλων σε μικρότερα μοντέλα που είναι πιο πρακτικά και λιγότερο ακριβά.

Ως ηγέτης στη διαδρομή μοντέλων ανοιχτού κώδικα, η Meta έχει επίσης δείξει ειλικρίνεια στην υποστήριξη των εγκαταστάσεων για το μοντέλο Llama.

Το σύστημα Llama έχει σχεδιαστεί ως ένα ολοκληρωμένο πλαίσιο που μπορεί να ενσωματώσει πολλαπλά στοιχεία, συμπεριλαμβανομένης της κλήσης εξωτερικών εργαλείων. Στόχος της Meta είναι να παρέχει ένα ευρύτερο σύστημα που επιτρέπει στους προγραμματιστές να σχεδιάζουν και να δημιουργούν προσαρμοσμένα προϊόντα που ανταποκρίνονται στις ανάγκες τους.

Για την υπεύθυνη εξέλιξη της τεχνητής νοημοσύνης πέρα ​​από το επίπεδο μοντέλου, η ερευνητική ομάδα κυκλοφόρησε ένα πλήρες σύστημα αναφοράς με πολλαπλά παραδείγματα εφαρμογών και νέα στοιχεία, όπως το πολύγλωσσο μοντέλο ασφαλείας Llama Guard 3 και το φίλτρο άμεσης έγχυσης Prompt Guard. Αυτές οι εφαρμογές είναι ανοιχτού κώδικα και είναι διαθέσιμες για περαιτέρω ανάπτυξη από την κοινότητα.

Για να ορίσουν καλύτερα τις διεπαφές στοιχείων και να προωθήσουν την τυποποίησή τους στη βιομηχανία, οι ερευνητές συνεργάστηκαν με τη βιομηχανία, τις νεοφυείς επιχειρήσεις και την ευρύτερη κοινότητα και δημοσίευσαν την πρόταση "Llama Stack" στο GitHub. Αυτό είναι ένα σύνολο τυποποιημένων διεπαφών που απλοποιούν την κατασκευή εξαρτημάτων αλυσίδας εργαλείων (όπως λεπτομέρεια, παραγωγή συνθετικών δεδομένων) και εφαρμογές πρακτόρων.

Σύμφωνα με τα δεδομένα δοκιμών αναφοράς που παρέχονται από τη Meta, το Llama 3.1 405B σημείωσε 98,1 στο NIH/Multi-needle benchmark, το οποίο είναι συγκρίσιμο με το GPT-4 και το Claude 3,5 όσον αφορά τις βαθμολογίες απόδοσης. Η έκδοση 405B έχει εξαιρετική ικανότητα ενσωμάτωσης τεράστιων πληροφοριών κειμένου και έχει βαθμολογία 95,2 στη δοκιμή αναφοράς ZeroSCROLLS/QuALITY Είναι πολύ φιλική προς τους προγραμματιστές εφαρμογών τεχνητής νοημοσύνης που ανησυχούν για την απόδοση RAG.


Το Llama 3.1 σε σύγκριση με μοντέλα κλειστού κώδικα όπως το GPT4, πηγή: Meta


Το Llama 3.1 σε σύγκριση με μοντέλα ανοιχτού κώδικα όπως το Mistral 7B Instruct, πηγή: Meta

Η έκδοση Llama 3.1 8B είναι σημαντικά καλύτερη από τις Gemma 2 9B 1T και Mistral 7B Instruct και η απόδοσή της έχει βελτιωθεί σημαντικά σε σύγκριση με την προηγούμενη γενιά Llama 3 8B. Ταυτόχρονα, η έκδοση Llama 3.1 70B ξεπέρασε ακόμη και το GPT-3.5 Turbo.

Σύμφωνα με την επίσημη αναφορά της ομάδας Llama, διεξήγαγαν σε βάθος αξιολόγηση απόδοσης και εκτεταμένες χειροκίνητες δοκιμές αυτών των μοντέλων σε περισσότερα από 150 σύνολα δεδομένων αναφοράς πολλών γλωσσών. Τα αποτελέσματα δείχνουν ότι το κορυφαίο μοντέλο της Llama είναι συγκρίσιμο με τα κορυφαία βασικά μοντέλα της αγοράς όπως τα GPT-4, GPT-4o και Claude 3.5 Sonnet σε διάφορες εργασίες. Ταυτόχρονα, σε σύγκριση με μοντέλα κλειστού και ανοιχτού κώδικα με παρόμοιες κλίμακες παραμέτρων, η μικρή έκδοση του Llama έδειξε επίσης ισχυρή ανταγωνιστικότητα.


2.Η συζήτηση μεταξύ μοντέλων ανοιχτού και κλειστού κώδικα

Μπορεί το μοντέλο ανοιχτού κώδικα να ξεπεράσει το μοντέλο κλειστού κώδικα;

Αυτό το θέμα είναι αμφιλεγόμενο από πέρυσι. Τα μονοπάτια ανάπτυξης των δύο μοντέλων αντιπροσωπεύουν διαφορετικές τεχνικές φιλοσοφίες και το καθένα έχει τα δικά του πλεονεκτήματα στην προώθηση της τεχνολογικής προόδου και στην κάλυψη των επιχειρηματικών αναγκών.

Για παράδειγμα, το Llama 3.1 είναι ένα μεγάλο μοντέλο ανοιχτού κώδικα που επιτρέπει σε ερευνητές και προγραμματιστές να έχουν πρόσβαση στον πηγαίο κώδικα του και οι άνθρωποι μπορούν ελεύθερα να μελετήσουν, να τροποποιήσουν και ακόμη και να βελτιώσουν το μοντέλο. Αυτό το άνοιγμα ενθαρρύνει την ευρεία συνεργασία και την καινοτομία, επιτρέποντας σε προγραμματιστές από διαφορετικά υπόβαθρα να συνεργαστούν για την επίλυση προβλημάτων.

Αντίθετα, το ChatGPT είναι ένα μοντέλο κλειστού κώδικα που αναπτύχθηκε από την OpenAI Αν και παρέχει πρόσβαση στο API, ο βασικός του αλγόριθμος και τα δεδομένα εκπαίδευσης δεν αποκαλύπτονται πλήρως. Η φύση κλειστού κώδικα του GPT-3 το καθιστά πιο εύρωστο στη διαδρομή εμπορευματοποίησης. Ταυτόχρονα, η δυνατότητα ελέγχου του εξασφαλίζει τη σταθερότητα και την ασφάλεια του προϊόντος, καθιστώντας το πιο αξιόπιστο για τις επιχειρήσεις όταν χειρίζονται ευαίσθητες πληροφορίες. Ωστόσο, αυτή η κλειστότητα περιορίζει επίσης την ικανότητα των εξωτερικών ερευνητών να κατανοήσουν πλήρως και να καινοτομήσουν το μοντέλο.

Τον Μάιο του περασμένου έτους, ξένα μέσα ανέφεραν ότι η Google διέρρευσε ένα έγγραφο με το θέμα: "Δεν έχουμε τάφρο, όπως και το OpenAI. Ενώ εξακολουθούμε να διαφωνούμε, ο ανοιχτός κώδικας έχει κλέψει αθόρυβα τις δουλειές μας". Αφού η Meta κυκλοφόρησε το μεγάλο μοντέλο ανοιχτού κώδικα Llama 2 την ίδια χρονιά, ο Yang Likun είπε ότι το Llama 2 θα άλλαζε τη δομή της αγοράς των μεγάλων γλωσσικών μοντέλων.

Ο κόσμος ανυπομονεί για την κοινότητα ανοιχτού κώδικα με επικεφαλής τη σειρά μοντέλων Llama. Προηγουμένως, το πιο προηγμένο μοντέλο κλειστού κώδικα GPT-4 ήταν πάντα ελαφρώς καλύτερο, αν και το χάσμα μεταξύ του Llama 3 εκείνη την εποχή ήταν ήδη πολύ μικρό.

Η πιο έγκυρη λίστα στον τομέα των μεγάλων μοντέλων είναι το Large Model Arena (LLM Arena), το οποίο έχει υιοθετήσει το σύστημα πόντων ELO από το σκάκι. Ο βασικός του κανόνας είναι να επιτρέπει στους χρήστες να κάνουν οποιαδήποτε ερώτηση σε δύο ανώνυμα μοντέλα (π.χ. ChatGPT, Claude, Llama) και να ψηφίζουν για αυτό με την καλύτερη απάντηση. Το μοντέλο με καλύτερες απαντήσεις θα λάβει βαθμούς και η τελική κατάταξη καθορίζεται από τους συσσωρευμένους βαθμούς. Το Arean ELO συνέλεξε δεδομένα ψηφοφορίας από 500.000 άτομα.


Μια επισκόπηση της μεγάλης κατάταξης μοντέλων, πηγή: LLM Arena

Στην κατάταξη του LLM Arena, το GPT-4o του OpenAI κατέχει αυτή τη στιγμή την πρώτη θέση. Τα δέκα κορυφαία μοντέλα είναι όλα κλειστού κώδικα. Αν και το μοντέλο κλειστού κώδικα εξακολουθεί να είναι πολύ μπροστά στην κατάταξη, το χάσμα μεταξύ μοντέλων ανοιχτού και κλειστού κώδικα δεν αυξάνεται όπως είπε ο Robin Li στο 2024 Baidu AI Developer Conference, αλλά στην πραγματικότητα μειώνεται σταδιακά.


Κατά τη διάρκεια του WAIC, ο Robin Li είπε: «Το ανοιχτό κώδικα είναι στην πραγματικότητα ένα είδος φόρου IQ».Πηγή: Baidu

Με την κυκλοφορία του Llama 3.1 σήμερα, το μοντέλο ανοιχτού κώδικα μπορεί επιτέλους να ανταγωνιστεί το μοντέλο κλειστού κώδικα.

Όσο για το ποιο μοντέλο ανοιχτού κώδικα ή κλειστού κώδικα είναι καλύτερο, ο "Jiazi Guangnian" έχει συζητήσει με πολλούς επαγγελματίες του κλάδου της τεχνητής νοημοσύνης. Η βιομηχανία πιστεύει γενικά ότι:Συχνά εξαρτάται από την προσωπική του στάση και δεν είναι ένα απλό ασπρόμαυρο ζήτημα.

Το θέμα ανοιχτού κώδικα και κλειστού κώδικα δεν είναι καθαρά τεχνική διαφορά, αλλά περισσότερο σχετικά με την επιλογή του επιχειρηματικού μοντέλου. Προς το παρόν, ανεξάρτητα από το αν πρόκειται για μεγάλο μοντέλο ανοιχτού κώδικα ή κλειστού κώδικα, δεν έχει βρεθεί ακόμη ένα απόλυτα επιτυχημένο επιχειρηματικό μοντέλο.

Ποιοι παράγοντες λοιπόν επηρεάζουν τις διαφορές δυνατοτήτων μεταξύ μοντέλων ανοιχτού και κλειστού κώδικα;

Ο Zhang Junlin, επικεφαλής της έρευνας και ανάπτυξης νέας τεχνολογίας του Weibo, επεσήμανε ότι ο ρυθμός ανάπτυξης των δυνατοτήτων των μοντέλων είναι βασικός παράγοντας. Εάν η ικανότητα του μοντέλου αυξάνεται γρήγορα, σημαίνει ότι απαιτείται μεγάλος αριθμός υπολογιστικών πόρων σε σύντομο χρονικό διάστημα, το μοντέλο κλειστού κώδικα έχει περισσότερα πλεονεκτήματα λόγω των πλεονεκτημάτων του. Αντίθετα, εάν οι δυνατότητες του μοντέλου αυξηθούν αργά, το χάσμα μεταξύ ανοιχτού κώδικα και κλειστού κώδικα θα μειωθεί και η ταχύτητα κάλυψης θα επιταχυνθεί.

Πιστεύει ότι τα επόμενα χρόνια, η διαφορά στις δυνατότητες μεταξύ μοντέλων ανοιχτού και κλειστού κώδικα θα εξαρτηθεί από την ανάπτυξη της τεχνολογίας «συνθετικών δεδομένων». Εάν η τεχνολογία "συνθετικών δεδομένων" σημειώσει σημαντική πρόοδο τα επόμενα δύο χρόνια, το χάσμα μεταξύ των δύο μπορεί να αυξηθεί εάν δεν υπάρξει σημαντική ανακάλυψη, οι δυνατότητες των δύο θα τείνουν να είναι παρόμοιες.

Συνολικά, τα "συνθετικά δεδομένα" θα γίνουν βασική τεχνολογία για την ανάπτυξη μεγάλων μοντέλων γλώσσας στο μέλλον.

Ο ανοιχτός κώδικας ή ο κλειστός κώδικας δεν καθορίζουν από μόνοι τους την απόδοση του μοντέλου. Τα μοντέλα κλειστού κώδικα δεν οδηγούν επειδή είναι κλειστού κώδικα και τα μοντέλα ανοιχτού κώδικα δεν υστερούν επειδή είναι ανοιχτού κώδικα. Ακόμη και αντίθετα, το μοντέλο επιλέγει κλειστό κώδικα επειδή οδηγεί, και πρέπει να επιλέξει ανοιχτό κώδικα επειδή δεν οδηγεί αρκετά.

Εάν μια εταιρεία κατασκευάζει ένα μοντέλο πολύ αποδοτικό, μπορεί να μην είναι πλέον ανοιχτού κώδικα.

Για παράδειγμα, η γαλλική Star startup Mistral, το πιο ισχυρό μοντέλο ανοιχτού κώδικα 7B Mistral-7B και το πρώτο ανοιχτού κώδικα MoE μοντέλο 8x7B (MMLU 70) είναι ένα από τα πιο δημοφιλή μοντέλα στην κοινότητα ανοιχτού κώδικα. Ωστόσο, τα Mistral-Medium (MMLU-75) και Mistral-Large (MMLU-81) που εκπαιδεύτηκαν στη συνέχεια από τη Mistral είναι και τα δύο μοντέλα κλειστού κώδικα.

Επί του παρόντος, το μοντέλο κλειστού κώδικα με τις καλύτερες επιδόσεις και το μοντέλο ανοιχτού κώδικα με τις καλύτερες επιδόσεις κυριαρχούνται από μεγάλες εταιρείες και μεταξύ των μεγάλων εταιρειών, η Meta έχει τη μεγαλύτερη αποφασιστικότητα ανοιχτού κώδικα.Εάν το OpenAI δεν είναι ανοιχτού κώδικα από την άποψη των εμπορικών επιστροφών, τότε ποιος είναι ο σκοπός της Meta που επιλέγει να είναι ανοιχτού κώδικα και επιτρέπει στους χρήστες να το δοκιμάσουν δωρεάν;

Στην οικονομική έκθεση του περασμένου τριμήνου, η απάντηση του Zuckerberg σε αυτό το θέμα ήταν ότι η τεχνολογία AI της Meta ήταν η προώθηση της τεχνολογικής καινοτομίας, η βελτίωση της ποιότητας των μοντέλων, η καθιέρωση βιομηχανικών προτύπων, η προσέλκυση ταλέντων, η αύξηση της διαφάνειας και η υποστήριξη μακροπρόθεσμων στρατηγικών.

Αυτή τη φορά ο Zuckerberg εξήγησε λεπτομερώς "γιατί το AI ανοιχτού κώδικα είναι καλό για προγραμματιστές" στο "Open Source AI Is the Path Forward":

Σε συζητήσεις με προγραμματιστές, CEO και κυβερνητικούς αξιωματούχους από όλο τον κόσμο, τους ακούω συχνά να τονίζουν την ανάγκη να εκπαιδεύουν, να τελειοποιούν και να βελτιστοποιούν τα δικά τους μοντέλα.

Κάθε οργανισμός έχει μοναδικές ανάγκες και μοντέλα διαφορετικών μεγεθών μπορούν να βελτιστοποιηθούν για αυτές τις ανάγκες, εκπαιδευμένα ή βελτιστοποιημένα με συγκεκριμένα δεδομένα. Οι απλές εργασίες στη συσκευή και οι εργασίες ταξινόμησης ενδέχεται να απαιτούν μικρότερα μοντέλα, ενώ για πιο σύνθετες εργασίες απαιτούνται μεγαλύτερα μοντέλα.

Τώρα μπορείτε να χρησιμοποιήσετε υπερσύγχρονα μοντέλα Llama και να συνεχίσετε να τα εκπαιδεύετε με τα δικά σας δεδομένα, βελτιστοποιώντας τα αργότερα στην ιδανική σας κλίμακα—χωρίς εμείς ή οποιοσδήποτε άλλος να έχει ποτέ πρόσβαση στα δεδομένα σας.

Πρέπει να ελέγχουμε τη μοίρα μας, όχι να είμαστε υπόχρεοι σε έναν πωλητή κλειστού κώδικα.

Πολλοί οργανισμοί δεν θέλουν να βασιστούν σε ένα μοντέλο που δεν μπορούν να διαχειριστούν και να ελέγξουν οι ίδιοι. Ανησυχούν ότι οι πάροχοι μοντέλων κλειστού κώδικα ενδέχεται να αλλάξουν το μοντέλο, τους όρους χρήσης ή ακόμη και να διακόψουν εντελώς τις υπηρεσίες. Επίσης, δεν θέλουν να κλειδωθούν σε μια ενιαία πλατφόρμα cloud που έχει αποκλειστικά δικαιώματα σε ένα συγκεκριμένο μοντέλο. Ο ανοιχτός κώδικας παρέχει σε πολλές εταιρείες μια συμβατή αλυσίδα εργαλείων, καθιστώντας εύκολη την εναλλαγή μεταξύ διαφορετικών συστημάτων.

Πρέπει να προστατεύσουμε τα δεδομένα μας.

Πολλοί οργανισμοί χειρίζονται ευαίσθητα δεδομένα και πρέπει να προστατεύουν αυτά τα δεδομένα από την αποστολή μέσω των API cloud σε μοντέλα κλειστού κώδικα. Άλλοι οργανισμοί απλώς δεν εμπιστεύονται την προσέγγιση του παρόχου μοντέλου κλειστού κώδικα για την επεξεργασία δεδομένων. Ο ανοιχτός κώδικας επιλύει αυτά τα προβλήματα επιτρέποντάς σας να εκτελείτε μοντέλα όπου θέλετε και θεωρείται ευρέως ότι είναι πιο ασφαλές λόγω της διαφάνειας της διαδικασίας ανάπτυξης.

Χρειαζόμαστε έναν αποτελεσματικό και οικονομικό τρόπο λειτουργίας.

Οι προγραμματιστές μπορούν να εκτελούν μοντέλα Llama 3.1 405B για συμπέρασμα στη δική τους υποδομή με περίπου το μισό κόστος χρήσης μοντέλων κλειστού κώδικα όπως το GPT-4o, κατάλληλα για εργασίες εξαγωγής συμπερασμάτων που αντιμετωπίζουν οι χρήστες και εκτός σύνδεσης.

Ποντάρουμε σε ένα οικοσύστημα που υπόσχεται να γίνει το μακροπρόθεσμο πρότυπο.

Πολλοί άνθρωποι βλέπουν τα μοντέλα ανοιχτού κώδικα να εξελίσσονται ταχύτερα από τα μοντέλα κλειστού κώδικα και ελπίζουν ότι η αρχιτεκτονική του συστήματος που κατασκευάζουν θα φέρει τα μεγαλύτερα μακροπρόθεσμα πλεονεκτήματα.

(Εικόνα εξωφύλλου από λογαριασμό Meta X)