Στη βιομηχανία των μεγάλων μοντέλων, δεν υπάρχει καθόλου «πραγματικός» ανοιχτός κώδικας;

2024-08-01

Συγγραφέας |. Zhou Xiaoxiao
Email｜ [email protected]

Η αγορά των μεγάλων μοντέλων ανοιχτού κώδικα ήταν πολύ ζωηρή Πρώτα, η Apple χρησιμοποίησε το μικρό μοντέλο DCLM 7 δισεκατομμυρίων και στη συνέχεια το βαρύ μοντέλο Meta 3.1 και το Mistral Large 2 ήταν ανοιχτού κώδικα το ένα μετά το άλλο ξεπέρασε το μοντέλο SOTA κλειστού κώδικα.

Ωστόσο, η συζήτηση μεταξύ των φατριών ανοιχτού κώδικα και κλειστού κώδικα δεν δείχνει σημάδια διακοπής.

Από τη μια πλευρά, ο Μέτα είπε μετά την κυκλοφορία του Llama 3.1: «Τώρα, εγκαινιάζουμε μια νέα εποχή που ηγείται του ανοιχτού κώδικα. μεταξύ ανοιχτού κώδικα και κλειστού κώδικα στη χώρα και στο μορφολογικό επίπεδο.

Στο Παγκόσμιο Συνέδριο Τεχνητής Νοημοσύνης πριν από λίγο καιρό, ο Robin Li δήλωσε ωμά ότι "το ανοιχτό κώδικα είναι στην πραγματικότητα ένα είδος φόρου IQ" επειδή τα μοντέλα κλειστού κώδικα είναι προφανώς πιο ισχυρά και έχουν χαμηλότερο κόστος συλλογιστικής, γεγονός που για άλλη μια φορά πυροδότησε συζητήσεις.

Αργότερα, ο Fu Sheng εξέφρασε επίσης τη γνώμη του. Πίστευε ότι τα δύο στρατόπεδα του ανοιχτού κώδικα και του κλειστού κώδικα ανταγωνίζονται μεταξύ τους και αναπτύσσονται μαζί. Διέψευσε επίσης την άποψη ότι «το ανοιχτό κώδικα είναι στην πραγματικότητα ένα είδος φόρου IQ»: «Το μοντέλο ανοιχτού κώδικα μεγάλης γλώσσας είναι δωρεάν, πώς πήρε τον φόρο IQ και ποιος εισπράττει τον φόρο;», «Εάν οι σημερινές εταιρείες χρησιμοποιούν επί πληρωμή κλειστού κώδικα Μοντέλα μεγάλης γλώσσας, αυτό είναι αυτό που ονομάζεται «φόρος IQ», ειδικά τα πολύ υψηλά τέλη αδειοδότησης μοντέλων και τα τέλη API, τα οποία κοστίζουν εκατοντάδες εκατομμύρια το χρόνο και τελικά αγοράζονται ως διακοσμητικά και ακόμη και οι εργαζόμενοι δεν μπορούν να χρησιμοποιήσουν τους καθόλου (το μοντέλο)».

Ο πυρήνας αυτής της συζήτησης περιλαμβάνει την κατεύθυνση και το μοντέλο της ανάπτυξης της τεχνολογίας, το οποίο αντικατοπτρίζει τις απόψεις και τις θέσεις των διαφορετικών ενδιαφερομένων Προτού μιλήσουμε για μοντέλα ανοιχτού κώδικα και κλειστού κώδικα μεγάλων γλωσσών, πρέπει να διευκρινίσουμε τους όρους "ανοιχτού κώδικα" και ". κλειστού κώδικα».Δύο βασικές έννοιες.

Ο όρος "ανοιχτός κώδικας" προέρχεται από το πεδίο λογισμικού και αναφέρεται στο να γίνει ο πηγαίος κώδικας του λογισμικού ανοικτός στο κοινό κατά τη διαδικασία ανάπτυξης, επιτρέποντας σε οποιονδήποτε να τον δει, να τον τροποποιήσει και να τον διανείμει.λογισμικό ανοικτού κώδικαΗ ανάπτυξη λογισμικού ακολουθεί συνήθως τις αρχές της αμοιβαίας συνεργασίας και της ομότιμης παραγωγής, προωθώντας τη βελτίωση των μονάδων παραγωγής, των αγωγών επικοινωνίας και των διαδραστικών κοινοτήτων Τυπικοί εκπρόσωποι περιλαμβάνουν το Linux και τον Mozilla Firefox.

Λογισμικό κλειστού κώδικα (ιδιόκτητο λογισμικό) Για εμπορικούς ή άλλους λόγους, ο πηγαίος κώδικας δεν αποκαλύπτεται και παρέχονται μόνο προγράμματα αναγνώσιμα από υπολογιστή (όπως δυαδική μορφή). Ο πηγαίος κώδικας ανήκει και ελέγχεται μόνο από τον προγραμματιστή. Τυπικοί εκπρόσωποι περιλαμβάνουν τα Windows και το Android.

Ο ανοιχτός κώδικας είναι ένα μοντέλο ανάπτυξης λογισμικού που βασίζεται στο άνοιγμα, την κοινή χρήση και τη συνεργασία, ενθαρρύνει όλους να συμμετέχουν στην ανάπτυξη και βελτίωση του λογισμικού και προάγει τη συνεχή πρόοδο και την ευρεία εφαρμογή της τεχνολογίας.

Το λογισμικό που έχει αναπτυχθεί με κλειστό κώδικα είναι πιο πιθανό να είναι ένα σταθερό, εστιασμένο προϊόν, αλλά το λογισμικό κλειστού κώδικα συνήθως κοστίζει χρήματα και εάν έχει σφάλματα ή λείπουν χαρακτηριστικά, πρέπει να περιμένετε να διορθώσει το πρόβλημα ο προγραμματιστής.

Όσο για το τι είναι ένα μεγάλο μοντέλο ανοιχτού κώδικα, η βιομηχανία δεν έχει καταλήξει σε σαφή συναίνεση όπως το λογισμικό ανοιχτού κώδικα.

Ο ανοιχτός κώδικας των μεγάλων γλωσσικών μοντέλων και του λογισμικού ανοιχτού κώδικα είναι παρόμοια ως προς την ιδέα. Βασίζονται και τα δύο στο άνοιγμα, την κοινή χρήση και τη συνεργασία, ενθαρρύνοντας την κοινότητα να συμμετάσχει στην ανάπτυξη και τη βελτίωση, προωθώντας την τεχνολογική πρόοδο και βελτιώνοντας τη διαφάνεια.

Ωστόσο, υπάρχουν σημαντικές διαφορές στην εφαρμογή και τις απαιτήσεις.

Το λογισμικό ανοιχτού κώδικα στοχεύει κυρίως σε εφαρμογές και εργαλεία και ο ανοιχτός κώδικας έχει χαμηλότερες απαιτήσεις πόρων, ενώ ο ανοιχτός κώδικας μοντέλων μεγάλων γλωσσών περιλαμβάνει μεγάλο όγκο υπολογιστικών πόρων και δεδομένα υψηλής ποιότητας και μπορεί να έχει περισσότερους περιορισμούς χρήσης. Επομένως, ενώ αμφότεροι ο ανοιχτός κώδικας στοχεύουν στην προώθηση της καινοτομίας και της διάδοσης της τεχνολογίας, το μοντέλο ανοιχτού κώδικα μεγάλων γλωσσών αντιμετωπίζει περισσότερες πολυπλοκότητες και η μορφή της κοινοτικής συνεισφοράς είναι επίσης διαφορετική.

Ο Robin Li τόνισε επίσης ότι η διαφορά μεταξύ του μοντέλου ανοιχτού κώδικα δεν σημαίνει κώδικα ανοιχτού κώδικα: "Το μοντέλο ανοιχτού κώδικα μπορεί να λάβει μόνο μια δέσμη παραμέτρων και πρέπει να κάνετε SFT (επιβλεπόμενη λεπτομέρεια) και ευθυγράμμιση ασφαλείας. παίρνετε τον αντίστοιχο πηγαίο κώδικα, δεν μπορείτε να τον πάρετε." Γνωρίζοντας πόσα και ποια αναλογία δεδομένων χρησιμοποιήθηκαν για την εκπαίδευση αυτών των παραμέτρων δεν θα επιτρέψει σε όλους να ρίξουν λάδι στη φωτιά. Η λήψη αυτών των πραγμάτων δεν θα σας επιτρέψει να σταθεί στους ώμους των γιγάντων και να αναπτυχθεί επαναληπτικά».

Ο ανοιχτός κώδικας πλήρους διαδικασίας μεγάλων γλωσσικών μοντέλων περιλαμβάνει τη δημιουργία της όλης διαδικασίας ανάπτυξης μοντέλων, από τη συλλογή δεδομένων, το σχεδιασμό μοντέλων, την εκπαίδευση έως την ανάπτυξη, ανοικτή και διαφανή. Αυτή η προσέγγιση δεν περιλαμβάνει μόνο την αποκάλυψη συνόλων δεδομένων και αρχιτεκτονικής μοντέλων, αλλά καλύπτει επίσης την κοινή χρήση κώδικα της εκπαιδευτικής διαδικασίας και την απελευθέρωση προεκπαιδευμένων βαρών μοντέλων.

Τον περασμένο χρόνο σημειώθηκε τεράστια αύξηση στον αριθμό των μεγάλων γλωσσικών μοντέλων, πολλά που ισχυρίζονται ότι είναι ανοιχτού κώδικα, αλλά πόσο ανοιχτά είναι πραγματικά;

Ο Andreas Liesenfeld, ερευνητής τεχνητής νοημοσύνης στο Πανεπιστήμιο Radboud στην Ολλανδία, και ο υπολογιστικός γλωσσολόγος Mark Dingemanse, διαπίστωσαν επίσης ότι παρόλο που ο όρος "ανοιχτός κώδικας" χρησιμοποιείται ευρέως, πολλά μοντέλα είναι στην καλύτερη περίπτωση μόνο "ανοικτά βάρη" και πολλά άλλα πράγματα σχετικά με κατασκευή συστήματος Όλες οι πτυχές είναι κρυφές.

Για παράδειγμα, παρόλο που τεχνολογίες όπως η Meta και η Microsoft διαθέτουν τα μεγάλα γλωσσικά μοντέλα τους ως "ανοιχτού κώδικα", δεν αποκαλύπτουν σημαντικές πληροφορίες που σχετίζονται με την υποκείμενη τεχνολογία. Αυτό που τους εξέπληξε ήταν ότι η απόδοση εταιρειών και ιδρυμάτων τεχνητής νοημοσύνης με λιγότερους πόρους ήταν ακόμη πιο αξιέπαινη.

Η ερευνητική ομάδα ανέλυσε μια σειρά δημοφιλών έργων μεγάλων γλωσσικών μοντέλων "ανοικτού κώδικα" και αξιολόγησε το πραγματικό τους άνοιγμα από πολλαπλές πτυχές όπως κώδικας, δεδομένα, βάρη, API και τεκμηρίωση. Η μελέτη χρησιμοποίησε επίσης το ChatGPT του OpenAI ως σημείο αναφοράς για κλειστό κώδικα, υπογραμμίζοντας την πραγματική κατάσταση των έργων «ανοιχτού κώδικα».

✔ σημαίνει ανοιχτό, ~ σημαίνει μερικώς ανοιχτό και Χ σημαίνει κλειστό

Τα αποτελέσματα δείχνουν σημαντικές διαφορές μεταξύ των έργων Σύμφωνα με αυτήν την κατάταξη, το Allen Institute for OLMo's AI είναι το πιο ανοιχτό μοντέλο, ακολουθούμενο από το BloomZ της BigScience, και τα δύο αναπτύχθηκαν από μη κερδοσκοπικούς οργανισμούς.

Το έγγραφο αναφέρει ότι παρόλο που το Llama του Meta και το Gemma του Google DeepMind ισχυρίζονται ότι είναι ανοιχτού κώδικα ή ανοιχτό, στην πραγματικότητα είναι απλώς ανοιχτά βάρη, οι εξωτερικοί ερευνητές μπορούν να έχουν πρόσβαση και να χρησιμοποιούν προεκπαιδευμένα μοντέλα, αλλά δεν μπορούν να επιθεωρήσουν ή να προσαρμόσουν το μοντέλο και δεν ξέρουν πώς. το μοντέλο στοχεύει συγκεκριμένες εργασίες.

Οι πρόσφατες κυκλοφορίες των LLaMA 3 και Mistral Large 2 έχουν τραβήξει πολλή προσοχή. Όσον αφορά τη διαφάνεια του μοντέλου, το LLaMA 3 εκθέτει τα βάρη μοντέλων Οι χρήστες μπορούν να έχουν πρόσβαση και να χρησιμοποιούν αυτά τα βάρη μοντέλων που έχουν προπονηθεί και έχουν προσαρμοστεί με οδηγίες Ο πλήρης κωδικός εκπαίδευσης δεν παρέχεται και τα δεδομένα εκπαίδευσης για το LLaMA 3 δεν δημοσιοποιούνται. Αλλά αυτή τη φορά το LMeta έφερε μια τεχνική έκθεση 93 σελίδων για το LLaMA 3.1 405B.

Η κατάσταση του Mistral Large 2 είναι παρόμοια. Διατηρεί υψηλό βαθμό διαφάνειας όσον αφορά τα βάρη των μοντέλων και τα API, αλλά χαμηλότερο βαθμό ανοίγματος όσον αφορά τον πλήρη κώδικα και τα δεδομένα εκπαίδευσης. επιτρέποντας την έρευνα Χρήση με περιορισμούς στην εμπορική χρήση.

Η Google είπε ότι η εταιρεία ήταν «πολύ ακριβής στη γλώσσα της» όταν περιέγραψε το μοντέλο και αποκάλεσε την Gemma ανοιχτή αντί ανοιχτού κώδικα. "Οι υπάρχουσες έννοιες ανοιχτού κώδικα δεν είναι πάντα άμεσα εφαρμόσιμες στα συστήματα τεχνητής νοημοσύνης."

Ένα σημαντικό πλαίσιο για αυτήν τη μελέτη είναι ο νόμος της ΕΕ για την τεχνητή νοημοσύνη, ο οποίος, όταν τεθεί σε ισχύ, επιβάλλει πιο χαλαρούς κανονισμούς για μοντέλα που ταξινομούνται ως ανοιχτά, επομένως ο ορισμός του ανοιχτού κώδικα μπορεί να γίνει πιο σημαντικός.

Ο μόνος τρόπος για να καινοτομήσετε, λένε οι ερευνητές, είναι να τροποποιήσετε το μοντέλο, για το οποίο χρειάζεστε αρκετές πληροφορίες για να δημιουργήσετε τη δική σας έκδοση. Όχι μόνο αυτό, αλλά τα μοντέλα πρέπει να εξετάζονται εξονυχιστικά. Για παράδειγμα, εάν ένα μοντέλο εκπαιδεύεται σε μεγάλο αριθμό δειγμάτων δοκιμής, η επιτυχία μιας συγκεκριμένης δοκιμής μπορεί να μην είναι επίτευγμα.

Είναι επίσης ενθουσιασμένοι με την εμφάνιση τόσων εναλλακτικών λύσεων ανοιχτού κώδικα και το ChatGPT είναι τόσο δημοφιλές που είναι εύκολο να ξεχάσουμε οτιδήποτε σχετικά με τα δεδομένα εκπαίδευσης ή άλλα κόλπα πίσω από τα παρασκήνια. Αυτή είναι μια παγίδα για όσους επιθυμούν να κατανοήσουν καλύτερα το μοντέλο ή να δημιουργήσουν εφαρμογές που βασίζονται σε αυτό, ενώ οι εναλλακτικές λύσεις ανοιχτού κώδικα επιτρέπουν την κρίσιμη βασική έρευνα.

Η Silicon Star έκανε επίσης στατιστικά στοιχεία σχετικά με την κατάσταση ανοιχτού κώδικα ορισμένων εγχώριων μοντέλων μεγάλων γλωσσών ανοιχτού κώδικα:

Μπορούμε να δούμε από τον πίνακα ότι, παρόμοια με την κατάσταση στο εξωτερικό, το πιο εμπεριστατωμένο μοντέλο ανοιχτού κώδικα καθοδηγείται βασικά από ερευνητικά ιδρύματα τείνουν να ανοίξουν τα ερευνητικά τους αποτελέσματα.

Οι εμπορικές εταιρείες χρησιμοποιούν τα πλεονεκτήματα των πόρων τους για να αναπτύξουν πιο ισχυρά μοντέλα και να αποκτήσουν πλεονεκτήματα στον ανταγωνισμό μέσω κατάλληλων στρατηγικών ανοιχτού κώδικα.

Από το GPT-3 έως το BERT, ο ανοιχτός κώδικας έδωσε σημαντική ώθηση στο οικοσύστημα των μεγάλων μοντέλων.

Δημοσιεύοντας την αρχιτεκτονική και τις μεθόδους εκπαίδευσής του, οι ερευνητές και οι προγραμματιστές μπορούν να εξερευνήσουν περαιτέρω και να βελτιώσουν αυτά τα θεμέλια, οδηγώντας σε περισσότερες τεχνολογίες και εφαρμογές αιχμής.

Η εμφάνιση μεγάλων μοντέλων ανοιχτού κώδικα μείωσε σημαντικά το όριο ανάπτυξης Οι προγραμματιστές και οι μικρομεσαίες επιχειρήσεις μπορούν να επωφεληθούν από αυτές τις προηγμένες τεχνολογίες τεχνητής νοημοσύνης χωρίς να χρειάζεται να δημιουργήσουν μοντέλα από την αρχή, εξοικονομώντας έτσι πολύ χρόνο και πόρους. Αυτό επιτρέπει τη γρήγορη εφαρμογή πιο καινοτόμων έργων και προϊόντων, προωθώντας την ανάπτυξη ολόκληρου του κλάδου. Οι προγραμματιστές μοιράζονται ενεργά μεθόδους βελτιστοποίησης και περιπτώσεις εφαρμογών στην πλατφόρμα ανοιχτού κώδικα, η οποία προωθεί επίσης την ωριμότητα και την εφαρμογή της τεχνολογίας.

Για την εκπαίδευση και την επιστημονική έρευνα, τα μεγάλα γλωσσικά μοντέλα ανοιχτού κώδικα παρέχουν πολύτιμους πόρους. Μελετώντας και χρησιμοποιώντας αυτά τα μοντέλα, οι μαθητές και οι αρχάριοι προγραμματιστές μπορούν γρήγορα να κατακτήσουν τις προηγμένες τεχνολογίες AI, να συντομεύσουν την καμπύλη μάθησης και να φέρουν φρέσκο αίμα στη βιομηχανία.

Ωστόσο, το άνοιγμα των μεγάλων μοντέλων γλώσσας δεν είναι μια απλή δυαδική ιδιότητα. Η αρχιτεκτονική του συστήματος που βασίζεται σε μετασχηματιστή και η διαδικασία εκπαίδευσής του είναι εξαιρετικά περίπλοκη και δύσκολο να ταξινομηθεί απλά ως ανοιχτή ή κλειστή. Το μεγάλο μοντέλο ανοιχτού κώδικα δεν είναι μια απλή ετικέτα, αλλά περισσότερο σαν ένα φάσμα, που κυμαίνεται από πλήρως ανοιχτού κώδικα έως μερικώς ανοιχτού κώδικα, με διάφορους βαθμούς.

Ο ανοιχτός κώδικας μοντέλων μεγάλων γλωσσών είναι μια σύνθετη και σχολαστική εργασία και δεν πρέπει όλα τα μοντέλα να είναι ανοιχτού κώδικα.

Δεν θα πρέπει να απαιτούμε πλήρη ανοιχτό κώδικα με τη μορφή "ηθικής απαγωγής", διότι αυτό περιλαμβάνει πολλά ζητήματα τεχνολογίας, πόρων και ασφάλειας και απαιτεί μια ισορροπία μεταξύ διαφάνειας και ασφάλειας, καινοτομίας και υπευθυνότητας. Όπως και με άλλες πτυχές της τεχνολογίας, οι διάφοροι τρόποι συνεισφοράς δημιουργούν ένα πλουσιότερο τεχνολογικό οικοσύστημα.

Η σχέση μεταξύ μοντέλων ανοιχτού και κλειστού κώδικα μπορεί να συγκριθεί με τη συνύπαρξη λογισμικού ανοιχτού και κλειστού κώδικα στη βιομηχανία λογισμικού.

Το μοντέλο ανοιχτού κώδικα προωθεί την ευρεία διάδοση και την καινοτομία της τεχνολογίας και παρέχει περισσότερες δυνατότητες σε ερευνητές και επιχειρήσεις, ενώ το μοντέλο κλειστού κώδικα προωθεί τη βελτίωση των προτύπων σε ολόκληρο τον κλάδο. Ο υγιής ανταγωνισμός μεταξύ των δύο εμπνέει συνεχή βελτίωση και παρέχει στους χρήστες ποικίλες επιλογές.

Όπως ακριβώς το λογισμικό ανοιχτού κώδικα και το αποκλειστικό λογισμικό έχουν διαμορφώσει από κοινού το σημερινό οικοσύστημα λογισμικού,Δεν υπάρχει δυαδική αντίθεση μεταξύ ανοιχτού κώδικα και μεγάλων μοντέλων κλειστού κώδικα. Η συνύπαρξη των δύο αποτελεί σημαντική κινητήρια δύναμη για τη συνεχή πρόοδο της τεχνολογίας AI και την κάλυψη των αναγκών διαφορετικών σεναρίων εφαρμογών. Τελικά, οι χρήστες και η αγορά θα κάνουν την επιλογή που τους ταιριάζει.

Νέα

Στη βιομηχανία των μεγάλων μοντέλων, δεν υπάρχει καθόλου «πραγματικός» ανοιχτός κώδικας;

Εισαγωγή

τα στοιχεία επικοινωνίας μου