Jia Yangqing: Τα μεγάλα μεγέθη μοντέλων επιστρέφουν στο παλιό μονοπάτι του CNN: Το ίδιο ισχύει και στο Tesla

Jia Yangqing: Τα μεγάλα μεγέθη μοντέλων επιστρέφουν στο παλιό μονοπάτι του CNN: Το ίδιο ισχύει και στην Tesla

2024-08-01

Το σπίτι προέρχεται από το ναό Aofei
Qubits | Δημόσιος λογαριασμός QbitAI

Το μέγεθος του μεγάλου μοντέλου του Transformer αλλάζει και επιστρέφει στο παλιό μονοπάτι του CNN!

Βλέποντας ότι όλοι έλκονται από το LLaMA 3.1,Jia YangqingΤέτοιο συναίσθημα.

Συγκρίνοντας την ανάπτυξη μεγάλων μεγεθών μοντέλων με την ανάπτυξη του CNN, μπορούμε να βρούμε μια προφανή τάση και φαινόμενο:

Στην εποχή του ImageNet, ερευνητές και τεχνικοί μάρτυρες ταχείας ανάπτυξης στα μεγέθη παραμέτρων και στη συνέχεια άρχισαν να μετακινούνται σε μικρότερα, πιο αποτελεσματικά μοντέλα.

Ακούγεται το ίδιο με την κλιμάκωση των παραμέτρων του μοντέλου από το GPT Ο κλάδος συμφωνεί γενικά με τον νόμο κλιμάκωσης και στη συνέχεια εμφανίζονται τα GPT-4o mini, Apple DCLM-7B και Google Gemma 2B;

Η Jia Yangqing είπε χαμογελώντας: "Αυτό είναι από την εποχή του προ-μεγάλου μοντέλου και πολλοί άνθρωποι μπορεί να μην το θυμούνται καλά :)".

Επιπλέον, η Jia Yangqing δεν είναι η μόνη που το αντιλαμβάνεται αυτό.Αυτό πιστεύει και ο δάσκαλος της AI Kapasi：

Ο ανταγωνισμός στα μεγάλα μεγέθη μοντέλων αυξάνεται…αλλά τα ρολά έρχονται προς την αντίθετη κατεύθυνση!
Το μοντέλο πρέπει πρώτα να επιδιώξει το "μεγαλύτερο" πριν το "μικρότερο", γιατί χρειαζόμαστε αυτή τη διαδικασία για να μας βοηθήσει να ανακατασκευάσουμε τα δεδομένα εκπαίδευσης σε μια ιδανική, συνθετική μορφή.

Ποντάρει μάλιστα ότι θα δούμε μοντέλα καλά και αξιόπιστα για σκέψη.

Και η κλίμακα παραμέτρων είναι πολύ μικρή.

Ακόμη και ο Μασκ είπε επανειλημμένα στην περιοχή σχολίων του Καπάσι:

Το παραπάνω πιθανότατα μπορεί να ονομαστεί «οι μεγάλοι άνθρωποι βλέπουν το ίδιο πράγμα».

Επεκτείνετε και μιλήστε

Η συγκίνηση της Jia Yangqing ξεκινά με το LLaMA 3.1, το οποίο έμεινε στον ισχυρότερο θρόνο μόνο για μια μικρή μέρα.

Ήταν η πρώτη φορά που υλοποιήθηκε «το ισχυρότερο μοντέλο ανοιχτού κώδικα = το ισχυρότερο μοντέλο» Δεν αποτελεί έκπληξη το γεγονός ότι τράβηξε μεγάλη προσοχή.

Ωστόσο, η Jia Yangqing πρότεινε ένα σημείο αυτή τη στιγμή:

"Αλλά νομίζω,Η βιομηχανία θα ευδοκιμήσει πραγματικά σε μικρά κάθετα μοντέλα。”

Όσο για το τι είναι τα μικρά κάθετα μοντέλα, η Jia Yangqing το κατέστησε επίσης πολύ σαφές, όπως εκείνα τα υπέροχα μικρού και μεσαίου μεγέθους μοντέλα που αντιπροσωπεύονται από το Iynx της Patrouns AI (το μοντέλο ανίχνευσης παραισθήσεων της εταιρείας, το οποίο ξεπερνά το GPT-4o στις εργασίες παραισθήσεων).

Ο Jia Yangqing είπε ότι όσον αφορά τις προσωπικές του προτιμήσεις, προσωπικά του αρέσει πολύ το μοντέλο παραμέτρων των 100 δισεκατομμυρίων.

Αλλά στην πραγματικότητα, παρατήρησε ότι τα μεγάλα μοντέλα με εύρος παραμέτρων μεταξύ 7Β και 70Β είναι πιο εύκολα στη χρήση από όλους:

Είναι πιο εύκολο να φιλοξενηθούν και δεν απαιτούν τεράστια επισκεψιμότητα για να είναι κερδοφόρα.
Εφόσον κάνετε σαφείς ερωτήσεις, μπορείτε να έχετε αξιοπρεπή ποιοτική απόδοση - σε αντίθεση με ορισμένες προηγούμενες πεποιθήσεις.

Ταυτόχρονα, άκουσε ότι τα πιο πρόσφατα, ταχύτερα μοντέλα του OpenAI άρχιζαν επίσης να γίνονται μικρότερα από τα μεγαλύτερα μοντέλα «υψηλού επιπέδου».

"Εάν η κατανόησή μου είναι σωστή, τότε αυτό είναι σίγουρα ενδεικτικό των τάσεων της βιομηχανίας."

Έκτοτε, η Jia Yangqing τακτοποίησε εν συντομία το ιστορικό ανάπτυξης του CNN.

Καταρχάς, είναι η εποχή της ανόδου του CNN.

Έχοντας ως σημείο εκκίνησης το AlexNet (2012), ξεκίνησε μια περίοδος περίπου τριών ετών ανάπτυξης της κλίμακας μοντέλου.

Το VGGNet, το οποίο εμφανίστηκε το 2014, είναι ένα μοντέλο με πολύ ισχυρές επιδόσεις και κλίμακα.

Δεύτερον, υπάρχει μια περίοδος συρρίκνωσης.

Το 2015, το GoogleNet μείωσε το μέγεθος του μοντέλου από "GB" σε επίπεδο "MB", δηλαδή μειώθηκε κατά 100 φορές, ωστόσο, η απόδοση του μοντέλου δεν μειώθηκε απότομα εξαιτίας αυτού, αλλά διατήρησε καλή απόδοση.

Ακολουθούν παρόμοιες τάσεις και το μοντέλο SqueezeNet που κυκλοφόρησε το 2015.

Για ένα χρονικό διάστημα, το επίκεντρο της ανάπτυξης ήταν η επιδίωξη της ισορροπίας.

Μεταγενέστερες μελέτες, όπως το ResNet (2015), το ResNeXT (2016), κ.λπ., διατήρησαν ένα μέτριο μέγεθος μοντέλου.

Αξίζει να σημειωθεί ότι ο έλεγχος του μεγέθους του μοντέλου δεν επιφέρει μείωση του όγκου των υπολογισμών - στην πραγματικότητα, όλοι είναι πρόθυμοι να επενδύσουν περισσότερους υπολογιστικούς πόρους και να αναζητήσουν μια κατάσταση «ίδιων παραμέτρων αλλά πιο αποτελεσματικής».

Αυτό που ακολούθησε ήταν μια περίοδος χορού CNN στο πλάι.

Για παράδειγμα, το MobileNet είναι μια ενδιαφέρουσα προσπάθεια που ξεκίνησε η Google το 2017.

Αυτό που είναι ενδιαφέρον είναι ότι καταλαμβάνει πολύ λίγους πόρους αλλά έχει εξαιρετική απόδοση.

Μόλις την περασμένη εβδομάδα, κάποιος ανέφερε στην Jia Yangqing: "Ουάου~ εξακολουθούμε να χρησιμοποιούμε το MobileNet επειδή μπορεί να εκτελεστεί στη συσκευή και έχει εξαιρετική γενίκευση ενσωμάτωσης χαρακτηριστικών (Feature Embedding Generality)."

Τέλος, η Jia Yangqing δανείστηκε μια εικόνα από το "A Survey on Efficient Convolutional Neural Networks and Hardware Acceleration" των Ghimire et al.:

Και έθεσε για άλλη μια φορά την ερώτησή του:

Τα μεγάλα μεγέθη μοντέλων θα ακολουθήσουν την ίδια τάση με την εποχή του CNN;

Τι πιστεύουν οι χρήστες του Διαδικτύου;

Στην πραγματικότητα, υπάρχουν πολλά παραδείγματα GPT-4o mini που ακολουθεί την πορεία ανάπτυξης μεγάλων μοντέλων, «όχι μεγάλα αλλά μικρά».

Όταν τα προαναφερθέντα άτομα εξέφρασαν αυτή την άποψη, κάποιοι κούνησαν αμέσως το κεφάλι τους και βρήκαν άλλα παρόμοια παραδείγματα για να αποδείξουν ότι είχαν δει την ίδια τάση.

Κάποιος ακολούθησε αμέσως:

Έχω ένα νέο θετικό παράδειγμα εδώ! Το Gemma-2 αποστάζει τη γνώση μοντέλων με μέγεθος παραμέτρου 27Β σε μια μικρότερη έκδοση.

Ορισμένοι χρήστες του Διαδικτύου είπαν ότι η ανάπτυξη μεγαλύτερων μοντέλων σημαίνει «εντατικοποίηση» της εκπαίδευσης των επόμενων γενεών μικρότερων και πιο κάθετων μοντέλων.

Αυτή η επαναληπτική διαδικασία παράγει τελικά αυτό που ονομάζεται «τέλειο σετ προπόνησης».

Με αυτόν τον τρόπο, τα μικρότερα μεγάλα μοντέλα μπορούν να είναι εξίσου έξυπνα ή και πιο έξυπνα από τα σημερινά μεγάλα μοντέλα με τεράστιες παραμέτρους σε συγκεκριμένα πεδία.

Με λίγα λόγια,Το μοντέλο πρέπει πρώτα να γίνει μεγαλύτερο για να μπορέσει να γίνει μικρότερο.

Οι περισσότεροι άνθρωποι που συζήτησαν αυτή την άποψη εξακολουθούν να συμφωνούν με αυτήν την τάση.

Αλλά φυσικά!

Περιήγηση στις διαδικτυακές ενότητες σχολίων,Άλλοι έκαναν διαφορετικούς θορύβους.

Για παράδειγμα, αυτός ο φίλος άφησε ένα μήνυμα κάτω από το tweet της Jia Yangqing:

Η Mistral Large (η εταιρεία πίσω από αυτό, η Mistral AI), η LLaMA 3.1 (η εταιρεία πίσω από αυτήν, η Meta) και η OpenAI, οι εταιρείες με τα πιο ανταγωνιστικά μοντέλα, μπορεί όλες να εκπαιδεύουν μεγαλύτερα μοντέλα αυτήν τη στιγμή.
Δεν βλέπω μια τάση «τεχνολογικών ανακαλύψεων με μικρότερα μοντέλα».

Αντιμέτωπη με αυτήν την ερώτηση, η Jia Yangqing απάντησε αμέσως.

Αυτό είπε: "Ακριβώς! Όταν λέω ότι τα μεγάλα μεγέθη μοντέλων μπορεί να ακολουθούν τον παλιό δρόμο του CNN, σίγουρα δεν εννοώ να καλέσω όλους να σταματήσουν να εκπαιδεύουν μεγαλύτερα μοντέλα."

Εξήγησε περαιτέρω ότι η αρχική πρόθεση να πει αυτό είναι ότι καθώς η τεχνολογία (συμπεριλαμβανομένου του CNN και των μεγάλων μοντέλων) εφαρμόζεται όλο και πιο ευρέως, όλοι έχουν αρχίσει να δίνουν όλο και μεγαλύτερη προσοχή σε πιο οικονομικά μοντέλα. "

Επομένως, ίσως πιο αποτελεσματικά μικρά και μεγάλα μοντέλα μπορούν να επαναπροσδιορίσουν την «νοημοσύνη» της τεχνητής νοημοσύνης και να αμφισβητήσουν την υπόθεση ότι «το μεγαλύτερο είναι καλύτερο».

Συμφωνείτε με αυτή την άποψη;

Σύνδεσμοι αναφοράς:
[1]https://x.com/jiayq/status/1818703217263624385
[2]https://x.com/fun000001/status/1818791560697594310
[3]https://www.patronus.ai/
[4]https://twitter.com/karpathy/status/1814038096218083497

Νέα

Jia Yangqing: Τα μεγάλα μεγέθη μοντέλων επιστρέφουν στο παλιό μονοπάτι του CNN: Το ίδιο ισχύει και στην Tesla

Επεκτείνετε και μιλήστε

Τι πιστεύουν οι χρήστες του Διαδικτύου;

Εισαγωγή

τα στοιχεία επικοινωνίας μου