Νέα

Τελείωσε η εποχή των μεγάλων μοντέλων;Το Big Boss Qi προβλέπει: Τα μοντέλα τεχνητής νοημοσύνης μπορεί να χρειαστεί να μειωθούν για να μπορέσουν να κλιμακωθούν

2024-07-22

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Νέα Έκθεση Σοφίας

Επιμέλεια: αυτιά

[Εισαγωγή στη Νέα Σοφία]Με την έλευση των μικρών μοντέλων θα φτάσει στο τέλος της η «εποχή των μεγάλων μοντέλων»;

Η «Εβδομάδα Μικρών Μοντέλων» πέρασε και το τελευταίο πεδίο μάχης για τα μικρά μοντέλα μόλις άνοιξε.

Την περασμένη εβδομάδα κυκλοφόρησαν διαδοχικά το GPT-4o mini και το Mistral NeMo Τα μικρά μοντέλα που «είναι μικρά αλλά έχουν όλα τα εσωτερικά όργανα» έχουν γίνει μια νέα κατεύθυνση που δίνουν μεγάλη προσοχή οι ηγέτες του κλάδου.

Λοιπόν, πρόκειται να χάσουν την εύνοια τα μεγάλα μοντέλα;

Ο πρώην ερευνητής του OpenAI και της Tesla AI Andrej Karpathy μόλις μπήκε στην εκπαίδευση AI "Teacher K" δημοσίευσε πρόσφατα ένα tweet για να καθοδηγήσει τη βιομηχανία, αποκαλύπτοντας τη νέα τάση πίσω από τη στροφή των τεχνολογικών κολοσσών στην έρευνα και ανάπτυξη μικρών μοντέλων: τον ανταγωνισμό μεγάλων μοντέλων AI. πρόκειται να αντιστραφεί.

Προβλέπει ότι τα μελλοντικά μοντέλα θα είναι μικρότερα αλλά ακόμα πιο έξυπνα.

Οι γίγαντες της τεχνητής νοημοσύνης και ορισμένοι νέοι μονόκεροι κυκλοφόρησαν πρόσφατα μοντέλα τεχνητής νοημοσύνης που είναι πιο συμπαγή, πιο ισχυρά και πιο οικονομικά από τους ομοίους τους.

Η Karpathy προβλέπει ότι αυτή η τάση θα συνεχιστεί. «Στοιχηματίζω ότι θα δούμε πολλά μοντέλα που σκέφτονται αποτελεσματικά και αξιόπιστα, και σε πολύ μικρά μεγέθη», έγραψε.

Μικρά μοντέλα: στέκονται στους ώμους γιγάντων

Στα πρώτα στάδια της ανάπτυξης του LLM, είναι αναπόφευκτη τάση να επεξεργάζονται περισσότερα δεδομένα και να μεγαλώνουν το μοντέλο. Αυτό βασίζεται κυρίως στους ακόλουθους λόγους:

Πρώτον, ανάγκες που βασίζονται σε δεδομένα.

Ζώντας σε μια εποχή έκρηξης δεδομένων, ένας μεγάλος όγκος πλούσιων και διαφορετικών δεδομένων απαιτεί πιο ισχυρά μοντέλα για επεξεργασία και κατανόηση.

Τα μεγάλα μοντέλα έχουν την ικανότητα να φιλοξενούν και να επεξεργάζονται τεράστιες ποσότητες δεδομένων Μέσω της εκπαίδευσης δεδομένων μεγάλης κλίμακας, μπορούν να ανακαλύψουν βαθιά μοτίβα και νόμους.

Δεύτερον, η βελτίωση της υπολογιστικής ισχύος.

Η συνεχής πρόοδος της τεχνολογίας υλικού και η ανάπτυξη υπολογιστικού εξοπλισμού υψηλής απόδοσης όπως οι GPU παρέχουν ισχυρή υποστήριξη υπολογιστικής ισχύος για την εκπαίδευση μεγάλων μοντέλων. Επιτρέπει την εκπαίδευση μεγάλων, πολύπλοκων μοντέλων.

Επιπλέον, επιδιώξτε υψηλότερη απόδοση και ακρίβεια.

Τα μεγάλα μοντέλα μπορούν συνήθως να επιδείξουν εξαιρετική απόδοση σε πολλαπλά πεδία όπως η κατανόηση γλώσσας, η δημιουργία και η αναγνώριση εικόνων Όσο περισσότερο κατανοούν, τόσο πιο ακριβή θα είναι τα αποτελέσματα που παράγουν.

Τέλος, η ικανότητα γενίκευσης είναι ισχυρότερη.

Τα μεγάλα μοντέλα μπορούν να χειριστούν καλύτερα νέα προβλήματα και εργασίες που δεν έχουν ξαναδεί, μπορούν να κάνουν λογικές εικασίες και απαντήσεις με βάση τις γνώσεις που έχουν μάθει προηγουμένως και έχουν ισχυρότερες δυνατότητες γενίκευσης.

Σε συνδυασμό με τον έντονο ανταγωνισμό στον τομέα της τεχνητής νοημοσύνης, διάφορα ερευνητικά ιδρύματα και κολοσσοί δεσμεύονται να αναπτύξουν μεγαλύτερα και ισχυρότερα μοντέλα για να δείξουν την τεχνική τους δύναμη και την ηγετική τους θέση.

Ο Karpathy απέδωσε επίσης την κλίμακα των σημερινών πιο ισχυρών μοντέλων στην πολυπλοκότητα των δεδομένων εκπαίδευσης, προσθέτοντας ότι τα μεγάλα γλωσσικά μοντέλα υπερέχουν στη μνήμη, ξεπερνώντας τις ικανότητες της ανθρώπινης μνήμης.

Κατ' αναλογία, εάν πρέπει να δώσετε εξετάσεις κλειστού βιβλίου κατά τη διάρκεια της τελικής εβδομάδας, η εξέταση απαιτεί να απαγγείλετε μια συγκεκριμένη παράγραφο από το βιβλίο με βάση τις πρώτες λίγες λέξεις.

Αυτός είναι ο στόχος της προεκπαίδευσης των σημερινών μεγάλων μοντέλων. Η Karpathy είπε ότι τα σημερινά μεγάλα μοντέλα είναι σαν άπληστα φίδια που θέλουν απλώς να καταπιούν όλα τα διαθέσιμα δεδομένα.

Δεν μπορούν μόνο να απαγγείλουν τη σειρά αλγορίθμων κατακερματισμού SHA για κοινούς αριθμούς, αλλά μπορούν επίσης να θυμούνται τη γνώση όλων των πεδίων, μεγάλων και μικρών.

Αλλά αυτός ο τρόπος μάθησης είναι σαν να απομνημονεύεις τα πάντα από ολόκληρη τη βιβλιοθήκη και το διαδίκτυο για μια δοκιμή.

Είναι αναμφισβήτητο ότι όσοι μπορούν να επιτύχουν αυτού του είδους την ικανότητα μνήμης είναι ιδιοφυΐες, αλλά τελικά χρησιμοποιήθηκε μόνο μία σελίδα κατά τη διάρκεια της εξέτασης!

Για τέτοιους προικισμένους μαθητές, είναι δύσκολο για το LLM να τα πάει καλύτερα γιατί στη διαδικασία της εκπαίδευσης τα δεδομένα, η επίδειξη σκέψης και η γνώση «μπλέκονται» μεταξύ τους.

Επιπλέον, από τη μία πλευρά, από την άποψη των πρακτικών εφαρμογών, τα μεγάλα μοντέλα αντιμετωπίζουν υψηλό κόστος και κατανάλωση πόρων όταν αναπτύσσονται και εκτελούνται, συμπεριλαμβανομένων των υπολογιστικών πόρων, των πόρων αποθήκευσης και της κατανάλωσης ενέργειας.

Τα μικρά μοντέλα αναπτύσσονται ευκολότερα σε διάφορες συσκευές και σενάρια, ικανοποιώντας τις απαιτήσεις ευκολίας χρήσης και χαμηλής κατανάλωσης ενέργειας.

Από την άλλη πλευρά, από την προοπτική της τεχνολογικής ωριμότητας, αφού η φύση και οι νόμοι του προβλήματος διερευνηθούν και κατανοηθούν πλήρως μέσω μεγάλων μοντέλων, αυτές οι γνώσεις και τα πρότυπα μπορούν να βελτιωθούν και να εφαρμοστούν στο σχεδιασμό και τη βελτιστοποίηση μικρών μοντέλων.

Αυτό επιτρέπει στα μικρά μοντέλα να μειώνουν την κλίμακα και το κόστος διατηρώντας την ίδια ή και καλύτερη απόδοση από τα μεγάλα μοντέλα.

Παρόλο που η ανάπτυξη μεγάλων μοντέλων συνάντησε ένα εμπόδιο και τα μικρά μοντέλα έχουν γίνει σταδιακά μια νέα τάση, η Karpathy τόνισε ότι μεγάλα μοντέλα εξακολουθούν να χρειάζονται, ακόμα κι αν δεν έχουν εκπαιδευτεί αποτελεσματικά, αλλά τα μικρά μοντέλα συμπυκνώνονται από μεγάλα μοντέλα.

Η Karpathy προβλέπει ότι κάθε μοντέλο θα συνεχίσει να βελτιώνεται, δημιουργώντας δεδομένα εκπαίδευσης για το επόμενο μοντέλο, μέχρι να υπάρξει ένα "τέλειο σετ εκπαίδευσης".

Ακόμη και ένα εξωγενές μοντέλο όπως το GPT-2, το οποίο έχει 1,5 δισεκατομμύρια παραμέτρους, όταν εκπαιδεύετε το GPT-2 με αυτό το τέλειο σετ εκπαίδευσης, μπορεί να γίνει ένα πολύ ισχυρό και έξυπνο μοντέλο με τα σημερινά πρότυπα.

Αυτό το GPT-2, εκπαιδευμένο με ένα τέλειο σετ εκπαίδευσης, μπορεί να σκοράρει ελαφρώς χαμηλότερα, για παράδειγμα, στο τεστ Massive Multi-Task Language Understanding (MMLU), το οποίο καλύπτει 57 εργασίες, συμπεριλαμβανομένων των στοιχειωδών μαθηματικών, της ιστορίας των ΗΠΑ, της επιστήμης των υπολογιστών, του νόμου, κ.λπ., χρησιμοποιείται για την αξιολόγηση της κάλυψης βασικών γνώσεων και της ικανότητας κατανόησης μεγάλων μοντέλων.

Αλλά στο μέλλον, τα πιο έξυπνα μοντέλα τεχνητής νοημοσύνης δεν θα βασίζονται στον όγκο, θα μπορούν να ανακτούν πληροφορίες και να επαληθεύουν τα γεγονότα με μεγαλύτερη αξιοπιστία.

Ακριβώς όπως ένας κορυφαίος μαθητής που δίνει εξετάσεις ανοιχτού βιβλίου, αν και δεν είναι πλήρως κατανοητές όλες οι γνώσεις, μπορεί να εντοπίσει με ακρίβεια τη σωστή απάντηση.

Σύμφωνα με αναφορές, το έργο Strawberry του OpenAI εστιάζει στην επίλυση αυτού του προβλήματος.

«Αδυνάτισμα» του «φουσκωμένου» μεγάλου μοντέλου


Όπως είπε ο Karpathy, τα περισσότερα από τα πολύ μεγάλα μοντέλα (όπως το GPT-4) που έχουν εκπαιδευτεί με τεράστια δεδομένα χρησιμοποιούνται στην πραγματικότητα για να θυμούνται μεγάλο αριθμό άσχετων λεπτομερειών, δηλαδή για να απομνημονεύουν πληροφορίες περιληπτικά.

Αυτό σχετίζεται με το σκοπό της προεκπαίδευσης του μοντέλου Στο προεκπαιδευτικό στάδιο, το μοντέλο πρέπει να απαγγείλει το ακόλουθο περιεχόμενο όσο το δυνατόν ακριβέστερα, το οποίο ισοδυναμεί με την απομνημόνευση του κειμένου σκορ.

Αν και το μοντέλο μπορεί να μάθει επαναλαμβανόμενες γνώσεις, μερικές φορές υπάρχουν σφάλματα και προκαταλήψεις στα δεδομένα και το μοντέλο πρέπει πρώτα να τα θυμάται όλα πριν τα τελειοποιήσει.

Η Karpathy πιστεύει ότι εάν υπάρχει ένα σύνολο δεδομένων εκπαίδευσης υψηλότερης ποιότητας, μπορεί να εκπαιδευτεί ένα μικρότερο, πιο ικανό και πιο ικανό μοντέλο.

Με τη βοήθεια πολύ μεγάλων μοντέλων, μπορούν να δημιουργηθούν και να καθαριστούν αυτόματα σύνολα δεδομένων εκπαίδευσης υψηλότερης ποιότητας.

Παρόμοια με το GPT-4o mini, εκπαιδεύεται χρησιμοποιώντας δεδομένα που καθαρίζονται από το GPT-4.

Πρώτα κάντε το μοντέλο μεγαλύτερο, και στη συνέχεια «μειώστε» σε αυτή τη βάση Αυτό μπορεί να είναι μια νέα τάση στην ανάπτυξη του μοντέλου.

Για να δώσουμε μια ζωντανή μεταφορά, είναι σαν το τρέχον μεγάλο μοντέλο να έχει το πρόβλημα των πάρα πολλών συνόλων δεδομένων και να είναι πολύ παχύ Μετά από καθαρισμό δεδομένων και εκτεταμένη εκπαίδευση, μεταμορφώνεται σε ένα μικρό μοντέλο με αδύνατους μύες.

Αυτή η διαδικασία είναι σαν μια εξέλιξη βήμα-βήμα και κάθε γενιά μοντέλων θα βοηθήσει στη δημιουργία της επόμενης γενιάς δεδομένων εκπαίδευσης έως ότου επιτέλους αποκτήσουμε ένα «τέλειο σετ εκπαίδευσης».

Ο Διευθύνων Σύμβουλος του OpenAI Sam Altman έκανε επίσης παρόμοιες παρατηρήσεις, δηλώνοντας το «τέλος της εποχής» των μεγάλων μοντέλων AI ήδη από τον Απρίλιο του 2023.

Επιπλέον, αναγνωρίζεται όλο και περισσότερο ότι η ποιότητα των δεδομένων είναι ένας βασικός παράγοντας επιτυχίας στην εκπαίδευση τεχνητής νοημοσύνης, είτε πρόκειται για πραγματικά δεδομένα είτε για συνθετικά δεδομένα.

Ο Altman πιστεύει ότι το βασικό ερώτημα είναι πώς τα συστήματα AI μπορούν να μάθουν περισσότερα από λιγότερα δεδομένα.

Οι ερευνητές της Microsoft έκαναν την ίδια κρίση κατά την ανάπτυξη του μοντέλου Phi, οι ερευνητές του Hugging Face AI συμφώνησαν επίσης με την αναζήτηση συνόλων δεδομένων υψηλής ποιότητας και κυκλοφόρησαν σύνολα δεδομένων εκπαίδευσης.

Αυτό σημαίνει ότι η τυφλή επέκταση δεν είναι πλέον ο μόνος τεχνικός στόχος των τεχνολογικών κολοσσών Ακόμη και τα μικρά, υψηλής ποιότητας μοντέλα μπορούν να επωφεληθούν από περισσότερα, πιο διαφορετικά και υψηλότερης ποιότητας δεδομένα.

Η επιστροφή σε μικρότερα, πιο αποτελεσματικά μοντέλα μπορεί να θεωρηθεί ως ο στόχος του επόμενου σταδίου ολοκλήρωσης και η κυκλοφορία του μοντέλου του OpenAI δείχνει ξεκάθαρα την κατεύθυνση της μελλοντικής ανάπτυξης.

Περιοχή σχολίων: σωστή, σχετική και αιματηρή

Η Karpathy ανέφερε επίσης την παρόμοια προσέγγιση της Tesla στο δίκτυο αυτόνομης οδήγησης.

Η Tesla έχει κάτι που ονομάζεται "offline tracker" που παράγει καθαρότερα δεδομένα εκπαίδευσης εκτελώντας ένα προηγούμενο ασθενέστερο μοντέλο.

Μόλις άκουσε ότι η τεχνολογία της Tesla λέγεται ότι ήταν στην πρώτη γραμμή των καιρών, ο Μασκ έσπευσε γρήγορα στην περιοχή σχολίων:

Οι χρήστες του Διαδικτύου στην περιοχή σχολίων εξέφρασαν επίσης την εκτίμησή τους για την προνοητικότητα του Karpathy και συμφωνώ!

Για τη μελλοντική γενική τεχνητή νοημοσύνη, μικρότερα και πιο αποτελεσματικά μοντέλα τεχνητής νοημοσύνης μπορεί να επαναπροσδιορίσουν την «νοημοσύνη» στην τεχνητή νοημοσύνη και να αμφισβητήσουν την υπόθεση ότι «το μεγαλύτερο είναι το καλύτερο».

Ο Sebastian Raschka, συγγραφέας του "Python Machine Learning", πιστεύει ότι αυτό μοιάζει με απόσταξη γνώσης, που αποστάζει ένα μικρό μοντέλο όπως το Gemma-2 από ένα μεγάλο μοντέλο 27Β.

Μας υπενθύμισε επίσης ότι τα τεστ πολλαπλής επιλογής όπως το MMLU μπορούν να δοκιμάσουν τη γνώση, αλλά δεν μπορούν να αντικατοπτρίζουν πλήρως τις πραγματικές ικανότητες.

Μερικοί χρήστες του Διαδικτύου είναι επίσης πολύ ευφάνταστοι.

Καλέστε 10 βοηθούς τεχνητής νοημοσύνης και, στη συνέχεια, αφήστε τον πιο έξυπνο να κάνει την τελική περίληψη Είναι απλώς η έκδοση τεχνητής νοημοσύνης μιας δεξαμενής σκέψης.

Είναι λοιπόν το AGI ένα παντοδύναμο μεγάλο μοντέλο ή προέρχεται από τη συνεργασία πολλών μικρών μοντέλων;