Μιλήστε για το πώς να σκέφτεστε τα μεγάλα μοντέλα με τον επιστήμονα βαθιάς μάθησης Yann LeCun

Ας μιλήσουμε για το πώς να σκεφτόμαστε μεγάλα μοντέλα με τον επιστήμονα βαθιάς μάθησης Yann LeCun

2024-08-09

Με την πρόοδο και τη δημοτικότητα της γενετικής τεχνολογίας AI τα τελευταία δύο χρόνια, η χρήση μεγάλων μοντέλων για τη δημιουργία περιεχομένου έχει γίνει σταδιακά μέρος της ζωής των απλών ανθρώπων. Αυτή η διαδικασία φαίνεται εύκολη: όταν εισάγουμε μια εντολή, το μεγάλο μοντέλο μπορεί να δώσει απευθείας την απάντηση για εμάς. Ωστόσο, στα παρασκήνια, κανείς δεν γνωρίζει τις εσωτερικές αρχές λειτουργίας και τη διαδικασία λήψης αποφάσεων του μοντέλου Αυτό είναι το γνωστό «μαύρο κουτί εκμάθησης μηχανής».

Λόγω του ανεξήγητου των μοντέλων μαύρων κουτιών, η ασφάλεια της τεχνητής νοημοσύνης ήταν πάντα υπό αμφισβήτηση. Έτσι οι επιστήμονες άρχισαν να προσπαθούν να ανοίξουν το μαύρο κουτί των μεγάλων μοντέλων, το οποίο ονομάζεται «έρευνα λευκού κουτιού» στη βιομηχανία. Από τη μία πλευρά, η μελέτη των μοντέλων λευκού κουτιού μπορεί να βοηθήσει τους ανθρώπους να κατανοήσουν τα μοντέλα μαύρου κουτιού, βελτιστοποιώντας έτσι τα μεγάλα μοντέλα και βελτιώνοντας την απόδοση. Από την άλλη πλευρά, ο στόχος της έρευνας στο λευκό κουτί είναι να ωθήσει την τεχνητή νοημοσύνη, ένα θέμα μηχανικής, στην επιστήμη.

Αυτή τη φορά καλέσαμεChen Yubei, Επίκουρος Καθηγητής, Τμήμα Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών, Πανεπιστήμιο της Καλιφόρνια, Ντέιβις, το ερευνητικό του περιεχόμενο σχετίζεται με το «μοντέλο του λευκού κουτιού». Επιπλέον, είναι επίσης μεταδιδακτορικός συνεργάτης του Yann LeCun, νικητή του βραβείου Turing και επικεφαλής επιστήμονα Meta. Σε αυτό το επεισόδιο, μίλησε μαζί μας για την τελευταία ερευνητική πρόοδο των μοντέλων λευκού κουτιού και μοιράστηκε επίσης μαζί μας τον Yann LeCun, έναν επιστήμονα με τον οποίο είναι εξοικειωμένος, ο οποίος έχει βιώσει τα σκαμπανεβάσματα του κλάδου της τεχνητής νοημοσύνης, αλλά παραμένει καθαρά συγκεντρωμένος .

Γραφικό της Violet Dashi. Εικονογράφηση Νάντια και Simple Line

Ακολουθούν επιλεγμένες συνεντεύξεις

01 Ανθρώπινος εγκέφαλος και μεγάλο μοντέλο

"Silicon Valley 101":Μπορείτε αρχικά να παρουσιάσετε εν συντομία την έρευνα «μοντέλο λευκού κουτιού» που κάνετε; Κατά τη διάρκεια της έρευνάς σας, έχετε ανακαλύψει πώς να εξηγήσετε τα προβλήματα εισόδου και εξόδου του GPT;

Τσεν Γιουμπέι:Στην πραγματικότητα, ένας σχετικά μεγάλος στόχος προς αυτή την κατεύθυνση είναι η προώθηση της βαθιάς μάθησης από ένα αμιγώς εμπειρικό αντικείμενο σε ένα επιστημονικό αντικείμενο ή η μετατροπή της μηχανικής σε επιστήμη, επειδή επί του παρόντος η μηχανική αναπτύσσεται σχετικά γρήγορα, αλλά η επιστήμη είναι σχετικά αργή. Υπήρχε ένα μοντέλο που ονομαζόταν ενσωμάτωση λέξεων, το οποίο μπορούσε να μάθει κάποιες αναπαραστάσεις της γλώσσας.

Όλοι είχαν πραγματικά μια ερώτηση εκείνη τη στιγμή: Η απόδοση των εργασιών μας έχει βελτιωθεί, αλλά τι ακριβώς προκάλεσε τη βελτίωση αυτής της απόδοσης; Κάναμε λοιπόν μια πολύ πρώιμη δουλειά εκείνη την εποχή, που ήταν να προσπαθήσουμε να ανοίξουμε αυτές τις αναπαραστάσεις των λέξεων. Όταν το ανοίξετε, θα βρείτε μερικά πολύ ενδιαφέροντα φαινόμενα.

Για παράδειγμα, αν πάρετε τη λέξη μήλο, μπορείτε να βρείτε κάποιες μετα-σημασίες σε αυτήν, για παράδειγμα, μια από τις σημασίες μπορεί να αντιπροσωπεύει το επιδόρπιο, και μια άλλη μπορεί να αντιπροσωπεύει το επιδόρπιο προϊόντα, τα οποία φυσικά αναφέρονται στα προϊόντα της Apple. Έτσι, θα διαπιστώσετε ότι μπορείτε να βρείτε αυτές τις μετα-σημασίες κατά μήκος μιας λέξης και, στη συνέχεια, μπορείτε να επεκτείνετε αυτήν τη μέθοδο σε ένα μεγάλο γλωσσικό μοντέλο.

Με άλλα λόγια, αφού μάθουμε ένα μεγάλο μοντέλο γλώσσας, μπορούμε να αναζητήσουμε κάποιες μετα-σημασίες στο μοντέλο και μετά να προσπαθήσουμε να το ανοίξουμε. Θα βρείτε ένα μεγάλο μοντέλο γλώσσας, το οποίο στην πραγματικότητα έχει πολλά επίπεδα.

Στο πρωτογενές επίπεδο, θα εμφανιστεί ένα φαινόμενο που ονομάζεται «αποσαφήνιση λέξεων». Για παράδειγμα, υπάρχει μια λέξη στα αγγλικά που ονομάζεται "αριστερά". στα πρώτα στρώματα.

Μεσοπρόθεσμα, θα διαπιστώσετε ότι αναδύονται κάποιες νέες έννοιες. Εκείνη την εποχή, πιστεύαμε ότι ένα πολύ ενδιαφέρον πράγμα ονομαζόταν "Μετατροπή μονάδων" Μόλις θέλετε να μετατρέψετε χιλιόμετρα σε μίλια, και η θερμοκρασία από Φαρενάιτ θα ενεργοποιηθεί Με αυτόν τον τρόπο πολλά παρόμοια επίπεδα αυτής της μετα-σημασίας.

Καθώς πηγαίνετε πιο πάνω, θα διαπιστώσετε ότι υπάρχει ένα μοτίβο μεταξύ αυτών των μετα-σημασιών μοντέλα και μικρά γλωσσικά μοντέλα. Φυσικά, αυτές οι ιδέες δεν είναι εντελώς καινούριες. Στην πραγματικότητα, έχουν μια ιστορία στα οπτικά μοντέλα.

"Silicon Valley 101":Ακολουθώντας αυτή τη γραμμή σκέψης, εάν γνωρίζουμε πώς λειτουργεί ένα μέρος της, μπορούμε να τη βελτιστοποιήσουμε πολύ από την άποψη της μηχανικής;

Τσεν Γιουμπέι:Ναι, αυτή είναι μια πολύ καλή ερώτηση. Νομίζω ότι μια σχετικά υψηλή απαίτηση για οποιαδήποτε θεωρία είναι ότι μπορεί να καθοδηγήσει την πρακτική. Έτσι, όταν κάναμε γλωσσικά μοντέλα και αναπαραστάσεις λεξιλογίου, ένας από τους στόχους που είχαμε εκείνη την εποχή ήταν ότι αφού την καταλάβαμε, θα μπορούσαμε με τη σειρά μας να βελτιστοποιήσουμε αυτά τα μοντέλα. ? Στην πραγματικότητα, είναι δυνατό.

Για παράδειγμα, αν βρείτε ένα μετα-νόημα σε ένα μεγάλο γλωσσικό μοντέλο, θα ενεργοποιηθεί όταν δει μια συγκεκριμένη μετα-σημασία, τότε αυτός ο νευρώνας μπορεί να χρησιμοποιηθεί ως διαχωριστής και μπορείτε να χρησιμοποιήσετε αυτό το κάτι για να κάνετε κάποιες εργασίες. Με την αλλαγή αυτών των μετα-σημασιών, προσαρμόζεται η μεροληψία του μοντέλου.

Είναι ότι αν μπορώ να το εντοπίσω, τότε μπορώ να το προσαρμόσω. Πρόσφατα, η Anthropic έκανε παρόμοια δουλειά, η οποία είναι να βρει κάποιες προκαταλήψεις που μπορεί να υπάρχουν στο γλωσσικό μοντέλο και στη συνέχεια να κάνει κάποιες αλλαγές σε αυτό για να κάνει το μοντέλο πιο δίκαιο και ασφαλές.

"Silicon Valley 101":Είδα ότι το OpenAI διεξήγαγε επίσης μια μελέτη πέρυσι, η οποία χρησιμοποίησε το GPT4 για να εξηγήσει το GPT2 και να δει πώς λειτουργεί το GPT2. Για παράδειγμα, ανακάλυψαν ότι ο νευρώνας του GPT 2 θα ενεργοποιηθεί όταν απαντά σε όλα τα πράγματα που σχετίζονται με την ιστορία των Ηνωμένων Πολιτειών γύρω στο 1800. Ο 12ος νευρώνας στη γραμμή 5 θα ενεργοποιηθεί κατά την απάντηση στα κινέζικα, θα είναι ο 13ος νευρώνας ενεργοποιείται η γραμμή 12.

Εάν ο νευρώνας που απαντά στα κινέζικα είναι απενεργοποιημένος, η ικανότητά του να κατανοεί τα κινέζικα θα μειωθεί σημαντικά. Αλλά όσο πιο πίσω βρίσκονται οι νευρώνες, για παράδειγμα, όταν οι νευρώνες φτάνουν περίπου τις 2000 σειρές, η συνολική αξιοπιστία τους έχει πέσει πολύ. Έχετε παρατηρήσει την έρευνά τους;

Έρευνα OpenAI: Αφήστε το GPT4 να εξηγήσει τους νευρώνες GPT2

Τσεν Γιουμπέι:Δεν έχω διαβάσει ακόμα αυτό το άρθρο, αλλά αυτή η μέθοδος μοιάζει πολύ με την επέμβαση στους νευρώνες του εγκεφάλου. Αντίστοιχα τώρα, εάν υπάρχει ένα νευρωνικό δίκτυο, αυτό το δίκτυο σημαίνει ότι κατά μία έννοια μπορεί να βρει μια τοπική ύπαρξη αντί να διασκορπιστεί πλήρως, τότε μπορούν να εκτελεστούν ορισμένες λειτουργίες σε αυτό. Για παράδειγμα, εάν ένας συγκεκριμένος νευρώνας αποκοπεί, μπορείτε να σκεφτείτε ότι ένα συγκεκριμένο μέρος της ικανότητάς του έχει χαθεί σχετικά.
Στην πραγματικότητα, το ίδιο ισχύει για τους ανθρώπους. Για παράδειγμα, ένα άτομο με επιληψία μπορεί να έχει κάποιους γλωσσικούς φραγμούς μετά από χειρουργική επέμβαση, αλλά δεν επηρεάζει τις άλλες λειτουργίες του ανθρώπινου σώματος.

"Silicon Valley 101":Η OpenAI και η Anthropic μελετούν αυτήν τη στιγμή την ερμηνευτικότητα μεγάλων μοντέλων Υπάρχει κάποια διαφορά μεταξύ της έρευνάς σας και της δικής τους;

Τσεν Γιουμπέι:Στην πραγματικότητα, κανείς δεν γνωρίζει εάν η έρευνα για το μοντέλο του λευκού κουτιού θα είναι επιτυχής στο μέλλον, το έχω συζητήσει με τον προϊστάμενό μου, αλλά όλοι συμφωνούν ότι αυτό το θέμα αξίζει να το δοκιμάσετε. Εάν επιστρέψουμε σε αυτόν τον τομέα, αυτό που θέλει να κάνει η έρευνά μας είναι να κατανοήσουμε την τεχνητή νοημοσύνη και να την ανακατασκευάσουμε μέσω της κατανόησής μας και στη συνέχεια να δημιουργήσουμε ουσιαστικά κάτι διαφορετικό. Άρα η παρατήρηση, δηλαδή η ερμηνευτικότητα, νομίζω ότι είναι απλώς ένα μέσο.
Με άλλα λόγια, είτε ανοίγω αυτό το μοντέλο, είτε κάνω αυτά τα πειράματα, είτε κάνω κάποιες προσαρμογές στο μοντέλο, νομίζω ότι αυτές είναι μερικές από τις μεθόδους που δοκιμάζουμε στη διαδικασία κατανόησης, αλλά τι είναι πραγματικά σημαντικό για το λευκό κουτί Το μοντέλο είναι Ακόμα πρέπει να επιστρέψουμε στο ίδιο το σήμα. Γιατί είτε πρόκειται για ανθρώπινο εγκέφαλο είτε για μηχανή, η ουσία της μάθησής τους βασίζεται σε σήματα.

Υπάρχουν κάποιες δομές στον κόσμο μας, και πρέπει επίσης να μάθουν μέσα από αυτές τις δομές, και αυτές τις δομές μαθαίνουν. Μπορούμε λοιπόν να βρούμε τους νόμους πίσω από αυτές τις δομές, καθώς και κάποια μαθηματικά εργαλεία για να τις αναπαραστήσουμε και μετά να αναδιοργανώσουμε αυτά τα πράγματα για να δημιουργήσουμε ένα διαφορετικό μοντέλο; Εάν αυτό μπορεί να γίνει, νομίζω ότι θα δημιουργήσει προσδοκίες για τη βελτίωση της ευρωστίας, της ασφάλειας και της αξιοπιστίας των συστημάτων μας.
Επιπλέον, η αποτελεσματικότητά του θα αυξηθεί. Αυτό μοιάζει λίγο με τη θεωρία της θερμοδυναμικής που εμφανίζεται μετά την πρώτη εμφάνιση της ατμομηχανής, υποστηρίζοντας έτσι τη μεταμόρφωσή της από έναν πλήρη τεχνίτη που υπόκειται σε μια επιστήμη. Με τον ίδιο τρόπο, σήμερα φαίνεται να έχουμε μια μηχανή ατμού για τα δεδομένα για πρώτη φορά Από τη μη κατανόηση των δεδομένων μας στο παρελθόν, μπορούμε επιτέλους να αρχίσουμε να αναπτύσσουμε μερικούς αλγόριθμους τεχνητής νοημοσύνης για την καταγραφή των μοτίβων στα δεδομένα.

"Silicon Valley 101":Έτσι θα είναι πιο ενεργειακά αποδοτικό.

Τσεν Γιουμπέι:Όσον αφορά την εξοικονόμηση ενέργειας, μπορώ να σας δώσω μερικά ενδιαφέροντα παραδείγματα. Το πρώτο σημείο είναι σίγουρα η εξοικονόμηση ενέργειας, γιατί ο εγκέφαλος ισοδυναμεί με έναν λαμπτήρα με κατανάλωση ισχύος 20 Watt και οι σημερινοί υπερυπολογιστές μπορεί να καταναλώνουν περισσότερα από ένα εκατομμύριο Watt.

Το δεύτερο σημείο είναι ότι αν κοιτάξουμε την εξέλιξη διαφόρων οργανισμών στη φύση, η εξελικτική τους αποτελεσματικότητα είναι στην πραγματικότητα πολύ υψηλή. Για παράδειγμα, υπάρχει ένα ειδικό είδος αράχνης που ονομάζεται Jumping Spider. Έχει μόνο μερικά εκατομμύρια νευρώνες, αλλά μπορεί να δημιουργήσει πολύ περίπλοκες τρισδιάστατες ομαδικές γραμμές για να συλλάβει τη λεία της.

Jumping spider, Wikipedia

Και ένα από τα πιο ενδιαφέροντα πράγματα για μένα είναι το πόσο αποτελεσματικά χρησιμοποιούν τα δεδομένα οι άνθρωποι. Ο τρέχων όγκος δεδομένων του Llama3 έχει φτάσει περίπου τα 13 τρισεκατομμύρια Tokens. Αλλά πόσα δεδομένα μπορεί να λάβει ένα άτομο στη διάρκεια της ζωής του; Αν υποθέσουμε ότι μπορούμε να λάβουμε 30 καρέ εικόνων ανά δευτερόλεπτο, και ο ημερήσιος χρόνος απόκτησης είναι 12 ώρες, και το κάνουμε για 20 χρόνια, τότε μπορούμε πιθανώς να λάβουμε 10 δισεκατομμύρια μάρκες και το κείμενο μπορεί να ληφθεί σχεδόν το ίδιο των δεδομένων είναι πολύ μικρότερο από αυτό ενός μεγάλου μοντέλου.
Το ερώτημα λοιπόν είναι, πώς αποκτούν οι άνθρωποι μια τόσο ισχυρή ικανότητα γενίκευσης μέσω τόσο μικρού όγκου δεδομένων; Αυτό είναι που βρίσκω εκπληκτικό για την αποτελεσματικότητα του ανθρώπινου εγκεφάλου.

"Silicon Valley 101":Είναι πιο δύσκολο να αποκαλύψει πώς λειτουργούν τα μεγάλα μοντέλα ή να αποκαλύψει πώς λειτουργεί ο ανθρώπινος εγκέφαλος; Μου ακούγεται δύσκολο.

Τσεν Γιουμπέι:Και οι δύο έχουν τις δικές τους δυσκολίες, αλλά είναι παρόμοιες στην προσέγγιση. Είτε πρόκειται για τον ανθρώπινο εγκέφαλο είτε για ένα μεγάλο γλωσσικό μοντέλο, προσπαθούμε να το παρατηρήσουμε και να δούμε σε τι ανταποκρίνεται.

Αυτή η μέθοδος μπορεί πραγματικά να φανεί από την έρευνα στον οπτικό φλοιό των David Hubel και Torsten Weisel, οι οποίοι κέρδισαν το Νόμπελ Φυσιολογίας τη δεκαετία του 1980. Βρήκαν ένα απλό κύτταρο και προσπάθησαν να μελετήσουν πώς αυτοί οι νευρώνες δημιουργούν παρορμήσεις όταν ένα άτομο βλέπει κάτι, ανέλυσαν τις διαφορετικές καταστάσεις απόκρισης των νευρώνων όταν κοιτούσαν διαφορετικά πράγματα, όπως όταν δεν ανταποκρίθηκαν καθόλου και πότε ήταν πολύ ενθουσιασμένοι. , και στη συνέχεια βρήκαν το δεκτικό πεδίο του νευρώνα.

DH Hubel και TN Wiesel, νικητές του Βραβείου Νόμπελ Φυσιολογίας ή Ιατρικής το 1981

Η μελέτη μας για μεγάλα γλωσσικά μοντέλα σήμερα είναι στην πραγματικότητα παρόμοια. Αναζητούμε διαφορετικές εισόδους και, στη συνέχεια, καταλαβαίνουμε ποιοι νευρώνες μέσα στο μοντέλο ενδιαφέρονται για ποιες εισόδους. Αλλά εξακολουθούν να υπάρχουν διαφορές.

Η πρώτη διαφορά είναι ότι υπάρχουν πολλοί περιορισμοί στην παρατήρηση του ανθρώπινου εγκεφάλου είτε μέσω μεθόδων διασύνδεσης εγκεφάλου-υπολογιστή, ωστόσο, ένα φυσικό πλεονέκτημα των μεγάλων μοντέλων γλώσσας είναι ότι οι μέθοδοι παρατήρησης δεν είναι πλέον περιορισμένες Μια καλύτερη μέθοδος, μπορείτε να την αναλύσετε μακροπρόθεσμα, και μπορείτε ακόμη να αναλύσετε περαιτέρω το μοντέλο μέσω ορισμένων διαφορικών μεθόδων.

Αλλά το μειονέκτημά του είναι ότι η ικανότητα των μεγάλων μοντέλων είναι πολύ μικρότερη από αυτή του εγκεφάλου, ειδικά των μεγάλων γλωσσικών μοντέλων, επειδή μαθαίνει τον κόσμο μόνο από τη γλώσσα, επομένως η κατανόησή του για τον κόσμο είναι ελλιπής, όπως δεν υπάρχουν άλλες αισθήσεις εκτός από τη γλώσσα.

Αντίθετα, ο εγκέφαλος μπορεί να επεξεργαστεί πιο διαστατικά σήματα και οι αισθήσεις είναι πολύ πλούσιες. Μερικές φορές σκεφτόμαστε μια ερώτηση, είναι η γλώσσα πλήρης; Εάν δεν υπάρχει υποστήριξη από άλλες αισθήσεις, μπορούν όλες οι έννοιες στη γλώσσα να υπάρχουν ανεξάρτητα ή χρειάζονται την υποστήριξη άλλων αισθήσεων για να επιτύχουν την αληθινή κατανόηση.

Για παράδειγμα, εάν το αντικείμενο "ψυγείο" δεν σχετίζεται με τα συναισθήματα ζεστού και κρύου στον πραγματικό κόσμο, αλλά περιγράφει μόνο στατιστικά χαρακτηριστικά όπως η ύπαρξη πόρτας, αυτή η περιγραφή θα είναι ελλιπής.

"Silicon Valley 101":Στην πραγματικότητα, σε σύγκριση με τον εγκέφαλο, το σημερινό μεγάλο μοντέλο στερείται ακόμη πολλά. Αλλά επειδή μπορούμε να το χωρίσουμε και να το μελετήσουμε, νομίζεις ότι πάει λίγο πιο πέρα από τη φιλοδοξία να ξεκλειδώσει τα μυστικά του εγκεφάλου.

Τσεν Γιουμπέι:Η δυσκολία κατανόησης ενός μεγάλου γλωσσικού μοντέλου είναι ότι έχετε πολλούς τρόπους να το παρατηρήσετε και μπορείτε να το κατανοήσετε περισσότερο. Για παράδειγμα, εάν υπάρχουν δύο μηχανές, η μία μηχανή είναι πλήρως παρατηρήσιμη και η άλλη είναι εν μέρει παρατηρήσιμη, τότε μιλώντας διαισθητικά, η μηχανή που είναι πλήρως παρατηρήσιμη είναι πιο κατανοητή. Φυσικά, έχει κάποιες δυνατότητες που δεν έχει αυτό το μηχάνημα, επομένως δεν μπορεί να αντικαταστήσει κάποια κατανόηση του ανθρώπινου εγκεφάλου.

"Silicon Valley 101":Επιτρέψτε μου επίσης να παρουσιάσω στο κοινό ότι ο Yubei σπούδασε νευροεπιστήμη στο παρελθόν. Πιστεύετε λοιπόν ότι το υπόβαθρό σας στο αντικείμενο θα σας βοηθήσει στην τρέχουσα έρευνά σας στον τομέα της τεχνητής νοημοσύνης; Υπάρχουν κάποιες διεπιστημονικές μέθοδοι έρευνας που μπορούν να διδαχθούν η μία από την άλλη;

Τσεν Γιουμπέι:Στην πραγματικότητα δεν είμαι κύριος στην υπολογιστική νευροεπιστήμη. Το προπτυχιακό μου πτυχίο ήταν στο Τμήμα Ηλεκτρονικής του Πανεπιστημίου Tsinghua και στο Τμήμα Ηλεκτρολόγων Μηχανικών και Επιστήμης Υπολογιστών στο Μπέρκλεϋ, ωστόσο, το ερευνητικό ινστιτούτο στο οποίο εργαζόμουν εκείνη την εποχή ήταν ένα ερευνητικό ινστιτούτο νευροεπιστήμης, επομένως ο μέντοράς μου ήταν ειδικός στην υπολογιστική. νευροεπιστήμη.

Όσον αφορά την ερώτηση μόλις τώρα, νομίζω ότι η μελέτη της νευροεπιστήμης είναι συνήθως έμπνευση για μένα. Επειδή όταν γνωρίζετε αυτά τα συστήματα στη φύση και τι μπορούν να κάνουν, μπορεί να έχετε διαφορετικές ιδέες και να ξαναδείτε το πρόβλημα που αντιμετωπίζετε.

Για παράδειγμα, μια εικόνα είναι ένα δισδιάστατο σήμα εισόδου, τα εικονοστοιχεία της είναι οριζόντια και κάθετα και στη συνέχεια σχηματίζει ένα πλέγμα. Όμως ο ανθρώπινος αμφιβληστροειδής δεν μοιάζει με αυτό. Πρώτα απ 'όλα, είναι ένας τύπος υποδοχέα με διαφορετικές αντιλήψεις. Αυτός ο υποδοχέας είναι διατεταγμένος με πολύ πυκνό αλλά όχι πολύ κανονικό τρόπο.
Όταν αντιμετωπίζετε ένα τέτοιο σήμα εισόδου, πρώτα απ 'όλα, τα συνελικτικά νευρωνικά δίκτυα που έχουμε συνηθίσει θα αποτύχουν, επειδή ακόμη και η συνέλιξη δεν ορίζεται εδώ. Όταν λοιπόν δούμε αυτή την κατάσταση στα βιολογικά συστήματα, θα επανεξετάσουμε από πού προέρχονται αυτές οι λεγόμενες συνελίξεις.

"Silicon Valley 101":Θα επανεξετάσετε λοιπόν τη μέθοδο, σωστά; Πρέπει να εφαρμοστεί με αυτόν τον τρόπο;

Τσεν Γιουμπέι:Ναί. Ας υποθέσουμε ότι ξυπνάτε μια μέρα και όλοι οι νευρώνες σας έχουν διαταραχθεί Μπορείτε ακόμα να κατανοήσετε τον κόσμο; Επειδή αυτό που βλέπετε δεν είναι πλέον εικόνα και δεν μπορείτε πλέον να χρησιμοποιήσετε ένα συνελικτικό νευρωνικό δίκτυο για να το κάνετε αυτό;

Αν και δεν έχουμε λύσει πλήρως αυτό το πρόβλημα, στην πραγματικότητα έχουμε κάνει ένα βήμα μπροστά. Αν και όλοι οι νευρώνες μου έχουν διαταραχθεί, δηλαδή τα εικονοστοιχεία στην εικόνα του υποδοχέα μας διαταράσσονται, υπάρχει κάποια σχέση μεταξύ των γειτονικών εικονοστοιχείων. Για παράδειγμα, όταν κοιτάμε μια εικόνα, θα διαπιστώσουμε ότι αν ένα εικονοστοιχείο είναι κόκκινο, τα γύρω εικονοστοιχεία είναι πιο πιθανό να είναι κόκκινα. Στη συνέχεια, μέσω αυτής της σχέσης, μπορείτε να αφήσετε αυτά τα εικονοστοιχεία να βρουν ξανά φίλους και μετά μπορείτε να βάλετε παρόμοια εικονοστοιχεία μαζί Τα εικονοστοιχεία αυτο-οργανώνονται σε ορισμένες σχέσεις.

Στη συνέχεια, αυτή τη στιγμή, προσθέτοντας μια δομή όπως το Transformer στο μοντέλο της μεγάλης γλώσσας, μπορούμε να αναπαραστήσουμε αυτήν την εικόνα και η απόδοση αυτής της αναπαράστασης είναι αρκετά καλή. Αυτό είναι ένα παράδειγμα επανεξέτασης ορισμένων από τις τρέχουσες μηχανολογικές μας πρακτικές εμπνευσμένες από τη φύση και στη συνέχεια πρότασης μερικών διαφορετικών μεθόδων.

Μοντέλο Black Box, εικόνα AIGC μέσω Firefly

"Silicon Valley 101":Υπάρχουν ακόμα πολλές ομοιότητες μεταξύ της έρευνας σε μεγάλα μοντέλα τεχνητής νοημοσύνης και της νευροεπιστήμης του ανθρώπινου εγκεφάλου. Θα υπάρξουν νευροεπιστήμονες που θα συνεργαστούν μαζί σας σε διατομική έρευνα από τη δική τους οπτική γωνία;

Τσεν Γιουμπέι:Στην πραγματικότητα, υπάρχουν πολλοί νευροεπιστήμονες, στατιστικολόγοι και μαθηματικοί που θέλουν να κατανοήσουν ορισμένες δομές των φυσικών σημάτων και επίσης να δώσουν προσοχή στον τρόπο λειτουργίας των νευρώνων στον εγκέφαλο και στη συνέχεια να συνδυάσουν τα δύο για να προσπαθήσουν να προτείνουν μερικές μινιμαλιστικές αναπαραστάσεις σημάτων.

Για παράδειγμα, θα βρείτε ένα φαινόμενο στον εγκέφαλο, δηλαδή, αν και υπάρχουν πολλοί νευρώνες, οι νευρώνες που λειτουργούν ταυτόχρονα είναι στην πραγματικότητα πολύ αραιοί. Για παράδειγμα, εάν υπάρχουν 1 εκατομμύριο νευρώνες, μόνο μερικές χιλιάδες μπορεί να λειτουργούν.

Με βάση αυτό, προτάθηκε μια αραιή μέθοδος κωδικοποίησης στον τομέα της νευροεπιστήμης τα πρώτα χρόνια, δηλαδή, μπορούν να βρεθούν κάποιες αραιές αναπαραστάσεις χαμηλών διαστάσεων σε αυτό το σήμα υψηλού επιπέδου; Ο αλγόριθμος που χτίστηκε με βάση αυτή την ιδέα είναι πολύ παρόμοιος με την αναπαράσταση των νευρώνων που παρατηρείτε στον εγκέφαλο, επομένως αυτή είναι μια επιτυχία χωρίς επίβλεψη στην πρώιμη υπολογιστική νευροεπιστήμη.

Από σήμερα, ολόκληρο το ερευνητικό πεδίο έχει ένα όνομα που ονομάζεται Natural Signal Statistics όπως τα μοντέλα είναι στην πραγματικότητα σχετικά αργή. Πραγματικά πιστεύω ότι από τη μια μπορεί να οφείλεται στο ότι το πρόβλημα είναι περίπλοκο, αλλά από την άλλη είναι επίσης επειδή υπάρχουν σχετικά λίγοι άνθρωποι που επενδύουν προς αυτή την κατεύθυνση.

02 «Τρέχουσα προσπέραση» του μοντέλου Black Box

"Silicon Valley 101":Για να το θέσω απλά, υπάρχουν πολύ λίγοι άνθρωποι που μελετούν μοντέλα λευκού κουτιού τώρα. Αλλά πριν από την εμφάνιση μεγάλων μοντέλων, η παραδοσιακή μηχανική μάθηση εμπίπτει επίσης στην κατηγορία της έρευνας μοντέλων λευκού κουτιού;

Τσεν Γιουμπέι:Νομίζω ότι αυτή η δήλωση μπορεί να θεωρηθεί σωστή Αυτά τα προηγούμενα μοντέλα μηχανικής εκμάθησης είναι σχετικά απλά και σχετικά κατανοητά.

"Silicon Valley 101":Γιατί λοιπόν η τρέχουσα ερευνητική πρόοδος ολόκληρου του μοντέλου μαύρου κουτιού μπορεί να ξεπεράσει το μοντέλο του λευκού κουτιού στις στροφές, τόσο πιο γρήγορα;

Τσεν Γιουμπέι:Όταν τίθεται αυτή η ερώτηση, θα είμαστε νευρικοί για μια στιγμή πριν απαντήσουμε.

"Silicon Valley 101":Γιατί να είσαι νευρικός;

Τσεν Γιουμπέι:Επειδή αυτή η ερώτηση είναι πολύ έντονη, στην πραγματικότητα ρωτά αν είναι ένα μοντέλο λευκού κουτιού ή μια κατανοητή διαδρομή από την οποία πρέπει να εγκαταλείψουμε. Από την εποχή μας, δεν θα σπουδάζουμε πλέον επιστήμη στον τομέα της τεχνητής νοημοσύνης και θα γίνουν όλα εμπειρικό θέμα στο μέλλον; Αλλά δεν το νομίζω ακόμα.
Επιστρέφοντας στην ερώτησή σας μόλις τώρα, τι ακριβώς συνέβη σε αυτή τη διαδικασία; Το πρώτο σημείο είναι ότι το μοντέλο μαύρου κουτιού έχει λιγότερες αποσκευές. Εάν θέλετε αυτή η μέθοδος να λειτουργεί και αυτή η μέθοδος να είναι εξηγήσιμη, υπάρχουν πάρα πολλές απαιτήσεις. Τότε το μοντέλο μαύρου κουτιού εγκαταλείπει ένα πράγμα για να το αφήσει να λειτουργήσει πρώτα.

Ο δεύτερος λόγος αγνοείται σχετικά από όλους, που είναι η αύξηση των δεδομένων ενάντια στην τάση ή η διεύρυνση της κλίμακας.

Ο Richard Sutton έγραψε ένα blog στο παρελθόν και ανέφερε ότι υπάρχει κάτι που δεν έχει σπάσει τα τελευταία 20 χρόνια, το οποίο είναι ότι όταν έχουμε περισσότερα δεδομένα και περισσότερους υπολογισμούς, θα πρέπει να βρούμε αλγόριθμους που μπορούν πραγματικά να επεκταθούν τα δεδομένα. Νομίζω ότι αυτή είναι μια πολύ σημαντική πτυχή του μοντέλου του μαύρου κουτιού, ή της τρέχουσας εμπειρικής μας προόδου.

Δηλαδή, όταν έχουμε μεγαλύτερα δεδομένα, καλύτερα δεδομένα, περισσότερους υπολογισμούς και μεγαλύτερα μοντέλα, τότε μπορούμε να μάθουμε περισσότερα. Αλλά αν επανέλθουμε σε αυτό το θέμα, όλοι έχουν μια επιδίωξη στο μοντέλο λευκού κουτιού, που είναι ότι το ίδιο το μοντέλο πρέπει να είναι απλό.

Μια σύγκριση μεταξύ Black Box ML και White Box ML

"Silicon Valley 101":Γιατί τα μοντέλα λευκού κουτιού πρέπει να είναι απλά; Σημαίνει ότι αν είναι πολύ περίπλοκο, θα είναι δύσκολο να σχεδιαστεί;
Τσεν Γιουμπέι:Ναί. Στην πραγματικότητα, μόνο συνοπτικά πράγματα μπορούν να γίνουν κατανοητά όταν κάνουμε θεωρία, και πρέπει να απλοποιούνται ξανά και ξανά. Ωστόσο, όταν οι άνθρωποι επιδιώκουν την απλότητα του μοντέλου, μπορεί επίσης να υπεραπλουστεύουν ξανά και ξανά Μόλις συμβεί αυτή η υπεραπλούστευση, το μοντέλο δεν μπορεί να περιγράψει πλήρως το σχήμα των δεδομένων. Στη συνέχεια, όταν υπάρχουν περισσότερα δεδομένα, το μοντέλο δεν θα μπορεί να συνεχίσει και οι δυνατότητές του θα είναι περιορισμένες.

Νομίζω λοιπόν ότι αυτή είναι και μια δυσκολία που αντιμετώπισαν όλοι όταν μελετούσαν μοντέλα λευκού κουτιού και απλά μοντέλα στο παρελθόν. Όχι μόνο πρέπει να κουβαλάμε το μοντέλο με δουλειά, αλλά χρειαζόμαστε και τις ερμηνεύσιμες αποσκευές του, και χρειάζομαι επίσης να είναι απλό Όταν φέρετε όλα αυτά τα πράγματα, θα διαπιστώσετε ότι αυτές οι αποσκευές είναι πολύ βαριές. Όταν κάνετε υπερβολική απλοποίηση, εισάγετε σφάλματα και τα σφάλματα θα συσσωρευτούν και δεν θα μπορείτε να προχωρήσετε αργότερα.
"Silicon Valley 101":Αλλά τώρα με την ταχεία ανάπτυξη των μοντέλων μαύρου κουτιού, αρχίζουμε να προσπαθούμε να το λύσουμε ξανά.
Τσεν Γιουμπέι:Ναί. Και αυτή τη φορά, όταν το λύσουμε, μπορεί να επανεξετάσουμε αυτό το ζήτημα. Δηλαδή, δεν χρειάζεται απαραίτητα να απλοποιήσουμε πλήρως το μοντέλο σε αυτό το επίπεδο, μπορεί ακόμα να αντιπροσωπεύει την πιο περίπλοκη πλευρά του κόσμου.

Αλλά την ίδια στιγμή, εξακολουθούμε να ελπίζουμε ότι είναι σχετικά κατανοητό, οπότε αν μια μέρα μπορέσουμε να επιτύχουμε ένα μοντέλο λευκού κουτιού, τότε νομίζω ότι κάθε προσπάθεια πριν από αυτό είναι μια υπεραπλούστευση, αλλά ελπίζουμε ότι κάθε απλοποίηση μπορεί να προχωρήσει. Δεν χρειάζεται καν να φτιάξουμε ένα εντελώς λευκό μοντέλο κουτιού Ίσως μπορούμε να φτιάξουμε ένα μοντέλο λευκού κουτιού που δεν είναι τόσο ισχυρό όσο το μεγάλο μοντέλο, αλλά είναι σχετικά απλό.
Είναι χρήσιμο για εμάς να κατανοήσουμε την ουσία πίσω από τη μάθηση και αυτή η κατανόηση μπορεί με τη σειρά του να μας επιτρέψει να βελτιώσουμε την αποτελεσματικότητα της εκπαίδευσης μεγάλων μοντέλων. Έχω συζητήσει θέματα απόδοσης με τον Yann αρκετές φορές στο παρελθόν, πράγμα που σημαίνει ότι εάν αναπτυχθεί η θεωρία πίσω από αυτό, μπορεί να είμαστε σε θέση να αυξήσουμε την αποτελεσματικότητα της πρακτικής μηχανικής κατά τάξεις μεγέθους.
"Silicon Valley 101":Η άποψη του Yann είναι ότι προτιμά να αναπτύξει ένα μοντέλο λευκού κουτιού ή ένα μοντέλο μαύρου κουτιού;
Τσεν Γιουμπέι:Ο Yann είναι ένας επιστήμονας γνωστός για τις μηχανικές του δεξιότητες, έτσι πολλές από τις προσπάθειές του εξακολουθούν να περιλαμβάνουν να κάνει αυτό το πράγμα να λειτουργήσει πρώτα. Αλλά ο Yann υποστηρίζει επίσης την έρευνα μοντέλων λευκού κουτιού Κατά τη διάρκεια της συζήτησής μου μαζί του, θεώρησε ότι αυτός ο δρόμος άξιζε να εξερευνηθεί, αλλά δεν ήξερε αν θα ήταν εφικτός για έναν υπερβολικά φιλόδοξο στόχο, αλλά κάποιος έπρεπε να το κάνει.
"Silicon Valley 101":Φαίνεται ότι το μοντέλο του μαύρου κουτιού είναι ένα πρόβλημα μηχανικής, ενώ το μοντέλο του λευκού κουτιού πρέπει να το εξηγήσει επιστημονικά. Αν και από την άποψη της εμπορευματοποίησης, η αναλογία εισροών-εκροών δεν είναι τόσο υψηλή, αν τελικά μπορέσει να κατασκευαστεί αυτό το πράγμα, θα εξακολουθεί να έχει μεγάλη αξία για την ασφάλεια της τεχνητής νοημοσύνης και των μελλοντικών εμπορικών εφαρμογών της.
Τσεν Γιουμπέι:Όσον αφορά την εμπορευματοποίηση, στην πραγματικότητα πιστεύω ότι η αρχική πρόθεση όλων όσων κάνουν βασική έρευνα AI δεν είναι να έχουν κάποια εφαρμογή ως αρχική πρόθεση, αλλά να οδηγούνται από μια σχετικά καθαρή περιέργεια για το θέμα της νοημοσύνης , το οποίο μπορεί με τη σειρά του να βοηθήσει στην πρακτική της μηχανικής. Η ίδια η έρευνα δεν έχει σχεδιαστεί για καμία εφαρμογή.

Επιπλέον, όταν επιδιώκουμε αυτού του είδους το μοντέλο λευκού κουτιού και αυτού του είδους την απόλυτη αποτελεσματικότητα, θα θέσουμε επίσης μια ερώτηση, δηλαδή εάν το μεγάλο γλωσσικό μοντέλο που χτίζουμε τώρα μπορεί να επιτευχθεί μόνο μέσω αυτού του είδους κλίμακας ή Κλιμάκωση Νόμου Είναι εντάξει να περπατάτε κάτω; Δεν νομίζω. Επειδή οι άνθρωποι δεν μπορούν να δεχτούν τόσο μεγάλο όγκο δεδομένων, το πώς να αποκτήσουμε σχετικά υψηλή ικανότητα γενίκευσης με μικρό όγκο δεδομένων είναι επίσης ένα σημαντικό θέμα που μελετάμε.

"Silicon Valley 101":Αυτό θα πρέπει επίσης να είναι ένα πρόβλημα που μελετάται από μελετητές μοντέλων μαύρου κουτιού. Ποιοι μελετητές και σχολεία μελετούν αυτήν τη στιγμή το μοντέλο του λευκού κουτιού;

Τσεν Γιουμπέι:Επί του παρόντος, υπάρχουν κυρίως τρεις δυνάμεις της AI. Η πρώτη δύναμη είναι μέρος της εμπειρίας που έχουμε δημιουργήσει στη διαδικασία της μελέτης αυτών των μηχανικών μοντέλων και στη συνέχεια της οπτικοποίησης της, όπως αυτό στο οποίο συμμετείχαν πρόσφατα η Anthropic και η OpenAI.

Anthropic Research: Extracting Interpretable Features from the Neural Network Claude 3 Sonnet

Το δεύτερο είναι η υπολογιστική νευροεπιστήμη που προσπαθεί να κατανοήσει τον ανθρώπινο εγκέφαλο και να βρει τρόπους με τους οποίους μπορεί να υπάρχουν κάποιες αναμνήσεις.

Μια άλλη σχολή σκέψης είναι να εξετάσουμε τη βασική δομή του σήματος από μαθηματική και στατιστική άποψη. Φυσικά, θα υπάρχουν πολλά crossover μεταξύ αυτών των τριών τύπων.
"Silicon Valley 101":Σε ποιο είδος ανήκεις;
Τσεν Γιουμπέι:Μάλιστα επηρεάζομαι λίγο πολύ και από τις τρεις ομάδες. Όταν ήμουν στο Μπέρκλεϊ, ο μέντοράς και ο δάσκαλός μου Ma Yi ανήκαν όλοι στη σχολή των νευροεπιστημών και των μαθηματικών στατιστικών και ο Yann ήταν πιο εκπαιδευμένος στη μηχανική. Πιστεύω επίσης ότι αυτές οι τρεις μέθοδοι είναι αποδεκτές, γιατί θα μας οδηγήσουν τελικά να κινηθούμε προς την ίδια κατεύθυνση.
"Silicon Valley 101":Ποια κατεύθυνση είναι η ίδια; Υπάρχουν κάποια σταδιακά αποτελέσματα τώρα;
Τσεν Γιουμπέι:Το τελευταίο βήμα είναι να κατανοήσουμε το μοντέλο. Υπήρξαν κάποια σταδιακά αποτελέσματα στο παρελθόν, όπως αν μπορούμε να φτιάξουμε κάποια δίκτυα με δύο ή τρία επίπεδα και μπορούμε να δούμε τι μαθαίνουν σε κάθε επίπεδο. Τέλος, ανακάλυψα ότι αν θέλετε να αναπαραστήσετε έναν αριθμό, θα μάθετε όλες τις πινελιές του και, στη συνέχεια, θα συνδέσετε παρόμοιες πινελιές μαζί και, στη συνέχεια, μπορείτε να κατασκευάσετε το επόμενο επίπεδο αναπαράστασης, επίπεδο προς στρώμα , τελικά να βρείτε τον αριθμό.
"Silicon Valley 101":Θα οδηγήσει η τρέχουσα έρευνά σας στη βελτιστοποίηση του μοντέλου του μαύρου κουτιού;

Τσεν Γιουμπέι:Πρώτον, καθώς η κατανόησή σας βαθαίνει, ίσως μπορείτε να βελτιστοποιήσετε το μοντέλο μαύρου κουτιού και να το κάνετε πιο αποτελεσματικό. Το δεύτερο είναι να ενοποιηθούν διαφορετικά μοντέλα μαύρου κουτιού, μειώνοντας έτσι πολλά περιττά απόβλητα. Ταυτόχρονα, υπάρχει ένας άλλος πυλώνας εργασίας που αφορά το εργαστήριό μου, που είναι να μελετήσω όχι μόνο την αντίληψη αλλά και τον έλεγχο.

Όταν δίνετε σε αυτά τα μεγάλα γλωσσικά μοντέλα τη δυνατότητα να αλληλεπιδρούν με τον κόσμο, μπορείτε να έχετε την ίδια ικανότητα γενίκευσης στο σύστημα ελέγχου; Τι σημαίνει αυτό; Δηλαδή, στο αντιληπτικό σύστημα, θα διαπιστώσετε ότι έμαθα μήλα, αχλάδια και μετά ροδάκινο Εφόσον έχω μάθει μια παρόμοια έννοια των μήλων και των αχλαδιών στο παρελθόν, μπορώ να μάθω γρήγορα την έννοια του ροδάκινου.

Άρα στον τομέα του ελέγχου μπορεί να επιτευχθεί ανάλογη απόδοση; Για παράδειγμα, εάν ένα ρομπότ μάθει να περπατά μπροστά και να πηδά στη θέση του, μπορεί να μετατραπεί γρήγορα σε ρομπότ που πηδά μπροστά και περπατά ταυτόχρονα;

"Silicon Valley 101": Εάν σας ζητήθηκε να δώσετε ένα συμπέρασμα, πιστεύετε ότι χρησιμοποιείτε την έρευνα μοντέλων λευκού κουτιού για να ξεκλειδώσετε το μυστικό της λειτουργίας μεγάλου μοντέλου, πού βρίσκεται η τρέχουσα γραμμή προόδου;
Τσεν Γιουμπέι:Στην πραγματικότητα, κανείς από εμάς δεν γνωρίζει πόσο μεγάλη είναι αυτή η γραμμή προόδου, πιστεύω ότι είναι πολύ μακριά από αυτόν τον στόχο. Δεν είναι απαραίτητα μια γραμμική εξέλιξη, μπορεί να μοιάζει περισσότερο με ένα κβαντικό άλμα. Όταν βγει μια νέα κατανόηση, μπορεί να κάνετε αμέσως ένα μεγάλο βήμα μπροστά.

Αν θέλετε να φτιάξετε ένα ChatGPT με λευκό κουτί, νομίζω ότι αυτό είναι ακόμα πολύ μακριά, αλλά ίσως μπορέσουμε να φτιάξουμε ένα αρκετά καλό, πλήρως κατανοητό μοντέλο που μπορεί να αναπαράγει τις δυνατότητες του AlexNet εκείνη την εποχή. Αυτό το μοντέλο μπορεί να κάνει αναγνώριση Imagenet Μπορούμε να καταλάβουμε πώς κάνει κάθε βήμα σε αυτό, πώς μετατρέπεται σε γάτα και σκύλο βήμα προς βήμα, και μετά ποια είναι η δομή αυτής της γάτας και του σκύλου.

Παράδειγμα WordNet που χρησιμοποιείται από το ImageNet

"Silicon Valley 101":Είναι η αναγνώριση ImageNet λευκό ή μαύρο κουτί;

Τσεν Γιουμπέι:Δεν έχουμε ανακαλύψει ακόμα πώς λειτουργεί. Υπήρχε κάποια κατανόηση από μερικές από τις πρώτες οπτικοποιήσεις που έγιναν από τους Matthew Zeiler και Rob Fergus και πολλούς ερευνητές, αλλά κανείς δεν είχε καταφέρει να δημιουργήσει ένα μοντέλο όπου θα μπορούσαμε να κατανοήσουμε κάθε βήμα και να συνεχίσουμε να δουλεύουμε καλά.
"Silicon Valley 101":Ίσως λοιπόν ο στόχος του μοντέλου του λευκού κουτιού είναι να σκηνοθετηθεί. Για παράδειγμα, το πρώτο βήμα είναι να εξηγήσουμε πώς λειτουργεί το ImageNet Αφού λυθεί το μυστήριο, μπορούμε να εξηγήσουμε πώς λειτουργούν ορισμένα μικρά μοντέλα, όπως ακριβώς η χρήση του GPT 4 για να εξηγήσουμε πώς λειτουργεί το GPT 2 και στη συνέχεια να εξηγήσουμε σιγά-σιγά τον τρόπο λειτουργίας του το μοντέλο λειτουργεί.
Τσεν Γιουμπέι:Ναί. Νομίζω ότι αυτή η διαδικασία διαρκεί ακόμα πολύ χρόνο και χρειάζονται περισσότεροι άνθρωποι για να επενδύσουν προς αυτή την κατεύθυνση. Επειδή οι περισσότερες θέσεις εργασίας επί του παρόντος είναι στον τομέα της μηχανικής. Αν το βάλουμε στα σχολεία, τότε πραγματικά πρέπει να έχετε μερικές πρωτότυπες ιδέες, αντί να λέτε ότι πηγαίνετε στην κλίμακα, και θα πάω στην κλίμακα, τότε όλοι είναι κλίμακα, και τελικά δεν υπάρχει διάκριση, όλα εξαρτώνται από ποιος Ποιο μηχάνημα είναι το καλύτερο και ποιος έχει τα περισσότερα δεδομένα;

03 Τι ξέρω για τον Yann LeCun

"Silicon Valley 101":Στη συνέχεια, θέλω να συζητήσω μαζί σας τον μεταδιδακτορικό σας σύμβουλο, Yann LeCun. Επιτρέψτε μου να σας παρουσιάσω πρώτα τον Yann LeCun Το όνομά του είναι Γάλλος επιστήμονας υπολογιστών ". "Πατέρας του Διαδικτύου".

Ο LeCun είναι επί του παρόντος ο επικεφαλής επιστήμονας AI στο Meta και υπηρετεί ως καθηγητής στο Πανεπιστήμιο της Νέας Υόρκης. Πρωτοστάτησε στα συνελικτικά νευρωνικά δίκτυα (CNN) τη δεκαετία του 1980, μια τεχνολογία που έγινε η βάση της σύγχρονης υπολογιστικής όρασης. Ο LeCun, μαζί με τους Geoffrey Hinton και Yoshua Bengio, έλαβαν το βραβείο Turing 2018 για την πρωτοποριακή τους εργασία στη βαθιά μάθηση.
Μπορείτε να εξηγήσετε τα κύρια αποτελέσματα επιστημονικής έρευνας του Yann στους μη τεχνικούς φίλους μας και γιατί είναι τόσο διάσημος;

Τσεν Γιουμπέι:Ο Yann μελετά τον τομέα της τεχνητής νοημοσύνης νευρωνικών δικτύων από τη δεκαετία του 1980 και έχει βιώσει πολλές κορυφώσεις και την παρακμή των διαφορετικών σχολών σκέψης, ωστόσο, πάντα επέμενε στα δίκτυα βαθιάς μάθησης και είναι ένα άτομο που έχει περπατήσει στο σκοτάδι.

Για παράδειγμα, ήταν πολύ δύσκολο να δημοσιεύσετε άρθρα σχετικά με τη βαθιά μάθηση το 2000. Πόσο δύσκολο ήταν; Εάν η λέξη Νευρωνικό ή Δίκτυο υπάρχει στο άρθρο σας, η πιθανότητα απόρριψής σας είναι πολύ υψηλή, εάν υπάρχει Νευρωνικό Δίκτυο, βασικά θα απορριφθεί.

Ήταν λοιπόν μια σκοτεινή στιγμή για αυτούς εκείνη την εποχή και επηρεάστηκε και η χρηματοδότηση. Αλλά κατάφεραν να επιμείνουν σε αυτό το σκοτάδι και να μην τα παρατήσουν, και τελικά έφυγαν από αυτό το σκοτάδι ημέρες.

Γιαν ΛεΚούν

"Silicon Valley 101":Γιατί επιλέξατε την ομάδα του όταν ήσασταν μεταδιδακτορικός φοιτητής;
Τσεν Γιουμπέι:Αυτή είναι μια αρκετά ενδιαφέρουσα περιπέτεια. Ήμουν πραγματικά μπερδεμένος εκείνη τη στιγμή και δεν σκέφτηκα καν να αποφοιτήσω εκείνο το εξάμηνο. Επειδή η αποφασιστικότητά μου είναι να φτιάξω ένα μοντέλο λευκού κουτιού κατά τη διάρκεια του διδακτορικού μου, και η απόδοση θα πρέπει να είναι συγκρίσιμη με την AlexNet, αλλά δεν είναι ακόμα έτοιμο.

Νομίζω ότι αν θέλω να συνεχίσω την έρευνά μου, σε ποιον πρέπει να απευθυνθώ ως μεταδιδακτορικός; Ήμουν σε μια συνάντηση εκείνη την εποχή και μετά συνάντησα τον Yann στον χώρο. Στην πραγματικότητα δεν είμαι ιδιαίτερα κερδοσκοπικός άνθρωπος, νομίζω ότι όλοι θέλουν να βρουν τον Yann ως μεταδιδάκτορα, οπότε όταν τον γνώρισα, ήθελα κυρίως να μιλήσω για τις απόψεις του για τη δουλειά μου και για το μέλλον της τεχνητής νοημοσύνης .

Ως αποτέλεσμα, η συζήτηση στη συνάντηση ήταν πολύ καλή. Είχε επίσης σκεφτεί την ερευνητική μου κατεύθυνση και μερικά από τα θέματα που σκέφτηκα, αλλά από την οπτική γωνία των νευρωνικών δικτύων. Τότε λοιπόν με ρώτησε αν θα με ενδιέφερε να κάνω αίτηση για μεταδιδακτορική θέση Φυσικά έκανα αίτηση, οπότε το χτυπήσαμε αμέσως.

"Silicon Valley 101":Τι είδους μέντορας είναι; Δίνει στους μαθητές πολύ ελεύθερο χώρο για εξερεύνηση και βοηθά πολύ να συζητήσουν με όλους.
Τσεν Γιουμπέι:πρώτα，Η δεύτερη κατάσταση δεν είναι πλέον εφικτή για αυτόν Πολλοί άνθρωποι χρειάζονται το χρόνο του και ο χρόνος που μπορεί να διαθέσει σε όλους δεν είναι σχετικά μεγάλος.

Είναι πραγματικά παρόμοιος με τον επιβλέποντα διδακτορικό μου, είναι πολύ ελεύθερος σε κάποιες γενικές κατευθύνσεις, αλλά νομίζω ότι μια άλλη ομοιότητα μεταξύ τους είναι ότι θα επιμείνουν σε αυτό που πιστεύουν, δηλαδή μπορεί να σου δώσει κατεύθυνση και στόχο. Αλλά δεν έχει σημασία πώς θα πάτε, είτε με βάρκα είτε με αυτοκίνητο, δεν θα ελέγξει αυτές τις λεπτομέρειες.
Στην πραγματικότητα, η γενική του κατεύθυνση δεν άλλαξε με τα χρόνια. Η αυτοεποπτευόμενη μάθηση χωρίζεται στην πραγματικότητα σε δύο μέρη. Ένα άλλο πιο σημαντικό κομμάτι είναι πώς να κάνουμε αυτο-επίβλεψη με ενσωματωμένο τρόπο, ή τώρα κάνουμε παγκόσμιο μοντέλο, που είναι μια κατεύθυνση στην οποία πιστεύει.

Στην πραγματικότητα του έδωσα αυτό το όνομα επειδή διάβασα ένα άρθρο με τίτλο World Model που γράφτηκε από τους David Ha και Jürgen Schmidhuber και σκέφτηκα ότι το όνομα ήταν πολύ ωραίο.

Μια αρχιτεκτονική συστήματος για αυτόνομη νοημοσύνη, Mata AI

"Silicon Valley 101":Πιστεύετε ότι η ερευνητική κατεύθυνση του Yann είναι διαφορετική από αυτή του OpenAI και του Anthropic;
Τσεν Γιουμπέι:Αν πραγματικά θέλω να πω κάτι διαφορετικό, νομίζω ότι αυτό που θέλει ο Yann είναι ότι το μοντέλο πρέπει να έχει πολλά χαρακτηριστικά. Το πρώτο είναι να έχει την ικανότητα να ενσωματώνεται, πράγμα που σημαίνει ότι δεν είναι απλώς ένας σωρός δεδομένων, αλλά το μοντέλο μπορεί τελικά να εξερευνήσει τον κόσμο μόνο του.
"Silicon Valley 101":Ποια είναι η διαφορά; Φαίνεται ότι όλοι ελπίζουν να πετύχουν επιτέλους ένα τέτοιο αποτέλεσμα.
Τσεν Γιουμπέι:Η εκτέλεση είναι διαφορετική. Για παράδειγμα, το OpenAI νομίζω ότι είναι Scaling Law, που σημαίνει περισσότερα και καλύτερα δεδομένα, μετά περισσότερους υπολογισμούς και μεγαλύτερα μοντέλα. Αλλά ο Yann είναι ακόμα πιο επιστημονικός Αυτό που πιστεύει είναι ότι αν θέλουμε πραγματικά να οδηγήσουμε σε περισσότερη νοημοσύνη που μοιάζει με τον άνθρωπο, τι ακριβώς χρειάζεται; Θα νιώσει ότι μόνο η συσσώρευση δεδομένων δεν αρκεί.
"Silicon Valley 101":Έτσι, ο Yann είναι στην πραγματικότητα ισοδύναμος με την έρευνα μαύρου και λευκού κουτιού μαζί.

Τσεν Γιουμπέι:Νομίζω ότι ο Yann δεν ενδιαφέρεται και πολύ για το αν αυτό μπορεί να εξελιχθεί σε επιστήμη. Προς το παρόν, πιστεύω ότι οι απόψεις του είναι κυρίως εμπειρικές και μηχανικές πολύ καλό στο πράγμα.

"Silicon Valley 101":Όταν το OpenAI απέδειξε ότι το Scaling Law μπορεί να επιτύχει καλά αποτελέσματα, πιστεύετε ότι ο Yann έχει αλλάξει στις μεθόδους επιστημονικής έρευνας και τη σκέψη του; Ή εξακολουθεί να μένει πολύ στην αρχική του γραμμή;

Τσεν Γιουμπέι:Στην πραγματικότητα, δεν είναι αντίθετος με το Scaling Law, δεν νομίζω ότι όλοι έχουν σύγκρουση σε αυτό το θέμα. Η πραγματική πιθανή διαφορά είναι ότι πολλές εργασίες του OpenAI είναι στην πραγματικότητα προσανατολισμένες στα προϊόντα και εκτελούνται στα άκρα στη μηχανική, αλλά ο Yann στην πραγματικότητα κάνει έρευνα σε μια πιο επιστημονική μορφή.

Όταν σκέφτεται αυτά τα θέματα, στην πραγματικότητα δεν έχει πολύ να κάνει με τα προϊόντα, σκέφτεται απλώς ένα πράγμα, το οποίο είναι πώς να επιτύχει ευφυΐα. Επειδή είναι σε αυτόν τον τομέα για πάρα πολύ καιρό και έχει εμπλακεί βαθιά σε αυτόν τον τομέα για περισσότερα από οκτώ χρόνια, επομένως μπορεί να παραμένει στα ιδανικά του όταν εξετάζει αυτά τα θέματα.

"Silicon Valley 101":Το να αφήνουμε τη νοημοσύνη να μαθαίνει αυτόνομα είναι το πρώτο χαρακτηριστικό της έρευνας του Yann;

Τσεν Γιουμπέι:Υπάρχει επίσης κάτι στο οποίο πίστευε πάντα ο Yann που ονομάζεται JEPA, Joint Embedding Predictive Architecture. Δηλαδή, φυσικά το μοντέλο πρέπει να έχει την ικανότητα να μαθαίνει ανεξάρτητα, αλλά πιο σημαντικό από αυτό είναι ότι το μοντέλο μπορεί επίσης να μάθει κάποιους κανόνες υψηλότερου επιπέδου κατά την εκμάθηση δεδομένων.

Στην πραγματικότητα, αυτή τη στιγμή υπάρχουν δύο ομάδες που ελπίζει να ανακατασκευάσει πλήρως τα δεδομένα μέσω της εκμάθησης, η οποία μπορεί να θεωρηθεί ως ιδέα συμπίεσης, ωστόσο, ο Yann δεν θέλει να επιστρέψει πλήρως σε αυτήν την εικόνα Οι λεπτομέρειες δεν είναι οι πιο σημαντικές πληροφορίες όταν κάνετε κρίσεις για το σύστημα.

"Silicon Valley 101":Διαφέρει αυτό το σημείο από τον μέντορά σας Ma Yi στο Berkeley;

Τσεν Γιουμπέι:Στην πραγματικότητα, δεν υπάρχει ουσιαστική σύγκρουση μεταξύ τους ως προς αυτή την άποψη, αλλά ο τρόπος έκφρασής της είναι διαφορετικός. Ο δάσκαλος Μα αισθάνεται ότι οι νόμοι αυτού του κόσμου είναι απλοί, πιστεύει ότι αυτές οι λεπτομέρειες είναι πραγματικά επιζήμιες για τις κατάντη εργασίες ή κάποιες κρίσεις, επομένως είναι απαραίτητο να βρούμε αυτούς τους νόμους υψηλού επιπέδου.

Στην πραγματικότητα, τα δύο είναι τα ίδια, επειδή οι κανόνες υψηλού επιπέδου είναι γενικά απλοί. Ο δάσκαλος Μα λέει συχνά ότι τα πάντα είναι συμπίεση Αν το δεις από τη σκοπιά του Yann, θα διαπιστώσεις ότι η συμπίεση είναι πράγματι σωστή, αλλά η ιεραρχική δομή των δεδομένων είναι στην πραγματικότητα διαφορετική.

Επειδή ο πραγματικός κόσμος είναι πολύπλοκος, αν ψάξετε στις λεπτομέρειες στον πραγματικό κόσμο, θα διαπιστώσετε ότι πολλά πράγματα είναι στην πραγματικότητα δομές χαμηλού επιπέδου. Υπάρχει δομή στα δεδομένα, και οτιδήποτε έχει δομή είναι μια αντανάκλαση της απόκλισης από το θόρυβο, δηλαδή, οτιδήποτε χωρίς δομή είναι καθόλου θόρυβος, και οτιδήποτε αφήνει θόρυβο σημαίνει ότι υπάρχει δομή.

Θα μάθουμε αυτές τις δομές, αλλά υπάρχουν διαφορετικά επίπεδα δομής. Αλλά όταν ανεβαίνεις ένα επίπεδο, σε μεγαλύτερη κλίμακα, θα διαπιστώσεις ότι η δομή δεν είναι πια σημαντική, αν το δεις σε αυτό το επίπεδο, αυτά τα πράγματα έχουν γίνει σαν θόρυβος.

Επομένως, η άποψη του Yann είναι ότι η συμπίεση είναι σωστή, αλλά πρέπει να έχουμε μια τέτοια ιεραρχική μάθηση, να μάθουμε όλες τις δομές στο σήμα και να μάθουμε όλο και υψηλότερες δομές. Ωστόσο, η πιο προηγμένη δομή συχνά δεν αντιπροσωπεύει μεγάλο ποσοστό της συνολικής συμπίεσης και μπορεί να χαθεί κατά τη διαδικασία βελτιστοποίησης, επειδή ένας μεγάλος αριθμός πραγμάτων βρίσκεται σε χαμηλά επίπεδα και η ποσότητα πληροφοριών όπως ο θόρυβος είναι η μεγαλύτερη, όσο πιο ψηλά γίνονται τέτοιες δομές πιο δύσκολο να εντοπιστούν όσο περισσότερο περπατάς.

Γιατί; Επειδή η βελτιστοποιημένη συνάρτηση απώλειας είναι η αντικειμενική σας συνάρτηση, είτε βρείτε αυτόν τον κανόνα είτε όχι, μπορεί να έχει μικρή επίδραση στην απώλειά σας. Νομίζω ότι τα κύρια είναι αυτά τα δύο σημεία, το ένα είναι το παγκόσμιο μοντέλο και το άλλο είναι αυτή η ιεραρχική αναπαράσταση.

Ο Yann LeCun μιλώντας στο NYU

"Silicon Valley 101":Ποια χαρακτηριστικά πιστεύεις ότι σου κάνουν ιδιαίτερη εντύπωση;

Τσεν Γιουμπέι:Αυτό που μου έκανε ιδιαίτερη εντύπωση ήταν μάλλον η συγκέντρωση και η καθαρότητα με την οποία έκαναν πράγματα.

Μια φορά έφαγα μεσημεριανό με τον Yann και μου είπε ότι έχω ό,τι ήθελες όταν ήσουν μικρός, αλλά δεν έχω πολύ χρόνο πια, οπότε μπορεί να χρησιμοποιήσει μόνο τον χρόνο που απομένει για να κάνει πράγματα στα οποία πιστεύει πραγματικά. .

Όταν εργάζεστε με τέτοιους επιστήμονες, μπορεί να επηρεαστείτε από την ιδιοσυγκρασία τους, έτσι ώστε ακόμη και πριν φτάσετε στη θέση που βρίσκονται τώρα και τα πράγματα που έχουν, μπορείτε να δείτε τον κόσμο λίγο από την οπτική τους.

Έτσι, όταν κάνετε επιλογές ή κάνετε πράγματα, μπορεί να υπερβείτε την τρέχουσα θέση σας και να σκεφτείτε τι θα κάνω αν μια μέρα τα έχω όλα σαν κι αυτόν.

"Silicon Valley 101":Άλλαξε κάποια από τις αποφάσεις σας;

Τσεν Γιουμπέι:Ναι, θα με κάνει να το σκεφτώ αυτό όταν κάνω πολλές επιλογές. Θυμάμαι την πρώτη μέρα της διδακτορικής μου μελέτης, ο επιβλέπων μου είπε δύο πράγματα.

Ένα πράγμα είναι ότι δεν χρειάζεται να δημοσιεύω πολλά άρθρα, αλλά ελπίζω ότι το είδος των άρθρων που μπορώ να δημοσιεύσω μπορεί να ταξιδέψει στο χρόνο, έτσι ώστε ακόμα κι αν διαβάσω αυτό το άρθρο 20 χρόνια αργότερα, θα είναι ακόμα φρέσκο . Αυτό είναι πραγματικά πολύ δύσκολο, επειδή η πολλή δουλειά έχει μια ξεχωριστή αίσθηση της εποχής, αλλά μερικές πραγματικά βαθιές σκέψεις μπορεί να διαρκέσουν ακόμα εκατοντάδες χρόνια Αυτός είναι ένας πολύ υψηλός στόχος και μπορεί να είστε σε θέση να τον πετύχετε όταν είστε περίπου να αποσυρθεί. Αλλά εγείρει ένα μαρτύριο ψυχής, δηλαδή αν μπορείς να επιμείνεις να κάνεις κάποια δουλειά που μπορεί να συνυπάρχει με τον χρόνο.

Το δεύτερο είναι ότι ελπίζει ότι ένας μελετητής πρέπει να έχει μια δική του στάση. Δηλαδή, όταν κάνεις αυτό το πράγμα, θα διαπιστώσεις ότι δεν είναι αυτή η δουλειά που σε χρειάζεται, αλλά εσύ που χρειάζεσαι αυτή τη δουλειά. Αυτή είναι μια κερδοσκοπική νοοτροπία. Αυτή είναι στην πραγματικότητα η παρόμοια ιδιοσυγκρασία που βλέπω σε αυτούς, δηλαδή ελπίζουν να μην ακολουθήσουν το πλήθος, αλλά να έχουν τη δική τους στάση και να βρουν κάποια δική τους φωνή.

Όταν λοιπόν επιλέγω μια ερευνητική κατεύθυνση, θα κρίνω κατά καιρούς αν η δουλειά που κάνω είναι κερδοσκοπική ή πραγματικός στήριγμα.

Νομίζω ότι το υπέροχο με αυτούς, ειδικά τον Yann, είναι ότι μπορείς να περάσεις αυτή τη σχεδόν απελπισμένη στιγμή και να ξεκινήσεις την αυγή. Οι άνθρωποι που δεν έχουν βιώσει ποτέ τις γούρνες μπορεί να μην είναι σε θέση να ηρεμήσουν αρκετά πολύ ενδιαφέρον ταμπεραμέντο.

"Silicon Valley 101":Υπάρχουν επιστημονικές απόψεις του Yann με τις οποίες διαφωνείτε;

Τσεν Γιουμπέι:Μερικές φορές ήταν ωμά. Για παράδειγμα, πρόσφατα είπε ότι αν είσαι ερευνητής, δεν πρέπει να μελετάς μεγάλα γλωσσικά μοντέλα. Αυτή η πρόταση έχει πολλές ερμηνείες, αν την πάρεις κυριολεκτικά, πολλοί άνθρωποι θα διαφωνήσουν, συμπεριλαμβανομένου και εμένα. Ίσως νιώθω ότι υπάρχουν κάποιες δομές σε μεγάλα γλωσσικά μοντέλα που αξίζει να κατανοηθούν και να μελετηθούν.

Φυσικά, αυτό που μπορεί πραγματικά να πει ο Yann είναι αυτό που μόλις ανέφερα, μην κάνετε κερδοσκοπικές εργασίες όπως το Α και το Β. Ελπίζω ότι οι ερευνητές θα έχουν λίγη επιμονή και θα βρουν πιο πρωτότυπες συνεισφορές. Αν λεγόταν έτσι, στην πραγματικότητα νομίζω ότι θα συμφωνούσα περισσότερο. Αλλά ως μεγάλος V, μερικές φορές τα λόγια του θα σας σοκάρουν και θα πυροδοτήσουν πολλές συζητήσεις. Είναι ένα μέρος που το βρίσκω πολύ ενδιαφέρον.

"Silicon Valley 101":Έχετε δουλέψει και στο Meta Ποια πιστεύετε ότι είναι η μεγαλύτερη προσφορά του Yann στο Meta;

Τσεν Γιουμπέι:Το πρώτο πράγμα πρέπει να είναι να βοηθήσετε στη δημιουργία Meta AI. Όταν σχεδίαζε να κατασκευάσει το Meta AI, ο Mark τον βρήκε για πρώτη φορά. Επιπλέον, επειδή εργαζόταν στα Bell Labs στα πρώτα του χρόνια, λαχταρούσε για την κατάσταση των Bell Labs τότε, οπότε είχε επίσης ένα ιδανικό να αναπαράγει ένα τέτοιο εργαστήριο. στο Μέτα. Τηρώντας αυτό το concept, στρατολόγησε και εκπαίδευσε επίσης μια ομάδα πολύ καλών ανθρώπων στο Meta AI, κάνοντας μεγάλες συνεισφορές σε αυτόν τον τομέα και προωθώντας την ανάπτυξη ολόκληρου του τομέα.

"Silicon Valley 101":Νομίζω ότι ο ανοιχτός κώδικας πρέπει να θεωρείται ως μια πολύ σημαντική συνεισφορά του, για παράδειγμα, ο λόγος για τον οποίο ο Meta llama ακολούθησε τη διαδρομή ανοιχτού κώδικα πρέπει να είναι πολύ συνεπής με τη συνολική ιδέα του Yarn.

Τσεν Γιουμπέι:Ναι, ναι, το open source είναι πράγματι αυτό στο οποίο επιμένει ο Yann. Δεν ξέρω όμως αν το Meta θα συνεχίσει να είναι ανοιχτού κώδικα στο μέλλον, γιατί τελικά και το Meta θα αντιμετωπίσει τον ανταγωνισμό, αλλά νομίζω ότι αυτό είναι ένα concept του Yann πόσο καλά μπορεί να εφαρμοστεί τελικά μπορεί να πάει στην πραγματικότητα εξαρτάται από ολόκληρο το περιβάλλον.

"Silicon Valley 101":Πιστεύετε ότι ολόκληρη η έρευνα για μεγάλα μοντέλα τώρα πρέπει να καθοδηγείται από επιστήμονες; Ή θα γίνει σιγά σιγά κάτι που βασίζεται στη μηχανική;

Τσεν Γιουμπέι:Νιώθω ότι έχει γίνει με γνώμονα τη μηχανική. Τα τελευταία δύο χρόνια, νομίζω ότι η κύρια πρόοδος προέρχεται από την εκτέλεση του έργου. Έχουν αυξηθεί τα δεδομένα; Έχει γίνει πλουσιότερη η διανομή του; Μπορούν να παραλληλιστούν οι υπολογισμοί; Όλα προκαλούνται από πολύ σημαντικές λεπτομέρειες στον τομέα της μηχανικής. Η ανάπτυξη από το 0 έως το 1 απαιτεί επιστημονικές ανακαλύψεις, αλλά από το 1 έως το 100 απαιτεί μηχανική αυστηρότητα και ικανότητες εκτέλεσης.

"Silicon Valley 101":Όλοι ανυπομονούν για το GPT 5 τώρα, πιστεύετε ότι αν βγει το GPT 5, θα είναι περισσότερο επιστημονικό ή μηχανικό πρόβλημα;

Τσεν Γιουμπέι:Νομίζω ότι υπάρχει πολύς δρόμος στη μηχανική Μπορούμε ακόμη και να σκεφτούμε ότι ο νόμος κλιμάκωσης έχει πολύ δρόμο να διανύσει και δεν υπάρχει τέλος, συμπεριλαμβανομένης της ποιότητας των δεδομένων και της επέκτασης της υπολογιστικής ισχύος. Αλλά την ίδια στιγμή, νομίζω ότι ακόμα κι αν ο πιο στιβαρός τρόπος που έχουμε βρει τώρα είναι το Scaling Law, σίγουρα δεν είναι αρκετό.

Τι άλλο χρειαζόμαστε λοιπόν; Νομίζω ότι αυτό που χρειάζεται είναι κάποια υψηλή απόδοση όπως τα ανθρώπινα όντα. Μπορεί να ενεργοποιείται από δεδομένα, αλλά μπορεί να είναι και κάτι άλλο, οπότε νομίζω ότι αν μιλάμε για τη διαδικασία που οδηγεί στο AGI, θα πρέπει να υπάρξουν κάποιες σχετικά μεγάλες αλλαγές από το 0 στο 1.

"Silicon Valley 101":Ακόμα κι αν υπάρχει επιστημονική πρόοδος, υπάρχουν ακόμη πολλά περιθώρια βελτίωσης στη μηχανική.

νέα

Ας μιλήσουμε για το πώς να σκεφτόμαστε μεγάλα μοντέλα με τον επιστήμονα βαθιάς μάθησης Yann LeCun

Εισαγωγή

Τα στοιχεία επικοινωνίας μου