νέα

η τελευταία συνομιλία του li feifei a16z: η χωρική νοημοσύνη δεν είναι μόνο κατάλληλη για τη δημιουργία εικονικού κόσμου, αλλά μπορεί επίσης να ενσωματωθεί με τον πραγματικό κόσμο της τεχνολογίας ai θα φέρει ασύλληπτα νέα σενάρια εφαρμογών

2024-09-23

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

πρόσφατα, ο li feifei συζήτησε την ιστορία, την τρέχουσα κατάσταση και τη μελλοντική κατεύθυνση ανάπτυξης του τομέα της τεχνητής νοημοσύνης με τον συνεργάτη του a16z martin casado και τον ερευνητή justin johnson.

η li feifei τόνισε ότι η γενετική τεχνητή νοημοσύνη υπήρχε ήδη κατά τη διάρκεια των μεταπτυχιακών της σπουδών, αλλά η πρώιμη τεχνολογία δεν ήταν ακόμη ώριμη. με το άλμα στη βαθιά μάθηση και την υπολογιστική ισχύ, η γενετική τεχνητή νοημοσύνη έχει σημειώσει αξιοσημείωτη πρόοδο τα τελευταία χρόνια και έχει γίνει μια από τις βασικές ανακαλύψεις στον τομέα της τεχνητής νοημοσύνης.

παρουσίασε επίσης το πιο πρόσφατο επιχειρηματικό έργο world labs, το οποίο εστιάζει στη «χωρική νοημοσύνη», δηλαδή στην ικανότητα των μηχανών να κατανοούν και να αλληλεπιδρούν σε 3d και 4d χώρους.

επισήμανε ότι η χωρική νοημοσύνη δεν είναι μόνο κατάλληλη για τη δημιουργία εικονικών κόσμων, αλλά μπορεί επίσης να ενσωματώσει τον πραγματικό κόσμο και χρησιμοποιείται ευρέως στους τομείς της επαυξημένης πραγματικότητας (ar), της εικονικής πραγματικότητας (vr) και της ρομποτικής η τεχνολογία θα μας φέρει αφάνταστα σενάρια νέων εφαρμογών, όπως η δημιουργία εικονικού κόσμου, η επαυξημένη πραγματικότητα και η αλληλεπίδραση με τον φυσικό κόσμο.

ακολουθεί το κύριο περιεχόμενο αυτής της συνομιλίας, απολαύστε~

μάρτιν κασάδο

τα τελευταία δύο χρόνια, έχουμε δει ένα κύμα εταιρειών και τεχνολογιών τεχνητής νοημοσύνης καταναλωτικού επιπέδου και η διαδικασία ήταν τρελή. και εργάζεστε σε αυτόν τον τομέα εδώ και δεκαετίες. επομένως, μπορούμε να μιλήσουμε για τις βασικές συνεισφορές και γνώσεις που κάνατε σε αυτήν τη διαδικασία.

φειφέι λι

είναι μια πολύ συναρπαστική στιγμή, και κοιτάζοντας πίσω, η τεχνητή νοημοσύνη βρίσκεται σε μια συναρπαστική στιγμή. προσωπικά ασχολούμαι με αυτόν τον τομέα για περισσότερες από δύο δεκαετίες. έχουμε βγει από τον τελευταίο χειμώνα της τεχνητής νοημοσύνης και είμαστε μάρτυρες της γέννησης της σύγχρονης τεχνητής νοημοσύνης. στη συνέχεια είδαμε την άνοδο της βαθιάς μάθησης, η οποία μας έδειξε τι ήταν δυνατό, όπως το να παίζουμε σκάκι.

στη συνέχεια αρχίσαμε να βλέπουμε βαθύτερες εξελίξεις στην τεχνολογία και τη βιομηχανία εφαρμογής πρώιμων δυνατοτήτων, όπως γλωσσικά μοντέλα. αυτή τη στιγμή, νομίζω ότι βρισκόμαστε στη μέση μιας «έκρηξης της κάμπριας».

κατά μία έννοια, τώρα εκτός από κείμενο, βλέπουμε και pixel, βίντεο, ήχο κ.λπ., να αρχίζουν να συνδυάζονται με εφαρμογές και μοντέλα τεχνητής νοημοσύνης, οπότε είναι μια πολύ συναρπαστική στιγμή.

μάρτιν κασάδο

σας ξέρω και τους δύο εδώ και πολύ καιρό, και πολλοί άνθρωποι σας γνωρίζουν επειδή είστε τόσο εξέχων σε αυτόν τον τομέα. αλλά δεν γνωρίζουν όλοι πώς ξεκινήσατε στον τομέα της τεχνητής νοημοσύνης, οπότε ίσως μπορούμε να παρουσιάσουμε εν συντομία το ιστορικό σας για να βοηθήσουμε το κοινό να αποκτήσει μια βασική κατανόηση.

τζάστιν τζόνσον

εντάξει, η πρώτη μου έκθεση στην τεχνητή νοημοσύνη ήταν προς το τέλος του προπτυχιακού μου πτυχίου. σπούδασα μαθηματικά και πληροφορική στο caltech και ήταν μια υπέροχη στιγμή. κατά τη διάρκεια εκείνης της περιόδου, δημοσιεύτηκε μια πολύ διάσημη εργασία, η οποία ήταν το «χαρτί γάτας» στο google brain από τους home neck lee, andrew ng και άλλους αυτή ήταν η πρώτη μου έκθεση στην έννοια της βαθιάς μάθησης.

αυτή η τεχνολογία με εξέπληξε και ήταν η πρώτη φορά που συνάντησα αυτή τη συνταγή: όταν συνδυάζονται ισχυροί αλγόριθμοι γενικής χρήσης, τεράστιοι υπολογιστικοί πόροι και μεγάλες ποσότητες δεδομένων, συμβαίνει κάτι μαγικό. βρήκα αυτή την ιδέα γύρω στο 2011 ή το 2012 και ένιωσα εκείνη την εποχή ότι αυτό θα ήταν κάτι που θα έκανα στο μέλλον.

προφανώς, έπρεπε να πας σε μεταπτυχιακό για να κάνεις αυτή τη δουλειά, οπότε ανακάλυψα ότι η φεϊφέι βρισκόταν στο στάνφορντ και ήταν ένας από τους λίγους ανθρώπους στον κόσμο που μελετούσε σε βάθος αυτόν τον τομέα. ήταν μια εξαιρετική στιγμή για να δουλέψουμε για τη βαθιά μάθηση και την όραση υπολογιστών, καθώς αυτή ήταν η στιγμή που η τεχνολογία περνούσε από την αρχή της στην ωριμότητα και την ευρεία υιοθέτησή της.

κατά τη διάρκεια αυτής της περιόδου, είδαμε τις απαρχές της μοντελοποίησης της γλώσσας και είδαμε επίσης τις απαρχές της διακριτικής οπτικής γωνίας του υπολογιστή - μπορούσατε να καταλάβετε τι συμβαίνει σε μια εικόνα. κατά τη διάρκεια αυτής της περιόδου, υπήρξε επίσης η πρώιμη ανάπτυξη αυτού που ονομάζουμε γενετική τεχνητή νοημοσύνη σήμερα τα βασικά μέρη του αλγορίθμου, όπως η δημιουργία εικόνων και η δημιουργία κειμένου, επιλύθηκαν επίσης από την ακαδημαϊκή κοινότητα κατά τη διάρκεια του διδακτορικού μου.

εκείνη την ώρα, κάθε πρωί, όταν ξυπνούσα, άνοιγα το arxiv για να δω τα τελευταία αποτελέσματα της έρευνας. ήταν σαν να άνοιγα τα χριστουγεννιάτικα δώρα. τα τελευταία δύο χρόνια, ο υπόλοιπος κόσμος άρχισε επίσης να συνειδητοποιεί ότι νέα «χριστουγεννιάτικα δώρα» λαμβάνουν καθημερινά μέσω της τεχνολογίας ai. αλλά για όσους από εμάς βρισκόμαστε σε αυτόν τον τομέα για περισσότερα από δέκα χρόνια, αυτή η εμπειρία είναι ήδη εκεί.

φειφέι λι

προφανώς, είμαι πολύ μεγαλύτερος από τον τζάστιν. μπήκα στον τομέα της τεχνητής νοημοσύνης από τη φυσική γιατί το προπτυχιακό μου υπόβαθρο ήταν στη φυσική. η φυσική είναι ένα μάθημα που σας διδάσκει να σκέφτεστε τολμηρές ερωτήσεις, όπως τα άλυτα μυστήρια του κόσμου. στη φυσική, αυτά τα προβλήματα μπορεί να σχετίζονται με τον ατομικό κόσμο, το σύμπαν, αλλά αυτή η εκπαίδευση με έκανε να ενδιαφερθώ για ένα άλλο πρόβλημα - τη νοημοσύνη. έκανα λοιπόν διδακτορική έρευνα στην τεχνητή νοημοσύνη και στην υπολογιστική νευροεπιστήμη στο caltech. παρόλο που ο justin και εγώ δεν αλληλεπικαλυπτόμασταν στο caltech, μοιραζόμασταν το ίδιο alma mater.

τζάστιν τζόνσον

και ο ίδιος μέντορας;

φειφέι λι

ναι, ο προπτυχιακός σας σύμβουλος ήταν και ο διδακτορικός μου σύμβουλος, ο pietro perona. όταν σπούδαζα για το διδακτορικό μου, η τεχνητή νοημοσύνη βρισκόταν στη μέση ενός κρύου χειμώνα στο κοινό, αλλά αυτό δεν ίσχυε στα μάτια μου. αυτό μοιάζει περισσότερο με την περίοδο αδρανοποίησης πριν από την άνοιξη, όπου η μηχανική μάθηση και τα μοντέλα παραγωγής συγκεντρώνουν δύναμη. θεωρώ τον εαυτό μου «ιθαγενή» στον τομέα της μηχανικής μάθησης και η γενιά του justin είναι «ιθαγενής» στη βαθιά μάθηση.

η μηχανική μάθηση είναι ο προκάτοχος της βαθιάς μάθησης και πειραματιστήκαμε με διάφορα μοντέλα εκείνη την εποχή. αλλά προς το τέλος του διδακτορικού μου και κατά τη διάρκεια της θητείας μου ως επίκουρος καθηγητής, οι μαθητές μου και το εργαστήριό μου συνειδητοποίησαν ότι υπήρχε ένα παραγνωρισμένο στοιχείο της γενίκευσης που οδηγεί στην τεχνητή νοημοσύνη για το οποίο το πεδίο δεν είχε σκεφτεί πολύ εκείνη τη στιγμή: τα δεδομένα. επικεντρωθήκαμε σε πολύπλοκα μοντέλα όπως τα μπεϋζιανά μοντέλα και παραβλέψαμε τη σημασία του να αφήνουμε τα δεδομένα να οδηγούν το μοντέλο.

αυτός είναι ένας από τους λόγους που στοιχηματίζουμε στο imagenet. εκείνη την εποχή, το μέγεθος των συνόλων δεδομένων σε όλα τα πεδία ήταν πολύ μικρό. . ευτυχώς, η εποχή του διαδικτύου ανέβαινε επίσης, και κάναμε αυτό το κύμα. ήταν εκείνη τη στιγμή που ήρθα στο στάνφορντ.

μάρτιν κασάδο

αυτές οι εποχές, όπως αυτές για τις οποίες μιλάμε πολύ, όπως το imagenet, είναι προφανώς σημαντικές εποχές για την προώθηση ή τουλάχιστον για να γίνει η υπολογιστική όραση δημοφιλής και εφικτή στον τομέα της γενετικής τεχνητής νοημοσύνης. συνήθως αναφέρουμε δύο βασικές ανακαλύψεις: το ένα είναι το χαρτί transformer, που είναι ο «μηχανισμός προσοχής», και το άλλο είναι το λιγότερο πολυσυζητημένο «σταθερή διάχυση».

είναι λογικό να κατανοήσουμε αυτές τις δύο αλγοριθμικές ανακαλύψεις από τον ακαδημαϊκό χώρο (ειδικά την google) με αυτόν τον τρόπο; ή μήπως αυτή είναι περισσότερο μια σκόπιμη διαδικασία; ή μήπως υπήρχαν κάποιες άλλες σημαντικές ανακαλύψεις που δεν αναφέρονται συχνά και μας ώθησαν στο σημείο που βρισκόμαστε σήμερα;

τζάστιν τζόνσον

ναι, νομίζω ότι η μεγαλύτερη ανακάλυψη είναι η υπολογιστική ισχύς. γνωρίζω ότι η ιστορία της τεχνητής νοημοσύνης είναι συχνά και η ιστορία της υπολογιστικής ισχύος, αλλά παρόλο που αναφέρεται συχνά, νομίζω ότι ο αντίκτυπός της υποτιμάται.

η ανάπτυξη που έχουμε δει στην υπολογιστική ισχύ την τελευταία δεκαετία ήταν εκπληκτική. η πρώτη εργασία που θεωρήθηκε σημαντική στιγμή για τη βαθιά μάθηση στην όραση υπολογιστών ήταν το alexnet, μια εργασία του 2012 στην οποία ένα βαθύ νευρωνικό δίκτυο είχε καλή απόδοση στην πρόκληση imagenet, ξεπερνώντας κατά πολύ άλλους αλγόριθμους εκείνη την εποχή.

οι αλγόριθμοι στους οποίους μπορεί να εκτεθείτε κατά τη διάρκεια του μεταπτυχιακού είναι ωχροί σε σύγκριση με το alexnet. το alexnet είναι ένα βαθύ νευρωνικό δίκτυο με 60 εκατομμύρια παραμέτρους. εκπαιδεύτηκε για έξι ημέρες σε δύο κάρτες γραφικών gtx 580. η gtx 580 ήταν η πιο ισχυρή κάρτα γραφικών για καταναλωτές εκείνη την εποχή.

έψαχνα κάποια δεδομένα χθες το βράδυ και ήθελα να τα βάλω σε ένα ευρύτερο πλαίσιο. η τελευταία κάρτα γραφικών της nvidia είναι gb200 μπορείτε να μαντέψετε το χάσμα υπολογιστικής ισχύος μεταξύ gtx 580 και gb200;

ο αριθμός είναι σε χιλιάδες, έτσι έκανα τα μαθηματικά χθες το βράδυ. για παράδειγμα, κατά τη διάρκεια των δύο εβδομάδων εκπαίδευσης, οι έξι ημέρες εκτελέστηκαν σε δύο gtx 580, εάν παραταθούν, θα μπορούσαν πιθανώς να τρέξουν σε λιγότερο από πέντε λεπτά σε ένα gb200.

αν το σκεφτείτε με αυτόν τον τρόπο, υπάρχει πραγματικά ένα καλό επιχείρημα - το έγγραφο alexnet του 2012 για το imagenet challenge είναι πραγματικά ένα πολύ κλασικό μοντέλο, δηλαδή το μοντέλο συνελικτικού νευρωνικού δικτύου.

στην πραγματικότητα, αυτή η έννοια εμφανίστηκε ήδη από τη δεκαετία του 1980, ακόμα θυμάμαι την πρώτη εργασία που σπούδασα ως μεταπτυχιακός φοιτητής. το περιεχόμενο ήταν παρόμοιο, με μια δομή δικτύου έξι ή επτά επιπέδων. σχεδόν η μόνη διαφορά μεταξύ του alexnet και του μοντέλου συνελικτικού νευρωνικού δικτύου είναι η gpu - η χρήση δύο gpu και τεράστιων ποσοτήτων δεδομένων.

αυτό που επρόκειτο να πω είναι ότι οι περισσότεροι άνθρωποι είναι πλέον εξοικειωμένοι με αυτό που ονομάζεται "πικρό μάθημα", το οποίο είναι, εάν αναπτύξετε έναν αλγόριθμο, απλώς βεβαιωθείτε ότι μπορείτε να επωφεληθείτε από τους υπάρχοντες υπολογιστικούς πόρους σας, γιατί αυτοί οι πόροι θα γίνουν διαθέσιμο με την πάροδο του χρόνου. χρειάζεστε λοιπόν ένα σύστημα που συνεχώς βελτιώνεται.

από την άλλη πλευρά, φαίνεται να υπάρχει ένα άλλο εξίσου συναρπαστικό επιχείρημα, το οποίο είναι ότι οι νέες πηγές δεδομένων ξεκλειδώνουν πραγματικά τη βαθιά μάθηση. το imagenet είναι ένα καλό παράδειγμα. παρόλο που πολλοί άνθρωποι πιστεύουν ότι ο μηχανισμός αυτοπροσοχής είναι σημαντικός για το μοντέλο του transformer, θα πουν επίσης ότι είναι ένας τρόπος να εκμεταλλευτούμε τα δεδομένα που φέρουν την ανθρώπινη ετικέτα.

επειδή οι άνθρωποι παρέχουν τους σχολιασμούς για τη δομή των προτάσεων, αν κοιτάξετε το μοντέλο clip, στην πραγματικότητα επιτρέπει στους ανθρώπους να προσθέτουν ετικέτες σε εικόνες χρησιμοποιώντας ετικέτες alt στο διαδίκτυο. επομένως, αυτή είναι πραγματικά μια ιστορία για δεδομένα, όχι για υπολογιστές. άρα η απάντηση είναι και τα δύο ή είναι περισσότερο η μία πλευρά; νομίζω ότι είναι λίγο και από τα δύο, αλλά κάνατε επίσης ένα άλλο πολύ κρίσιμο σημείο.

μάρτιν κασάδο

νομίζω ότι υπάρχουν στην πραγματικότητα δύο διαφορετικές εποχές στον τομέα των αλγορίθμων. η εποχή του imagenet είναι η εποχή της εποπτευόμενης μάθησης. στη σημερινή εποχή, έχουμε πολλά δεδομένα, αλλά δεν ξέρουμε πώς να εκπαιδεύσουμε μόνο με τα ίδια τα δεδομένα.

η προσδοκία με το imagenet και άλλα σύγχρονα σύνολα δεδομένων ήταν ότι θα είχαμε πολλές εικόνες, αλλά θα χρειαζόμασταν ανθρώπους για να σχολιάσουν κάθε εικόνα. όλα τα δεδομένα στα οποία εκπαιδευτήκαμε προβλήθηκαν και σχολιάστηκαν ένα προς ένα από ανθρώπους σχολιαστές.

η μεγάλη ανακάλυψη για τους αλγόριθμους είναι ότι τώρα ξέρουμε πώς να εκπαιδεύουμε σε δεδομένα που δεν βασίζονται σε ανθρώπινο σχολιασμό. σε έναν μέσο άνθρωπο χωρίς υπόβαθρο τεχνητής νοημοσύνης, φαίνεται ότι εάν εκπαιδεύεστε σε ανθρώπινα δεδομένα, οι άνθρωποι έχουν κάνει πραγματικά τον σχολιασμό, αλλά ο σχολιασμός δεν είναι σαφής.

τζάστιν τζόνσον

ναι, φιλοσοφικά αυτό είναι ένα πολύ σημαντικό ερώτημα, αλλά ισχύει περισσότερο στη σφαίρα της γλώσσας παρά στη σφαίρα των εικόνων. ναι, αλλά πιστεύω ότι είναι μια σημαντική διάκριση. το clip είναι πράγματι σχολιασμένο από ανθρώπους. νομίζω ότι ο μηχανισμός αυτοπροσοχής είναι ότι οι άνθρωποι έχουν κατανοήσει τις σχέσεις μεταξύ των πραγμάτων και μετά μαθαίνεις μέσα από αυτές τις σχέσεις.

επομένως, εξακολουθεί να σχολιάζεται από τους ανθρώπους, αλλά ο σχολιασμός είναι σιωπηρός και όχι ρητός. η διαφορά είναι ότι στην εποχή της εποπτευόμενης μάθησης, τα μαθησιακά μας καθήκοντα είναι πιο περιορισμένα. πρέπει να επινοήσουμε μια οντολογία εννοιών που θέλουμε να ανακαλύψουμε.

για παράδειγμα, στο imagenet, η fei-fei li και οι μαθητές της πέρασαν πολύ χρόνο σκεπτόμενοι ποιες θα έπρεπε να είναι οι χίλιες κατηγορίες στην πρόκληση imagenet. σε άλλα σύνολα δεδομένων την ίδια στιγμή, όπως το σύνολο δεδομένων coco που χρησιμοποιείται για την ανίχνευση στόχων, αφιέρωσαν επίσης πολλή σκέψη για να αποφασίσουν ποιες 80 κατηγορίες θα βάλουν σε αυτό.

μάρτιν κασάδο

ας μιλήσουμε λοιπόν για την γενετική τεχνητή νοημοσύνη. όταν έκανα το διδακτορικό μου, πριν έρθετε εσείς, παρακολούθησα το μάθημα μηχανικής μάθησης του andrew ng και παρακολούθησα το πολύ περίπλοκο μάθημα bayesian της daphne koller, το οποίο ήταν πολύ περίπλοκο για μένα.

πολλά από αυτά τότε ήταν προγνωστικά μοντέλα. σε θυμάμαι να ξεκλειδώνεις όλο αυτό το όραμα, αλλά η γενετική τεχνητή νοημοσύνη υπάρχει μόνο τα τελευταία τέσσερα περίπου χρόνια. αυτό είναι ένα εντελώς διαφορετικό πεδίο για μένα - δεν προσδιορίζεις πλέον αντικείμενα, δεν προβλέπεις κάτι, παράγεις νέα πράγματα.

ίσως λοιπόν μπορούμε να μιλήσουμε για το ποιοι είναι οι βασικοί παράγοντες που καθιστούν δυνατή τη δημιουργία τεχνητής νοημοσύνης, πώς είναι διαφορετική από πριν και αν πρέπει να το δούμε διαφορετικά, εάν είναι ένα τμήμα συνεχούς ανάπτυξης ή ένα άλλο εντελώς νέο πεδίο;

φειφέι λι

είναι πολύ ενδιαφέρον ότι τα γενετικά μοντέλα υπάρχουν ακόμη και από τις μέρες του μεταπτυχιακού μου σχολείου. θέλαμε να κάνουμε γενιά εκείνη την εποχή, αλλά κανείς δεν θυμόταν ότι, ακόμα κι αν κάναμε γενιά με γράμματα και αριθμούς, κάτι δοκιμάζαμε. ο jeff hinton είχε κάποια έγγραφα για τη γενιά εκείνη την εποχή, και σκεφτόμασταν επίσης πώς να δημιουργήσουμε.

στην πραγματικότητα, αν το δει κανείς από την οπτική γωνία της κατανομής πιθανοτήτων, μπορεί να δημιουργηθεί μαθηματικά, αλλά αυτό που δημιουργήθηκε εκείνη τη στιγμή δεν ήταν καθόλου εκπληκτικό. έτσι, αν και η έννοια της γενιάς υπάρχει από μαθηματική προοπτική, στην πραγματικότητα δεν υπάρχει κανένα αποτέλεσμα παραγωγής που να είναι ικανοποιητικό.

στη συνέχεια θα ήθελα να αναφέρω συγκεκριμένα έναν διδάκτορα που ήρθε στο εργαστήριό μου με έντονο ενδιαφέρον για τη βαθιά μάθηση. η όλη εμπειρία διδακτορικών σπουδών αυτού του διδακτορικού φοιτητή μπορεί σχεδόν να πει κανείς ότι είναι μια μικρογραφία της αναπτυξιακής τροχιάς αυτού του τομέα.

το πρώτο του έργο ήταν τα δεδομένα, και τον ανάγκασα να το κάνει αν και δεν του άρεσε, αργότερα παραδέχτηκε ότι έμαθε πολλά χρήσιμα πράγματα. «τώρα χαίρομαι που το είπες, λοιπόν, στραφήκαμε στη βαθιά εκμάθηση και το βασικό πρόβλημα ήταν πώς να δημιουργήσουμε κείμενο από εικόνες. στην πραγματικότητα, υπάρχουν τρία ξεκάθαρα στάδια σε αυτή τη διαδικασία.

το πρώτο στάδιο είναι η αντιστοίχιση εικόνων και κειμένου. έχουμε εικόνες και κείμενο, και στη συνέχεια πρέπει να δούμε πώς σχετίζονται. η πρώτη μου ακαδημαϊκή εργασία, και η πρώτη μου διδακτορική διατριβή, μελέτησε την ανάκτηση εικόνων με βάση γραφήματα σκηνής. στη συνέχεια, συνεχίζουμε να μελετάμε σε βάθος και να δημιουργούμε κείμενο από εικονοστοιχεία τόσο αυτός όσο και ο andrej έχουν κάνει πολλή δουλειά από αυτή την άποψη, αλλά εξακολουθεί να είναι μια μέθοδος παραγωγής με πολύ απώλειες και οι πληροφορίες χάνονται πολύ όταν λαμβάνονται από το κόσμο των pixel.

υπήρχε ένα πολύ διάσημο έργο στη μέση εκείνη την εποχή, κάποιος συνειδητοποίησε για πρώτη φορά σε πραγματικό χρόνο. το 2015, δημοσιεύτηκε μια εργασία με τίτλο "the art style of neural algorithms" υπό την ηγεσία του leon gatys. έδειξαν τη μετατροπή φωτογραφιών του πραγματικού κόσμου σε εικόνες τύπου βαν γκογκ.

μπορεί να το θεωρούμε δεδομένο τώρα, αλλά αυτό έγινε το 2015 και αυτό το χαρτί εμφανίστηκε στο arxiv και με συγκλόνισε. αισθάνομαι ότι ένας «ιός που δημιουργεί ai» έχει εγχυθεί στον εγκέφαλό μου. σκέφτηκα μέσα μου: «θεέ μου, πρέπει να καταλάβω αυτόν τον αλγόριθμο, να παίξω μαζί του και να προσπαθήσω να κάνω τις φωτογραφίες μου να μοιάζουν με τον βαν γκογκ».

έτσι, πέρασα ένα μεγάλο σαββατοκύριακο επαναλαμβάνοντας τον αλγόριθμο ώστε να μπορεί να λειτουργήσει σωστά. στην πραγματικότητα, είναι ένας πολύ απλός αλγόριθμος που έχει μόνο 300 γραμμές κώδικα, επειδή δεν υπήρχε pytorch εκείνη την εποχή. όμως, παρά την απλότητα του αλγορίθμου, είναι πολύ αργός. κάθε φορά που δημιουργείτε μια εικόνα, πρέπει να εκτελείτε έναν βρόχο βελτιστοποίησης, ο οποίος απαιτεί πολύ χρόνο. οι εικόνες που προκύπτουν είναι όμορφες, αλλά μακάρι να ήταν λίγο πιο γρήγορα. τελικά, το κάναμε πιο γρήγορο.

ένα άλλο πράγμα για το οποίο είμαι πολύ περήφανος είναι ότι έκανε μια πολύ πρωτοποριακή δουλειά στο τελευταίο μέρος της διδακτορικής του έρευνας προτού βγει πραγματικά στον κόσμο η γενετική τεχνητή νοημοσύνη. αυτό το έργο δημιουργεί πλήρεις εικόνες εισάγοντας φυσική γλώσσα, η οποία μπορεί να ειπωθεί ότι είναι μια από τις πρώτες προσπάθειες παραγωγής τεχνητής νοημοσύνης. χρησιμοποιούσαμε gan, αλλά εκείνη την εποχή ήταν πολύ δύσκολο να το χρησιμοποιήσουμε. το πρόβλημα είναι ότι δεν είμαστε ακόμη έτοιμοι να περιγράψουμε μια πλήρη εικόνα χρησιμοποιώντας φυσική γλώσσα.

έτσι, χρησιμοποίησε μια μέθοδο εισαγωγής δομής γραφήματος σκηνής και το περιεχόμενο εισόδου ήταν "πρόβατα", "γρασίδι", "ουρανός" κ.λπ., και χρησιμοποίησε αυτή τη μέθοδο για να δημιουργήσει μια πλήρη εικόνα.

από την αντιστοίχιση δεδομένων έως τη μεταφορά στυλ στη δημιουργία εικόνων, βλέπουμε σταδιακά έναν πλήρη μετασχηματισμό. ρωτάτε αν αυτή είναι μια τεράστια αλλαγή, για ανθρώπους σαν εμάς είναι μια συνεχής διαδικασία, αλλά για τις μάζες τα αποτελέσματα φαίνονται ξαφνικά και εντυπωσιακά.

μάρτιν κασάδο

διάβασα το βιβλίο σας και είναι ένα υπέροχο βιβλίο που προτείνω σε όλους να διαβάσουν ανεπιφύλακτα. και, fei-fei, αυτό που θέλω να πω είναι ότι για μεγάλο χρονικό διάστημα, πολλές από τις έρευνες και τις κατευθύνσεις σας έχουν επικεντρωθεί σε τομείς όπως η χωρική νοημοσύνη και η επεξεργασία pixel. τα world labs στα οποία εργάζεστε τώρα σχετίζονται επίσης με τη χωρική νοημοσύνη. μπορείτε να μιλήσετε ότι αυτό είναι μέρος του μακροπρόθεσμου ταξιδιού σας; γιατί αποφάσισες να το κάνεις αυτό τώρα; είναι αυτό κάποιου είδους τεχνολογική ανακάλυψη ή προσωπικούς λόγους; μπορείτε να μας μεταφέρετε από το πλαίσιο της έρευνας ai στα world labs;

φέι-φέι λι

για μένα, αυτό είναι τόσο προσωπική αναζήτηση όσο και πνευματικό ταξίδι. αναφέρατε το βιβλίο μου και ολόκληρο το διανοητικό μου ταξίδι ήταν πραγματικά μια αναζήτηση για τα "north stars" και μια ισχυρή πεποίθηση ότι αυτά τα north stars είναι κρίσιμα για την πρόοδο του τομέα μας.

στην αρχή, θυμάμαι μετά το μεταπτυχιακό, νόμιζα ότι το north star μου «έλεγε ιστορίες για εικόνες», γιατί για μένα αυτό είναι ένα μεγάλο μέρος της οπτικής νοημοσύνης, αυτό που ονομάζετε ai.

αλλά όταν ο τζάστιν και ο αντρέι τελείωσαν τη δουλειά τους, σκέφτηκα: «θεέ μου, αυτό είναι το όνειρο της ζωής μου, τι θα κάνω μετά;» θα χρειαστούν εκατοντάδες χρόνια για να επιτευχθεί αυτό.

η οπτική νοημοσύνη ήταν πάντα το πάθος μου. πιστεύω ακράδαντα ότι για κάθε νοήμον ον, είτε είναι άνθρωπος, είτε ρομπότ, είτε άλλη μορφή ύπαρξης, είναι σημαντικό να μάθεις πώς να βλέπεις τον κόσμο, πώς να συλλογίζεσαι και πώς να αλληλεπιδράς με τον κόσμο. είτε πρόκειται για πλοήγηση, έλεγχο, κατασκευή ή ακόμα και οικοδόμηση πολιτισμού, η οπτική και χωρική νοημοσύνη διαδραματίζουν θεμελιώδη ρόλο.

μπορεί να είναι τόσο θεμελιώδης όσο η γλώσσα, και κατά κάποιο τρόπο ακόμη πιο αρχαία και θεμελιώδης. επομένως, το north star των world labs είναι να ξεκλειδώσει τη διαστημική νοημοσύνη και τώρα είναι η κατάλληλη στιγμή.

όπως είπε ο justin, έχουμε ήδη τους πόρους που χρειαζόμαστε - υπολογιστική ισχύ και βαθύτερη κατανόηση των δεδομένων. έχουμε γίνει πιο εξελιγμένοι στην κατανόηση δεδομένων από ό,τι στην εποχή του imagenet.

έχουμε επίσης αλγοριθμικές προόδους, όπως η εργασία αιχμής για το nerf από τους συνιδρυτές μας ben mildenhall και christoph lassner. νιώθουμε ότι τώρα είναι η κατάλληλη στιγμή να πάρουμε την απόφαση, να επικεντρωθούμε σε αυτόν τον τομέα και να ξεκλειδώσουμε τις δυνατότητές του.

μάρτιν κασάδο

για να καταλάβουν όλοι ξεκάθαρα, τώρα έχετε ιδρύσει αυτήν την εταιρεία - world labs, και το πρόβλημα που θέλετε να λύσετε είναι η "χωρική νοημοσύνη". μπορείτε να περιγράψετε εν συντομία τι είναι η χωρική νοημοσύνη;

φέι-φέι λι

η χωρική νοημοσύνη αναφέρεται στην ικανότητα των μηχανών να κατανοούν, να αντιλαμβάνονται, να συλλογίζονται και να ενεργούν σε τρισδιάστατο χώρο και χρόνο. συγκεκριμένα, αναφέρεται στην κατανόηση του τρόπου με τον οποίο τα αντικείμενα και τα γεγονότα τοποθετούνται στον τρισδιάστατο χώρο και χρόνο και πώς οι αλληλεπιδράσεις στον κόσμο επηρεάζουν αυτές τις τρισδιάστατες θέσεις.

αυτό δεν αφορά μόνο το να αφήσουμε τις μηχανές να παραμείνουν σε κέντρα δεδομένων ή κεντρικούς υπολογιστές, αλλά να τους αφήσουμε να πάνε στον πραγματικό κόσμο και να κατανοήσουν αυτόν τον πλούσιο 3d και 4d κόσμο.

μάρτιν κασάδο

ο «κόσμος» για τον οποίο μιλάτε αναφέρεται στον πραγματικό φυσικό κόσμο ή σε έναν αφηρημένο εννοιολογικό κόσμο;

φέι-φέι λι

νομίζω ότι είναι και τα δύο. αυτό αντιπροσωπεύει επίσης το μακροπρόθεσμο όραμά μας. ακόμα κι αν δημιουργείτε έναν εικονικό κόσμο ή περιεχόμενο, εξακολουθούν να υπάρχουν πολλά οφέλη από την τοποθέτηση σε 3d. ή όταν αναγνωρίζετε τον πραγματικό κόσμο, η δυνατότητα εφαρμογής τρισδιάστατης κατανόησης στον πραγματικό κόσμο είναι μέρος του.

μάρτιν κασάδο

η ομάδα των συνιδρυτών σας είναι πραγματικά πολύ δυνατή. γιατί λοιπόν πιστεύετε ότι είναι η κατάλληλη στιγμή να το κάνετε αυτό;

φέι-φέι λι

αυτή είναι στην πραγματικότητα μια μακροπρόθεσμη εξελικτική διαδικασία. μετά την ολοκλήρωση του διδακτορικού μου, άρχισα να ψάχνω έναν δρόμο για να γίνω ανεξάρτητος ερευνητής και να σκέφτομαι μεγάλα ερωτήματα στους τομείς της τεχνητής νοημοσύνης και της όρασης υπολογιστών. τότε κατέληξα στο συμπέρασμα ότι η τελευταία δεκαετία αφορούσε την κατανόηση δεδομένων που ήδη υπήρχαν και η επόμενη δεκαετία θα αφορούσε την κατανόηση νέων δεδομένων.

τα δεδομένα του παρελθόντος ήταν κυρίως εικόνες και βίντεο που υπήρχαν ήδη στο διαδίκτυο, αλλά τα δεδομένα του μέλλοντος είναι εντελώς νέα - η εμφάνιση smartphones, που διαθέτουν κάμερες, νέους αισθητήρες και μπορούν να τοποθετηθούν στον τρισδιάστατο κόσμο. το θέμα δεν είναι μόνο να αρπάξεις ένα σωρό pixel από το διαδίκτυο και να προσπαθήσεις να καταλάβεις αν είναι γάτα ή σκύλος.

ελπίζουμε να αντιμετωπίσουμε αυτές τις εικόνες ως καθολικούς αισθητήρες του φυσικού κόσμου, βοηθώντας μας να κατανοήσουμε την τρισδιάστατη και 4δ δομή του κόσμου, τόσο στον φυσικό όσο και στον γενετικό χώρο.

μετά την αποφοίτησή μου από το διδακτορικό μου, έκανα μια μεγάλη αλλαγή και μπήκα στον τομέα της τρισδιάστατης όρασης υπολογιστών, δουλεύοντας με τους συναδέλφους μου για το πώς να προβλέψω το τρισδιάστατο σχήμα των αντικειμένων. αργότερα, με ενδιέφερε πολύ η ιδέα της εκμάθησης τρισδιάστατων δομών από 2d δεδομένα.

όταν συζητάμε δεδομένα, συχνά αναφέρουμε ότι η απόκτηση τρισδιάστατων δεδομένων είναι δύσκολη, αλλά στην πραγματικότητα οι εικόνες 2d είναι προβολές του τρισδιάστατου κόσμου και υπάρχουν πολλές μαθηματικές δομές που μπορούν να αξιοποιηθούν. ακόμα κι αν έχετε πολλά δεδομένα 2d, μπορείτε να συμπεράνετε τη δομή του τρισδιάστατου κόσμου μέσω αυτών των μαθηματικών δομών.

το 2020 είναι μια σημαντική στιγμή. ο συνιδρυτής μας ben mildenhall πρότεινε τη μέθοδο nerf (neural radiation field). αυτός είναι ένας πολύ απλός και σαφής τρόπος για να συμπεράνουμε τρισδιάστατες δομές από δισδιάστατες παρατηρήσεις, πυροδοτώντας ολόκληρο το πεδίο της τρισδιάστατης όρασης υπολογιστή.

ταυτόχρονα άρχισε να εμφανίζεται και το llm. πολλές εργασίες μοντελοποίησης γλώσσας έχουν αναπτυχθεί πραγματικά στον ακαδημαϊκό χώρο εδώ και πολύ καιρό. ακόμη και κατά τη διάρκεια του διδακτορικού μου, έκανα κάποια εργασία μοντελοποίησης γλώσσας με τον andrej karpathy το 2014.

τζάστιν τζόνσον

αυτό ήταν στην πραγματικότητα κάτι που εμφανίστηκε πριν από το transformer, αλλά στην εποχή του gpt-2, είναι δύσκολο για εσάς να φτιάξετε τέτοια μοντέλα στον ακαδημαϊκό χώρο επειδή απαιτούν πάρα πολλούς υπολογιστικούς πόρους. ωστόσο, είναι ενδιαφέρον ότι η μέθοδος nerf που προτείνεται από τον ben απαιτεί μόνο μερικές ώρες εκπαίδευσης σε μία μόνο gpu.

αυτό έχει αναγκάσει πολλούς ακαδημαϊκούς ερευνητές να επικεντρωθούν εκ νέου σε αυτά τα προβλήματα, επειδή ορισμένα βασικά αλγοριθμικά προβλήματα μπορούν να λυθούν με περιορισμένους υπολογιστικούς πόρους και μπορείτε να λάβετε αποτελέσματα τελευταίας τεχνολογίας σε μία μόνο gpu. εκείνη την εποχή, λοιπόν, πολλοί ακαδημαϊκοί ερευνητές σκέφτονταν: πώς μπορούμε να προωθήσουμε την ανάπτυξη αυτού του τομέα μέσω βασικών αλγορίθμων; η fei-fei κι εγώ έχουμε μιλήσει πολύ και είμαστε και οι δύο πολύ πεπεισμένοι για αυτό.

φέι-φέι λι

ναι, διαπιστώνουμε ότι οι ερευνητικές μας κατευθύνσεις κινούνται προς παρόμοιους στόχους σε κάποιο βαθμό. θέλω επίσης να πω ένα πολύ ενδιαφέρον τεχνικό ζήτημα ή μια τεχνική ιστορία για τα pixel.

πολλοί άνθρωποι που ασχολούνται με τη γλωσσική έρευνα μπορεί να μην γνωρίζουν ότι πριν από την εποχή της γενετικής τεχνητής νοημοσύνης, όσοι από εμάς ασχολούμαστε με τον τομέα της όρασης υπολογιστών έχουμε στην πραγματικότητα μια μακρά ιστορία έρευνας που ονομάζεται 3d ανακατασκευή.

αυτό πηγαίνει πίσω στη δεκαετία του 1970 και θα μπορούσατε να τραβήξετε φωτογραφίες - επειδή οι άνθρωποι έχουν δύο μάτια, θα μπορούσατε να χρησιμοποιήσετε στερεοφωνικές φωτογραφίες για να προσπαθήσετε να τριγωνοποιήσετε και να δημιουργήσετε τρισδιάστατα σχήματα. ωστόσο, αυτό είναι ένα πολύ δύσκολο πρόβλημα που δεν έχει ακόμη λυθεί πλήρως λόγω επιπλοκών όπως τα προβλήματα αντιστοίχισης.

υπήρξε μακρά ιστορία προόδου σε αυτόν τον τομέα, αλλά όταν το nerf συνδυάζεται με μεθόδους παραγωγής, ειδικά στο πλαίσιο των μοντέλων διάχυσης, η 3d ανακατασκευή και η παραγωγή αρχίζουν ξαφνικά να συγχωνεύονται. στον τομέα της όρασης υπολογιστών, ξαφνικά ανακαλύψαμε ότι αν δούμε κάτι ή φανταστούμε κάτι, και τα δύο μπορούν να συγκλίνουν προς την κατεύθυνση της δημιουργίας του. αυτή είναι μια πολύ σημαντική στιγμή, αλλά πολλοί άνθρωποι μπορεί να μην την προσέξουν επειδή δεν μιλάμε για αυτήν τόσο εκτενώς όσο μιλάμε για το llm.

τζάστιν τζόνσον

ναι, υπάρχει ανακατασκευή στο χώρο των pixel, για παράδειγμα, ανακατασκευάζετε μια πραγματική σκηνή και εάν δεν μπορείτε να δείτε αυτήν τη σκηνή, χρησιμοποιείτε γενετικές τεχνικές. τα δύο μοιάζουν πραγματικά πολύ. μιλούσατε για τη γλώσσα και τα εικονοστοιχεία καθ' όλη τη διάρκεια αυτής της συνομιλίας, οπότε ίσως θα ήταν η κατάλληλη στιγμή να μιλήσουμε για χωρική νοημοσύνη έναντι γλωσσικών προσεγγίσεων, όπως είναι συμπληρωματικές ή είναι τελείως διαφορετικές;

φέι-φέι λι

νομίζω ότι είναι συμπληρωματικά. δεν είμαι σίγουρος πώς να ορίσω το "εντελώς διαφορετικό", αλλά μπορώ να προσπαθήσω να κάνω μια σύγκριση. σήμερα, πολλοί άνθρωποι μιλούν για gpt, ανοιχτή τεχνητή νοημοσύνη και πολυτροπικά μοντέλα. θεωρείται ότι αυτά τα μοντέλα μπορούν να χειριστούν τόσο pixel όσο και γλώσσα. μπορούν λοιπόν να πετύχουν τον χωρικό συλλογισμό που θέλουμε; για να απαντήσουμε σε αυτό το ερώτημα, πρέπει να ανοίξουμε το «μαύρο κουτί» αυτών των συστημάτων και να δούμε πώς λειτουργούν κάτω από την κουκούλα.

η υποκείμενη αναπαράσταση των γλωσσικών μοντέλων και των πολυτροπικών γλωσσικών μοντέλων που βλέπουμε τώρα είναι «μονοδιάστατη». μιλάμε για μήκος περιβάλλοντος, μετασχηματιστές, ακολουθίες, μηχανισμούς προσοχής, αλλά στο τέλος της ημέρας, η αναπαράσταση αυτών των μοντέλων βασίζεται σε μονοδιάστατα σειριακά διακριτικά.

αυτή η αναπαράσταση είναι πολύ φυσική όταν έχουμε να κάνουμε με τη γλώσσα, αφού το ίδιο το κείμενο αποτελείται από μονοδιάστατες ακολουθίες διακριτών γραμμάτων. αυτή η μονοδιάστατη αναπαράσταση είναι η βάση για την επιτυχία του llm, και το ίδιο ισχύει για το πολυτροπικό llm που βλέπουμε τώρα, το οποίο «σκληροπυρηνικά» άλλες μορφές (όπως εικόνες) σε αυτήν τη μονοδιάστατη αναπαράσταση.

στον τομέα της χωρικής νοημοσύνης, σκεφτόμαστε ακριβώς το αντίθετο - πιστεύουμε ότι η τρισδιάστατη φύση του κόσμου πρέπει να είναι ο πυρήνας της αναπαράστασης. από αλγοριθμική άποψη, αυτό μας ανοίγει νέες ευκαιρίες για την επεξεργασία δεδομένων και τη λήψη διαφορετικών τύπων εξόδου, βοηθώντας μας να λύσουμε ορισμένα πολύ διαφορετικά προβλήματα.

ακόμη και σε ένα πρόχειρο επίπεδο, μπορείτε να πείτε: "τα πολυτροπικά llm μπορούν επίσης να δουν εικόνες, αλλά δεν θέτουν τη φύση των τριών διαστάσεων στον πυρήνα της προσέγγισής τους κατά την επεξεργασία των εικόνων."

τζάστιν τζόνσον

συμφωνώ απόλυτα ότι είναι πολύ κεντρικό να συζητήσουμε τη θεμελιώδη διαφορά μεταξύ μονοδιάστατης και τρισδιάστατης αναπαράστασης. επιπλέον, υπάρχει ένα ελαφρώς πιο φιλοσοφικό σημείο, αλλά για μένα όχι λιγότερο σημαντικό: η γλώσσα είναι ουσιαστικά ένα καθαρά παραγόμενο σήμα και δεν υπάρχει γλώσσα στον κόσμο. δεν θα δείτε να γράφετε στον ουρανό όταν βγαίνετε στη φύση. ανεξάρτητα από τα δεδομένα που τροφοδοτείτε, το γλωσσικό μοντέλο μπορεί να αποκαλύψει σχεδόν τα ίδια δεδομένα με αρκετή γενίκευση. αυτή είναι η φύση της δημιουργίας γλώσσας.

αλλά ο τρισδιάστατος κόσμος είναι διαφορετικός ακολουθεί τους νόμους της φυσικής και έχει τη δική του δομή και υλικά. το να μπορούμε ουσιαστικά να εξάγουμε αυτές τις πληροφορίες, να τις αναπαραστούμε και να τις δημιουργήσουμε είναι ένα εντελώς διαφορετικό είδος προβλήματος. αν και θα δανειστούμε μερικές χρήσιμες ιδέες από γλωσσικά μοντέλα, αυτό είναι ουσιαστικά ένα διαφορετικό φιλοσοφικό ερώτημα.

μάρτιν κασάδο

σωστά, άρα το γλωσσικό μοντέλο είναι μονοδιάστατο και πιθανώς μια κακή αναπαράσταση του φυσικού κόσμου επειδή δημιουργείται από τον άνθρωπο με απώλεια. ένας άλλος τρόπος για τα μοντέλα παραγωγής είναι τα pixel, τα οποία είναι εικόνες και βίντεο 2d. εάν παρακολουθείτε ένα βίντεο, μπορείτε να δείτε μια τρισδιάστατη σκηνή, επειδή η κάμερα μπορεί να μετακινηθεί. ποια είναι λοιπόν η διαφορά μεταξύ της χωρικής νοημοσύνης και του 2d βίντεο;

φέι-φέι λι

υπάρχουν δύο σημεία που αξίζει να σκεφτούμε εδώ. το ένα είναι η υποκείμενη αναπαράσταση και το άλλο είναι η ευκολία της εμπειρίας χρήστη. μερικές φορές τα δύο μπερδεύονται. αυτό που αντιλαμβανόμαστε είναι 2d - ο αμφιβληστροειδής μας είναι μια δισδιάστατη δομή, αλλά ο εγκέφαλός μας τον βλέπει ως προβολή του τρισδιάστατου κόσμου.

μπορεί να θέλετε να μετακινήσετε αντικείμενα, να μετακινήσετε την κάμερα και καταρχήν θα μπορούσατε να κάνετε αυτά τα πράγματα με 2d αναπαραστάσεις και μοντέλα, αλλά δεν είναι κατάλληλο για το πρόβλημα που ρωτάτε. μια δισδιάστατη προβολή ενός δυναμικού τρισδιάστατου κόσμου μπορεί να είναι μοντελοποιήσιμη, αλλά η τοποθέτηση της τρισδιάστατης αναπαράστασης στην καρδιά του μοντέλου ταιριάζει καλύτερα στις ανάγκες του προβλήματος.

στόχος μας είναι να ενσωματώσουμε περισσότερη τρισδιάστατη αναπαράσταση στον πυρήνα του μοντέλου για να παρέχουμε καλύτερη εμπειρία στους χρήστες. αυτό συνδέεται επίσης με το "north star" μου. γιατί δίνουμε έμφαση στη «χωρική νοημοσύνη» αντί στην «ευφυΐα επίπεδων εικονοστοιχείων»;

λόγω της τροχιάς της νοημοσύνης, αν κοιτάξετε πίσω στην ιστορία της εξέλιξης, ο απώτερος στόχος της είναι να επιτρέψει στα ζώα και τους ανθρώπους να κινούνται ελεύθερα στον κόσμο, να αλληλεπιδρούν, να δημιουργούν πολιτισμό και ακόμη και να κάνουν ένα σάντουιτς. επομένως, η μετάφραση αυτής της τρισδιάστατης ουσίας σε τεχνολογία είναι το κλειδί για το ξεκλείδωμα αμέτρητων πιθανών εφαρμογών, ακόμα κι αν μερικές μπορεί να φαίνονται σαν επιφανειακές εξελίξεις.

μάρτιν κασάδο

νομίζω ότι αυτό είναι ένα πολύ λεπτό αλλά κρίσιμο σημείο. ίσως μπορούμε να εμβαθύνουμε περαιτέρω σε αυτή τη συζήτηση μιλώντας για ορισμένα σενάρια εφαρμογής. όταν μιλάμε για την ανάπτυξη ενός τεχνολογικού μοντέλου που επιτρέπει τη χωρική νοημοσύνη, πώς μπορεί να μοιάζει συγκεκριμένα; ποια είναι τα πιθανά σενάρια εφαρμογής;

φέι-φέι λι

το μοντέλο χωρικής νοημοσύνης που οραματιζόμαστε μπορεί να κάνει πολλά πράγματα, ένα από τα οποία με ενθουσιάζει ιδιαίτερα είναι η «παγκόσμια γενιά». παρόμοια με τις γεννήτριες εικόνας κειμένου, έχουμε τώρα γεννήτριες κειμένου-βίντεο - εισάγετε μια εικόνα ή ένα βίντεο και το σύστημα θα δημιουργήσει ένα εκπληκτικό κλιπ δύο δευτερολέπτων. αλλά νομίζω ότι μπορούμε να μεταφέρουμε αυτή την εμπειρία σε έναν τρισδιάστατο κόσμο.

μπορούμε να φανταστούμε ότι η χωρική νοημοσύνη θα μας βοηθήσει να αναβαθμίσουμε αυτές τις εμπειρίες σε 3d στο μέλλον, όχι απλώς δημιουργώντας μια εικόνα ή ένα βίντεο, αλλά δημιουργώντας έναν πλήρη, προσομοιωμένο και πλούσιο διαδραστικό τρισδιάστατο κόσμο. ίσως χρησιμοποιείται για παιχνίδια, ίσως χρησιμοποιείται για εικονική φωτογραφία, τα πεδία εφαρμογής είναι τόσο μεγάλα που είναι αδιανόητο.

τζάστιν τζόνσον

νομίζω ότι η τεχνολογία θα βελτιωθεί με την πάροδο του χρόνου. είναι πολύ δύσκολο να δημιουργηθούν αυτά τα πράγματα, επομένως το στατικό πρόβλημα μπορεί να είναι σχετικά απλό, αλλά μακροπρόθεσμα θέλουμε να είναι πλήρως δυναμικό, διαδραστικό, όλα όσα μόλις περιγράψατε.

φέι-φέι λι

ναι, αυτός είναι ο ίδιος ο ορισμός της χωρικής νοημοσύνης. θα ξεκινήσουμε με περισσότερα στατικά ζητήματα, αλλά όλα όσα αναφέρατε αφορούν το μέλλον της χωρικής νοημοσύνης.

τζάστιν τζόνσον

αυτό αντικατοπτρίζεται επίσης στο όνομα της εταιρείας μας "world labs" - το όνομα είναι για την οικοδόμηση και την κατανόηση του κόσμου. όταν λέμε στους ανθρώπους το όνομα, δεν το καταλαβαίνουν πάντα στην αρχή, γιατί στους τομείς της όρασης υπολογιστών, της ανακατασκευής και της γενιάς, συχνά κάνουμε διαφοροποίηση μεταξύ του τι μπορούμε να κάνουμε. το πρώτο επίπεδο είναι η αναγνώριση αντικειμένων, όπως μικρόφωνα, καρέκλες και άλλα διακριτά αντικείμενα στον κόσμο. μεγάλο μέρος της δουλειάς του imagenet σχετίζεται με την αναγνώριση αντικειμένων.

στη συνέχεια όμως ανεβαίνουμε στο επίπεδο των σκηνών – οι σκηνές αποτελούνται από αντικείμενα. για παράδειγμα, τώρα έχουμε ένα στούντιο ηχογράφησης με τραπέζι, μικρόφωνο και άτομα που κάθονται σε καρέκλες, που είναι ένας συνδυασμός αντικειμένων. αλλά ο «κόσμος» που φανταζόμαστε ξεπερνά τις σκηνές. η σκηνή μπορεί να είναι ένα μοναδικό πράγμα, αλλά θέλουμε να σπάσουμε αυτά τα όρια και να βγούμε έξω, στο δρόμο, να δούμε την κυκλοφορία να περνάει, να βλέπουμε φύλλα να ταλαντεύονται στον άνεμο και να μπορούμε να αλληλεπιδράσουμε με αυτά τα πράγματα.

φέι-φέι λι

ένα άλλο πολύ συναρπαστικό πράγμα είναι με τον όρο «νέα μέσα». με αυτήν την τεχνολογία, οι γραμμές μεταξύ του πραγματικού κόσμου, του εικονικού φανταστικού κόσμου ή του επαυξημένου και προβλεπόμενου κόσμου γίνονται θολές. ο πραγματικός κόσμος είναι 3d, επομένως στον ψηφιακό κόσμο, μια τρισδιάστατη αναπαράσταση είναι απαραίτητη για να συνδυάζεται με τον πραγματικό κόσμο. δεν μπορείτε να αλληλεπιδράσετε αποτελεσματικά με τον πραγματικό τρισδιάστατο κόσμο μόνο σε 2d ή ακόμα και 1d.

αυτή η δυνατότητα ξεκλειδώνει απεριόριστα σενάρια εφαρμογών. ακριβώς όπως το πρώτο σενάριο εφαρμογής που ανέφερε ο justin, η γενιά του εικονικού κόσμου μπορεί να χρησιμοποιηθεί για οποιονδήποτε σκοπό. το δεύτερο μπορεί να είναι επαυξημένη πραγματικότητα. περίπου την εποχή που ιδρύθηκαν τα world labs, η apple κυκλοφόρησε το vision pro και χρησιμοποίησε τον όρο "χωρικός υπολογισμός". μιλάμε σχεδόν για το ίδιο πράγμα, αυτό που τονίζουμε είναι η «χωρική νοημοσύνη». δεν υπάρχει αμφιβολία ότι ο χωρικός υπολογισμός απαιτεί χωρική νοημοσύνη.

δεν γνωρίζουμε πώς θα φαίνονται οι μελλοντικές μορφές υλικού - θα μπορούσαν να είναι γυαλιά, γυαλιά ή ακόμα και φακοί επαφής. αλλά στη διασύνδεση μεταξύ του πραγματικού και του εικονικού κόσμου, είτε βελτιώνει την ικανότητά σας να εργάζεστε, σας βοηθά να επισκευάσετε το αυτοκίνητό σας ακόμα κι αν δεν είστε επαγγελματίας μηχανικός ή απλώς παρέχετε μια εμπειρία ψυχαγωγίας παρόμοια με το "pokemon go++", αυτή η τεχνολογία θα γίνει το λειτουργικό σύστημα για ar/vr.

τζάστιν τζόνσον

στην ακραία περίπτωση, αυτό που πρέπει να κάνει η συσκευή ar είναι να σας συνοδεύει πάντα, να κατανοεί τον κόσμο που βλέπετε σε πραγματικό χρόνο και να σας βοηθά να ολοκληρώσετε εργασίες στην καθημερινή ζωή. είμαι πολύ ενθουσιασμένος με αυτό, ειδικά για τη συγχώνευση εικονικής και πραγματικότητας. όταν μπορείτε να κατανοήσετε τέλεια το περιβάλλον σας σε 3d σε πραγματικό χρόνο, μπορεί ακόμη και να αντικαταστήσει ορισμένα πράγματα στον πραγματικό κόσμο.

για παράδειγμα, τώρα έχουμε οθόνες διαφόρων μεγεθών—ipad, οθόνες υπολογιστών, τηλεοράσεις, ρολόγια κ.λπ.—που παρουσιάζουν πληροφορίες σε διαφορετικά σενάρια. αλλά αν μπορούμε να συγχωνεύσουμε απρόσκοπτα το εικονικό περιεχόμενο με τον φυσικό κόσμο, αυτές οι συσκευές δεν θα είναι πλέον απαραίτητες. οι εικονικοί κόσμοι μπορούν να σας δείξουν τις πληροφορίες που χρειάζεστε την κατάλληλη στιγμή και με τον πιο κατάλληλο τρόπο.

μια άλλη τεράστια εφαρμογή είναι η ανάμειξη του ψηφιακού εικονικού κόσμου με τον τρισδιάστατο φυσικό κόσμο, ειδικά στη ρομποτική. τα ρομπότ πρέπει να δρουν στον φυσικό κόσμο, ενώ οι υπολογιστές και οι εγκέφαλοί τους βρίσκονται στον ψηφιακό κόσμο. η γέφυρα μεταξύ μάθησης και συμπεριφοράς πρέπει να χτιστεί από τη χωρική νοημοσύνη.

μάρτιν κασάδο

ανέφερες εικονικούς κόσμους, επαυξημένη πραγματικότητα και τώρα μιλάς για τον καθαρά φυσικό κόσμο, για παράδειγμα στη ρομποτική. αυτό είναι ένα πολύ ευρύ πεδίο, ειδικά αν σκοπεύετε να διακλαδώσετε σε αυτούς τους διαφορετικούς τομείς. πώς βλέπετε τη βαθιά τεχνολογία που σχετίζεται με αυτούς τους συγκεκριμένους τομείς εφαρμογής;

φέι-φέι λι

θεωρούμε τους εαυτούς μας μια εταιρεία βαθιάς τεχνολογίας, ως εταιρεία πλατφόρμας, παρέχοντας μοντέλα που μπορούν να εξυπηρετήσουν αυτά τα διαφορετικά σενάρια εφαρμογών. όσο για το ποιο σενάριο εφαρμογής είναι πιο κατάλληλο για αυτό που επικεντρωθήκαμε στην αρχή, νομίζω ότι ο τρέχων εξοπλισμός δεν είναι αρκετά τέλειος.

πήρα το πρώτο μου ακουστικό vr όταν ήμουν στο μεταπτυχιακό. όταν το έβαλα, σκέφτηκα: "θεέ μου, αυτό είναι τρελό, είμαι σίγουρος ότι πολλοί άνθρωποι έχουν παρόμοια εμπειρία όταν χρησιμοποιούν την εικονική πραγματικότητα για πρώτη φορά!"

αγαπώ τόσο πολύ το vision pro που έμεινα μέχρι αργά την ημέρα που κυκλοφόρησε για να το αγοράσω, αλλά αυτή τη στιγμή δεν είναι πλήρως ώριμο ως πλατφόρμα μαζικής αγοράς. ως εκ τούτου, εμείς ως εταιρεία μπορούμε να επιλέξουμε μια ήδη πιο ώριμη αγορά για να εισέλθουμε.

μερικές φορές υπάρχει απλότητα στην ευελιξία. έχουμε ένα όραμα ως εταιρεία βαθιάς τεχνολογίας και πιστεύουμε ότι υπάρχουν ορισμένα θεμελιώδη προβλήματα που πρέπει να επιλυθούν σωστά, και εάν λυθούν σωστά, μπορούν να εφαρμοστούν σε πολλούς διαφορετικούς τομείς. θεωρούμε ότι ο μακροπρόθεσμος στόχος της εταιρείας είναι η οικοδόμηση και η υλοποίηση του ονείρου της χωρικής νοημοσύνης.

τζάστιν τζόνσον

στην πραγματικότητα, νομίζω ότι εκεί είναι ο αντίκτυπος αυτού που κάνετε. δεν νομίζω ότι θα φτάσουμε ποτέ πραγματικά εκεί, γιατί είναι ένα τόσο θεμελιώδες πράγμα - το σύμπαν είναι ουσιαστικά μια εξελισσόμενη τετραδιάστατη δομή και η χωρική νοημοσύνη με την ευρεία έννοια έχει να κάνει με την κατανόηση του πλήρους βάθους αυτής της δομής και την εύρεση όλη την εφαρμογή. έτσι, ενώ έχουμε ένα συγκεκριμένο σύνολο ιδεών σήμερα, πιστεύω ότι αυτό το ταξίδι θα μας οδηγήσει σε μέρη που απλά δεν μπορούμε να φανταστούμε αυτήν τη στιγμή.

φέι-φέι λι

το εκπληκτικό με την τεχνολογία είναι ότι συνεχίζει να ανοίγει περισσότερες δυνατότητες. καθώς συνεχίζουμε να προχωράμε, αυτές οι δυνατότητες θα συνεχίσουν να επεκτείνονται.

οι επενδύσεις vc σε νεοφυείς επιχειρήσεις τεχνητής νοημοσύνης φέτος έφθασαν τα 64,1 δισεκατομμύρια δολάρια ηπα, κοντά στο ανώτατο όριο το 2021, αλλά τα συνολικά παγκόσμια ετήσια έσοδα τεχνητής νοημοσύνης είναι μόνο δεκάδες δισεκατομμύρια δολάρια ηπα