Τα νευρωνικά δίκτυα έχουν και χωρική επίγνωση! Μάθετε να δημιουργείτε χάρτες στο Minecraft, που δημοσιεύεται στο Nature sub-magazine

Τα νευρωνικά δίκτυα έχουν και χωρική επίγνωση!Μάθετε να δημιουργείτε χάρτες στο Minecraft, που δημοσιεύεται στο υποπεριοδικό Nature

2024-07-23

Αναφορά Machine Heart

Τμήμα Σύνταξης Machine Heart

Αυτή είναι η πρώτη φορά που οι άνθρωποι έχουν αποδείξει ότι τα νευρωνικά δίκτυα μπορούν να δημιουργήσουν τους δικούς τους χάρτες.

Φανταστείτε ότι βρίσκεστε σε μια παράξενη πόλη Ακόμα κι αν το περιβάλλον είναι άγνωστο στην αρχή, μπορείτε να εξερευνήσετε γύρω σας και τελικά να σχεδιάσετε έναν χάρτη του περιβάλλοντος στον εγκέφαλό σας, ο οποίος περιλαμβάνει κτίρια, δρόμους, πινακίδες κ.λπ. που αλληλεπιδρούν μεταξύ τους. θέσεις μεταξύ τους. Αυτή η ικανότητα κατασκευής χωρικών χαρτών στον εγκέφαλο αποτελεί τη βάση τύπων γνώσης υψηλότερης τάξης στους ανθρώπους: για παράδειγμα, η γλώσσα θεωρείται ότι κωδικοποιείται από δομές που μοιάζουν με χάρτη στον εγκέφαλο.

Ωστόσο, ακόμη και τα πιο προηγμένα τεχνητή νοημοσύνη και νευρωνικά δίκτυα δεν μπορούν να δημιουργήσουν έναν τέτοιο χάρτη από τον αέρα.

Ο Matt Thomson, επίκουρος καθηγητής υπολογιστικής βιολογίας και ερευνητής στο Heritage Medical Research Institute, δήλωσε: "Υπάρχει η αίσθηση ότι ακόμη και τα πιο προηγμένα μοντέλα τεχνητής νοημοσύνης δεν είναι πραγματικά έξυπνα. Δεν μπορούν να λύσουν προβλήματα όπως εμείς, δεν μπορούν να αποδείξουν αναπόδεικτα μαθηματικά αποτελέσματα δεν μπορεί να δημιουργήσει νέες ιδέες».

"Πιστεύουμε ότι είναι επειδή δεν μπορούν να πλοηγηθούν στον εννοιολογικό χώρο. Η επίλυση σύνθετων προβλημάτων είναι σαν να κινείσαι σε εννοιολογικό χώρο, όπως ακριβώς η πλοήγηση. Αυτό που κάνει η τεχνητή νοημοσύνη είναι περισσότερο σαν εκμάθηση περιστροφικής μάθησης -- της δίνεις μια συμβολή και απαντάς. δεν μπορεί να συνθέσει διαφορετικές ιδέες».

Πρόσφατα, μια νέα εργασία από το Εργαστήριο Thomson διαπίστωσε ότι τα νευρωνικά δίκτυα μπορούν να χρησιμοποιήσουν έναν αλγόριθμο που ονομάζεται "προγνωστική κωδικοποίηση" για τη δημιουργία χωρικών χαρτών. Η εργασία δημοσιεύτηκε στο περιοδικό Nature Machine Intelligence στις 18 Ιουλίου.

Διεύθυνση χαρτιού: https://www.nature.com/articles/s42256-024-00863-1
Διεύθυνση κώδικα: https://github.com/jgornet/predictive-coding-recovers-maps

Με επικεφαλής τον μεταπτυχιακό φοιτητή James Gornet, τα δύο χτισμένα περιβάλλοντα στο παιχνίδι Minecraft, που ενσωματώνουν πολύπλοκα στοιχεία όπως δέντρα, ποτάμια και σπηλιές. Κατέγραψαν βίντεο με παίκτες που περπατούσαν τυχαία στην περιοχή και χρησιμοποίησαν τα βίντεο για να εκπαιδεύσουν ένα νευρωνικό δίκτυο εξοπλισμένο με έναν αλγόριθμο προγνωστικής κωδικοποίησης.

Διαπίστωσαν ότι το νευρωνικό δίκτυο μπορούσε να μάθει πώς τα αντικείμενα στον κόσμο του Minecraft ήταν οργανωμένα μεταξύ τους και μπορούσε να «προβλέψει» το περιβάλλον που θα συναντούσε καθώς κινούνταν στο διάστημα.

Ο συνδυασμός των αλγορίθμων πρόβλεψης κωδικοποίησης και του παιχνιδιού Minecraft "δίδαξε" με επιτυχία στο νευρωνικό δίκτυο πώς να δημιουργεί χωρικούς χάρτες και στη συνέχεια να χρησιμοποιεί αυτούς τους χωρικούς χάρτες για να προβλέψει τα επόμενα καρέ του βίντεο, με αποτέλεσμα ένα μέσο τετραγωνικό σφάλμα μόνο 0,094% μεταξύ της προβλεπόμενης εικόνας και η τελική εικόνα.

Επιπλέον, η ομάδα «άνοιξε» το νευρωνικό δίκτυο (ισοδύναμο με την εξέταση της εσωτερικής δομής) και διαπίστωσε ότι οι αναπαραστάσεις διαφόρων αντικειμένων αποθηκεύονται χωρικά μεταξύ τους. Με άλλα λόγια, είδαν έναν χάρτη του περιβάλλοντος του Minecraft αποθηκευμένο σε ένα νευρωνικό δίκτυο.

Τα νευρωνικά δίκτυα μπορούν να πλοηγηθούν σε χάρτες που τους δίνονται από ανθρώπους σχεδιαστές, όπως αυτοοδηγούμενα αυτοκίνητα που χρησιμοποιούν GPS, αλλάΑυτή είναι η πρώτη φορά που οι άνθρωποι έχουν αποδείξει ότι τα νευρωνικά δίκτυα μπορούν να δημιουργήσουν τους δικούς τους χάρτες . Αυτή η ικανότητα αποθήκευσης και οργάνωσης πληροφοριών χωρικά θα βοηθήσει τελικά τα νευρωνικά δίκτυα να γίνουν πιο «έξυπνα», επιτρέποντάς τους να λύνουν πραγματικά πολύπλοκα προβλήματα όπως οι άνθρωποι.

Αυτό το έργο καταδεικνύει τις πραγματικές ικανότητες χωρικής επίγνωσης της τεχνητής νοημοσύνης, οι οποίες εξακολουθούν να μην εμφανίζονται σε τεχνολογίες όπως το Sora του OpenAI, το τελευταίο έχει κάποιες περίεργες δυσλειτουργίες.

Ο James Gornet είναι φοιτητής στο Τμήμα Υπολογιστικών και Νευρωνικών Συστημάτων (CNS) στο Caltech, το οποίο καλύπτει τις νευροεπιστήμες, τη μηχανική μάθηση, τα μαθηματικά, τη στατιστική και τη βιολογία.

«Το πρόγραμμα του ΚΝΣ παρέχει πραγματικά έναν χώρο στον Τζέιμς να κάνει μοναδική δουλειά που δεν θα ήταν δυνατή αλλού», είπε ο Τόμσον. «Ακολουθούμε μια βιολογικά εμπνευσμένη προσέγγιση μηχανικής μάθησης που μας επιτρέπει να αναμορφώσουμε τις ιδιότητες του εγκεφάλου σε τεχνητά νευρωνικά δίκτυα και ελπίζουμε να κατανοήσουμε τον εγκέφαλο με τη σειρά του, έχουμε μια πολύ δεκτική ομάδα σε αυτό το είδος εργασία.

Νευρωνικό δίκτυο που εκτελεί προγνωστική κωδικοποίηση

Εμπνευσμένοι από την άρρητη χωρική αναπαράσταση σε προβλήματα συμπερασμάτων προγνωστικής κωδικοποίησης, οι ερευνητές ανέπτυξαν μια υπολογιστική εφαρμογή ενός παράγοντα πρόβλεψης κωδικοποίησης και μελέτησαν τη χωρική αναπαράσταση που μαθαίνει ο πράκτορας κατά την εξερεύνηση ενός εικονικού περιβάλλοντος.

Πρώτα δημιούργησαν ένα περιβάλλον χρησιμοποιώντας το περιβάλλον Malmo στο Minecraft. Το φυσικό περιβάλλον έχει διαστάσεις 40 × 65 πλακιδίων και περιλαμβάνει τρεις πτυχές της οπτικής σκηνής: μια σπηλιά παρέχει ένα παγκόσμιο οπτικό ορόσημο, ένα δάσος επιτρέπει την ομοιότητα μεταξύ οπτικών σκηνών και ένα ποτάμι με μια γέφυρα περιορίζει την οπτική σκηνή το περιβάλλον (Εικ. 1α).

Ο πράκτορας ακολουθεί μια διαδρομή που καθορίζεται από μια αναζήτηση A* για να βρει τη συντομότερη διαδρομή μεταξύ τυχαίων δειγμάτων τοποθεσιών και λαμβάνει μια οπτική εικόνα σε κάθε διαδρομή.

Προκειμένου να πραγματοποιηθεί η προγνωστική κωδικοποίηση, ο συγγραφέας κατασκεύασε ένα συνελικτικό νευρωνικό δίκτυο κωδικοποιητή-αποκωδικοποιητή. Η αρχιτεκτονική κωδικοποιητή-αποκωδικοποιητή χρησιμοποιεί την αρχιτεκτονική U-Net για να περάσει τις κωδικοποιημένες λανθάνουσες μονάδες στον αποκωδικοποιητή. Η επεξεργασία προσοχής πολλαπλών κεφαλών κωδικοποιεί λανθάνουσες ακολουθίες μονάδων για να κωδικοποιήσει προηγούμενα ιστορικά οπτικής παρατήρησης. Η προσοχή πολλών κεφαλών έχει h = 8 κεφαλές. Για μια λανθάνουσα μονάδα κωδικοποίησης με διαστάσεις D = C × H × W, με ύψος H, πλάτος W και κανάλι C, οι διαστάσεις μιας μόνο κεφαλής είναι d = C × H × W/h.

Οι προγνωστικοί κωδικοποιητές προσεγγίζουν την προγνωστική κωδικοποίηση ελαχιστοποιώντας το μέσο τετραγωνικό σφάλμα μεταξύ των πραγματικών παρατηρήσεων και των προβλεπόμενων παρατηρήσεων. Ο προγνωστικός κωδικοποιητής εκπαιδεύτηκε για 200 εποχές σε 82.630 δείγματα, χρησιμοποιώντας βελτιστοποίηση gradient descent με ορμή Nesterov, μείωση βάρους 5 × 10^(-6), ρυθμό εκμάθησης 10^(-1) και πέρασε από το πρόγραμμα OneCycle The Learning rate προσαρμόζεται. Το μέσο τετράγωνο σφάλμα μεταξύ της προβλεπόμενης εικόνας του βελτιστοποιημένου κωδικοποιητή πρόβλεψης και της πραγματικής εικόνας είναι 0,094, με καλή οπτική πιστότητα (Εικόνα 1γ).

Δείτε το πρωτότυπο έγγραφο για περισσότερες λεπτομέρειες.

https://techxplore.com/news/2024-07-neural-network-minecraft.html

https://www.tomshardware.com/tech-industry/artificial-intelligence/neural-network-learns-to-make-maps-with-minecraft-code-available-on-github

Νέα

Τα νευρωνικά δίκτυα έχουν και χωρική επίγνωση!Μάθετε να δημιουργείτε χάρτες στο Minecraft, που δημοσιεύεται στο υποπεριοδικό Nature

Εισαγωγή

τα στοιχεία επικοινωνίας μου