Nachricht

Neuronale Netze haben auch räumliches Bewusstsein!Lernen Sie, Karten in Minecraft zu erstellen, veröffentlicht im Nature-Untermagazin

2024-07-23

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Maschinenherzbericht

Redaktion von Machine Heart

Dies ist das erste Mal, dass Menschen gezeigt haben, dass neuronale Netze ihre eigenen Karten erstellen können.

Stellen Sie sich vor, Sie befinden sich in einer fremden Stadt. Auch wenn die Umgebung zunächst unbekannt ist, können Sie die Umgebung erkunden und schließlich in Ihrem Gehirn eine Karte der Umgebung zeichnen, die Gebäude, Straßen, Schilder usw. enthält, die miteinander interagieren . Positionsbeziehung zwischen ihnen. Diese Fähigkeit, räumliche Karten im Gehirn zu konstruieren, liegt höheren Arten der Kognition beim Menschen zugrunde: Beispielsweise wird die Theorie aufgestellt, dass Sprache durch kartenähnliche Strukturen im Gehirn kodiert wird.

Allerdings können selbst die fortschrittlichsten künstlichen Intelligenzen und neuronalen Netze eine solche Karte nicht aus dem Nichts erstellen.

Matt Thomson, Assistenzprofessor für Computerbiologie und Forscher am Heritage Medical Research Institute, sagte: „Man hat das Gefühl, dass selbst die fortschrittlichsten Modelle der künstlichen Intelligenz nicht wirklich intelligent sind. Sie können Probleme wie wir nicht lösen; sie können unbewiesene mathematische Ergebnisse nicht beweisen.“ kann keine neuen Ideen hervorbringen.“

„Wir denken, das liegt daran, dass sie nicht im konzeptionellen Raum navigieren können; das Lösen komplexer Probleme ist wie das Bewegen im konzeptionellen Raum, genau wie die Navigation. Was KI tut, ähnelt eher einem Auswendiglernen – man gibt ihm einen Input und es gibt einem eine Antwort. Aber.“ es kann keine verschiedenen Ideen synthetisieren.“

Kürzlich wurde in einem neuen Artikel des Thomson Laboratory festgestellt, dass neuronale Netze einen Algorithmus namens „Predictive Coding“ verwenden können, um räumliche Karten zu erstellen. Das Papier wurde am 18. Juli in der Zeitschrift Nature Machine Intelligence veröffentlicht.



  • Papieradresse: https://www.nature.com/articles/s42256-024-00863-1
  • Codeadresse: https://github.com/jgornet/predictive-coding-recovers-maps

Unter der Leitung des Doktoranden James Gornet bauten die beiden Umgebungen im Spiel Minecraft unter Einbeziehung komplexer Elemente wie Bäume, Flüsse und Höhlen. Sie zeichneten Videos von Spielern auf, die zufällig durch das Gebiet gingen, und nutzten die Videos, um ein neuronales Netzwerk zu trainieren, das mit einem prädiktiven Codierungsalgorithmus ausgestattet war.

Sie fanden heraus, dass das neuronale Netzwerk lernen konnte, wie Objekte in der Minecraft-Welt untereinander organisiert sind, und die Umgebung „vorhersagen“ konnte, auf die es treffen würde, wenn es sich durch den Raum bewegte.



Die Kombination aus prädiktiven Codierungsalgorithmen und dem Spiel Minecraft „brachte“ dem neuronalen Netzwerk erfolgreich bei, räumliche Karten zu erstellen und diese räumlichen Karten dann zu verwenden, um nachfolgende Frames des Videos vorherzusagen, was zu einem mittleren quadratischen Fehler von nur 0,094 % zwischen den vorhergesagten Bildern führte und das endgültige Bild.

Darüber hinaus „schaltete“ das Team das neuronale Netzwerk ein (was einer Untersuchung der internen Struktur entspricht) und stellte fest, dass Darstellungen verschiedener Objekte relativ zueinander räumlich gespeichert sind. Mit anderen Worten: Sie sahen eine Karte der Minecraft-Umgebung, die in einem neuronalen Netzwerk gespeichert war.

Neuronale Netze können durch Karten navigieren, die ihnen von menschlichen Designern bereitgestellt wurden, wie beispielsweise selbstfahrende Autos mithilfe von GPS, aberDies ist das erste Mal, dass Menschen gezeigt haben, dass neuronale Netze ihre eigenen Karten erstellen können . Diese Fähigkeit, Informationen räumlich zu speichern und zu organisieren, wird neuronalen Netzen letztendlich dabei helfen, „intelligenter“ zu werden, sodass sie wirklich komplexe Probleme wie Menschen lösen können.

Dieses Projekt demonstriert die wahren Fähigkeiten der künstlichen Intelligenz zur räumlichen Wahrnehmung, die in Technologien wie Sora von OpenAI noch nicht zu finden sindLetzteres weist einige seltsame Störungen auf.

James Gornet ist Student in der Abteilung für Computational and Neural Systems (CNS) am Caltech, die sich mit Neurowissenschaften, maschinellem Lernen, Mathematik, Statistik und Biologie befasst.

„Das CNS-Programm bietet James wirklich die Möglichkeit, einzigartige Arbeiten zu leisten, die anderswo nicht möglich wären“, sagte Thomson. „Wir verfolgen einen biologisch inspirierten Ansatz des maschinellen Lernens, der es uns ermöglicht, die Eigenschaften des Gehirns in künstlichen neuronalen Netzen zurückzuentwickeln, und wir hoffen, dass wir am Caltech ein sehr aufgeschlossenes Team für diese Art haben.“ Arbeit. Gemeinschaft.

Neuronales Netzwerk, das prädiktive Codierung durchführt

Inspiriert durch die implizite räumliche Darstellung in Inferenzproblemen der prädiktiven Kodierung entwickelten die Forscher eine rechnerische Implementierung eines prädiktiven Kodierungsagenten und untersuchten die räumliche Darstellung, die der Agent bei der Erkundung einer virtuellen Umgebung lernte.

Sie haben zunächst eine Umgebung mithilfe der Malmö-Umgebung in Minecraft erstellt. Die physische Umgebung hat eine Größe von 40 × 65 Kacheln und umfasst drei Aspekte der visuellen Szene: Eine Höhle bietet einen globalen visuellen Orientierungspunkt, ein Wald ermöglicht Ähnlichkeit zwischen visuellen Szenen und ein Fluss mit einer Brücke begrenzt die Art und Weise, wie der Agent durchquert der Umwelt (Abb. 1a).



Der Agent folgt einem durch eine A*-Suche bestimmten Pfad, um den kürzesten Pfad zwischen zufällig ausgewählten Standorten zu finden, und erhält auf jedem Pfad ein visuelles Bild.

Um eine prädiktive Codierung durchzuführen, hat der Autor ein Faltungs-Neuronales Netzwerk mit Encoder und Decoder erstellt. Der Encoder verwendet die ResNet-18-Architektur und der Decoder verwendet die transponierte Faltungs-ResNet-18-Architektur (Abbildung 1b). Die Encoder-Decoder-Architektur verwendet die U-Net-Architektur, um die codierten latenten Einheiten an den Decoder zu übergeben. Die Multi-Head-Aufmerksamkeitsverarbeitung kodiert latente Einheitssequenzen, um vergangene visuelle Beobachtungsverläufe zu kodieren. Die mehrköpfige Aufmerksamkeit hat h = 8 Köpfe. Für eine Codierungslatteneinheit mit den Abmessungen D = C × H × B, der Höhe H, der Breite W und dem Kanal C betragen die Abmessungen eines einzelnen Kopfes d = C × H × B/H.



Prädiktive Encoder nähern sich der prädiktiven Codierung an, indem sie den mittleren quadratischen Fehler zwischen tatsächlichen Beobachtungen und vorhergesagten Beobachtungen minimieren. Der prädiktive Encoder wurde für 200 Epochen an 82.630 Stichproben trainiert, wobei die Gradientenabstiegsoptimierung mit Nesterov-Impuls, ein Gewichtsabfall von 5 × 10^(-6) und eine Lernrate von 10^(-1) verwendet wurden, und durchlief den Lernratenplan von OneCycle angepasst wird. Der mittlere quadratische Fehler zwischen dem vorhergesagten Bild des optimierten prädiktiven Encoders und dem tatsächlichen Bild beträgt 0,094 bei guter visueller Wiedergabetreue (Abbildung 1c).



Weitere Einzelheiten finden Sie im Originalpapier.

https://techxplore.com/news/2024-07-neural-network-minecraft.html

https://www.tomshardware.com/tech-industry/artificial-intelligence/neural-network-learns-to-make-maps-with-minecraft-code-available-on-github