nouvelles

Les réseaux de neurones ont aussi une conscience spatiale !Apprenez à créer des cartes dans Minecraft, publié dans le sous-magazine Nature

2024-07-23

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Rapport sur le cœur de la machine

Département éditorial de Machine Heart

C’est la première fois que les humains démontrent que les réseaux de neurones peuvent créer leurs propres cartes.

Imaginez que vous êtes dans une ville étrange, même si l'environnement vous est inconnu au début, vous pouvez explorer les environs et éventuellement dessiner une carte de l'environnement dans votre cerveau, qui comprend les bâtiments, les rues, les panneaux, etc. qui interagissent les uns avec les autres. . relation de position entre eux. Cette capacité à construire des cartes spatiales dans le cerveau est à la base de types de cognition d’ordre supérieur chez l’homme : par exemple, il est théorisé que le langage est codé par des structures semblables à des cartes dans le cerveau.

Cependant, même l’intelligence artificielle et les réseaux neuronaux les plus avancés ne peuvent pas créer une telle carte à partir de rien.

Matt Thomson, professeur adjoint de biologie computationnelle et chercheur à l'Heritage Medical Research Institute, a déclaré : « On a le sentiment que même les modèles d'intelligence artificielle les plus avancés ne sont pas vraiment intelligents. Ils ne peuvent pas résoudre des problèmes comme nous ; ils ne peuvent pas prouver des résultats mathématiques non prouvés. ne peut pas générer de nouvelles idées.

"Nous pensons que c'est parce qu'ils ne peuvent pas naviguer dans l'espace conceptuel ; résoudre des problèmes complexes, c'est comme se déplacer dans l'espace conceptuel, tout comme la navigation. Ce que fait l'IA s'apparente davantage à un apprentissage par cœur : vous lui donnez une contribution et elle vous donne une réponse. Mais il ne peut pas synthétiser différentes idées.

Récemment, un nouvel article du laboratoire Thomson a révélé que les réseaux neuronaux peuvent utiliser un algorithme appelé « codage prédictif » pour créer des cartes spatiales. L'article a été publié dans la revue Nature Machine Intelligence le 18 juillet.



  • Adresse papier : https://www.nature.com/articles/s42256-024-00863-1
  • Adresse du code : https://github.com/jgornet/predictive-coding-recovers-maps

Dirigés par l'étudiant diplômé James Gornet, les deux environnements construits dans le jeu Minecraft, incorporant des éléments complexes tels que des arbres, des rivières et des grottes. Ils ont enregistré des vidéos de joueurs se promenant au hasard dans la zone et ont utilisé ces vidéos pour entraîner un réseau neuronal équipé d'un algorithme de codage prédictif.

Ils ont découvert que le réseau neuronal pouvait apprendre comment les objets du monde Minecraft étaient organisés les uns avec les autres et pouvait « prédire » l'environnement qu'il rencontrerait lors de son déplacement dans l'espace.



La combinaison d'algorithmes de codage prédictif et du jeu Minecraft a réussi à « apprendre » au réseau neuronal comment créer des cartes spatiales, puis utiliser ces cartes spatiales pour prédire les images suivantes de la vidéo, ce qui entraîne une erreur quadratique moyenne de seulement 0,094 % entre l'image prédite. et l'image finale.

De plus, l’équipe a « activé » le réseau neuronal (ce qui équivaut à examiner la structure interne) et a découvert que les représentations de divers objets sont stockées spatialement les unes par rapport aux autres. En d’autres termes, ils ont vu une carte de l’environnement Minecraft stockée dans un réseau neuronal.

Les réseaux de neurones peuvent parcourir les cartes qui leur sont fournies par des concepteurs humains, comme les voitures autonomes utilisant le GPS, maisC'est la première fois que les humains démontrent que les réseaux de neurones peuvent créer leurs propres cartes . Cette capacité à stocker et à organiser les informations spatialement aidera à terme les réseaux neuronaux à devenir plus « intelligents », leur permettant de résoudre des problèmes vraiment complexes comme ceux des humains.

Ce projet démontre les véritables capacités de conscience spatiale de l’intelligence artificielle, qui ne sont pas encore visibles dans des technologies telles que Sora d’OpenAI., ce dernier présente d'étranges problèmes.

James Gornet est étudiant au département des systèmes informatiques et neuronaux (CNS) de Caltech, qui couvre les neurosciences, l'apprentissage automatique, les mathématiques, les statistiques et la biologie.

"Le programme CNS offre réellement à James un endroit où il peut accomplir un travail unique qui ne serait pas possible ailleurs", a déclaré Thomson. « Nous adoptons une approche d’apprentissage automatique d’inspiration biologique qui nous permet de procéder à l’ingénierie inverse des propriétés du cerveau dans des réseaux neuronaux artificiels, et nous espérons comprendre le cerveau à notre tour. Chez Caltech, nous avons une équipe très réceptive à ce type de processus. travail.

Réseau neuronal qui effectue un codage prédictif

Inspirés par la représentation spatiale implicite dans les problèmes d'inférence de codage prédictif, les chercheurs ont développé une implémentation informatique d'un agent de codage prédictif et ont étudié la représentation spatiale apprise par l'agent tout en explorant un environnement virtuel.

Ils ont d'abord créé un environnement en utilisant l'environnement Malmo dans Minecraft. L'environnement physique a des dimensions de 40 × 65 tuiles et englobe trois aspects de la scène visuelle : une grotte fournit un repère visuel global, une forêt permet la similitude entre les scènes visuelles et une rivière avec un pont limite la façon dont l'agent traverse. l’environnement (Fig. 1a).



L'agent suit un chemin déterminé par une recherche A* pour trouver le chemin le plus court entre des emplacements échantillonnés aléatoirement et reçoit une image visuelle sur chaque chemin.

Afin d'effectuer un codage prédictif, l'auteur a construit un réseau neuronal convolutionnel codeur-décodeur. L'encodeur adopte l'architecture ResNet-18 et le décodeur adopte l'architecture convolutive transposée ResNet-18 (Figure 1b). L'architecture codeur-décodeur utilise l'architecture U-Net pour transmettre les unités latentes codées dans le décodeur. Le traitement de l’attention multi-têtes code les séquences d’unités latentes pour coder les historiques d’observations visuelles passées. L'attention à plusieurs têtes a h = 8 têtes. Pour une unité latente de codage de dimensions D = C × H × W, de hauteur H, de largeur W et de canal C, les dimensions d'une seule tête sont d = C × H × W/h.



Les codeurs prédictifs se rapprochent du codage prédictif en minimisant l'erreur quadratique moyenne entre les observations réelles et les observations prédites. L'encodeur prédictif a été entraîné pendant 200 époques sur 82 630 échantillons, en utilisant l'optimisation de la descente de gradient avec l'impulsion de Nesterov, une décroissance du poids de 5 × 10^(-6), un taux d'apprentissage de 10^(-1) et transmis via OneCycle. Le calendrier du taux d'apprentissage est ajusté. L'erreur quadratique moyenne entre l'image prédite du codeur prédictif optimisé et l'image réelle est de 0,094, avec une bonne fidélité visuelle (Figure 1c).



Voir l'article original pour plus de détails.

https://techxplore.com/news/2024-07-neural-network-minecraft.html

https://www.tomshardware.com/tech-industry/artificial-intelligence/neural-network-learns-to-make-maps-with-minecraft-code-available-on-github