noticias

¡Las redes neuronales también tienen conciencia espacial!Aprende a crear mapas en Minecraft, publicado en la subrevista Nature

2024-07-23

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Informe del corazón de la máquina

Departamento editorial de Machine Heart

Esta es la primera vez que los humanos demuestran que las redes neuronales pueden crear sus propios mapas.

Imagina que estás en una ciudad extraña, incluso si el entorno que te rodea al principio no te resulta familiar, puedes explorar los alrededores y eventualmente dibujar un mapa del entorno en tu cerebro, que incluye edificios, calles, señales, etc. que interactúan entre sí. relación posicional entre ellos. Esta capacidad de construir mapas espaciales en el cerebro subyace a tipos de cognición de orden superior en los humanos: por ejemplo, se teoriza que el lenguaje está codificado por estructuras similares a mapas en el cerebro.

Sin embargo, ni siquiera la inteligencia artificial y las redes neuronales más avanzadas pueden construir un mapa así de la nada.

Matt Thomson, profesor asistente de biología computacional e investigador del Heritage Medical Research Institute, dijo: "Existe la sensación de que incluso los modelos de inteligencia artificial más avanzados no son verdaderamente inteligentes. No pueden resolver problemas como nosotros; no pueden probar resultados matemáticos no probados. No puedo generar nuevas ideas”.

"Creemos que es porque no pueden navegar en el espacio conceptual; resolver problemas complejos es como moverse en el espacio conceptual, al igual que la navegación. Lo que hace la IA es más como un aprendizaje de memoria: le das una entrada y ella te responde. Pero no puede sintetizar ideas diferentes."

Recientemente, un nuevo artículo del Laboratorio Thomson descubrió que las redes neuronales pueden utilizar un algoritmo llamado "codificación predictiva" para construir mapas espaciales. El artículo fue publicado en la revista Nature Machine Intelligence el 18 de julio.



  • Dirección del artículo: https://www.nature.com/articles/s42256-024-00863-1
  • Dirección del código: https://github.com/jgornet/predictive-coding-recovers-maps

Dirigidos por el estudiante de posgrado James Gornet, los dos construyeron entornos en el juego Minecraft, incorporando elementos complejos como árboles, ríos y cuevas. Grabaron vídeos de jugadores caminando aleatoriamente por el área y utilizaron los vídeos para entrenar una red neuronal equipada con un algoritmo de codificación predictiva.

Descubrieron que la red neuronal podía aprender cómo se organizaban entre sí los objetos en el mundo de Minecraft y podía "predecir" el entorno que encontraría a medida que se movía por el espacio.



La combinación de algoritmos de codificación predictiva y el juego Minecraft "enseñó" con éxito a la red neuronal cómo crear mapas espaciales y luego utilizar estos mapas espaciales para predecir fotogramas posteriores del vídeo, lo que dio como resultado un error cuadrático medio de sólo el 0,094% entre las imágenes predichas. y la imagen final.

Es más, el equipo "activó" la red neuronal (equivalente a examinar la estructura interna) y descubrió que las representaciones de varios objetos se almacenan espacialmente entre sí. En otras palabras, vieron un mapa del entorno de Minecraft almacenado en una red neuronal.

Las redes neuronales pueden navegar por mapas que les han proporcionado diseñadores humanos, como los coches autónomos que utilizan GPS, peroEsta es la primera vez que los humanos demuestran que las redes neuronales pueden crear sus propios mapas . Esta capacidad de almacenar y organizar información espacialmente ayudará eventualmente a que las redes neuronales se vuelvan más "inteligentes", permitiéndoles resolver problemas verdaderamente complejos como los humanos.

Este proyecto demuestra las verdaderas capacidades de conciencia espacial de la inteligencia artificial, que aún no se ven en tecnologías como Sora de OpenAI., este último tiene algunos fallos extraños.

James Gornet es estudiante del Departamento de Sistemas Computacionales y Neurales (CNS) de Caltech, que cubre neurociencia, aprendizaje automático, matemáticas, estadística y biología.

"El programa CNS realmente proporciona un lugar para que James realice un trabajo único que no sería posible en ningún otro lugar", dijo Thomson. “Estamos adoptando un enfoque de aprendizaje automático de inspiración biológica que nos permite aplicar ingeniería inversa a las propiedades del cerebro en redes neuronales artificiales y, a su vez, esperamos comprender el cerebro. En Caltech tenemos un equipo muy receptivo a este tipo de cosas. trabajo. Comunidad."

Red neuronal que realiza codificación predictiva

Inspirándose en la representación espacial implícita en los problemas de inferencia de codificación predictiva, los investigadores desarrollaron una implementación computacional de un agente de codificación predictiva y estudiaron la representación espacial aprendida por el agente mientras exploraba un entorno virtual.

Primero crearon un entorno utilizando el entorno Malmo en Minecraft. El entorno físico tiene dimensiones de 40 × 65 mosaicos y abarca tres aspectos de la escena visual: una cueva proporciona un punto de referencia visual global, un bosque permite la similitud entre escenas visuales y un río con un puente limita la escena visual. el medio ambiente (Fig. 1a).



El agente sigue un camino determinado por una búsqueda A* para encontrar el camino más corto entre ubicaciones muestreadas al azar y recibe una imagen visual en cada camino.

Para realizar la codificación predictiva, el autor construyó una red neuronal convolucional codificador-decodificador. El codificador adopta la arquitectura ResNet-18 y el decodificador adopta la arquitectura convolucional ResNet-18 transpuesta (Figura 1b). La arquitectura codificador-decodificador utiliza la arquitectura U-Net para pasar las unidades latentes codificadas al decodificador. El procesamiento de atención de múltiples cabezas codifica secuencias de unidades latentes para codificar historias de observación visual pasadas. La atención multicabezal tiene h = 8 cabezas. Para una unidad latente de codificación con dimensiones D = C × H × W, con altura H, ancho W y canal C, las dimensiones de un solo cabezal son d = C × H × W/h.



Los codificadores predictivos se aproximan a la codificación predictiva minimizando el error cuadrático medio entre las observaciones reales y las observaciones predichas. El codificador predictivo se entrenó durante 200 épocas en 82,630 muestras, utilizando optimización de descenso de gradiente con impulso de Nesterov, caída de peso de 5 × 10 ^ (-6), tasa de aprendizaje de 10 ^ (-1) y pasó por OneCycle. El programa de tasa de aprendizaje es ajustado. El error cuadrático medio entre la imagen predicha del codificador predictivo optimizado y la imagen real es 0,094, con buena fidelidad visual (Figura 1c).



Consulte el artículo original para obtener más detalles.

https://techxplore.com/news/2024-07-neural-network-minecraft.html

https://www.tomshardware.com/tech-industry/artificial-intelligence/neural-network-learns-to-make-maps-with-minecraft-code-available-on-github