Новости

Нейронные сети также обладают пространственным восприятием!Научитесь создавать карты в Minecraft, опубликованные в поджурнале Nature.

2024-07-23

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Отчет о сердце машины

Редакция «Машинное сердце»

Впервые люди продемонстрировали, что нейронные сети могут создавать свои собственные карты.

Представьте, что вы находитесь в незнакомом городе. Даже если окружающая среда поначалу вам незнакома, вы можете исследовать ее и в конечном итоге нарисовать в уме карту окружающей среды, включающую здания, улицы, знаки и т. д., которые взаимодействуют друг с другом. позиционные отношения между ними. Эта способность создавать пространственные карты в мозге лежит в основе типов познания высшего порядка у людей: например, предполагается, что язык кодируется картоподобными структурами в мозге.

Однако даже самый продвинутый искусственный интеллект и нейронные сети не смогут построить такую ​​карту из воздуха.

Мэтт Томсон, доцент кафедры вычислительной биологии и исследователь Медицинского исследовательского института Heritage, сказал: «Есть ощущение, что даже самые продвинутые модели искусственного интеллекта не являются по-настоящему разумными. Они не могут решать такие проблемы, как мы; они не могут доказать недоказанные математические результаты». не может генерировать новые идеи».

«Мы думаем, что это потому, что они не могут ориентироваться в концептуальном пространстве; решение сложных проблем похоже на перемещение в концептуальном пространстве, точно так же, как навигация. То, что делает ИИ, больше похоже на механическое заучивание — вы даете ему входные данные, а он дает вам ответ. Но он не может синтезировать разные идеи».

Недавно в новой статье Лаборатории Томсона было обнаружено, что нейронные сети могут использовать алгоритм, называемый «предсказывающим кодированием», для построения пространственных карт. Статья была опубликована в журнале Nature Machine Intelligence 18 июля.



  • Адрес статьи: https://www.nature.com/articles/s42256-024-00863-1.
  • Адрес кода: https://github.com/jgornet/predictive-coding-recovers-maps

Под руководством аспиранта Джеймса Горнета они построили две среды в игре Minecraft, включающие сложные элементы, такие как деревья, реки и пещеры. Они записали видео игроков, случайно проходящих по территории, и использовали это видео для обучения нейронной сети, оснащенной алгоритмом прогнозирующего кодирования.

Они обнаружили, что нейронная сеть может изучать, как объекты в мире Minecraft организованы друг с другом, и может «предсказывать» среду, с которой она столкнется при движении в пространстве.



Сочетание алгоритма предиктивного кодирования и игры Minecraft успешно «научило» нейронную сеть создавать пространственные карты, а затем использовать эти пространственные карты для прогнозирования последующих кадров видео. В результате среднеквадратическая ошибка между ними составила всего 0,094%. прогнозируемое изображение и окончательное изображение.

Более того, команда «включила» нейронную сеть (что эквивалентно исследованию внутренней структуры) и обнаружила, что представления различных объектов пространственно сохраняются относительно друг друга. Другими словами, они увидели карту среды Minecraft, хранящуюся в нейронной сети.

Нейронные сети могут перемещаться по картам, данным им дизайнерами-людьми, например беспилотным автомобилям, использующим GPS, ноВпервые люди продемонстрировали, что нейронные сети могут создавать свои собственные карты. . Эта способность хранить и организовывать информацию в пространстве в конечном итоге поможет нейронным сетям стать более «умными», что позволит им решать действительно сложные проблемы, как это делают люди.

Этот проект демонстрирует истинные возможности пространственного восприятия искусственного интеллекта, которые до сих пор не встречаются в таких технологиях, как Sora от OpenAI., у последнего есть какие-то странные глюки.

Джеймс Горнет — студент факультета вычислительных и нейронных систем (ЦНС) Калифорнийского технологического института, который занимается нейробиологией, машинным обучением, математикой, статистикой и биологией.

«Программа CNS действительно предоставляет Джеймсу возможность выполнять уникальную работу, которая была бы невозможна где-либо еще», — сказал Томсон. «Мы используем биологический подход к машинному обучению, который позволяет нам реконструировать свойства мозга в искусственных нейронных сетях, и мы надеемся понять мозг, в свою очередь, у нас в Калифорнийском технологическом институте есть очень восприимчивая команда к такого рода задачам. Работа. Сообщество».

Нейронная сеть, выполняющая прогнозирующее кодирование

Вдохновленные неявным пространственным представлением в задачах вывода прогнозирующего кодирования, исследователи разработали вычислительную реализацию агента прогнозирующего кодирования и изучили пространственное представление, изученное агентом во время исследования виртуальной среды.

Сначала они создали среду, используя среду Мальмё в Minecraft. Физическая среда имеет размеры 40 × 65 тайлов и охватывает три аспекта визуальной сцены: пещера обеспечивает глобальный визуальный ориентир, лес создает сходство между визуальными сценами, а река с мостом ограничивает визуальную сцену. Как перемещается агент. окружающая среда (рис. 1а).



Агент следует по пути, определенному поиском A*, чтобы найти кратчайший путь между случайно выбранными местоположениями, и получает визуальное изображение на каждом пути.

Для выполнения прогнозирующего кодирования автор построил сверточную нейронную сеть кодер-декодер. Кодер использует архитектуру ResNet-18, а декодер использует транспонированную сверточную архитектуру ResNet-18 (рис. 1b). Архитектура кодер-декодер использует архитектуру U-Net для передачи закодированных скрытых единиц в декодер. Многоголовая обработка внимания кодирует последовательности скрытых единиц для кодирования прошлых историй визуальных наблюдений. Многоглавое внимание имеет h = 8 голов. Для скрытой единицы кодирования с размерами D = C × H × W, высотой H, шириной W и каналом C размеры одной головки составляют d = C × H × W/h.



Кодеры с прогнозированием аппроксимируют прогнозирующее кодирование, минимизируя среднеквадратическую ошибку между фактическими наблюдениями и прогнозируемыми наблюдениями. Прогнозирующий кодер обучался в течение 200 эпох на 82 630 выборках с использованием оптимизации градиентного спуска с импульсом Нестерова, затуханием веса 5 × 10^(-6), скоростью обучения 10^(-1) и проходил через OneCycle. График скорости обучения: отрегулирован. Среднеквадратическая ошибка между предсказанным изображением оптимизированного предиктивного кодировщика и фактическим изображением составляет 0,094, с хорошей визуальной точностью (рис. 1c).



Более подробную информацию смотрите в оригинальной статье.

https://techxplore.com/news/2024-07-neural-network-minecraft.html

https://www.tomshardware.com/tech-industry/artificial-intelligence/neural-network-learns-to-make-maps-with-minecraft-code-available-on-github