소식

신경망에는 공간 인식 기능도 있습니다!Nature 하위 잡지에 게재된 Minecraft에서 지도를 만드는 방법을 알아보세요.

2024-07-23

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

기계 심장 보고서

머신하트 편집부

인간이 신경망이 자신만의 지도를 만들 수 있다는 것을 보여준 것은 이번이 처음입니다.

낯선 마을에 있다고 상상해 보세요. 처음에는 주변 환경이 낯설더라도 주변을 둘러보며 결국에는 건물, 거리, 표지판 등 서로 상호작용하는 환경을 뇌 속에 그려볼 수 있습니다. 그들 사이의 위치 관계. 뇌에서 공간 지도를 구성하는 이러한 능력은 인간의 고차원적인 인지 유형의 기초가 됩니다. 예를 들어, 언어는 뇌의 지도와 유사한 구조에 의해 인코딩되는 것으로 이론화됩니다.

그러나 가장 발전된 인공지능과 신경망조차도 그런 지도를 허공에서 구축할 수는 없습니다.

전산 생물학 조교수이자 Heritage Medical Research Institute의 연구원인 Matt Thomson은 다음과 같이 말했습니다. "가장 발전된 인공 지능 모델조차 진정한 지능을 갖지 못한다는 인식이 있습니다. 그들은 우리와 같은 문제를 해결할 수 없으며 입증되지 않은 수학적 결과를 증명할 수도 없습니다. 새로운 아이디어를 창출할 수 없습니다.”

"우리는 개념 공간에서 탐색할 수 없기 때문이라고 생각합니다. 복잡한 문제를 해결하는 것은 탐색과 마찬가지로 개념 공간에서 이동하는 것과 같습니다. AI가 하는 일은 암기 학습에 더 가깝습니다. 입력을 하면 응답합니다. 하지만 그것은 다양한 아이디어를 종합할 수 없습니다."

최근 Thomson Laboratory의 새로운 논문에서는 신경망이 "예측 코딩"이라는 알고리즘을 사용하여 공간 지도를 구축할 수 있다는 사실을 발견했습니다. 이 논문은 7월 18일 Nature Machine Intelligence 저널에 게재되었습니다.



  • 논문 주소: https://www.nature.com/articles/s42256-024-00863-1
  • 코드 주소: https://github.com/jgornet/predictive-coding-recovers-maps

대학원생 James Gornet이 이끄는 Minecraft 게임의 두 가지 환경은 나무, 강, 동굴과 같은 복잡한 요소를 통합합니다. 그들은 무작위로 해당 지역을 걷는 플레이어의 비디오를 녹화하고 비디오를 사용하여 예측 코딩 알고리즘을 갖춘 신경망을 훈련했습니다.

그들은 신경망이 마인크래프트 세계의 물체들이 어떻게 서로 조직되어 있는지 학습할 수 있고 공간을 이동할 때 직면하게 될 환경을 "예측"할 수 있다는 것을 발견했습니다.



예측 코딩 알고리즘과 Minecraft 게임의 결합은 신경망에 공간 맵을 생성한 다음 이러한 공간 맵을 사용하여 비디오의 후속 프레임을 예측하는 방법을 성공적으로 "교육"했습니다. 그 결과 프레임 간의 평균 제곱 오류는 0.094%에 불과했습니다. 예상 이미지와 최종 이미지.

더욱이 팀은 신경망을 "켜고"(내부 구조를 조사하는 것과 동일) 다양한 개체의 표현이 서로에 대해 공간적으로 저장된다는 사실을 발견했습니다. 즉, 그들은 신경망에 저장된 마인크래프트 환경의 지도를 본 것입니다.

신경망은 GPS를 사용하는 자율주행차와 같이 인간 설계자가 제공한 지도를 탐색할 수 있지만인간이 신경망이 자신만의 지도를 만들 수 있다는 것을 보여준 것은 이번이 처음입니다. . 정보를 공간적으로 저장하고 구성하는 이러한 능력은 궁극적으로 신경망이 더욱 "스마트"해져서 인간처럼 정말 복잡한 문제를 해결할 수 있도록 도와줄 것입니다.

이 프로젝트는 OpenAI의 Sora와 같은 기술에서는 아직 볼 수 없는 인공지능의 진정한 공간 인식 능력을 보여줍니다., 후자에는 이상한 결함이 있습니다.

James Gornet은 신경 과학, 기계 학습, 수학, 통계 및 생물학을 다루는 Caltech의 계산 및 신경 시스템(CNS) 학부의 학생입니다.

"CNS 프로그램은 James가 다른 곳에서는 불가능했던 독특한 작업을 수행할 수 있는 장소를 실제로 제공합니다"라고 Thomson은 말했습니다. “우리는 인공 신경망에서 뇌의 속성을 역설계할 수 있는 생물학적으로 영감을 받은 기계 학습 접근 방식을 취하고 있으며, Caltech에는 이러한 유형의 연구를 매우 수용하는 팀이 있습니다. 일해라.”

예측 코딩을 수행하는 신경망

예측 코딩 추론 문제의 암시적 공간 표현에서 영감을 받아 연구원들은 예측 코딩 에이전트의 계산적 구현을 ​​개발하고 가상 환경을 탐색하는 동안 에이전트가 학습한 공간 표현을 연구했습니다.

그들은 먼저 마인크래프트에서 말뫼(Malmo) 환경을 이용하여 환경을 만들었습니다. 물리적 환경은 40 × 65 타일 크기를 가지며 시각적 장면의 세 가지 측면을 포함합니다. 동굴은 글로벌 시각적 랜드마크를 제공하고, 숲은 시각적 장면 간의 유사성을 생성하며, 다리가 있는 강은 에이전트가 시각적 장면을 횡단하는 방식을 제한합니다. 환경 (그림 1a).



에이전트는 A* 검색을 통해 결정된 경로를 따라 무작위로 샘플링된 위치 사이의 최단 경로를 찾고 각 경로에 대한 시각적 이미지를 수신합니다.

예측 코딩을 수행하기 위해 저자는 인코더-디코더 컨벌루션 신경망을 구성했습니다. 인코더는 ResNet-18 아키텍처를 채택하고 디코더는 전치 컨벌루션 ResNet-18 아키텍처를 채택합니다(그림 1b). 인코더-디코더 아키텍처는 U-Net 아키텍처를 사용하여 인코딩된 잠재 단위를 디코더에 전달합니다. 다중 헤드 주의 처리는 과거의 시각적 관찰 기록을 인코딩하기 위해 잠재 단위 시퀀스를 인코딩합니다. 다중 방향 주의에는 h = 8개의 머리가 있습니다. 차원 D = C × H × W, 높이 H, 너비 W 및 채널 C를 갖는 코딩 잠재 단위의 경우 단일 헤드의 차원은 d = C × H × W/h입니다.



예측 인코더는 실제 관찰과 예측 관찰 사이의 평균 제곱 오차를 최소화하여 예측 코딩에 근접합니다. 예측 인코더는 Nesterov 모멘텀, 5 × 10^(-6)의 가중치 감쇠, 10^(-1)의 학습률을 사용하는 경사하강법 최적화를 사용하여 82,630개 샘플에 대해 200세대 동안 학습되었으며 OneCycle을 통과했습니다. 학습률 일정은 다음과 같습니다. 조정. 최적화된 예측 인코더의 예측 이미지와 실제 이미지 사이의 평균 제곱 오차는 0.094로 시각적 충실도가 좋습니다(그림 1c).



자세한 내용은 원본 논문을 참조하세요.

https://techxplore.com/news/2024-07-neural-network-minecraft.html

https://www.tomshardware.com/tech-industry/artificial-intelligence/neural-network-learns-to-make-maps-with-minecraft-code-available-on-github