ニュース

ニューラル ネットワークにも空間認識機能があります。Minecraft でマップを作成する方法を学び、Nature サブマガジンに掲載

2024-07-23

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

マシンハートレポート

マシーンハート編集部

ニューラルネットワークが独自のマップを作成できることを人類が実証したのはこれが初めてだ。

最初は周囲の環境が馴染みがなくても、最終的には相互に影響し合う建物、道路、標識などを含む環境の地図を脳内に描くことができます。それらの間の位置関係。脳内で空間マップを構築するこの能力は、人間の高次タイプの認知の基礎となっています。たとえば、言語は脳内のマップ状構造によってエンコードされると理論化されています。

ただし、最先端の人工知能やニューラル ネットワークでも、何もないところからそのような地図を構築することはできません。

計算生物学の助教授でヘリテージ医学研究所の研究員であるマット・トムソン氏は、「最先端の人工知能モデルでさえ真の知能を持っていないという感覚がある。人工知能モデルは私たちのように問題を解決することはできず、証明されていない数学的結果を証明することもできない」と述べた。新しいアイデアが生まれない。」

「私たちは、それは概念的空間内をナビゲートできないためだと考えています。複雑な問題を解決することは、ナビゲーションと同じように概念的空間内を移動するようなものです。AI が行うことは暗記学習に似ており、AI に入力を与えると、AI が応答します。しかし、AI が行うことは暗記学習に似ています。異なるアイデアを統合することはできません。」

最近、トムソン研究所の新しい論文では、ニューラル ネットワークが「予測コーディング」と呼ばれるアルゴリズムを使用して空間マップを構築できることが判明しました。この論文は7月18日付けでNature Machine Intelligence誌に掲載された。



  • 論文アドレス: https://www.nature.com/articles/s42256-024-00863-1
  • コードアドレス: https://github.com/jgornet/predictive-coding-recovers-maps

大学院生のジェームズ・ゴーネット氏が主導し、2人は木、川、洞窟などの複雑な要素を組み込んだゲーム「Minecraft」の環境を構築した。彼らは、エリア内をランダムに歩くプレイヤーのビデオを記録し、そのビデオを使用して、予測コーディング アルゴリズムを備えたニューラル ネットワークをトレーニングしました。

彼らは、ニューラル ネットワークが Minecraft の世界のオブジェクトが互いにどのように構成されているかを学習し、空間を移動するときに遭遇する環境を「予測」できることを発見しました。



予測コーディング アルゴリズムとゲーム Minecraft の組み合わせにより、空間マップの作成方法をニューラル ネットワークに「学習」し、これらの空間マップを使用してビデオの後続のフレームを予測することができ、その結果、予測画像間の平均二乗誤差はわずか 0.094% となりました。そして最終的な画像。

さらに、研究チームはニューラル ネットワークを「オン」にし(内部構造を調べることに相当)、さまざまなオブジェクトの表現が相互に相対的に空間的に保存されていることを発見しました。言い換えれば、彼らはニューラル ネットワークに保存された Minecraft 環境の地図を見たのです。

ニューラル ネットワークは、GPS を使用した自動運転車など、人間の設計者によって与えられた地図をナビゲートできますが、ニューラルネットワークが独自のマップを作成できることを人類が実証したのはこれが初めてだ 。情報を空間的に保存および整理するこの能力は、最終的にニューラル ネットワークがより「賢く」なり、人間と同じように真に複雑な問題を解決できるようになります。

このプロジェクトは、OpenAI の Sora などのテクノロジーではまだ見られていない、人工知能の真の空間認識機能を実証します。、後者には奇妙な不具合がいくつかあります。

James Gornet は、カリフォルニア工科大学の計算神経システム (CNS) 学部の学生で、神経科学、機械学習、数学、統計、生物学を担当しています。

「CNS プログラムは、ジェームズにとって、他では不可能なユニークな仕事をするための場所を提供しています」とトムソン氏は語った。 「私たちは、人工ニューラル ネットワークの脳の特性をリバース エンジニアリングできる、生物学にヒントを得た機械学習アプローチを採用しています。そして、カリフォルニア工科大学には、この種の研究に非常に前向きなチームが揃っています。コミュニティに取り組みます。」

予測コーディングを行うニューラルネットワーク

研究者らは、予測コーディング推論問題における暗黙的な空間表現に着想を得て、予測コーディング エージェントの計算実装を開発し、仮想環境を探索しながらエージェントによって学習された空間表現を研究しました。

彼らはまず、Minecraft の Malmo 環境を使用して環境を作成しました。物理環境は 40 × 65 タイルの寸法を持ち、ビジュアル シーンの 3 つの側面を包含します。洞窟はグローバルなビジュアル ランドマークを提供し、森林はビジュアル シーン間の類似性を可能にし、橋のある川はエージェントがビジュアル シーンを横断する方法を制限します。環境(図1a)。



エージェントは、A* 検索によって決定されたパスをたどって、ランダムにサンプリングされた位置間の最短パスを見つけ、各パス上の視覚画像を受け取ります。

予測符号化を実行するために、著者はエンコーダとデコーダの畳み込みニューラル ネットワークを構築しました。エンコーダは ResNet-18 アーキテクチャを採用し、デコーダは転置畳み込み ResNet-18 アーキテクチャを採用しました (図 1b)。エンコーダ/デコーダ アーキテクチャは、U-Net アーキテクチャを使用して、エンコードされた潜在ユニットをデコーダに渡します。マルチヘッドアテンション処理は、潜在ユニットシーケンスをエンコードして、過去の視覚観察履歴をエンコードします。多頭注意には h = 8 頭があります。寸法 D = C × H × W、高さ H、幅 W、チャネル C のコーディング潜在ユニットの場合、単一ヘッドの寸法は d = C × H × W/h となります。



予測エンコーダは、実際の観測値と予測された観測値の間の平均二乗誤差を最小限に抑えることにより、予測コーディングを近似します。予測エンコーダーは、ネステロフ運動量、5 × 10^(-6) の重み減衰、10^(-1) の学習率による勾配降下最適化を使用して、82,630 サンプルで 200 エポックの間トレーニングされ、OneCycle 学習率スケジュールを通過しました。調整されています。最適化された予測エンコーダーの予測画像と実際の画像の間の平均二乗誤差は 0.094 で、視覚的な忠実度は良好です (図 1c)。



詳細については元の論文を参照してください。

https://techxplore.com/news/2024-07-neural-network-minecraft.html

https://www.tomshardware.com/tech-industry/artificial-intelligence/neural-network-learns-to-make-maps-with-minecraft-code-available-on-github