notizia

Le reti neurali hanno anche consapevolezza spaziale!Impara a creare mappe in Minecraft, pubblicato nella sottorivista Nature

2024-07-23

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Rapporto sul cuore della macchina

Dipartimento editoriale di Machine Heart

Questa è la prima volta che gli esseri umani dimostrano che le reti neurali possono creare le proprie mappe.

Immagina di trovarti in una città sconosciuta. Anche se all'inizio l'ambiente circostante non ti è familiare, puoi esplorarlo ed eventualmente disegnare una mappa dell'ambiente nel tuo cervello, che include edifici, strade, segnali, ecc. che interagiscono tra loro. rapporto posizionale tra loro. Questa capacità di costruire mappe spaziali nel cervello è alla base di tipi di cognizione di ordine superiore negli esseri umani: ad esempio, si teorizza che il linguaggio sia codificato da strutture simili a mappe nel cervello.

Tuttavia, anche l’intelligenza artificiale e le reti neurali più avanzate non sono in grado di costruire una mappa del genere dal nulla.

Matt Thomson, assistente professore di biologia computazionale e ricercatore presso l'Heritage Medical Research Institute, ha dichiarato: "C'è la sensazione che anche i modelli di intelligenza artificiale più avanzati non siano veramente intelligenti. Non possono risolvere problemi come noi; non possono dimostrare risultati matematici non dimostrati". non può generare nuove idee.

"Pensiamo che sia perché non possono navigare nello spazio concettuale; risolvere problemi complessi è come muoversi nello spazio concettuale, proprio come la navigazione. Ciò che fa l'intelligenza artificiale è più simile all'apprendimento meccanico: tu le dai un input e lei ti dà una risposta. Ma non può sintetizzare idee diverse."

Recentemente, un nuovo articolo del Thomson Laboratory ha scoperto che le reti neurali possono utilizzare un algoritmo chiamato “codifica predittiva” per costruire mappe spaziali. L'articolo è stato pubblicato sulla rivista Nature Machine Intelligence il 18 luglio.



  • Indirizzo cartaceo: https://www.nature.com/articles/s42256-024-00863-1
  • Indirizzo del codice: https://github.com/jgornet/predictive-coding-recovers-maps

Guidati dallo studente laureato James Gornet, i due hanno costruito gli ambienti del gioco Minecraft, incorporando elementi complessi come alberi, fiumi e grotte. Hanno registrato video di giocatori che camminavano in modo casuale nell’area e hanno utilizzato i video per addestrare una rete neurale dotata di un algoritmo di codifica predittiva.

Hanno scoperto che la rete neurale può apprendere come gli oggetti nel mondo di Minecraft sono organizzati tra loro e può "prevedere" l'ambiente che incontrerà spostandosi nello spazio.



La combinazione dell'algoritmo di codifica predittiva e del gioco Minecraft ha "insegnato" con successo alla rete neurale come creare mappe spaziali e quindi utilizzare queste mappe spaziali per prevedere i fotogrammi successivi del video. Il risultato è stato un errore quadratico medio di solo lo 0,094% tra i immagine prevista e immagine finale.

Inoltre, il team ha "acceso" la rete neurale (equivalente all'esame della struttura interna) e ha scoperto che le rappresentazioni di vari oggetti sono memorizzate spazialmente l'una rispetto all'altra. In altre parole, hanno visto una mappa dell'ambiente Minecraft memorizzata in una rete neurale.

Le reti neurali possono navigare nelle mappe fornite loro dai progettisti umani, come le auto a guida autonoma utilizzando il GPS, maQuesta è la prima volta che gli esseri umani dimostrano che le reti neurali possono creare le proprie mappe . Questa capacità di archiviare e organizzare le informazioni spazialmente aiuterà infine le reti neurali a diventare più “intelligenti”, consentendo loro di risolvere problemi veramente complessi come gli esseri umani.

Questo progetto dimostra le reali capacità di consapevolezza spaziale dell’intelligenza artificiale, che non sono ancora viste in tecnologie come Sora di OpenAI, quest'ultimo presenta alcuni strani problemi.

James Gornet è uno studente del Dipartimento di Sistemi Computazionali e Neurali (CNS) del Caltech, che si occupa di neuroscienze, apprendimento automatico, matematica, statistica e biologia.

"Il programma CNS offre davvero a James un posto dove svolgere un lavoro unico che non sarebbe possibile altrove", ha detto Thomson. “Stiamo adottando un approccio di apprendimento automatico ispirato alla biologia che ci consente di decodificare le proprietà del cervello nelle reti neurali artificiali e speriamo di comprendere il cervello a sua volta. Al Caltech abbiamo un team molto ricettivo a questo tipo di approccio lavoro. Comunità."

Rete neurale che esegue la codifica predittiva

Ispirati dalla rappresentazione spaziale implicita nei problemi di inferenza della codifica predittiva, i ricercatori hanno sviluppato un'implementazione computazionale di un agente di codifica predittiva e hanno studiato la rappresentazione spaziale appresa dall'agente durante l'esplorazione di un ambiente virtuale.

Per prima cosa hanno creato un ambiente utilizzando l'ambiente Malmö in Minecraft. L'ambiente fisico ha dimensioni di 40 × 65 tessere e comprende tre aspetti della scena visiva: una grotta fornisce un punto di riferimento visivo globale, una foresta crea somiglianze tra le scene visive e un fiume con un ponte limita il modo in cui l'agente attraversa l’ambiente (Fig. 1a).



L'agente segue un percorso determinato da una ricerca A* per trovare il percorso più breve tra posizioni campionate casualmente e riceve un'immagine visiva su ciascun percorso.

Per eseguire la codifica predittiva, l'autore ha costruito una rete neurale convoluzionale codificatore-decodificatore. Il codificatore adotta l'architettura ResNet-18 e il decodificatore adotta l'architettura convoluzionale ResNet-18 trasposta (Figura 1b). L'architettura codificatore-decodificatore utilizza l'architettura U-Net per trasferire le unità latenti codificate nel decodificatore. L'elaborazione dell'attenzione multi-testa codifica sequenze di unità latenti per codificare storie di osservazioni visive passate. L'attenzione a più teste ha h = 8 teste. Per un'unità latente codificante con dimensioni D = C × H × W, con altezza H, larghezza W e canale C, le dimensioni di una singola testa sono d = C × H × W/h.



I codificatori predittivi approssimano la codifica predittiva riducendo al minimo l'errore quadratico medio tra le osservazioni effettive e le osservazioni previste. Il codificatore predittivo è stato addestrato per 200 epoche su 82.630 campioni utilizzando l'ottimizzazione della discesa del gradiente con momento di Nesterov, decadimento del peso di 5 × 10^(-6), velocità di apprendimento di 10^(-1) e passato attraverso OneCycle. La pianificazione della velocità di apprendimento è aggiustato. L'errore quadratico medio tra l'immagine prevista del codificatore predittivo ottimizzato e l'immagine effettiva è 0,094, con una buona fedeltà visiva (Figura 1c).



Vedi il documento originale per maggiori dettagli.

https://techxplore.com/news/2024-07-neural-network-minecraft.html

https://www.tomshardware.com/tech-industry/artificial-intelligence/neural-network-learns-to-make-maps-with-minecraft-code-available-on-github