notizia

Il primo al mondo!Esaminati quasi 400 documenti, Pengcheng Laboratory

2024-07-26

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

La rubrica AIxiv è una rubrica in cui Machine Heart pubblica contenuti accademici e tecnici. Negli ultimi anni, la rubrica Heart of the Machine AIxiv ha ricevuto più di 2.000 segnalazioni, riguardanti i migliori laboratori delle principali università e aziende di tutto il mondo, promuovendo efficacemente gli scambi accademici e la divulgazione. Se hai un lavoro eccellente che desideri condividere, non esitare a contribuire o contattarci per segnalarlo. E-mail di presentazione: [email protected] [email protected];

L’intelligenza incorporata è l’unico modo per raggiungere l’intelligenza artificiale generale. Il suo nucleo è completare compiti complessi attraverso l’interazione di agenti intelligenti con lo spazio digitale e il mondo fisico. Negli ultimi anni, i grandi modelli multimodali e la tecnologia robotica hanno fatto grandi progressi e l’intelligenza incorporata è diventata un nuovo focus della tecnologia globale e della competizione industriale. Tuttavia, attualmente manca una revisione in grado di analizzare in modo completo lo stato attuale dello sviluppo dell’intelligenza incarnata. Perciò,L’Istituto di multi-agente e intelligenza incorporata del Laboratorio Pengcheng collabora con i ricercatori del Laboratorio HCP dell’Università di Sun Yat-sen, un'analisi completa degli ultimi sviluppi nell'intelligenza incarnata,Lanciato il primo studio al mondo sull'intelligenza incarnata nell'era dei grandi modelli multimodali.

Questa revisione ha esaminato quasi 400 documenti e condotto un’analisi completa della ricerca sull’intelligenza incarnata da più dimensioni.Questa recensione introduce innanzitutto alcuni rappresentantiRobot incarnati e piattaforme di simulazione incarnata , fornisce un'analisi approfondita del focus e dei limiti della sua ricerca. Successivamente, vengono analizzati in modo approfondito quattro principali contenuti della ricerca: 1)percezione incarnata,2)interazione incarnata,3)intelligenza incarnatae 4)Migrazione dal virtuale alla realtà , questi contenuti di ricerca coprono metodi all'avanguardia, paradigmi di base e set di dati completi. Inoltre, la revisione esplora le sfide affrontate dagli agenti incarnati negli spazi digitali e nei mondi fisici, sottolineando la loro importanza per l’interazione attiva in ambienti digitali e fisici dinamici. Infine, la revisione riassume le sfide e i limiti dell’intelligenza incarnata e ne discute le potenziali direzioni future. Questa revisione spera di fornire un riferimento di base per la ricerca sull’intelligenza incorporata e promuovere la relativa innovazione tecnologica. Inoltre, questa recensione ha anche pubblicato un elenco di documenti di intelligence incorporati su Github. I documenti correlati e i repository di codici verranno aggiornati continuamente, quindi prestare attenzione.



Indirizzo del documento: https://arxiv.org/pdf/2407.06886

Elenco dei documenti sull'intelligence incorporata: https://github.com/HCPLab-SYSU/Embody_AI_Paper_List

1. Le vite passate e presenti dell'intelligenza incarnata

Il concetto di intelligenza incarnata è stato proposto per la prima volta da Alan Turing nell'Embody Turing Test istituito nel 1950 per determinare se un agente può mostrare intelligenza (intelligenza) che non si limita a risolvere problemi astratti in un ambiente virtuale (spazio digitale). base dell’intelligenza incarnata, esistente sia nello spazio digitale che nel mondo fisico, e incarnata sotto forma di varie entità, inclusi non solo robot ma anche altri dispositivi, e in grado di far fronte alla complessità e all’incomprensibilità del mondo fisico. Pertanto, lo sviluppo dell’intelligenza incarnata è considerato un modo fondamentale per raggiungere l’intelligenza artificiale generale. È particolarmente importante approfondire la complessità dell’intelligenza incarnata, valutare il suo attuale stato di sviluppo e considerare la sua traiettoria futura.Oggi, l’intelligenza incarnata copre molte tecnologie chiave come la visione artificiale, l’elaborazione del linguaggio naturale e la robotica, la più rappresentativa delle quali èPercezione incarnata, interazione incarnata, intelligenza incarnata e trasferimento dalla virtuale alla realtà . Nei compiti incarnati, gli agenti incarnati devono comprendere appieno le intenzioni umane nelle istruzioni linguistiche, esplorare in modo proattivo l'ambiente circostante, percepire in modo completo elementi multimodali da ambienti virtuali e fisici ed eseguire operazioni appropriate per completare compiti complessi. Il rapido progresso dei modelli multimodali dimostra una maggiore diversità, flessibilità e capacità di generalizzazione rispetto ai tradizionali metodi di apprendimento con rinforzo profondo in ambienti complessi. Le rappresentazioni visive pre-addestrate da codificatori visivi all'avanguardia forniscono stime precise di categorie di oggetti, pose e geometrie, consentendo ai modelli incorporati di percepire in modo completo ambienti complessi e dinamici. Potenti modelli linguistici di grandi dimensioni consentono ai robot di comprendere meglio le istruzioni del linguaggio umano e forniscono un modo fattibile per allineare le rappresentazioni visive e linguistiche per i robot incarnati. I modelli mondiali dimostrano significative capacità di simulazione e una buona comprensione delle leggi fisiche, consentendo ai modelli incorporati di comprendere appieno la fisica e gli ambienti reali. Questi progressi consentono all’intelligenza incorporata di percepire in modo completo ambienti complessi, interagire in modo naturale con gli esseri umani ed eseguire compiti in modo affidabile. La figura seguente mostra l'architettura tipica di un agente incorporato.



Struttura dell'intelligenza incorporata

In questa recensione, forniamo una panoramica completa degli attuali progressi nell’intelligenza incorporata, tra cui: (1)robot incarnato——Soluzioni hardware per l'intelligenza incarnata nel mondo fisico (2)Piattaforma di simulazione incorporata——Uno spazio digitale per formare agenti incarnati in modo efficiente e sicuro (3)percezione incarnata—— Percepire attivamente lo spazio 3D e integrare molteplici modalità sensoriali (4)interazione incarnata——Interagire con l'ambiente in modo efficace e ragionevole e persino modificare l'ambiente per completare i compiti designati (5)intelligenza incarnata——Utilizzare modelli multimodali di grandi dimensioni per comprendere istruzioni astratte e suddividerle in una serie di sottoattività e quindi completarle passo dopo passo (6)Migrazione dal virtuale alla realtà ——Trasferire e generalizzare le competenze apprese nello spazio digitale nel mondo fisico. La figura seguente mostra la struttura del sistema dell’intelligenza incarnata dallo spazio digitale al mondo fisico. Questa recensione mira a fornire una conoscenza di base completa, tendenze di ricerca e approfondimenti tecnici sull’intelligenza incarnata.



La struttura generale di questa recensione

2. Robot incarnati

L’intelligenza incorporata interagisce attivamente con l’ambiente fisico e copre un’ampia gamma di forme incarnate, inclusi robot, elettrodomestici intelligenti, occhiali intelligenti e veicoli autonomi. Tra questi, i robot, in quanto una delle forme incarnate più importanti, hanno attirato molta attenzione. A seconda dei diversi scenari applicativi, i robot sono progettati in varie forme per sfruttare appieno le loro funzionalità hardware per completare compiti specifici. Come mostrato nella figura seguente, i robot incorporati possono generalmente essere suddivisi in: (1) robot a base fissa, come i bracci robotici, che sono spesso utilizzati nella sintesi dell'automazione di laboratorio, nell'istruzione, nell'industria e in altri campi (2) robot su ruote, che sono altamente efficienti Famoso per la sua mobilità, è ampiamente utilizzato nella logistica, nello stoccaggio e nelle ispezioni di sicurezza (3) I robot cingolati, con forti capacità fuoristrada e mobilità, hanno mostrato potenziale nell'agricoltura, nell'edilizia e nella risposta alle catastrofi; Quadrupedi Il robot, noto per la sua stabilità e adattabilità, è ideale per il rilevamento su terreni complessi, missioni di salvataggio e applicazioni militari. (5) I robot umanoidi, con le loro mani abili come chiave, sono ampiamente utilizzati nel settore dei servizi, nella sanità e negli ambienti collaborativi. (6) I robot bionici svolgono compiti in ambienti complessi e dinamici simulando i movimenti e le funzioni effettivi degli organismi naturali.



Diverse forme di robot incarnati

3. Piattaforma di simulazione intelligente incorporata

Le piattaforme di simulazione dell'intelligenza incorporata sono fondamentali per l'intelligenza incorporata perché forniscono mezzi di sperimentazione economicamente vantaggiosi, la capacità di garantire la sicurezza simulando scenari potenzialmente pericolosi, la scalabilità per testare in ambienti diversi e la capacità di prototipare rapidamente Capacità di progettazione che facilitano il più ampio comunità di ricerca, fornire un ambiente controllato per ricerche precise, generare dati per la formazione e la valutazione e fornire un punto di riferimento standardizzato per il confronto degli algoritmi. Affinché l'agente possa interagire con l'ambiente, è necessario costruire un ambiente simulato realistico. Ciò richiede di tenere conto delle caratteristiche fisiche dell’ambiente, delle proprietà degli oggetti e delle loro interazioni. Come mostrato nella figura seguente, questa recensione analizzerà due piattaforme di simulazione: una piattaforma generale basata sulla simulazione sottostante e una piattaforma di simulazione basata su scenari reali.



Piattaforma di simulazione universale



Piattaforma di simulazione basata su scenari reali

4. Percezione incarnata

La “Stella Polare” della futura percezione visiva è il ragionamento visivo e l’intelligenza sociale incentrati sull’incarnazione. Come mostrato nella figura seguente, invece di riconoscere semplicemente gli oggetti nelle immagini, gli agenti con percezione incarnata devono muoversi nel mondo fisico e interagire con l'ambiente, il che richiede una comprensione più approfondita dello spazio tridimensionale e degli ambienti dinamici. La percezione incarnata richiede capacità di percezione visiva e di ragionamento, comprensione delle relazioni tridimensionali in una scena e previsione ed esecuzione di compiti complessi basati su informazioni visive. Questa recensione introduce la percezione visiva attiva, la localizzazione visiva 3D, la navigazione del linguaggio visivo, la percezione non visiva (sensori tattili), ecc.



Quadro di percezione visiva attiva

5. Interazione incarnata

L'interazione incarnata si riferisce a scenari in cui un agente interagisce con gli esseri umani e l'ambiente in uno spazio fisico o simulato. I compiti tipici dell'interazione incorporata includono la risposta alle domande incarnate e l'afferrare incarnato. Come mostrato nella figura seguente, nell'attività incorporata di domanda e risposta, l'agente deve esplorare l'ambiente da una prospettiva in prima persona per raccogliere le informazioni necessarie per rispondere alla domanda. Un agente con capacità decisionali e di esplorazione autonoma non deve solo considerare quali azioni intraprendere per esplorare l'ambiente, ma anche decidere quando interrompere l'esplorazione per rispondere alle domande, come mostrato nella figura seguente.



Quadro di domande e risposte incorporato

Oltre alle interazioni di domande e risposte con gli esseri umani, l’interazione incarnata implica anche l’esecuzione di operazioni basate su istruzioni umane, come afferrare e posizionare oggetti, completando così l’interazione tra agenti, esseri umani e oggetti. Come mostrato, la presa incarnata richiede una comprensione semantica completa, consapevolezza della scena, processo decisionale e una solida pianificazione del controllo. Il metodo di presa incarnata combina la tradizionale presa cinematica dei robot con modelli su larga scala (come modelli linguistici di grandi dimensioni e modelli di base del linguaggio visivo), consentendo agli agenti di eseguire compiti di presa con una percezione multisensoriale, inclusa la percezione visiva attiva, la comprensione del linguaggio e il ragionamento.



Framework di scansione interattiva guidato dal linguaggio

6. Intelligenza incarnata

Un agente è definito come un'entità autonoma in grado di percepire l'ambiente e intraprendere azioni per raggiungere obiettivi specifici. I recenti progressi nei modelli multimodali di grandi dimensioni hanno ulteriormente ampliato l’applicazione degli agenti in scenari del mondo reale. Quando questi grandi agenti multimodali basati su modelli vengono incarnati in entità fisiche, sono in grado di trasferire efficacemente le loro capacità dallo spazio virtuale al mondo fisico, diventando così agenti incarnati. Affinché gli agenti incarnati possano operare nel mondo reale complesso e ricco di informazioni, sono stati sviluppati con potenti capacità di percezione, interazione e pianificazione multimodali. Come mostrato nella figura seguente, per completare un'attività, un agente incarnato solitamente coinvolge i seguenti processi:

(1) Scomporre compiti astratti e complessi in sotto-compiti specifici, ovvero pianificazione di compiti incorporati di alto livello.

(2) Implementare gradualmente questi sotto-compiti utilizzando in modo efficace i modelli di percezione incarnata e di interazione incarnata, o utilizzando le funzioni strategiche del modello di base, che è chiamato pianificazione dell'azione incarnata di basso livello.

Vale la pena notare che la pianificazione della missione implica pensare prima di agire e quindi è spesso considerata in uno spazio digitale. Al contrario, la pianificazione dell’azione deve tenere conto delle interazioni efficaci con l’ambiente e fornire queste informazioni al pianificatore della missione per adeguare la pianificazione della missione. Pertanto, è fondamentale per gli agenti incarnati allineare e generalizzare le proprie capacità dallo spazio digitale al mondo fisico.



Framework di agenti incarnati basato su grandi modelli multimodali

7. Migrazione dal virtuale alla realtà

L'adattamento da simulazione a reale nell'intelligenza incarnata si riferisce al processo di trasferimento di abilità o comportamenti appresi in un ambiente simulato (spazio digitale) al mondo reale (mondo fisico). Il processo include la convalida e il miglioramento dell'efficacia di algoritmi, modelli e strategie di controllo sviluppati nella simulazione per garantire che funzionino in modo stabile e affidabile nell'ambiente fisico. Per ottenere l'adattamento dalla simulazione alla realtà, i modelli del mondo incarnato, i metodi di raccolta e addestramento dei dati e gli algoritmi di controllo incarnati sono tre elementi chiave. La figura seguente mostra cinque diversi paradigmi Sim-to-Real.



Cinque opzioni di migrazione dalla realtà virtuale alla realtà

8. Sfide e direzioni di sviluppo futuro

Sebbene l’intelligenza incarnata si stia sviluppando rapidamente, deve affrontare diverse sfide e presenta entusiasmanti direzioni future:

(1)Set di dati del robot di alta qualità . Ottenere dati robotici sufficienti nel mondo reale rimane una sfida significativa. La raccolta di questi dati richiede tempo e molte risorse. Basarsi esclusivamente su dati simulati aggraverà il problema del divario tra simulazione e realtà. La creazione di diversi set di dati sulla robotica del mondo reale richiede una stretta ed ampia collaborazione tra le istituzioni. Inoltre, lo sviluppo di simulatori più realistici ed efficienti è fondamentale per migliorare la qualità dei dati di simulazione. Per costruire un modello incarnato universale in grado di realizzare applicazioni multiscenario e multitasking nel campo della robotica, è necessario costruire set di dati su larga scala e utilizzare dati ambientali simulati di alta qualità per supportare i dati del mondo reale.

(2)Uso efficace dei dati dimostrativi umani . L’utilizzo efficiente dei dati dimostrativi umani implica lo sfruttamento delle azioni e dei comportamenti dimostrati dagli esseri umani per addestrare e migliorare i sistemi robotici. Questo processo prevede la raccolta, l’elaborazione e l’apprendimento da set di dati su larga scala e di alta qualità, con gli esseri umani che eseguono i compiti che il robot deve apprendere. Pertanto, è importante utilizzare in modo efficace grandi quantità di dati dimostrativi umani non strutturati, multietichetta e multimodali combinati con dati di etichette di azioni per addestrare modelli incarnati in grado di apprendere una varietà di compiti in un tempo relativamente breve. Sfruttando in modo efficiente i dati dimostrativi umani, i sistemi robotici possono raggiungere livelli più elevati di prestazioni e adattabilità, rendendoli maggiormente in grado di eseguire compiti complessi in ambienti dinamici.

(3)Cognizione dell'ambiente complesso . La cognizione dell’ambiente complesso si riferisce alla capacità degli agenti incarnati di percepire, comprendere e navigare in ambienti complessi del mondo reale in ambienti fisici o virtuali. Per gli ambienti aperti non strutturati, il lavoro attuale di solito si basa sul meccanismo di scomposizione delle attività di LLM pre-addestrato, utilizzando un'ampia conoscenza del buon senso per una semplice pianificazione delle attività, ma manca una comprensione specifica della scena. Migliorare il trasferimento e la generalizzazione della conoscenza in ambienti complessi è fondamentale. Un sistema robotico veramente versatile dovrebbe essere in grado di comprendere ed eseguire istruzioni in linguaggio naturale in una varietà di scenari diversi e invisibili. Ciò richiede lo sviluppo di architetture di agenti incorporati adattabili e scalabili.

(4)Esecuzione di attività a lungo raggio . L'esecuzione di un singolo comando di solito implica che il robot esegua un compito a lungo raggio, come un comando come "pulire la cucina", che comporta riorganizzare gli oggetti, spazzare il pavimento, pulire i tavoli e altre attività. Per completare con successo queste attività è necessario che il robot sia in grado di pianificare ed eseguire una serie di azioni di basso livello per un lungo periodo di tempo. Sebbene gli attuali pianificatori di compiti di alto livello abbiano mostrato un successo iniziale, spesso falliscono in diversi scenari a causa della mancanza di adattamento ai compiti incarnati. Affrontare questa sfida richiede lo sviluppo di pianificatori efficienti con forti capacità percettive e una vasta conoscenza del buon senso.

(5)Scoperta causale . Gli agenti incorporati basati sui dati esistenti prendono decisioni in base alle correlazioni all'interno dei dati. Tuttavia, questo metodo di modellazione non può consentire al modello di comprendere veramente la relazione causale tra conoscenza, comportamento e ambiente, dando luogo a strategie distorte. Ciò li rende difficili da operare in modo interpretabile, robusto e affidabile negli ambienti del mondo reale. Pertanto, l’intelligenza incarnata deve essere guidata dalla conoscenza del mondo e avere capacità di ragionamento causale autonome.

(6)Apprendimento continuo . Nelle applicazioni di robotica, l’apprendimento continuo è fondamentale per l’implementazione di strategie di apprendimento dei robot in ambienti diversi, ma quest’area rimane sottoesplorata. Sebbene alcune ricerche recenti abbiano esplorato i sottoargomenti dell’apprendimento continuo, come l’apprendimento incrementale, l’adattamento rapido del movimento e l’apprendimento basato sull’interazione uomo-computer, queste soluzioni sono solitamente progettate per una singola attività o piattaforma e non hanno ancora considerato il modello sottostante. Le domande di ricerca aperte e i possibili approcci includono: 1) combinare diverse proporzioni di distribuzioni di dati precedenti durante la messa a punto dei dati più recenti per mitigare l'oblio catastrofico, 2) sviluppare prototipi efficienti da distribuzioni precedenti o corsi per l'apprendimento dell'inferenza di nuovi compiti, 3) migliorare la stabilità dell'addestramento ed efficienza del campione degli algoritmi di apprendimento online, 4) identificare metodi di principio per integrare perfettamente modelli di grande capacità in quadri di controllo, possibilmente attraverso l'apprendimento gerarchico o il controllo lento-veloce, per ottenere un ragionamento in tempo reale.

(7)Punto di riferimento di valutazione unificato . Sebbene esistano molti parametri di riferimento per valutare le strategie di controllo di basso livello, spesso differiscono in modo significativo nelle loro capacità di valutazione. Inoltre, gli oggetti e le scene inclusi in questi benchmark sono spesso limitati al simulatore. Per valutare appieno i modelli incarnati, sono necessari parametri di riferimento che coprano molteplici competenze utilizzando simulatori realistici. In termini di pianificazione delle attività di alto livello, molti parametri di riferimento valutano le capacità di pianificazione attraverso attività di domande e risposte. Tuttavia, un approccio più ideale sarebbe quello di valutare in modo completo le capacità di esecuzione dei pianificatori di missione di alto livello e le strategie di controllo di basso livello, soprattutto nell’esecuzione di missioni di lunga durata e misurare i tassi di successo, piuttosto che fare affidamento esclusivamente sulla valutazione dei soli pianificatori. Questo approccio globale consente una valutazione più completa delle capacità dei sistemi intelligenti incorporati.

In breve, l’intelligenza incarnata consente agli agenti intelligenti di percepire, riconoscere e interagire con vari oggetti nello spazio digitale e nel mondo fisico, dimostrando la sua importanza nella realizzazione dell’intelligenza artificiale generale. Questa recensione fornisce una revisione completa dei robot incarnati, delle piattaforme di simulazione incarnata, della percezione incarnata, dell'interazione incarnata, degli agenti incarnati, del controllo dei robot dalla realtà virtuale e delle direzioni di ricerca future, che sono preziose per promuovere lo sviluppo dell'intelligenza incarnata.

Informazioni sul Laboratorio Pengcheng Istituto di intelligenza multi-agente e incorporata

L'Istituto di multi-agente e intelligenza incorporata, affiliato al Laboratorio Pengcheng, riunisce dozzine dei migliori giovani scienziati nei campi della scienza intelligente e della robotica. Si basa su infrastrutture di intelligenza artificiale indipendenti e controllabili come Pengcheng Cloud Brain e China Computing Network impegnata nella costruzione di piattaforme di base universali come la collaborazione multi-agente e le piattaforme di formazione simulata e i grandi modelli multimodali incorporati collaborativi basati sul cloud che potenziano le principali esigenze applicative come Internet industriale, governance sociale e servizi.