notizia

"Incarnata Smart Town" è qui! Il robot va al supermercato, compra la spesa e corre per le strade, da Shanghai AI Lab

2024-07-22

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Mingmin viene dal Tempio Aofei
Qubit |. Account pubblico QbitAI

La città robotica ultra realistica è qui!

Qui i robot possono fare la spesa nei supermercati come gli esseri umani:



Acquistare la spesa e cucinare a casa:



Prendere il caffè in ufficio (con colleghi umani accanto):



Non solo i robot umanoidi, ma anche i cani robot e i robot braccio possono spostarsi liberamente in questa "città".



Questo è il primo mondo 3D interattivo simulato recentemente proposto dallo Shanghai AI Laboratory:GRUtopia(Nome cinese: Taoyuan).

Ecco, fino a100milaScene interattive e finemente annotate sono liberamente assemblate in ambienti urbani realistici.

Compresi interni ed esterni, ristoranti, supermercati, uffici, case, ecc.89Diverse categorie di scene.



NPC guidati da modelli di grandi dimensioni, puoi parlare e interagire con i robot in questo mondo.



In questo modo, vari robot possono completare varie simulazioni comportamentali in città virtuali, che è il percorso Sim2Real recentemente popolare, che può ridurre notevolmente la difficoltà e il costo della raccolta di dati dal mondo reale dell'intelligenza incarnata.

Il progetto prevede di essere open source e una guida all'installazione demo è attualmente disponibile su GitHub.

Dopo aver completato con successo l'installazione, puoi controllare un robot umanoide affinché si muova nella stanza nella demo e supporti la regolazione di diversi angoli di visione.



Il paradiso virtuale dei robot

Ci sono tre compiti principali:

  • Scene GR
  • GRResidenti
  • Panchina GR

Tra questi, GRScenes è un set di dati contenente dati di scene su larga scala.

Amplia notevolmente la gamma di ambienti in cui i robot possono muoversi e operare. Il lavoro precedente si concentrava maggiormente sulle scene domestiche.

Lo studio afferma che il loro obiettivo è estendere le capacità dei robot generici a vari scenari di servizio, come supermercati, ospedali, ecc. Copre anche ambienti interni ed esterni, inclusi parchi divertimento, musei, sale espositive, ecc.

Per ciascuna scena è stata eseguita una modellazione dettagliata e di alta qualità e le 100 scene contenevano 2956 oggetti interattivi e 22001 oggetti non interattivi in ​​96 categorie.



GRResidents è un sistema NPC.

È guidato da modelli di grandi dimensioni e ha una profonda comprensione delle informazioni sulla scena nell'ambiente simulato. Pertanto, gli NPC possono dedurre le relazioni spaziali tra gli oggetti e partecipare a conversazioni dinamiche e assegnazioni di attività.

Con l'aiuto di questo sistema, GRUtopia può generare un gran numero di attività di scena che i robot devono completare.



Attraverso la convalida incrociata con gli esseri umani, il sistema NPC ha una buona precisione nel descrivere e localizzare gli oggetti.

Nell'esperimento di descrizione, lascia che il sistema NPC selezioni casualmente un oggetto da descrivere. Se gli umani riescono a trovare l'oggetto corrispondente, verrà considerato riuscito.

Nell'esperimento di posizionamento è vero il contrario, se il sistema NPC riesce a trovare l'oggetto corrispondente in base alla descrizione fornita dagli esseri umani, avrà successo.



Le percentuali di successo nel chiamare diversi modelli di grandi dimensioni sono diverse. Nel complesso, GPT-4o offre le prestazioni migliori.



GRBench è un benchmark che valuta le prestazioni dell'intelligenza incorporata.

Contiene 3 parametri di riferimento, che coinvolgono Object Loco-Navigation, Social Loco-Navigation e Loco-Manipulation. La difficoltà di queste tre valutazioni aumenta gradualmente.



Al fine di analizzare le prestazioni di NPC e API di controllo, lo studio propone una linea di base basata su LLM e VLM per verificare la razionalità della progettazione della linea di base.



I risultati sperimentali mostrano che l’utilizzo di modelli di grandi dimensioni come agenti di backend offre prestazioni migliori su tutti i benchmark rispetto alle strategie casuali.

EQwen-VL supera GPT-4o nei dialoghi



Alla fine, da un confronto generale, altre piattaforme GRUtopia sono più potenti in ogni dimensione.



Il lavoro di ricerca è stato condotto dal laboratorio di intelligenza artificiale di Shanghai OpenRobot Lab.

Il laboratorio si concentra sulla ricerca sull'intelligenza artificiale generale incorporata e si impegna a costruire un sistema di algoritmi robotici generali che integri software, hardware, realtà virtuale e realtà.

Nel maggio di quest'anno, il team ha anche rilasciato Grounded 3D-LLM, un grande modello multimodale incorporato, in grado di generare automaticamente descrizioni di scene e dati di dialogo incorporati dagli oggetti alle aree locali, alleviando efficacemente i limiti dell'attuale comprensione della scena tridimensionale.



Indirizzo cartaceo:
https://arxiv.org/abs/2407.10943

Indirizzo GitHub:
https://github.com/openrobotlab/grutopia?tab=readme-ov-file