le mie informazioni di contatto
Posta[email protected]
2024-07-22
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
Mingmin viene dal Tempio Aofei
Qubit |. Account pubblico QbitAI
La città robotica ultra realistica è qui!
Qui i robot possono fare la spesa nei supermercati come gli esseri umani:
Acquistare la spesa e cucinare a casa:
Prendere il caffè in ufficio (con colleghi umani accanto):
Non solo i robot umanoidi, ma anche i cani robot e i robot braccio possono spostarsi liberamente in questa "città".
Questo è il primo mondo 3D interattivo simulato recentemente proposto dallo Shanghai AI Laboratory:GRUtopia(Nome cinese: Taoyuan).
Ecco, fino a100milaScene interattive e finemente annotate sono liberamente assemblate in ambienti urbani realistici.
Compresi interni ed esterni, ristoranti, supermercati, uffici, case, ecc.89Diverse categorie di scene.
NPC guidati da modelli di grandi dimensioni, puoi parlare e interagire con i robot in questo mondo.
In questo modo, vari robot possono completare varie simulazioni comportamentali in città virtuali, che è il percorso Sim2Real recentemente popolare, che può ridurre notevolmente la difficoltà e il costo della raccolta di dati dal mondo reale dell'intelligenza incarnata.
Il progetto prevede di essere open source e una guida all'installazione demo è attualmente disponibile su GitHub.
Dopo aver completato con successo l'installazione, puoi controllare un robot umanoide affinché si muova nella stanza nella demo e supporti la regolazione di diversi angoli di visione.
Il paradiso virtuale dei robot
Ci sono tre compiti principali:
Tra questi, GRScenes è un set di dati contenente dati di scene su larga scala.
Amplia notevolmente la gamma di ambienti in cui i robot possono muoversi e operare. Il lavoro precedente si concentrava maggiormente sulle scene domestiche.
Lo studio afferma che il loro obiettivo è estendere le capacità dei robot generici a vari scenari di servizio, come supermercati, ospedali, ecc. Copre anche ambienti interni ed esterni, inclusi parchi divertimento, musei, sale espositive, ecc.
Per ciascuna scena è stata eseguita una modellazione dettagliata e di alta qualità e le 100 scene contenevano 2956 oggetti interattivi e 22001 oggetti non interattivi in 96 categorie.
GRResidents è un sistema NPC.
È guidato da modelli di grandi dimensioni e ha una profonda comprensione delle informazioni sulla scena nell'ambiente simulato. Pertanto, gli NPC possono dedurre le relazioni spaziali tra gli oggetti e partecipare a conversazioni dinamiche e assegnazioni di attività.
Con l'aiuto di questo sistema, GRUtopia può generare un gran numero di attività di scena che i robot devono completare.
Attraverso la convalida incrociata con gli esseri umani, il sistema NPC ha una buona precisione nel descrivere e localizzare gli oggetti.
Nell'esperimento di descrizione, lascia che il sistema NPC selezioni casualmente un oggetto da descrivere. Se gli umani riescono a trovare l'oggetto corrispondente, verrà considerato riuscito.
Nell'esperimento di posizionamento è vero il contrario, se il sistema NPC riesce a trovare l'oggetto corrispondente in base alla descrizione fornita dagli esseri umani, avrà successo.
Le percentuali di successo nel chiamare diversi modelli di grandi dimensioni sono diverse. Nel complesso, GPT-4o offre le prestazioni migliori.
GRBench è un benchmark che valuta le prestazioni dell'intelligenza incorporata.
Contiene 3 parametri di riferimento, che coinvolgono Object Loco-Navigation, Social Loco-Navigation e Loco-Manipulation. La difficoltà di queste tre valutazioni aumenta gradualmente.
Al fine di analizzare le prestazioni di NPC e API di controllo, lo studio propone una linea di base basata su LLM e VLM per verificare la razionalità della progettazione della linea di base.
I risultati sperimentali mostrano che l’utilizzo di modelli di grandi dimensioni come agenti di backend offre prestazioni migliori su tutti i benchmark rispetto alle strategie casuali.
EQwen-VL supera GPT-4o nei dialoghi。
Alla fine, da un confronto generale, altre piattaforme GRUtopia sono più potenti in ogni dimensione.
Il lavoro di ricerca è stato condotto dal laboratorio di intelligenza artificiale di Shanghai OpenRobot Lab.
Il laboratorio si concentra sulla ricerca sull'intelligenza artificiale generale incorporata e si impegna a costruire un sistema di algoritmi robotici generali che integri software, hardware, realtà virtuale e realtà.
Nel maggio di quest'anno, il team ha anche rilasciato Grounded 3D-LLM, un grande modello multimodale incorporato, in grado di generare automaticamente descrizioni di scene e dati di dialogo incorporati dagli oggetti alle aree locali, alleviando efficacemente i limiti dell'attuale comprensione della scena tridimensionale.
Indirizzo cartaceo:
https://arxiv.org/abs/2407.10943
Indirizzo GitHub:
https://github.com/openrobotlab/grutopia?tab=readme-ov-file