"Embodied Smart Town" on täällä! Robotit käyvät ostoksilla supermarketeissa ja juoksentelevat kaduilla Shanghai AI Lab

"Embodied Smart Town" on täällä! Robotit käyvät supermarketeissa, ostavat elintarvikkeita ja juoksevat kaduilla Shanghain AI Labista

2024-07-22

Mingmin tulee Aofein temppelistä
Qubits |. Julkinen tili QbitAI

Ultrarealistinen robottikaupunki on täällä!

Täällä robotit voivat tehdä ostoksia supermarketeissa ihmisten tavoin:

Elintarvikkeiden ostaminen ja ruoanlaitto kotona:

Kahvin nouto toimistossa (ihmisten kanssa vieressäsi):

Humanoidirobotit, mutta myös robottikoirat ja käsivarsirobotit voivat kulkea vapaasti tässä "kaupungissa".

Tämä on ensimmäinen simuloitu interaktiivinen 3D-maailma, jonka Shanghai AI Laboratory on äskettäin ehdottanut:GRUtopia(kiinalainen nimi: Taoyuan).

Täällä jopa100kInteraktiiviset, hienosti merkityt kohtaukset kootaan vapaasti realistisiksi kaupunkiympäristöiksi.

Sisältää sisällä ja ulkona, ravintolat, supermarketit, toimistot, kodit jne.89Eri kohtausluokat.

Suuret mallikäyttöiset NPC:t, voit puhua ja olla vuorovaikutuksessa robottien kanssa tässä maailmassa.

Tällä tavalla erilaiset robotit voivat suorittaa erilaisia käyttäytymissimulaatioita virtuaalikaupungissa, joka on viime aikoina suosittu Sim2Real-reitti, mikä voi merkittävästi vähentää ruumiillistuneen älykkään reaalimaailman datan keräämisen vaikeutta ja kustannuksia.

Projekti aikoo olla avoimen lähdekoodin, ja demo-asennusopas on tällä hetkellä saatavilla GitHubissa.

Onnistuneen asennuksen jälkeen voit ohjata humanoidirobottia liikkumaan huoneessa demossa ja tukea eri katselukulmien säätämistä.

Virtuaalinen paratiisi roboteille

Keskeisiä tehtäviä on kolme:

GRScenes
GR-asukkaat
GRBench

Niistä GRScenes on tietojoukko, joka sisältää suuren mittakaavan kohtausdataa.

Se laajentaa huomattavasti ympäristöjen valikoimaa, joissa robotit voivat liikkua ja toimia. Aikaisempi työ keskittyi enemmän kotimaisemiin.

Tutkimuksessa todettiin, että heidän tavoitteenaan on laajentaa yleiskäyttöisten robottien kykyjä erilaisiin palveluskenaarioihin, kuten supermarketteihin, sairaaloihin jne. Se kattaa myös sisä- ja ulkoympäristöt, kuten huvipuistot, museot, näyttelyhallit jne.

Jokaiselle kohtaukselle he suorittivat yksityiskohtaisen ja laadukkaan mallinnuksen, ja 100 kohtausta sisälsivät 2956 interaktiivista kohdetta ja 22001 ei-interaktiivista kohdetta 96 kategoriassa.

GResidents on NPC-järjestelmä.

Sitä ohjaavat suuret mallit samalla kun se on hyvin perillä simuloidun ympäristön kohtaustiedoista. Siksi NPC:t voivat päätellä objektien välisiä tilasuhteita ja osallistua dynaamisiin keskusteluihin ja tehtävämäärityksiin.

Tämän järjestelmän avulla GRUtopia voi luoda suuren määrän kohtaustehtäviä robottien suoritettaviksi.

Ihmisten kanssa tehdyn ristiinvalidoinnin ansiosta NPC-järjestelmällä on hyvä tarkkuus kuvattaessa ja paikantaessa kohteita.

Anna NPC-järjestelmän valita kuvauskokeessa satunnaisesti kuvattava kohde. Jos ihmiset löytävät vastaavan kohteen, sitä pidetään onnistuneena.

Paikannuskokeessa on päinvastoin, jos NPC-järjestelmä löytää vastaavan kohteen ihmisen antaman kuvauksen perusteella, se onnistuu.

Eri suurten mallien soittamisen onnistumisprosentit ovat erilaisia Kaiken kaikkiaan GPT-4o toimii parhaiten.

GRBench on benchmark, joka arvioi ruumiillistuneen älykkyyden suorituskykyä.

Se sisältää 3 vertailuarvoa, mukaan lukien kohde-navigointi, sosiaalinen loko-navigointi ja loko-manipulaatio. Näiden kolmen arvioinnin vaikeus kasvaa vähitellen.

NPC:n ja ohjaus-API:n suorituskyvyn analysoimiseksi tutkimuksessa ehdotetaan LLM:ään ja VLM:ään perustuvaa lähtötasoa, jolla varmistetaan perussuunnitelman rationaalisuus.

Kokeelliset tulokset osoittavat, että suurten mallien käyttäminen tausta-agentteina toimii paremmin kaikissa vertailuarvoissa satunnaisiin strategioihin verrattuna.

jaQwen-VL on parempi kuin GPT-4o dialogissa。

Viimeisessä vertailussa muut GRUtopia-alustat ovat tehokkaampia jokaisessa ulottuvuudessa.

Tutkimustyötä johti Shanghai Artificial Intelligence Laboratory OpenRobot Lab.

Laboratorio keskittyy ruumiillistuneen yleisen tekoälyn tutkimukseen ja on sitoutunut rakentamaan yleisen robottialgoritmijärjestelmän, joka yhdistää ohjelmistot, laitteistot, virtuaalitodellisuuden ja todellisuuden.

Tämän vuoden toukokuussa tiimi julkaisi myös Grounded 3D-LLM:n, sisältyneen multimodaalisen suuren mallin, joka voi automaattisesti luoda kohtauskuvauksia ja sisällytettyä dialogitietoja kohteista paikallisille alueille, mikä lieventää tehokkaasti nykyisen kolmiulotteisen kohtauksen ymmärtämisen rajoituksia.

Paperiosoite:
https://arxiv.org/abs/2407.10943

GitHub-osoite:
https://github.com/openrobotlab/grutopia?tab=readme-ov-file

uutiset

"Embodied Smart Town" on täällä! Robotit käyvät supermarketeissa, ostavat elintarvikkeita ja juoksevat kaduilla Shanghain AI Labista

Johdanto

yhteystietoni