berita

"Kota Cerdas yang Terwujud" telah hadir! Robot tersebut pergi ke supermarket dan membeli bahan makanan serta berlarian di jalanan, dari Shanghai AI Lab

2024-07-22

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Mingmin berasal dari Kuil Aofei
Qubit |. Akun publik QbitAI

Kota robot ultra-realistis telah hadir!

Di sini, robot bisa berbelanja di supermarket seperti manusia:



Membeli bahan makanan dan memasak di rumah:



Mengambil kopi di kantor (dengan rekan kerja di sebelah Anda):



Tidak hanya robot humanoid, robot anjing dan robot lengan juga bisa terbang bebas di "kota" ini.



Ini adalah simulasi dunia 3D interaktif pertama yang baru-baru ini diusulkan oleh Shanghai AI Laboratory:GRUtopi(Nama Cina: Taoyuan).

Di sini, hingga100 ribuAdegan yang interaktif dan diberi anotasi halus dirangkai secara bebas menjadi lingkungan perkotaan yang realistis.

Termasuk dalam dan luar ruangan, restoran, supermarket, kantor, rumah, dll.89Kategori adegan berbeda.



NPC yang digerakkan oleh model besar, Anda dapat berbicara dan berinteraksi dengan robot di dunia ini.



Dengan cara ini, berbagai robot dapat menyelesaikan berbagai simulasi perilaku di kota virtual, yang merupakan rute Sim2Real yang baru-baru ini populer, yang dapat sangat mengurangi kesulitan dan biaya pengumpulan data dari dunia nyata dari kecerdasan yang diwujudkan.

Proyek ini berencana untuk menjadi open source, dan panduan instalasi demo saat ini tersedia di GitHub.

Setelah instalasi berhasil, Anda dapat mengontrol robot humanoid untuk bergerak di dalam ruangan dalam demo, dan mendukung penyesuaian sudut pandang yang berbeda.



Surga virtual bagi robot

Ada tiga tugas inti:

  • Adegan GRS
  • Penduduk GR
  • bangku GR

Diantaranya, GRScenes adalah kumpulan data yang berisi data pemandangan berskala besar.

Ini sangat memperluas jangkauan lingkungan di mana robot dapat bergerak dan beroperasi.

Studi tersebut menyatakan bahwa tujuan mereka adalah untuk memperluas kemampuan robot serba guna ke berbagai skenario layanan, seperti supermarket, rumah sakit, dll. Ini juga mencakup lingkungan dalam dan luar ruangan, termasuk taman hiburan, museum, ruang pameran, dll.

Untuk setiap adegan, mereka melakukan pemodelan detail dan berkualitas tinggi, dan 100 adegan tersebut berisi 2.956 objek interaktif dan 22.001 objek non-interaktif dalam 96 kategori.



GRResidents adalah sistem NPC.

Ia didorong oleh model besar dan memiliki pemahaman mendalam tentang informasi pemandangan di lingkungan simulasi. Oleh karena itu, NPC dapat menyimpulkan hubungan spasial antar objek dan berpartisipasi dalam percakapan dinamis dan penetapan tugas.

Dengan bantuan sistem ini, GRUtopia dapat menghasilkan sejumlah besar tugas adegan untuk diselesaikan oleh robot.



Melalui validasi silang dengan manusia, sistem NPC memiliki akurasi yang baik dalam mendeskripsikan dan menemukan lokasi objek.

Dalam percobaan deskripsi, biarkan sistem NPC memilih objek secara acak untuk dideskripsikan. Jika manusia dapat menemukan objek yang sesuai, maka dianggap berhasil.

Dalam percobaan penentuan posisi, yang terjadi adalah sebaliknya. Jika sistem NPC dapat menemukan objek yang sesuai berdasarkan deskripsi yang diberikan oleh manusia, maka sistem tersebut akan berhasil.



Tingkat keberhasilan pemanggilan berbagai model besar berbeda-beda. Secara keseluruhan, performa GPT-4o paling baik.



GRBench adalah tolok ukur yang mengevaluasi kinerja intelijen yang diwujudkan.

Ini berisi 3 tolok ukur, yang melibatkan Obyek Loco-Navigasi, Sosial Loco-Navigasi dan Loco-Manipulasi. Kesulitan dari ketiga penilaian ini secara bertahap meningkat.



Untuk menganalisis kinerja NPC dan API kontrol, penelitian ini mengusulkan baseline berdasarkan LLM dan VLM untuk memverifikasi rasionalitas desain baseline.



Hasil eksperimen menunjukkan bahwa penggunaan model besar sebagai agen backend memiliki kinerja lebih baik di semua tolok ukur dibandingkan dengan strategi acak.

DanQwen-VL mengungguli GPT-4o dalam dialog



Sebagai perbandingan terakhir, platform GRUtopia lain lebih bertenaga di segala dimensi.



Pekerjaan penelitian ini dipimpin oleh Shanghai Artificial Intelligence Laboratory OpenRobot Lab.

Laboratorium ini berfokus pada penelitian kecerdasan buatan umum yang diwujudkan dan berkomitmen untuk membangun sistem algoritma robot umum yang mengintegrasikan perangkat lunak, perangkat keras, realitas virtual, dan realitas.

Pada bulan Mei tahun ini, tim juga merilis Grounded 3D-LLM, model besar multi-modal yang diwujudkan, yang secara otomatis dapat menghasilkan deskripsi pemandangan dan data dialog yang diwujudkan dari objek ke area lokal, sehingga secara efektif mengurangi keterbatasan pemahaman pemandangan tiga dimensi saat ini.



Alamat kertas:
https://arxiv.org/abs/2407.10943

Alamat GitHub:
https://github.com/openrobotlab/grutopia?tab=readme-ov-file