"실현형 스마트 타운"이 왔어요! 슈퍼마켓에서 쇼핑하고 거리를 달리는 로봇, 상하이 AI 연구소

2024-07-22

Mingmin은 Aofei Temple에서 왔습니다.
Qubits 공개 계정 QbitAI

초현실적인 로봇마을이 왔어요!

여기서 로봇은 인간처럼 슈퍼마켓에서 쇼핑할 수 있습니다.

집에서 식료품 구입 및 요리:

사무실에서 커피를 마시기(옆에 동료들과 함께):

인간형 로봇뿐만 아니라 로봇개나 팔 로봇도 이 '도시'를 자유롭게 왕복할 수 있다.

이것은 최근 Shanghai AI Laboratory가 제안한 최초의 시뮬레이션된 대화형 3D 세계입니다.그루토피아(중국명: 타오위안).

여기서는 최대10만정교하게 주석이 달린 대화형 장면이 현실적인 도시 환경에 자유롭게 조합됩니다.

실내 및 실외, 레스토랑, 슈퍼마켓, 사무실, 주택 등을 포함합니다.89다양한 장면 카테고리.

대형 모델 기반 NPC, 이 세계의 로봇과 대화하고 교류할 수 있습니다.

이러한 방식으로 다양한 로봇이 최근 인기를 끌고 있는 Sim2Real 경로인 가상 마을에서 다양한 행동 시뮬레이션을 완료할 수 있어 구현된 지능형 실제 데이터를 수집하는 데 드는 어려움과 비용을 크게 줄일 수 있습니다.

이 프로젝트는 오픈 소스로 계획되어 있으며 현재 GitHub에서 데모 설치 가이드를 사용할 수 있습니다.

성공적으로 설치한 후에는 휴머노이드 로봇이 데모 공간에서 이동하도록 제어하고 다양한 시야각 조정을 지원할 수 있습니다.

로봇을 위한 가상 천국

세 가지 핵심 작업이 있습니다.

그 중 GRScenes는 대규모 장면 데이터를 담고 있는 데이터셋이다.

로봇이 이동하고 작동할 수 있는 환경의 범위가 크게 확장되었습니다. 이전 작업은 가정 장면에 더 중점을 두었습니다.

이 연구에서는 다목적 로봇의 기능을 슈퍼마켓, 병원 등 다양한 서비스 시나리오로 확장하는 것이 목표라고 밝혔습니다. 또한 놀이공원, 박물관, 전시장 등 실내외 환경도 포함합니다.

각 장면에 대해 상세하고 고품질의 모델링을 수행했으며, 100개의 장면에는 96개 카테고리의 2956개의 대화형 개체와 22001개의 비대화형 개체가 포함되었습니다.

GRResidents는 NPC 시스템입니다.

시뮬레이션 환경의 장면 정보에 대해 매우 잘 알고 있으면서도 대형 모델을 기반으로 구동됩니다. 따라서 NPC는 객체 간의 공간적 관계를 추론하고 동적 대화 및 작업 할당에 참여할 수 있습니다.

이 시스템의 도움으로 GRUtopia는 로봇이 완료해야 할 수많은 장면 작업을 생성할 수 있습니다.

인간과의 교차 검증을 통해 NPC 시스템은 개체를 설명하고 찾는 데 있어 높은 정확성을 가지고 있습니다.

설명 실험에서는 NPC 시스템이 설명할 개체를 무작위로 선택하도록 합니다. 인간이 해당 개체를 찾을 수 있으면 성공한 것으로 간주됩니다.

측위 실험에서는 그 반대가 사실이다. NPC 시스템이 인간이 제공한 설명을 기반으로 해당 개체를 찾을 수 있다면 성공할 것이다.

다양한 대형 모델을 호출하는 성공률은 전반적으로 GPT-4o가 가장 좋습니다.

GRBench는 구체화된 지능 성능을 평가하는 벤치마크입니다.

여기에는 Object Loco-Navigation, Social Loco-Navigation 및 Loco-Manipulation과 관련된 3가지 벤치마크가 포함되어 있습니다. 이 세 가지 평가의 난이도는 점차 증가합니다.

NPC와 제어 API의 성능을 분석하기 위해 LLM과 VLM 기반의 베이스라인을 제안하여 베이스라인 설계의 합리성을 검증한다.

실험 결과에 따르면 대규모 모델을 백엔드 에이전트로 사용하는 것이 무작위 전략에 비해 모든 벤치마크에서 더 나은 성능을 발휘하는 것으로 나타났습니다.

그리고Qwen-VL은 대화에서 GPT-4o를 능가합니다.。

최종 비교에서는 다른 GRUtopia 플랫폼이 모든 측면에서 더 강력합니다.

연구 작업은 상하이 인공 지능 연구소 OpenRobot Lab이 주도했습니다.

본 연구실은 체화된 일반 인공지능 연구에 중점을 두고 있으며, 소프트웨어, 하드웨어, 가상현실, 현실을 통합한 종합 로봇 알고리즘 시스템 구축에 주력하고 있습니다.

올해 5월에는 장면 설명과 구체화된 대화 데이터를 객체에서 로컬 영역까지 자동으로 생성하여 현재 3차원 장면 이해의 한계를 효과적으로 완화할 수 있는 구현된 멀티모달 대형 모델인 Grounded 3D-LLM도 출시했습니다.

논문 주소:
https://arxiv.org/abs/2407.10943

GitHub 주소:
https://github.com/openrobotlab/grutopia?tab=readme-ov-file

소식