notícias

"Cidade Inteligente Incorporada" está aqui! O robô vai ao supermercado, compra mantimentos e corre pelas ruas, do Shanghai AI Lab

2024-07-22

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Mingmin vem do Templo Aofei
Qubits | Conta pública QbitAI

A cidade robótica ultra-realista está aqui!

Aqui, os robôs podem fazer compras em supermercados como os humanos:



Comprar mantimentos e cozinhar em casa:



Pegando café no escritório (com colegas humanos próximos a você):



Não apenas robôs humanóides, mas também cães-robôs e robôs de braço podem circular livremente nesta “cidade”.



Este é o primeiro mundo 3D interativo simulado proposto recentemente pelo Shanghai AI Laboratory:GRUtopia(Nome chinês: Taoyuan).

Aqui, até100 milCenas interativas e anotadas com precisão são montadas livremente em ambientes urbanos realistas.

Incluindo ambientes internos e externos, restaurantes, supermercados, escritórios, residências, etc.89Diferentes categorias de cena.



NPCs orientados por modelos grandes, você pode conversar e interagir com robôs neste mundo.



Desta forma, vários robôs podem completar várias simulações comportamentais em cidades virtuais, que é a rota Sim2Real recentemente popular, que pode reduzir significativamente a dificuldade e o custo de coleta de dados do mundo real da inteligência incorporada.

O projeto planeja ser de código aberto e um guia de instalação de demonstração está disponível no GitHub.

Após a instalação bem-sucedida, você pode controlar um robô humanóide para se mover pela sala na demonstração e ajustar diferentes ângulos de visão.



Um paraíso virtual para robôs

Existem três tarefas principais:

  • Cenas GRS
  • GRResidentes
  • Banco GR

Entre eles, GRScenes é um conjunto de dados que contém dados de cenas em grande escala.

Ele expande muito a gama de ambientes em que os robôs podem se mover e operar. Trabalhos anteriores focaram mais em cenários domésticos.

O estudo afirmou que seu objetivo é estender as capacidades dos robôs de uso geral para vários cenários de serviços, como supermercados, hospitais, etc. Abrange também ambientes internos e externos, incluindo parques de diversões, museus, salas de exposições, etc.

Para cada cena, eles realizaram modelagem detalhada e de alta qualidade, e as 100 cenas continham 2.956 objetos interativos e 2.2001 objetos não interativos em 96 categorias.



GRResidents é um sistema NPC.

É impulsionado por modelos grandes e possui um conhecimento profundo das informações da cena no ambiente simulado. Portanto, os NPCs podem inferir relações espaciais entre objetos e participar de conversas dinâmicas e atribuições de tarefas.

Com a ajuda deste sistema, o GRUtopia pode gerar um grande número de tarefas de cena para os robôs completarem.



Através da validação cruzada com humanos, o sistema NPC apresenta boa precisão na descrição e localização de objetos.

No experimento de descrição, deixe o sistema NPC selecionar aleatoriamente um objeto para descrever. Se os humanos conseguirem encontrar o objeto correspondente, ele será considerado bem-sucedido.

No experimento de posicionamento, o oposto é verdadeiro. Se o sistema NPC puder encontrar o objeto correspondente com base na descrição dada por humanos, ele será bem-sucedido.



As taxas de sucesso na chamada de diferentes modelos grandes são diferentes. No geral, o GPT-4o tem melhor desempenho.



GRBench é um benchmark que avalia o desempenho da inteligência incorporada.

Ele contém 3 benchmarks, envolvendo Loco-Navegação de Objetos, Loco-Navegação Social e Loco-Manipulação. A dificuldade dessas três avaliações aumenta gradativamente.



Para analisar o desempenho do NPC e da API de controle, o estudo propõe uma linha de base baseada em LLM e VLM para verificar a racionalidade do desenho da linha de base.



Os resultados experimentais mostram que o uso de modelos grandes como agentes de back-end tem melhor desempenho em todos os benchmarks em comparação com estratégias aleatórias.

eQwen-VL supera GPT-4o no diálogo



Na comparação final, outras plataformas GRUtopia são mais poderosas em todas as dimensões.



O trabalho de pesquisa foi liderado pelo Laboratório de Inteligência Artificial de Xangai OpenRobot Lab.

O laboratório concentra-se na pesquisa de inteligência artificial geral incorporada e está comprometido em construir um sistema de algoritmo robótico geral que integre software, hardware, realidade virtual e realidade.

Em maio deste ano, a equipe também lançou o Grounded 3D-LLM, um grande modelo multimodal incorporado, que pode gerar automaticamente descrições de cena e dados de diálogo incorporados de objetos para áreas locais, aliviando efetivamente as limitações da atual compreensão da cena tridimensional.



Endereço do papel:
https://arxiv.org/abs/2407.10943

Endereço GitHub:
https://github.com/openrobotlab/grutopia?tab=readme-ov-file