minhas informações de contato
Correspondência[email protected]
2024-07-22
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
Mingmin vem do Templo Aofei
Qubits | Conta pública QbitAI
A cidade robótica ultra-realista está aqui!
Aqui, os robôs podem fazer compras em supermercados como os humanos:
Comprar mantimentos e cozinhar em casa:
Pegando café no escritório (com colegas humanos próximos a você):
Não apenas robôs humanóides, mas também cães-robôs e robôs de braço podem circular livremente nesta “cidade”.
Este é o primeiro mundo 3D interativo simulado proposto recentemente pelo Shanghai AI Laboratory:GRUtopia(Nome chinês: Taoyuan).
Aqui, até100 milCenas interativas e anotadas com precisão são montadas livremente em ambientes urbanos realistas.
Incluindo ambientes internos e externos, restaurantes, supermercados, escritórios, residências, etc.89Diferentes categorias de cena.
NPCs orientados por modelos grandes, você pode conversar e interagir com robôs neste mundo.
Desta forma, vários robôs podem completar várias simulações comportamentais em cidades virtuais, que é a rota Sim2Real recentemente popular, que pode reduzir significativamente a dificuldade e o custo de coleta de dados do mundo real da inteligência incorporada.
O projeto planeja ser de código aberto e um guia de instalação de demonstração está disponível no GitHub.
Após a instalação bem-sucedida, você pode controlar um robô humanóide para se mover pela sala na demonstração e ajustar diferentes ângulos de visão.
Um paraíso virtual para robôs
Existem três tarefas principais:
Entre eles, GRScenes é um conjunto de dados que contém dados de cenas em grande escala.
Ele expande muito a gama de ambientes em que os robôs podem se mover e operar. Trabalhos anteriores focaram mais em cenários domésticos.
O estudo afirmou que seu objetivo é estender as capacidades dos robôs de uso geral para vários cenários de serviços, como supermercados, hospitais, etc. Abrange também ambientes internos e externos, incluindo parques de diversões, museus, salas de exposições, etc.
Para cada cena, eles realizaram modelagem detalhada e de alta qualidade, e as 100 cenas continham 2.956 objetos interativos e 2.2001 objetos não interativos em 96 categorias.
GRResidents é um sistema NPC.
É impulsionado por modelos grandes e possui um conhecimento profundo das informações da cena no ambiente simulado. Portanto, os NPCs podem inferir relações espaciais entre objetos e participar de conversas dinâmicas e atribuições de tarefas.
Com a ajuda deste sistema, o GRUtopia pode gerar um grande número de tarefas de cena para os robôs completarem.
Através da validação cruzada com humanos, o sistema NPC apresenta boa precisão na descrição e localização de objetos.
No experimento de descrição, deixe o sistema NPC selecionar aleatoriamente um objeto para descrever. Se os humanos conseguirem encontrar o objeto correspondente, ele será considerado bem-sucedido.
No experimento de posicionamento, o oposto é verdadeiro. Se o sistema NPC puder encontrar o objeto correspondente com base na descrição dada por humanos, ele será bem-sucedido.
As taxas de sucesso na chamada de diferentes modelos grandes são diferentes. No geral, o GPT-4o tem melhor desempenho.
GRBench é um benchmark que avalia o desempenho da inteligência incorporada.
Ele contém 3 benchmarks, envolvendo Loco-Navegação de Objetos, Loco-Navegação Social e Loco-Manipulação. A dificuldade dessas três avaliações aumenta gradativamente.
Para analisar o desempenho do NPC e da API de controle, o estudo propõe uma linha de base baseada em LLM e VLM para verificar a racionalidade do desenho da linha de base.
Os resultados experimentais mostram que o uso de modelos grandes como agentes de back-end tem melhor desempenho em todos os benchmarks em comparação com estratégias aleatórias.
eQwen-VL supera GPT-4o no diálogo。
Na comparação final, outras plataformas GRUtopia são mais poderosas em todas as dimensões.
O trabalho de pesquisa foi liderado pelo Laboratório de Inteligência Artificial de Xangai OpenRobot Lab.
O laboratório concentra-se na pesquisa de inteligência artificial geral incorporada e está comprometido em construir um sistema de algoritmo robótico geral que integre software, hardware, realidade virtual e realidade.
Em maio deste ano, a equipe também lançou o Grounded 3D-LLM, um grande modelo multimodal incorporado, que pode gerar automaticamente descrições de cena e dados de diálogo incorporados de objetos para áreas locais, aliviando efetivamente as limitações da atual compreensão da cena tridimensional.
Endereço do papel:
https://arxiv.org/abs/2407.10943
Endereço GitHub:
https://github.com/openrobotlab/grutopia?tab=readme-ov-file