noticias

¡La "Ciudad Inteligente Encarnada" ya está aquí! Los robots van a los supermercados, compran alimentos y corren por las calles, desde Shanghai AI Lab

2024-07-22

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Mingmin viene del templo de Aofei.
Qubits | Cuenta pública QbitAI

¡La ciudad de robots ultrarrealista ya está aquí!

Aquí los robots pueden comprar en los supermercados como los humanos:



Comprar alimentos y cocinar en casa:



Tomando café en la oficina (con colegas humanos a tu lado):



No sólo los robots humanoides, sino también los perros robot y los robots de brazo pueden moverse libremente en esta "ciudad".



Este es el primer mundo 3D interactivo simulado propuesto recientemente por el Laboratorio de IA de Shanghai:Grutopía(Nombre chino: Taoyuan).

Aquí, hasta100kEscenas interactivas y finamente comentadas se ensamblan libremente en entornos urbanos realistas.

Incluyendo interiores y exteriores, restaurantes, supermercados, oficinas, hogares, etc.89Diferentes categorías de escenas.



NPC impulsados ​​​​por modelos grandes, puedes hablar e interactuar con robots en este mundo.



De esta manera, varios robots pueden completar varias simulaciones de comportamiento en la ciudad virtual, que es la recientemente popular ruta Sim2Real, que puede reducir en gran medida la dificultad y el costo de recopilar datos inteligentes incorporados del mundo real.

El proyecto planea ser de código abierto y actualmente hay una guía de instalación de demostración disponible en GitHub.

Después de una instalación exitosa, puede controlar un robot humanoide para que se mueva en la habitación en la demostración y admitir el ajuste de diferentes ángulos de visión.



Un paraíso virtual para los robots

Hay tres tareas principales:

  • Escenas GR
  • GRResidentes
  • Banco GR

Entre ellos, GRScenes es un conjunto de datos que contiene datos de escenas a gran escala.

Amplía enormemente la gama de entornos en los que los robots pueden moverse y operar. El trabajo anterior se centró más en escenas domésticas.

El estudio afirma que su objetivo es ampliar las capacidades de los robots de uso general a diversos escenarios de servicios, como supermercados, hospitales, etc. También cubre ambientes interiores y exteriores, incluidos parques de atracciones, museos, salas de exposiciones, etc.

Para cada escena, realizaron un modelado detallado y de alta calidad, y las 100 escenas contenían 2956 objetos interactivos y 22001 objetos no interactivos en 96 categorías.



GRResidents es un sistema NPC.

Está impulsado por modelos grandes y al mismo tiempo tiene un gran conocimiento de la información de la escena en el entorno simulado. Por lo tanto, los NPC pueden inferir relaciones espaciales entre objetos y participar en conversaciones dinámicas y asignaciones de tareas.

Con la ayuda de este sistema, GRUtopia puede generar una gran cantidad de tareas de escena para que las completen los robots.



Mediante validación cruzada con humanos, el sistema NPC tiene buena precisión al describir y localizar objetos.

En el experimento de descripción, deje que el sistema NPC seleccione aleatoriamente un objeto para describir. Si los humanos pueden encontrar el objeto correspondiente, se considerará exitoso.

En el experimento de posicionamiento, ocurre lo contrario, si el sistema NPC puede encontrar el objeto correspondiente basándose en la descripción dada por los humanos, tendrá éxito.



Las tasas de éxito al llamar a diferentes modelos grandes son diferentes. En general, GPT-4o funciona mejor.



GRBench es un punto de referencia que evalúa el rendimiento de la inteligencia incorporada.

Contiene 3 puntos de referencia, que involucran Loco-Navegación de Objetos, Loco-Navegación Social y Loco-Manipulación. La dificultad de estas tres evaluaciones aumenta gradualmente.



Para analizar el desempeño de NPC y API de control, el estudio propone una línea base basada en LLM y VLM para verificar la racionalidad del diseño de línea base.



Los resultados experimentales muestran que el uso de modelos grandes como agentes backend funciona mejor en todos los puntos de referencia en comparación con estrategias aleatorias.

yQwen-VL supera a GPT-4o en diálogo



En la comparación final, otras plataformas GRUtopia son más poderosas en todos los aspectos.



El trabajo de investigación fue dirigido por el OpenRobot Lab del Laboratorio de Inteligencia Artificial de Shanghai.

El laboratorio se centra en la investigación de inteligencia artificial general incorporada y se compromete a construir un sistema de algoritmo robótico general que integre software, hardware, realidad virtual y realidad.

En mayo de este año, el equipo también lanzó Grounded 3D-LLM, un modelo grande multimodal incorporado, que puede generar automáticamente descripciones de escenas y datos de diálogo incorporados desde objetos a áreas locales, aliviando efectivamente las limitaciones de la comprensión actual de escenas tridimensionales.



Dirección del papel:
https://arxiv.org/abs/2407.10943

Dirección de GitHub:
https://github.com/openrobotlab/grutopia?tab=readme-ov-file