noticias

¿Quiere comprender la dirección empresarial de Li Feifei? Aquí hay una lista de artículos sobre Robot 3D.

2024-08-16

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Informe del corazón de la máquina

Editor: Zhang Qian

Más de 80 artículos comprenden el progreso de la investigación de "robótica + 3D".

Hace algún tiempo, varios medios informaron que World Labs, una nueva empresa fundada por el famoso académico de inteligencia artificial y profesor de la Universidad de Stanford, Li Feifei, había completado dos rondas de financiación en solo tres meses. La última ronda de financiación recaudó aproximadamente 100 millones de dólares. Su valoración ha superado los mil millones de dólares, lo que lo convierte en un nuevo unicornio.

La dirección de desarrollo de World Labs se centra en la "inteligencia espacial", es decir, el desarrollo de modelos que puedan comprender el mundo físico tridimensional y simular las propiedades físicas, la ubicación espacial y las funciones de los objetos. Li Feifei cree que la "inteligencia espacial" es una parte clave del desarrollo de la IA. Su equipo está entrenando computadoras y robots para realizar acciones en el mundo tridimensional en el laboratorio de la Universidad de Stanford, como usar un modelo de lenguaje grande para permitir una Brazo robótico para abrir puertas y hacer cosas según instrucciones verbales. Sándwiches y otras tareas. (Para obtener más información, consulte "Li Feifei explica la dirección empresarial" Inteligencia espacial "para que la IA realmente comprenda el mundo")



Para explicar el concepto de "inteligencia espacial", Li Feifei mostró una imagen de un gato estirando sus patas para empujar un vaso hasta el borde de una mesa. En una fracción de segundo, dice, el cerebro humano puede evaluar "la geometría de este vaso, su posición en el espacio tridimensional, su relación con la mesa, el gato y todas esas otras cosas", luego predecir lo que sucederá y tomar medidas para solucionarlo.

De hecho, además de Li Feifei, muchos equipos de investigación ahora están prestando atención a la dirección de visión 3D + robots. Estos equipos creen que muchas de las limitaciones de la IA actual se deben a la falta de comprensión profunda del mundo 3D por parte del modelo. Si queremos completar este rompecabezas, debemos invertir más energía en investigación en dirección a la visión 3D. Además, la visión 3D proporciona percepción de profundidad y comprensión espacial del entorno, lo cual es fundamental para la navegación, el funcionamiento y la toma de decisiones de los robots en un mundo tridimensional complejo.

Entonces, ¿existe algún material de investigación sistemática al que los investigadores en esta dirección puedan consultar? El Corazón de la Máquina encontró uno recientemente:



Enlace del proyecto: https://github.com/zubair-irshad/Awesome-Robotics-3D

Este repositorio de GitHub llamado "Awesome-Robotics-3D" ha recopilado un total de más de 80 artículos en la dirección de "visión 3D + robots". La mayoría de los artículos proporcionan artículos, proyectos y enlaces de código correspondientes.



Estos artículos se pueden dividir en los siguientes temas:

  • aprendizaje estratégico
  • pre-entrenamiento
  • VLM y LLM
  • expresar
  • Simulaciones, conjuntos de datos y puntos de referencia

Estos artículos incluyen preimpresiones de arXiv, así como artículos de las principales conferencias de robótica, como RSS, ICRA, IROS y CORL, así como artículos de las principales conferencias en los campos de la visión por computadora y el aprendizaje automático, como CVPR, ICLR e ICML. Son muy valiosos.

La lista de trabajos de cada parte es la siguiente:

1. Aprendizaje estratégico





2. Entrenamiento previo



3. VLM y LLM





4. expresar





5. Simulaciones, conjuntos de datos y puntos de referencia





Además, el autor también proporciona dos artículos de revisión a los que puede consultar:

  • Capítulo 1: Cuando los LLM ingresan al mundo 3D: una encuesta y un metaanálisis de tareas 3D a través de modelos de lenguaje grandes multimodales
  • Enlace del artículo: https://arxiv.org/pdf/2405.10255

Introducción al artículo: este artículo proporciona una descripción general completa de las metodologías que permiten a LLM procesar, comprender y generar datos 3D, y destaca las ventajas únicas de LLM, como el aprendizaje en contexto, el razonamiento paso a paso, las capacidades de vocabulario abierto y la amplia Según el conocimiento mundial, se espera que estas ventajas avancen significativamente en la comprensión espacial y la interacción en sistemas de inteligencia artificial incorporados. La investigación cubre varios métodos de representación de datos 3D, desde nubes de puntos hasta campos de radiación neuronal (NeRF), y examina su integración con LLM para la comprensión de escenas 3D, generación de descripciones, respuesta a preguntas y diálogo, así como agentes basados ​​en LLM para tareas espaciales como razonamiento, planificación y navegación. Además, el artículo revisa brevemente otros métodos de integración del 3D y el lenguaje. A través de un metanálisis de estos estudios, el artículo revela los importantes avances realizados y destaca la necesidad de desarrollar nuevos métodos para explotar plenamente el potencial de 3D-LLM.

Para respaldar esta investigación, los autores han establecido una página del proyecto que organiza y enumera artículos relacionados con el tema: https://github.com/ActiveVisionLab/Awesome-LLM-3D



  • Documento 2: Un estudio integral de la manipulación de robots basada en visión tridimensional
  • Enlace del artículo: https://ieeexplore.ieee.org/document/9541299

Introducción al artículo: este artículo analiza exhaustivamente los últimos avances de la visión 3D en el campo del control de robots, especialmente en la imitación de la inteligencia humana y en dotar a los robots de capacidades de trabajo más flexibles. El artículo analiza el sistema de visión 2D en el que generalmente se basa el control de robots tradicional y sus limitaciones, y señala los desafíos que enfrentan los sistemas de visión 3D en el mundo abierto, como el reconocimiento general de objetos en fondos desordenados, la estimación de oclusión y la flexibilidad similar a la humana. control. El artículo cubre tecnologías clave como la adquisición y representación de datos 3D, la calibración de la visión del robot, la detección/reconocimiento de objetos 3D, la estimación de pose con 6 grados de libertad, la estimación de agarre y la planificación del movimiento. Además, se introducen algunos conjuntos de datos públicos, criterios de evaluación, análisis comparativos y desafíos actuales. Finalmente, el artículo explora campos de aplicación relacionados con el control de robots y analiza futuras direcciones de investigación y cuestiones abiertas.

Los lectores interesados ​​pueden hacer clic en el enlace del proyecto para comenzar a aprender.