noticias

¡El primero del mundo!Se examinaron casi 400 documentos, Laboratorio Pengcheng

2024-07-26

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

La columna AIxiv es una columna donde Machine Heart publica contenido académico y técnico. En los últimos años, la columna Heart of the Machine AIxiv ha recibido más de 2.000 informes, que cubren los mejores laboratorios de las principales universidades y empresas de todo el mundo, promoviendo eficazmente los intercambios y la difusión académicos. Si tiene un trabajo excelente que desea compartir, no dude en contribuir o contactarnos para informarnos. Correo electrónico de envío: [email protected]; [email protected];

La inteligencia incorporada es la única forma de lograr inteligencia artificial general. Su núcleo es completar tareas complejas a través de la interacción de agentes inteligentes con el espacio digital y el mundo físico. En los últimos años, los grandes modelos multimodales y la tecnología robótica han logrado grandes avances, y la inteligencia incorporada se ha convertido en un nuevo foco de la tecnología global y la competencia industrial. Sin embargo, actualmente falta una revisión que pueda analizar de manera exhaustiva el estado actual del desarrollo de la inteligencia incorporada. por lo tanto,El Instituto de Inteligencia Corporada y Multiagentes del Laboratorio Pengcheng colabora con investigadores del Laboratorio HCP de la Universidad Sun Yat-sen, un análisis exhaustivo de los últimos avances en inteligencia incorporada,Se lanzó la primera revisión mundial de inteligencia incorporada en la era de los grandes modelos multimodales.

Esta revisión examinó casi 400 documentos y realizó un análisis exhaustivo de la investigación sobre la inteligencia incorporada desde múltiples dimensiones.Esta revisión presenta primero algunos representantesRobots incorporados y plataformas de simulación incorporadas , proporciona un análisis en profundidad de su enfoque y limitaciones de investigación. Luego, se analizan en profundidad cuatro contenidos principales de la investigación: 1)percepción encarnada,2)interacción encarnada,3)inteligencia encarnaday 4)Migración de virtual a realidad , estos contenidos de investigación cubren métodos de última generación, paradigmas básicos y conjuntos de datos completos. Además, la revisión explora los desafíos que enfrentan los agentes encarnados en espacios digitales y mundos físicos, enfatizando su importancia para la interacción activa en entornos físicos y digitales dinámicos. Finalmente, la revisión resume los desafíos y limitaciones de la inteligencia incorporada y analiza sus posibles direcciones futuras. Esta revisión espera proporcionar una referencia básica para la investigación de inteligencia incorporada y promover la innovación tecnológica relacionada. Además, esta revisión también ha publicado una lista de artículos de inteligencia incorporados en Github. Los artículos relacionados y los repositorios de códigos se actualizarán continuamente, así que preste atención.



Dirección del artículo: https://arxiv.org/pdf/2407.06886

Lista de artículos de inteligencia incorporada: https://github.com/HCPLab-SYSU/Embodied_AI_Paper_List

1. Las vidas pasadas y presentes de la inteligencia encarnada

El concepto de inteligencia corporizada fue propuesto por primera vez por Alan Turing en el Embodied Turing Test establecido en 1950 para determinar si un agente puede mostrar inteligencia (inteligencia) que no se limite a resolver problemas abstractos en un entorno virtual (espacio digital) El cuerpo es el base de la inteligencia incorporada, que existe tanto en el espacio digital como en el mundo físico, y que está encarnada en forma de diversas entidades, incluidos no solo robots sino también otros dispositivos, y capaz de hacer frente a la complejidad e incomprensibilidad del mundo físico. Por lo tanto, el desarrollo de la inteligencia incorporada se considera una forma básica de lograr la inteligencia artificial general. Es particularmente importante profundizar en la complejidad de la inteligencia incorporada, evaluar su estado de desarrollo actual y considerar su trayectoria futura.Hoy en día, la inteligencia incorporada cubre muchas tecnologías clave como la visión por computadora, el procesamiento del lenguaje natural y la robótica, la más representativa de las cuales esPercepción encarnada, interacción encarnada, inteligencia encarnada y transferencia de lo virtual a la realidad . En las tareas incorporadas, los agentes incorporados deben comprender completamente las intenciones humanas en las instrucciones del lenguaje, explorar proactivamente el entorno circundante, percibir de manera integral elementos multimodales de entornos virtuales y físicos y realizar operaciones apropiadas para completar tareas complejas. El rápido progreso de los modelos multimodales demuestra una mayor diversidad, flexibilidad y capacidades de generalización que los métodos tradicionales de aprendizaje por refuerzo profundo en entornos complejos. Las representaciones visuales previamente entrenadas por codificadores visuales de última generación proporcionan estimaciones precisas de categorías, poses y geometrías de objetos, lo que permite a los modelos incorporados percibir de manera integral entornos complejos y dinámicos. Los potentes modelos de lenguaje de gran tamaño permiten que los robots comprendan mejor las instrucciones del lenguaje humano y proporcionan una forma factible de alinear representaciones visuales y lingüísticas para robots incorporados. Los modelos mundiales demuestran importantes capacidades de simulación y una buena comprensión de las leyes físicas, lo que permite que los modelos incorporados comprendan completamente la física y los entornos reales. Estos avances permiten que la inteligencia incorporada perciba de manera integral entornos complejos, interactúe de forma natural con los humanos y realice tareas de manera confiable. La siguiente figura muestra la arquitectura típica de un agente incorporado.



Marco de inteligencia incorporada

En esta revisión, proporcionamos una descripción general completa de los avances actuales en inteligencia incorporada, que incluye: (1)robot encarnado——Soluciones de hardware para inteligencia incorporada en el mundo físico (2)Plataforma de simulación incorporada——Un espacio digital para la formación de agentes personificados de forma eficiente y segura (3)percepción encarnada—— Percibir activamente el espacio 3D e integrar múltiples modalidades sensoriales (4)interacción encarnada——Interactuar con el entorno de forma eficaz y razonable e incluso cambiar el entorno para completar las tareas designadas (5)inteligencia encarnada——Utilice modelos grandes multimodales para comprender instrucciones abstractas, dividirlas en una serie de subtareas y luego completarlas paso a paso (6)Migración de virtual a realidad ——Transferir y generalizar las habilidades aprendidas en el espacio digital al mundo físico. La siguiente figura muestra el marco del sistema de inteligencia incorporada desde el espacio digital hasta el mundo físico. Esta revisión tiene como objetivo proporcionar conocimientos previos completos, tendencias de investigación y conocimientos técnicos sobre la inteligencia incorporada.



La estructura general de esta revisión.

2. Robots encarnados

La inteligencia incorporada interactúa activamente con el entorno físico y cubre una amplia gama de formas incorporadas, incluidos robots, electrodomésticos inteligentes, gafas inteligentes y vehículos autónomos. Entre ellos, los robots, como una de las formas encarnadas más destacadas, han atraído mucha atención. Según los diferentes escenarios de aplicación, los robots se diseñan de diversas formas para aprovechar al máximo sus funciones de hardware para completar tareas específicas. Como se muestra en la figura siguiente, los robots incorporados generalmente se pueden dividir en: (1) robots de base fija, como brazos robóticos, que a menudo se utilizan en síntesis de automatización de laboratorio, educación, industria y otros campos (2) robots con ruedas; son altamente eficientes Famosos por su movilidad, se utilizan ampliamente en logística, almacenamiento e inspecciones de seguridad (3) Los robots sobre orugas, con gran capacidad y movilidad todoterreno, han demostrado potencial en agricultura, construcción y respuesta en escenas de desastres; Cuadrúpedos El robot, conocido por su estabilidad y adaptabilidad, es ideal para la detección en terrenos complejos, misiones de rescate y aplicaciones militares. (5) Los robots humanoides, con sus diestras manos como clave, se utilizan ampliamente en la industria de servicios, la atención médica y los entornos colaborativos. (6) Los robots biónicos realizan tareas en entornos complejos y dinámicos simulando los movimientos y funciones efectivos de los organismos naturales.



Diferentes formas de robots encarnados.

3. Plataforma de simulación inteligente incorporada

Las plataformas de simulación de inteligencia incorporada son fundamentales para la inteligencia incorporada porque proporcionan medios de experimentación rentables, la capacidad de garantizar la seguridad mediante la simulación de escenarios potencialmente peligrosos, la escalabilidad para realizar pruebas en diversos entornos y la capacidad de crear prototipos rápidamente. Capacidades de diseño que facilitan el análisis más amplio. comunidad de investigación, proporcionar un entorno controlado para investigaciones precisas, generar datos para capacitación y evaluación, y proporcionar un punto de referencia estandarizado para la comparación de algoritmos. Para que el agente interactúe con el entorno, se debe construir un entorno simulado realista. Esto requiere tener en cuenta las características físicas del entorno, las propiedades de los objetos y sus interacciones. Como se muestra en la figura siguiente, esta revisión analizará dos plataformas de simulación: una plataforma general basada en simulación subyacente y una plataforma de simulación basada en escenarios reales.



Plataforma de simulación universal



Plataforma de simulación basada en escenarios reales

4. Percepción encarnada

La “estrella polar” de la percepción visual del futuro es el razonamiento visual y la inteligencia social centrados en la encarnación. Como se muestra en la figura siguiente, en lugar de simplemente reconocer objetos en imágenes, los agentes con percepción corporal deben moverse en el mundo físico e interactuar con el entorno, lo que requiere una comprensión más profunda del espacio tridimensional y los entornos dinámicos. La percepción corporal requiere percepción visual y capacidades de razonamiento, comprender las relaciones tridimensionales en una escena y predecir y realizar tareas complejas basadas en información visual. Esta revisión presenta la percepción visual activa, la localización visual 3D, la navegación del lenguaje visual, la percepción no visual (sensores táctiles), etc.



Marco de percepción visual activo.

5. Interacción encarnada

La interacción incorporada se refiere a escenarios en los que un agente interactúa con los humanos y el medio ambiente en un espacio físico o simulado. Las tareas típicas de interacción encarnada incluyen la respuesta a preguntas encarnadas y la captación encarnada. Como se muestra en la figura siguiente, en la tarea de preguntas y respuestas incorporadas, el agente necesita explorar el entorno desde una perspectiva en primera persona para recopilar la información necesaria para responder la pregunta. Un agente con capacidades autónomas de exploración y toma de decisiones no solo debe considerar qué acciones tomar para explorar el entorno, sino también decidir cuándo dejar de explorar para responder preguntas, como se muestra en la siguiente figura.



Marco de preguntas y respuestas incorporado

Además de las interacciones de preguntas y respuestas con humanos, la interacción encarnada también implica realizar operaciones basadas en instrucciones humanas, como agarrar y colocar objetos, completando así la interacción entre agentes, humanos y objetos. Como se muestra, la captación encarnada requiere una comprensión semántica integral, conciencia de la escena, toma de decisiones y una planificación de control sólida. El método de agarre incorporado combina el agarre cinemático del robot tradicional con modelos a gran escala (como modelos de lenguaje grandes y modelos básicos de lenguaje visual), lo que permite a los agentes realizar tareas de agarre bajo percepción multisensorial, incluida la percepción visual activa, la comprensión del lenguaje y el razonamiento.



Marco de rastreo interactivo guiado por el idioma

6. Inteligencia encarnada

Un agente se define como una entidad autónoma capaz de sentir el entorno y tomar acciones para lograr objetivos específicos. Los avances recientes en grandes modelos multimodales han ampliado aún más la aplicación de agentes en escenarios del mundo real. Cuando estos grandes agentes multimodales basados ​​en modelos se incorporan en entidades físicas, pueden transferir eficazmente sus capacidades del espacio virtual al mundo físico, convirtiéndose así en agentes corporizados. Para que los agentes incorporados operen en el mundo real complejo y rico en información, se han desarrollado poderosas capacidades multimodales de percepción, interacción y planificación. Como se muestra en la figura siguiente, para completar una tarea, un agente incorporado generalmente implica los siguientes procesos:

(1) Descomponer tareas abstractas y complejas en subtareas específicas, es decir, planificación de tareas incorporadas de alto nivel.

(2) Implementar gradualmente estas subtareas utilizando eficazmente los modelos de percepción incorporada y de interacción incorporada, o utilizando las funciones estratégicas del modelo básico, lo que se denomina planificación de acción incorporada de bajo nivel.

Vale la pena señalar que la planificación de la misión implica pensar antes de actuar y, por lo tanto, a menudo se considera en un espacio digital. Por el contrario, la planificación de acciones debe tener en cuenta las interacciones efectivas con el medio ambiente y enviar esta información al planificador de la misión para ajustar la planificación de la misión. Por lo tanto, es crucial que los agentes incorporados alineen y generalicen sus capacidades desde el espacio digital al mundo físico.



Marco de agente incorporado basado en grandes modelos multimodales

7. Migración de lo virtual a la realidad

La adaptación Sim-to-Real en inteligencia incorporada se refiere al proceso de transferir habilidades o comportamientos aprendidos en un entorno simulado (espacio digital) al mundo real (mundo físico). El proceso incluye validar y mejorar la efectividad de algoritmos, modelos y estrategias de control desarrollados en simulación para garantizar que funcionen de manera estable y confiable en el entorno físico. Para lograr la adaptación de la simulación a la realidad, los modelos del mundo incorporado, los métodos de entrenamiento y recopilación de datos y los algoritmos de control incorporados son tres elementos clave. La siguiente figura muestra cinco paradigmas Sim-to-Real diferentes.



Cinco opciones de migración de virtual a realidad

8. Desafíos y direcciones de desarrollo futuro

Aunque la inteligencia incorporada se está desarrollando rápidamente, enfrenta varios desafíos y presenta direcciones futuras interesantes:

(1)Conjunto de datos de robots de alta calidad. . Obtener suficientes datos robóticos del mundo real sigue siendo un desafío importante. La recopilación de estos datos requiere mucho tiempo y recursos. Depender únicamente de datos simulados exacerbará el problema de la brecha entre la simulación y la realidad. La creación de diversos conjuntos de datos de robótica del mundo real requiere una colaboración estrecha y amplia entre instituciones. Además, desarrollar simuladores más realistas y eficientes es crucial para mejorar la calidad de los datos de simulación. Para construir un modelo incorporado universal que pueda lograr aplicaciones en escenarios y tareas cruzadas en el campo de la robótica, es necesario construir conjuntos de datos a gran escala y utilizar datos ambientales simulados de alta calidad para ayudar a los datos del mundo real.

(2)Uso eficaz de datos de demostración humana. . La utilización eficiente de datos de demostración humana implica aprovechar las acciones y comportamientos demostrados por humanos para entrenar y mejorar los sistemas robóticos. Este proceso implica recopilar, procesar y aprender a partir de conjuntos de datos a gran escala y de alta calidad, con humanos realizando las tareas que el robot necesita aprender. Por lo tanto, es importante utilizar de manera efectiva grandes cantidades de datos de demostración humana no estructurados, de múltiples etiquetas y multimodales combinados con datos de etiquetas de acción para entrenar modelos incorporados que puedan aprender una variedad de tareas en un tiempo relativamente corto. Al aprovechar eficientemente los datos de demostración humana, los sistemas robóticos pueden alcanzar niveles más altos de rendimiento y adaptabilidad, lo que los hace más capaces de realizar tareas complejas en entornos dinámicos.

(3)Cognición del entorno complejo . La cognición de entornos complejos se refiere a la capacidad de los agentes encarnados para percibir, comprender y navegar en entornos complejos del mundo real en entornos físicos o virtuales. Para entornos abiertos no estructurados, el trabajo actual generalmente se basa en el mecanismo de descomposición de tareas de LLM previamente capacitado y utiliza un amplio conocimiento de sentido común para la planificación de tareas simples, pero carece de una comprensión específica de la escena. Es fundamental mejorar la transferencia y generalización del conocimiento en entornos complejos. Un sistema robótico verdaderamente versátil debería poder comprender y ejecutar instrucciones en lenguaje natural en una variedad de escenarios diferentes e invisibles. Esto requiere el desarrollo de arquitecturas de agentes incorporados adaptables y escalables.

(4)Ejecución de tareas de largo alcance . La ejecución de un solo comando generalmente implica que el robot realice una tarea de largo alcance, como un comando como "limpiar la cocina", que implica reorganizar artículos, barrer el piso, limpiar las mesas y otras actividades. La finalización exitosa de estas tareas requiere que el robot pueda planificar y ejecutar una serie de acciones de bajo nivel durante un período prolongado de tiempo. Aunque los planificadores de tareas de alto nivel actuales han mostrado un éxito inicial, a menudo se quedan cortos en diversos escenarios debido a una falta de adaptación a las tareas encarnadas. Para abordar este desafío se requiere el desarrollo de planificadores eficientes con sólidas capacidades de percepción y amplios conocimientos de sentido común.

(5)descubrimiento causal . Los agentes incorporados basados ​​en datos existentes toman decisiones basadas en correlaciones dentro de los datos. Sin embargo, este método de modelado no puede permitir que el modelo comprenda verdaderamente la relación causal entre el conocimiento, el comportamiento y el entorno, lo que da como resultado estrategias sesgadas. Esto hace que sea difícil operarlos de manera interpretable, sólida y confiable en entornos del mundo real. Por lo tanto, la inteligencia encarnada debe estar impulsada por el conocimiento mundial y tener capacidades autónomas de razonamiento causal.

(6)Aprendizaje continuo . En las aplicaciones de robótica, el aprendizaje continuo es crucial para implementar estrategias de aprendizaje de robots en diversos entornos, pero esta área aún está poco explorada. Si bien algunas investigaciones recientes han explorado subtemas del aprendizaje continuo, como el aprendizaje incremental, la adaptación rápida al movimiento y el aprendizaje por interacción persona-computadora, estas soluciones generalmente están diseñadas para una sola tarea o plataforma y aún no han considerado el modelo subyacente. Las preguntas de investigación abiertas y los posibles enfoques incluyen: 1) combinar diferentes proporciones de distribuciones de datos anteriores al ajustar los datos más recientes para mitigar el olvido catastrófico, 2) desarrollar prototipos eficientes de distribuciones o cursos anteriores para nuevas tareas de aprendizaje de inferencia, 3) mejorar la estabilidad del entrenamiento y eficiencia de la muestra de algoritmos de aprendizaje en línea, 4) identificar métodos basados ​​en principios para integrar perfectamente modelos de gran capacidad en marcos de control, posiblemente a través del aprendizaje jerárquico o control lento-rápido, para lograr razonamiento en tiempo real.

(7)Punto de referencia de evaluación unificada . Aunque existen muchos puntos de referencia para evaluar estrategias de control de bajo nivel, a menudo difieren significativamente en sus habilidades de evaluación. Además, los objetos y escenas incluidos en estos puntos de referencia suelen estar limitados por el simulador. Para evaluar completamente los modelos incorporados, se necesitan puntos de referencia que abarquen múltiples habilidades utilizando simuladores realistas. En términos de planificación de tareas de alto nivel, muchos puntos de referencia evalúan las capacidades de planificación mediante tareas de preguntas y respuestas. Sin embargo, un enfoque más ideal sería evaluar exhaustivamente las capacidades de ejecución de los planificadores de misiones de alto nivel y las estrategias de control de bajo nivel, especialmente en la ejecución de misiones de larga duración y medir las tasas de éxito, en lugar de confiar únicamente en la evaluación de los planificadores. Este enfoque integral permite una evaluación más completa de las capacidades de los sistemas inteligentes incorporados.

En resumen, la inteligencia incorporada permite a agentes inteligentes percibir, reconocer e interactuar con diversos objetos en el espacio digital y el mundo físico, lo que demuestra su importancia en la realización de la inteligencia artificial general. Esta revisión proporciona una revisión completa de los robots incorporados, las plataformas de simulación incorporada, la percepción incorporada, la interacción incorporada, los agentes incorporados, el control de robots de virtual a realidad y las direcciones de investigación futuras, que son valiosas para promover el desarrollo de la inteligencia incorporada.

Acerca del Instituto de Laboratorio Pengcheng de Inteligencia Corporada y Multiagente

El Instituto de Inteligencia Corporada y Multiagente, afiliado al Laboratorio Pengcheng, reúne a docenas de científicos jóvenes destacados en los campos de la ciencia inteligente y la robótica. Basándose en una infraestructura de inteligencia artificial independiente y controlable como Pengcheng Cloud Brain y China Computing Network. comprometido con la construcción de plataformas básicas universales, como plataformas de capacitación de simulación y colaboración de múltiples agentes, y grandes modelos multimodales incorporados colaborativos basados ​​en la nube que potencian las principales necesidades de aplicaciones, como Internet industrial, gobernanza social y servicios.