noticias

Zhang Zhengyou, científico jefe de Tencent: Simplemente metiendo modelos grandes en robots no se puede producir inteligencia real encarnada

2024-07-17

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Zhang Zhengyou Científico jefe de Tencent, director del laboratorio Tencent Robotics X

Para explorar en profundidad la relación hombre-máquina en la era de la IA y llevar a la sociedad a pensar conjuntamente sobre las oportunidades de desarrollo económico y las estrategias de respuesta social en la era de la simbiosis hombre-máquina, el Instituto de Investigación Tencent organizó conjuntamente el Instituto Qianhai de Asuntos Internacionales. , Qingteng, Corporación de Parques Científicos y Tecnológicos de Hong Kong y otras institucionesPerspectivas de las relaciones hombre-máquina en la era de la IAForo, esto también esSerie Inteligencia Artificial + Desarrollo Social Seminarios de alto niveldel segundo tema.
En el foro, Zhang Zhengyou, científico jefe de Tencent y director de Tencent Robotics "Jerárquico" incluye tres niveles de control sobre la ontología, el entorno y las tareas. La ventaja de la inteligencia incorporada jerárquica es que el conocimiento en cada nivel se puede actualizar y acumular continuamente, y las capacidades entre niveles se pueden desacoplar.La robótica de Tencent

En cuanto a cómo los robots inteligentes entrarán en la vida de las personas, Zhang Zhengyou dijo: "A largo plazo, los robots definitivamente entrarán en miles de hogares. En la actualidad, los robots pueden provocar por primera vez grandes cambios en los campos de la rehabilitación, el cuidado de las personas mayores y la educación personalizada. .

El siguiente es el texto completo del intercambio de Zhang Zhengyou:


Estimados líderes, distinguidos invitados, distinguidos maestros y distinguidos estudiantes: Buenas tardes a todos. Hoy quiero compartir con ustedes algunos desafíos y avances sobre la inteligencia incorporada.

En cuanto a qué es la inteligencia encarnada, este término se volvió popular de repente el año pasado y todos pensaron que era genial. De hecho, la inteligencia encarnada es relativa a la inteligencia no encarnada. ChatGPT tiene inteligencia sin cuerpo. Para mí, un agente encarnado es un robot inteligente. En cuanto a si esta inteligencia debe tener un cuerpo o no, nosotros, los que fabricamos robots, definitivamente queremos tener un cuerpo. Sólo teniendo un cuerpo la inteligencia se puede desarrollar mejor.

A principios de 2018, el presidente y director ejecutivo de Tencent, Ma Huateng, decidió establecer Tencent Robotics. Los muertos vivientes, el alma sin cuerpo es un fantasma de la nada. No hacemos muertos vivientes, no queremos que los fantasmas deambulen, nosotros. ¡Crear robots que ayuden armoniosamente a las personas! Es decir, queremos crear robots inteligentes para mejorar la inteligencia humana y liberar el potencial físico humano. Cuidar las emociones humanas, promover la interacción entre humanos y robots y dar la bienvenida a una era de convivencia. -Creación y beneficio mutuo entre humanos y robots, esta es nuestra intención original de establecer Tencent Robotics X.

De hecho, es controvertido si la inteligencia requiere encarnación. Esta controversia gira principalmente en torno a la ciencia cognitiva. En este campo, todo el mundo cree que muchas características cognitivas requieren las características generales del organismo para dar forma a la inteligencia del organismo. Sin embargo, algunas personas creen que la inteligencia no requiere del cuerpo, porque a lo que nos enfrentamos principalmente es al procesamiento de información, la resolución de problemas, y la toma de decisiones y la gobernanza y otras tareas, que pueden lograrse mediante software y algoritmos. El término y concepto de inteligencia encarnada existe desde hace mucho tiempo. Para muchas personas, el cuerpo es crucial para la inteligencia, porque la inteligencia se origina en la interacción entre un organismo y su entorno, y la interacción entre ambos conduce al crecimiento y crecimiento. desarrollo de la inteligencia.

Mirando hacia atrás, Turing escribió un artículo en 1950 en el que analizaba cómo lograr la inteligencia artificial. Se puede ver que algunas personas piensan que algunas actividades muy abstractas, como jugar al ajedrez, pueden usarse para lograr (inteligencia), y algunas personas piensan que la máquina debería tener algún órgano (órgano), como un altavoz (micrófono). para ayudar Realizamos la inteligencia artificial más rápido. Sin embargo, el propio Turing dijo que no sabía qué categoría era mejor. Cuando Open AI compró por primera vez cientos de brazos robóticos, esperaban directamente utilizar robots para implementar AGI. Después de más de un año de arduo trabajo, descubrieron que este camino era temporalmente inviable, por lo que se dieron por vencidos y se centraron en un gran formato basado en texto. modelo, y finalmente ChatGPT se desarrolló con éxito.

Los robots tienen una larga historia. Originalmente eran la automatización de brazos mecánicos en líneas de producción, lo que significa realizar una serie de acciones en un entorno conocido y que requieren un control preciso. Lo llamo inteligencia cero porque este proceso no requiere ninguna inteligencia. Aunque este tipo de robot tiene capacidades operativas muy sólidas, estas capacidades operativas están preprogramadas para un entorno fijo y no tienen inteligencia.

Al entrar en la era de los modelos grandes, algunas personas piensan que los modelos grandes son muy poderosos y se pueden implementar inmediatamente en robots. De hecho, este no es el caso. ¿Cuál es la situación ahora? Para usar una analogía, equivale a poner un cerebro de 20 años en un cuerpo de 3 años. Aunque el robot tiene ciertas capacidades de movimiento, sus capacidades operativas son muy débiles. La verdadera inteligencia incorporada debe poder aprender y manejar problemas de forma independiente, y poder ajustarse y planificar automáticamente cuando el entorno cambie y sea incierto. Este es un proceso muy importante que creemos que puede conducir a AGI o crear un robot inteligente general.

Específicamente,La inteligencia incorporada es la capacidad de un agente con soporte físico (robot inteligente) de acumular conocimientos y habilidades a través de la percepción, el control y el aprendizaje autónomo en una serie de interacciones, formando inteligencia e influyendo en el mundo físico. Esto es diferente de ChatGPT. La inteligencia incorporada adquiere conocimiento a través de métodos de percepción similares a los humanos (visión, oído, lenguaje, tacto) y lo abstrae en una expresión semántica para comprender el mundo, tomar acciones e interactuar con el mundo. Esto implica la integración de múltiples disciplinas, incluida la automatización de la ingeniería mecánica, la optimización del control de sistemas integrados, la ciencia cognitiva, la neurociencia, etc. Es una capacidad que puede surgir después de que todos los campos se hayan desarrollado hasta cierto punto.

La inteligencia incorporada enfrenta muchos desafíos.

La primera son las capacidades de percepción complejas, incluidas la visión y el oído. Ahora el modelo grande que incluye GPT-4o solo incluye visión y oído, pero no el tacto. Para la inteligencia encarnada, el tacto es muy importante. Los robots necesitan tener capacidades de percepción complejas para percibir y comprender los entornos y objetos impredecibles y desestructurados que los rodean.

El segundo son las poderosas capacidades de ejecución, que incluyen movimiento, agarre y manipulación para poder interactuar con el entorno y los objetos.

El tercero es la capacidad de aprendizaje, la capacidad de aprender y adaptarse a partir de la experiencia y los datos para comprender mejor y responder a los cambios en el entorno.

El cuarto es la capacidad de adaptación, la capacidad de ajustar de forma independiente el comportamiento y las estrategias de uno para afrontar mejor diferentes entornos y tareas.

La quinta es muy importante, no es que la superposición de estas habilidades vaya a lograr la inteligencia encarnada, sino la integración colaborativa orgánica y eficiente de estas habilidades para lograr verdaderamente la ansiada inteligencia encarnada de la que hablamos.

En sexto lugar, en este proceso, los datos que necesitamos son muy escasos. Inicialmente, Open AI esperaba lograr AGI directamente a través de robots, pero luego se rindió debido a la falta de datos. Sin embargo, los datos aún deben resolverse y la escasez de datos. Los datos son enormes desafíos. También es necesario proteger la privacidad del usuario al recopilar datos en escenarios reales.

En séptimo lugar, dado que la inteligencia encarnada necesita vivir en un hábitat humano, debe garantizar su seguridad y la de su entorno.

El octavo es la cuestión de la ética social. Cuando los robots interactúan con los humanos, deben seguir normas morales y legales y proteger los intereses y la dignidad humanos.

Queda mucho trabajo por hacer para lograr la inteligencia incorporada. En la actualidad, todo el mundo piensa que los modelos grandes pueden resolver el problema de los robots inteligentes. He hecho un dibujo aquí, que equivale a poner un modelo grande en la cabeza del robot. Parece estar resuelto, pero esto es sólo una parte de la historia. Esperamos que la inteligencia y la ontología se integren orgánicamente, de modo que la inteligencia real pueda surgir de la interacción entre los robots y el medio ambiente.

Para lograr esta visión,Creo que el paradigma de control necesita cambiar. Si nos fijamos en los libros de texto sobre robots, el paradigma de control tradicional es un proceso de circuito cerrado de percepción primero, percepción seguida de planificación, planificación seguida de acción y acción seguida de percepción. Este paradigma de control no puede lograr la inteligencia. En 2018, propuse un "paradigma SLAP", donde S es percepción, L es aprendizaje, A es acción y P es planificación. La percepción y la acción deben estar estrechamente vinculadas para responder a entornos cambiantes en tiempo real. Sobre ellos hay planes para resolver tareas más complejas. El aprendizaje impregna cada módulo, siendo capaz de aprender de la experiencia y los datos, y siendo capaz de ajustar el propio comportamiento y estrategias de forma independiente. Este paradigma SLAP es muy similar a la inteligencia humana.

El premio Nobel Daniel Kahneman tiene un libro llamado "Pensar, rápido y lento", que cree que el cerebro humano tiene dos sistemas. El primer sistema, el Sistema 1, es más intuitivo y resuelve problemas rápidamente. El segundo sistema es un pensamiento más profundo, un pensamiento racional, llamado Sistema 2. De hecho, las personas pasan el 95% de su tiempo en el Sistema 1 y sólo necesitan programar el Sistema 2 para unas pocas y complejas tareas. Entonces, ¿por qué el cerebro humano es tan eficiente? Sólo se necesitan unas pocas docenas de vatios para resolver problemas de pensamiento. una GPU consume No se necesita energía. Esto se debe a que los humanos pueden resolver el 95% de los problemas en el Sistema 1 y solo las tareas difíciles pasan al Sistema 2.

El paradigma SLAP que propuse, en el nivel inferior, está estrechamente conectado entre percepción y acción para resolver la autonomía reactiva, que corresponde al Sistema 1. La autonomía consciente consiste en lograr el pensamiento y el pensamiento racional del Sistema 2.

Según el paradigma SLAP, combinado con el conocimiento de cómo el cerebro humano y el cerebelo controlan las extremidades, desarrollamos un sistema de inteligencia corporal jerárquico, dividido en tres capas: la capa inferior es la propiocepción, que es la percepción que el robot tiene de sí mismo. la señal del motor que controla el movimiento del motor.

La segunda capa es la exterocepción, que es la percepción del entorno. A través de la inteligencia de percepción del entorno, sabe qué capacidades deben llamarse para completar la tarea.

La capa superior está relacionada con la tarea y se llama Planificador de nivel estratégico. Sólo planificando la tarea específica, el entorno y las capacidades del cuerpo del robot se puede resolver bien la tarea.

A continuación les daré algunas demostraciones específicas. El control del movimiento en el nivel más bajo (Nivel de propiocepción) también se aprende a partir de datos. Aquí, se permite que un perro real corra continuamente en la cinta y la recopilación de datos se realiza simultáneamente. Mediante el aprendizaje por imitación y el aprendizaje por refuerzo, el robot puede aprender movimientos similares a los de los perros reales. Utilizamos un mundo de mundo virtual y real integrado, gemelo digital, mundo virtual y real unificado. Lo que vemos aquí es solo el método de movimiento hacia afuera del perro, pero cómo se mueve el robot, cuánta fuerza se requiere y la intensidad de la señal de las articulaciones y los motores que se enviarán deben obtenerse mediante el aprendizaje por refuerzo.

Otro video, donde no hay control humano especial, es dejar que el perro robot aprenda el método de movimiento de un perro real. Después de aprender, corre por sí solo, lo que se siente un poco realista.

Esta es la habilidad más básica (capacidad motora). El siguiente paso es percibir el entorno y completar estas tareas en el entorno. Acabo de hablar de moverse en terreno plano. El segundo paso es agregar información ambiental. gatear cómo subir escalones de forma natural, cómo saltar obstáculos y cómo saltar obstáculos.

En este momento, el perro robot ha aprendido a saltar y cruzar obstáculos en el mundo de la simulación. Este perro lo desarrollamos nosotros mismos y se llama Max. Lo que se diferencia de los perros comunes es que tiene ruedas en las rodillas. Puede caminar más rápido en terrenos planos con ruedas y puede usar cuatro patas en lugares irregulares, por lo que es diferente. combinaciones modales.

Cuando tenemos la capacidad de adaptarnos al entorno, podemos dejarle hacer varias cosas. Por ejemplo, le pedimos a uno de los perros que alcance al otro perro, y tras alcanzarlo, ganará. Para aumentar la complejidad, si aparece una bandera, el perro que originalmente estaba huyendo puede convertirse en una persecución cuando toca la bandera. Puedes echar un vistazo, esto también se aprende automáticamente mediante el aprendizaje por refuerzo. Un perro persigue a otro perro. Por supuesto, limitamos la velocidad para que el perro corra más lento. Ahora es el perro que corre el que persigue. Después de que el perro que lo persigue cambia, dobla una esquina y engaña al otro perro.

La ventaja de una inteligencia incorporada tan jerárquica es que el conocimiento en cada nivel se puede actualizar y acumular continuamente, y las capacidades entre niveles se pueden desacoplar. La actualización de otros niveles no afectará a otros niveles de conocimiento existentes.

Por ejemplo, cuando un perro persiguió a otro perro hace un momento, solo aprendí a entrenar en terreno plano durante el aprendizaje intensivo sin agregar ningún obstáculo. Ahora, después de agregar obstáculos, no hay necesidad de volver a aprender, lo aprendí automáticamente. Sé cómo lidiar con los obstáculos cuando estoy en la planta baja. Puedes ver el video. Esto es algo que no hemos vuelto a entrenar. Se le agregan obstáculos. Cuando encuentre un palo, lo atravesará. Cuando encuentre un obstáculo, lo saltará. es automático (aprendizaje).

Este trabajo se completó a principios del año pasado y se publicará en la principal revista académica internacional Nature Machine Intelligence en un futuro próximo. También se utilizará como artículo de portada, lo que indica que todos creen que dicho trabajo todavía está liderando el camino. .

Hablemos de lo que hemos hecho el año pasado.Progresos en la fusión de grandes modelos , es decir, integrar grandes modelos de lenguaje y modelos de percepción multimodal en nuestro sistema jerárquico de inteligencia encarnada. Por ejemplo, si un humano asigna una tarea de tortilla a un robot, el modelo de planificación grande basado en LLM descompone la tarea de tortilla, es decir, primero sacar los huevos del refrigerador, cascarlos en la olla y luego freír los huevos. huevos. Desde la percepción multimodal, primero debemos saber que el huevo se coloca en el refrigerador y se deben llamar las siguientes habilidades de nivel medio: el robot primero debe ir al refrigerador para sacar el huevo, abrir la puerta del refrigerador. Coge el huevo y devuélvelo a la estufa. La parte inferior es el control de nivel inferior, que controla cómo va el robot al frigorífico, cómo abrir la puerta del frigorífico, etc. Una vez que aprende, se hará automáticamente. Finalmente, regrese al Planificador de nivel estratégico de nivel superior. Tenga en cuenta que en este circuito cerrado, las acciones del robot actúan en un mundo integrado virtual-real en el que el mundo digital y el mundo físico están estrechamente integrados. En el espacio de simulación digital, hay robots y escenas de aspecto muy real, de modo que el Las habilidades del robot se pueden aprender en el espacio virtual y aplicarse directamente al espacio real.

Mira un vídeo aquí. Colocamos un robot inteligente en un entorno que nunca antes había visto. El primer paso es que el robot dé la vuelta y explore el mundo. Por ejemplo, en el video, la tarea del robot es enviar basura al bote de basura, por lo que primero debe encontrar el bote de basura y luego colocarlo allí después de encontrarlo. También mueva el bote de basura a otro lugar. Suponga que no conoce el entorno, encuentra el bote de basura mediante la exploración y luego envía la basura allí.

La siguiente escena trata sobre darle el mouse a la persona que usa ropa y jeans azules. Hay muchas otras personas aquí. Debe encontrar a la persona que usa ropa y jeans azules, y automáticamente las explorará y las encontrará. Muchas de las personas que conocí durante este período vestían ropa azul o jeans. Hasta que el robot vio ropa y jeans azules, envió el ratón.

Durante el proceso de exploración, el robot puede recordar el entorno que lo rodea y no necesita explorar nuevamente cada vez. En la siguiente escena, primero se le da el medicamento a un colega y luego el robot tira la bolsa de medicamentos para el resfriado. Ya sabe dónde está el bote de basura durante la exploración y el modelado, y va directamente al bote de basura. También puedes usar la relación entre el espacio, como dónde está el taburete y dónde está la pizarra. Si quieres enviar un objeto a una persona entre la pizarra y el taburete alto, si hay obstáculos en el medio, puede ser. evitado automáticamente.

El año pasado también hicimos un robot de barman. En ese momento, usaba una mano de tres dedos de desarrollo propio y el chasis estaba arreglado.

Este elegante barman también reunió primero a una persona real para que hiciera barman, aprendió su trayectoria y luego la implementó en el robot. También hay sensores táctiles en los dedos. Ahora, para insertar el palo en el orificio, la capacidad visual por sí sola no es suficiente y la precisión no es suficiente, por lo que depende de la percepción táctil para ver si está insertado o no. , es necesario moverlo hacia un lado. Muévalo hacia arriba y finalmente inserte el palo.

Este fue el trabajo del año pasado. El trabajo de este año incluye una mano de cinco dedos de desarrollo propio y un brazo robótico que también desarrollamos nosotros mismos. El año pasado no había ningún brazo robótico de desarrollo propio. Ahora también tenemos un chasis móvil, junto con un. Modelo de detección grande y modelo de planificación grande, que puede realizar operaciones. El robot puede hablar y completar tareas libremente. Mire el video.

La esquina inferior derecha es lo que se ve desde el robot inteligente móvil. Se encuentra una botella de whisky sobre la mesa y se le pide que sirva un vaso de whisky. Esto se ve desde el campo de visión del robot y puede reconocer varios. tipos de vino en tiempo real s cosas.

Compártelo aquí ahora. gracias a todos.