noticias

Experto en robótica de Google: la IA también chocará contra el mismo muro que los robots han encontrado en la realidad

2024-07-16

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


Informe del corazón de la máquina

Editor: Zhang Qian

“El aprendizaje automático ha estado viviendo en una burbuja que es la envidia de los robóticos, químicos, biólogos y neurocientíficos, y cuando realmente comience a despegar, todos nos encontraremos con los mismos problemas con los que todos los demás han estado lidiando durante años. . barreras realistas”.

Algunas personas dicen que el progreso en el campo de la robótica es lento, o incluso nulo, en comparación con otros subcampos del aprendizaje automático.

Alex Irpan, científico en robótica de Google DeepMind y participante en proyectos de inteligencia incorporada como SayCan, RT-1 y RT-2, está de acuerdo. Pero cree que esto se debe a que la robótica es un campo estrechamente relacionado con la realidad, y la complejidad de la realidad determina que inevitablemente chocarán contra un muro. También señaló que estos problemas no son exclusivos de la robótica. El mismo problema se aplica a técnicas como los modelos de lenguaje grandes (LLM). Estos modelos encuentran complejidades similares a las de la robótica cuando se enfrentan al mundo real.

Recientemente, escribió un blog titulado “Las tragedias de la realidad vienen por ti” para ilustrar este punto.



La tragedia de la realidad está llegando a ti.

En 2023, asistí a una conferencia de ML. Ye Weiyang estaba borracho y el tema se convirtió en una pregunta: "Si pudieras dar los recursos de cualquier subcampo de aprendizaje automático a otro subcampo, ¿cuál cortarías y a quién le darías los recursos?"

No recuerdo lo que dijeron, pero una persona dijo que iban a talar los robots. Cuando presioné más, dijeron que la robótica avanzaba demasiado lentamente y que no pasaba nada en comparación con otros campos.

Dicen que la robótica ha progresado más lentamente que el subcampo puramente software del aprendizaje automático, y creo que tienen razón, pero me gustaría añadir dos puntos más:

  • La razón por la que los robots aprenden más lentamente es porque es difícil marcar la diferencia sin resolver problemas difíciles.
  • Los desafíos de la robótica no son exclusivos de los robots.

En el campo de la robótica, un dicho común es que "la realidad es confusa". En relación con el código, extendería esto a "la realidad es compleja". En robótica, se tiende a llevar la realidad desordenada a un nivel de abstracción lo suficientemente bueno como para que el código pueda funcionar sobre ella. Como campo, la informática lleva décadas creando buenas capas de abstracción entre hardware y software. El código describe cómo suministrar energía al disco duro, al procesador y a la pantalla, y es lo suficientemente confiable como para que ni siquiera tenga que pensar en ello.



Hay muchos beneficios al hacer esto. Una vez que haya hecho el trabajo duro y haya movido el progreso de su trabajo a un espacio lógico abstracto, todo se vuelve más fácil. El código y los datos son increíblemente reproducibles. Sincronicé copias del archivo que representa un borrador de esta publicación de blog en 3 dispositivos sin siquiera pensarlo.

Sin embargo, como dijo Joel Spolsky, todas las abstracciones tienen agujeros en algún grado, y encuentro que los agujeros en la robótica tienden a ser aún mayores. Hay muchas formas en las que las cosas pueden salir mal y no tienen nada que ver con la corrección de su código.

¿Tiene esto que ver con algunos principios básicos del tema? Un poco. Gran parte del hardware de robótica es más experimental que las computadoras portátiles o los servidores Linux. La robótica de consumo aún no es una gran industria. "Experimental" a menudo significa "estados extraños y más propensos al fracaso".

Sin embargo, no creo que el hardware sea la causa principal del problema. La realidad es la raíz del problema. Benjamin Holson lo expresa muy bien en su artículo “Mythical Non-Roboticist”:

La primera dificultad es que los robots tienen que lidiar con una percepción y una ejecución imperfectas en el mundo real. El estado globalmente mutable es un mal estilo de programación porque es muy difícil de manejar, pero para el software robótico todo el mundo físico es un estado globalmente mutable y sólo puedes observarlo de manera poco confiable y esperar que tu acción te acerque a lo que quieres lograr.

La investigación en robótica se basa en la construcción de nuevos puentes entre la realidad y el software, pero esto también ocurre fuera de la investigación en robótica. Cualquier software que interactúe con la realidad tiene una comprensión imperfecta de la realidad. Cualquier software que intente generar cambios en el mundo real debe lidiar con el estado globalmente mutable de la realidad. Cualquier software cuyo comportamiento dependa de lo que está sucediendo en la realidad invita al ruido y la complejidad.

La IA del juego es un buen ejemplo. La IA del ajedrez es sobrehumanamente confiable. Sin embargo, algunas Go AI sobrehumanas pueden ser derrotadas si se juega al ajedrez de una manera específica, como descubrieron Tony T. Wang et al. en el artículo de ICML 2023 "Adversarial Policies Beat Superhuman Go AI". Las técnicas adversarias encuentran estrategias que son lo suficientemente claras como para que los humanos puedan replicarlas.

En el Apéndice G.2, uno de nuestros autores, un experto en Go, pudo implementar este ataque [cíclico] aprendiendo los registros del juego del oponente sin ninguna ayuda algorítmica. Jugaron en condiciones humanas estándar en el servidor Go en línea de KGS y lograron una tasa de victorias de más del 90% en los mejores juegos de robots de KataGo no relacionados con el autor.
El autor incluso logró ganar dándole al robot 9 handicaps, lo cual es una gran ventaja: un ajedrecista profesional humano con estos handicaps tendría una tasa de victorias de casi el 100% contra cualquier oponente, humano o IA. También vencieron a KataGo y Leela Zero, quienes realizaron 100.000 búsquedas por juego, lo que normalmente está mucho más allá de las capacidades humanas. Desde entonces, otros humanos han utilizado el ataque cíclico para derrotar a otras IA de Go importantes.

Mientras tanto, hace unos años, OpenAI creó un sistema que derrotó al actual campeón mundial de Dota 2. Después de abrir el sistema al público para probar su solidez, un equipo ideó una estrategia que condujo a una racha ganadora de 10 juegos.



Con base en esto, se podría adoptar la visión pesimista de que incluso una "realidad" simple como conectar una placa Go de 19 x 19 o Dota 2 tiene suficiente complejidad adicional para hacer que el comportamiento robusto sea un desafío. Creo que esta visión es injusta, ya que ninguno de los sistemas tiene la solidez como objetivo principal, pero creo que constituyen un estudio de caso interesante.

Últimamente, ha habido una ola de entusiasmo en torno a los LLM: qué pueden hacer y dónde se pueden aplicar. Implícita en esto está la creencia de que el LLM puede cambiar drásticamente la forma en que las personas interactúan con la tecnología en el trabajo y el ocio. En otras palabras, LLM cambiará la forma en que interactuamos con la realidad. De hecho, me he subido al tren de las exageraciones, específicamente mi sospecha de que el modelo subyacente ha sido sobrevalorado en el corto plazo y subestimado en el largo plazo. Sin embargo, también significa que, para un campo que históricamente ha sido malo en tomar en cuenta la realidad, todo el caos de la realidad está por llegar.

En la misma conferencia de ML donde este tipo dijo que la robótica es un desperdicio de recursos, mencioné que estábamos haciendo experimentos de modelos básicos con robots reales. Algunas personas dijeron que parecía un poco aterrador y les aseguré que era sólo un prototipo de investigación. Pero también encuentro un poco intimidante el software de generación y ejecución de LLM, y me parece interesante que estén vagamente preocupados por uno pero no por el otro. La gente de Silicon Valley es un poco contradictoria. Creen que el software puede impulsar a las empresas emergentes a lograr cambios sorprendentes y que su software no es digno de pensamiento o reflexión. Creo que el mundo de los bits forma parte de la realidad tanto como el mundo de los átomos. Operan en diferentes niveles, pero todos son parte de la realidad.

He notado (con cierta schadenfreude) que los profesionales de LLM están comenzando a encontrar los mismos puntos débiles que la robótica ha encontrado antes. Por ejemplo, "No podemos replicar estas capacitaciones porque son demasiado caras". Sí, este tema se viene debatiendo en el campo de la robótica desde hace al menos diez años. Otro ejemplo: "No puedo conseguir que Bing me diga la fecha de lanzamiento de Avatar 2 porque sigue obteniendo informes de noticias sobre sí mismo y corrigiéndose antes de generarlos".

Ahora vivimos en un mundo donde cualquier texto disponible públicamente en Internet afecta irrevocablemente a la generación de mejoras de recuperación. Bienvenido al estado mutable global. Cada vez que veo a alguien afirmar que el comportamiento de ChatGPT ha retrocedido, pienso en las diversas "teorías de conspiración" que yo y otros hemos ideado para explicar la repentina e inexplicable disminución del rendimiento del robot, y si el problema radica en el modelo o en el entorno. ¿O es nuestra sobreinferencia?

Como dice el refrán, "todas las demostraciones de robots mienten", la gente descubre que todas las demostraciones de LLM también mienten. Creo que, fundamentalmente, esto es inevitable porque la capacidad de atención humana es limitada. Es importante evaluar el tipo, tamaño y significado de la mentira. ¿Muestran cómo se generaliza el modelo/bot? ¿Mencionaron cuán cuidadosamente seleccionados fueron estos ejemplos? Estas cuestiones se vuelven más complejas una vez que se conecta la realidad. Messi parece un buen jugador en este momento, pero "¿podrá hacerlo en una noche fría y lluviosa en el Stoke City"?

Para complicar las cosas, la respuesta a estas preguntas no siempre es "no". Messi podría hacerlo en una noche fría y lluviosa en el Stoke City. Él es lo suficientemente bueno. Esto hace que la pregunta sea difícil, porque es mucho más importante responder un "sí" correcto que un "no" correcto. A medida que el LLM mejora cada vez más y la IA se vuelve más común en la vida cotidiana, como sociedad necesitamos mejorar cada vez más a la hora de juzgar si un modelo ha demostrado su eficacia. Una de mis principales preocupaciones sobre el futuro es que no somos buenos evaluando si los modelos han demostrado su eficacia.

Sin embargo, espero que los robóticos estén a la vanguardia. Nos quejábamos de problemas de evaluación antes de que surgiera la sugerencia de que LLM manipulaba puntos de referencia comunes. Mucho antes de que "necesitamos una mejor cobertura de datos" se convirtiera en el lema del equipo de preentrenamiento del modelo básico, estábamos trabajando arduamente para obtener suficientes datos para capturar el efecto de cola larga de la conducción autónoma. El aprendizaje automático ha estado viviendo en una burbuja que es la envidia de los robóticos, químicos, biólogos y neurocientíficos, y cuando realmente comience a despegar, todos nos encontraremos con los mismos problemas con los que todos los demás han estado lidiando durante años. Barreras realistas. Estos desafíos se pueden superar, pero serán difíciles. Bienvenido al mundo real. Bienvenido al mundo del dolor.

Enlace original: https://www.alexirpan.com/2024/07/08/tragedies-of-reality.html