noticias

¿es el robot de openai demasiado parecido a un humano? los inversores se sorprendieron: pensaron que debajo de la ropa había una persona real

2024-09-05

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

serie de representantes de clase: la interpretación más rápida y completa de los principales eventos de la ia. este artículo se centra en el último robot neo lanzado por tecnologías 1x, un robot humanoide invertido por openai, y lo utiliza como pista para revelar la ruta técnica especial y las consideraciones de posicionamiento. adoptado por 1x robots.

guía futura de ia para el norte por hao boyang y zhou xiaoyan

editor zheng kejun

aunque después de visitar la conferencia mundial de robots, algunos inversores le dijeron a tencent technology que en la pista de robots humanoides, pero miraproducido por 1x, una empresa de robots humanoides invertida por openaidespués del robot neo, empezaron a tener confianza nuevamente.

incluso wang yuquan, fundador de haiyin capital, que siempre se ha opuesto a hacer robots con formas humanoides, se sorprendió. dijo a tencent technology: "los movimientos de neo son muy naturales y coordinados, eliminando por completo los estereotipos de la gente sobre los robots". cuando vi este robot por primera vez, mi primera reacción fue que había una persona real debajo de la ropa”.

el robot invertido por openai comenzó a hacer tareas domésticas y era tan realista que fue cuestionado como un caparazón humano

también nos sorprende su suavidad, pero además, lo que queremos saber más es, ¿por qué elige utilizar el modo "bípode" en el mundo del modo "rueda" en la escena familiar?

en el informe anterior, mencionamos que más del 80% de los robots que prestan servicios en escenas industriales adoptarán un modo "bípedo" en el diseño de la parte inferior del cuerpo. en el ámbito doméstico, las tareas están menos estandarizadas, las tareas son más triviales y las emergencias son más frecuentes, lo que requiere que los robots domésticos sean seguros y silenciosos. en comparación con los algoritmos de control inmaduros y de alto costo de los "bípodes", que provocan inestabilidad al caminar y estar de pie, y un alto nivel de ruido, el tipo con ruedas es más silencioso y estable en carreteras planas.

neo adopta un enfoque diferente: es un robot en modo "bípedo" que es poco común en las escenas domésticas.

en el vídeo mostrado, neo es muy “suave”.sin la cuerda que cuelga de su espalda, parecería un ser humano real empacando copas en la cocina.

puede predecir el siguiente paso de los humanos que realizan las tareas domésticas sin instrucciones, basándose únicamente en sus propias "observaciones".

neo se mueve muy silenciosamente, pero si subes el volumen de la pantalla de vídeo, aún puedes escuchar el sutil zumbido que hace neo cuando se inclina para recoger la mochila.

a diferencia de muchos robots humanoides que parecen "altos", neo parece un vecino que llega a tu casa vestido con ropa informal y puede ayudarte con las tareas del hogar.

neo mide 1,65 metros de altura y tiene 55 grados de libertad en todo su cuerpo. pesa sólo 30 kilogramos, lo que es casi 1/3 ~ 1/2 más ligero que la mayoría de los robots humanoides de la misma altura. según informa medium, neo tiene una carga útil de 20 kg y su agarre es lo suficientemente fuerte como para levantar 70 kg (154 libras).

(imagen: comparación del peso de los robots humanoides en el rango de "altura adulta" en el país y en el extranjero)

a juzgar por los parámetros, neo es de tamaño pequeño, pero su fuerza no es inferior a la de los robots humanoides convencionales de la industria. entre estos robots humanoides bípedos, sólo neo está claramente posicionado para servir en escenarios de aplicaciones domésticas, mientras que otros robots bípedos sirven básicamente en escenarios industriales.

entonces, ¿cómo puede neo caminar "ligeramente" en casa? ¿cómo podemos predecir las acciones humanas con sólo observarlas? ¿será que se ha superado el problema de generalización de los robots humanoides?

¿de dónde viene la divergencia de diseño entre ruedas y patas?

los robots humanoides bípedos son adecuados en escenarios industriales, pero enfrentan muchos desafíos una vez que pasan al modo doméstico.

el núcleo del desafío es que la estructura mecánica del "bípode" es compleja y es necesario movilizar más articulaciones para mantener el funcionamiento del robot, lo que inevitablemente requerirá mayor potencia si se va a utilizar en escenarios domésticos. debe resolver una serie de problemas causados ​​por altas pérdidas de energía, como la disipación de calor y el ruido.

por el contrario, en escenarios industriales, los robots suelen trabajar en almacenes o fábricas cerradas. estos lugares suelen estar equipados con equipos de refrigeración o refrigeración para ayudar a la disipación del calor, por lo que los robots bípedos no necesitan preocuparse demasiado por la influencia de las altas temperaturas en estos entornos. .

como "trabajadores", no tienen altos requisitos de apariencia. pueden estar semidesnudos (con las partes expuestas) o incluso caminar por la fábrica con cables colgados. la falta de "ropa" también ayuda a disipar el calor. como el atlas hidráulico de boston dynamics. puede correr de un lado a otro "ferozmente".

(imagen: atlas hidráulico de boston power)

además, el entorno industrial en sí está lleno de diversos sonidos mecánicos, y el sonido de las articulaciones en movimiento del robot bípedo y el sonido de los pasos al caminar no son tan perceptibles.

pero una vez que se pasa a la escena doméstica, todos estos problemas que no son obvios en la escena industrial se convierten en errores: el pobre rendimiento de disipación de calor del robot puede causar incendios, demasiado ruido puede causar neurastenia y las partes expuestas son especialmente para familias con niños. existen enormes riesgos de seguridad.

el tipo con ruedas tiene un bajo consumo de energía, lo que naturalmente reduce problemas como la disipación de calor y el ruido.

esto significa que para mover un robot "bípedo" a una escena doméstica, debe optimizarse y transformarse desde la ontología.

eric jiang, vicepresidente de 1x robot ai, proporcionó soluciones para la producción de neo y optimizó el componente central del "motor" del robot. dijo en una entrevista reciente:contrariamente a la idea de "motor pequeño, gran relación de transmisión y alta energía cinética" utilizada por muchos robots humanoides, la contraseña clave de neo es "alto par, pequeña relación de transmisión y baja energía cinética" del motor.

entonces, ¿cómo entender lo que dijo eric jiang? primero podemos comprender brevemente la relación entre el "motor" y la "relación de transmisión" de los robots humanoides.

al igual que en el caso de los humanos, en los robots humanoides sólo existen dos tipos de movimiento: el movimiento lineal y el movimiento rotacional. por ejemplo, en el video de visualización 1x, hay unos segundos en los que neo "salta" a los humanos. los componentes anatómicos de esta acción son: primero extender la mano derecha (movimiento lineal) y luego agitar la mano (movimiento de rotación). ).

si intentas desmontarlo, encontrarás que todo el sistema de movimiento del robot humanoide es una combinación de estos dos movimientos.

entre ellos, el movimiento lineal se realiza mediante la combinación "motor + tornillo" del robot humanoide, mientras que el movimiento de rotación se realiza mediante "motor + reductor". aquí nos centramos en la realización del movimiento de rotación que ayuda al robot. completa la rotación "articular", en comparación con el tipo de rueda, los principales movimientos involucrados en el "bípode" también se reflejan en las articulaciones.

el núcleo de la "relación de transmisión" afecta la velocidad de rotación, que es la velocidad combinada del "motor + reductor".

en pocas palabras,la "relación de transmisión" se refiere a lavelocidad de salidayla velocidad a la que se ejecuta realmente el componente.la relación entre. por ejemplo, si la velocidad de movimiento de las piernas del robot humanoide es v, una relación de transmisión alta significa que el motor funciona a alta velocidad y una relación de transmisión baja significa que el motor funciona a baja velocidad.

muchos robots humanoides tienen altas relaciones de transmisión.(por ejemplo, 10:1), luego de que el engranaje reduzca la velocidad del motor, la velocidad de movimiento de las articulaciones del robot disminuirá. esta configuración es más adecuada para ocasiones que requieren alta fuerza pero no requieren movimientos de alta velocidad.

si se utiliza una relación de transmisión baja(por ejemplo, 3:1), la velocidad del motor sufre una desaceleración menor y las articulaciones del robot se mueven más rápido. esta configuración es adecuada para situaciones que requieren una respuesta rápida y un funcionamiento flexible.

neo puede reducir el consumo de energía de las juntas centrales estableciendo una relación de transmisión baja y reduciendo la velocidad de salida del motor.

la baja relación de transmisión del motor significa que se sacrifica la velocidad de funcionamiento del motor. eric jiang dijo en el documento técnico "motor physics" que escribió que neo utiliza "alto par" para compensar la falta de potencia que pueda ser causada. por el bajo funcionamiento del motor. también afirmó: "la mayoría de los motores no son lo suficientemente potentes para ejercer grandes cantidades de torque, por lo que los ingenieros mecánicos toman motores de alta velocidad y les agregan engranajes, intercambiando velocidad por torque".

(imagen: captura de pantalla del documento técnico "motor physics" publicado por eric jiang, que describe cómo los ingenieros mecánicos intercambian la velocidad del motor por el par)

esto explica por qué muchos robots bípedos sólo pueden utilizarse en escenarios industriales:"la mayoría de las empresas de robótica humanoide optan por implementar sus robots en fábricas en lugar de en hogares porque dependen de sistemas de accionamiento rígidos y altamente engranados. estos sistemas no son seguros cerca de las personas y deben estar encerrados en jaulas".

desde esta perspectiva, el equipo de 1x ha encontrado una ruta de hardware para que los robots bípedos funcionen de forma segura en escenarios domésticos, de modo que neo pueda usar ropa humana sin preocuparse de quemar la ropa debido al bajo rendimiento de disipación de calor.

de hecho, eve, el robot de la generación anterior de 1x, tenía ruedas. sólo en la generación neo se volvió bípedo. la razón esencial sigue siendo el problema de la adaptación de la escena.

la escena del hogar es muy compleja y requiere que el robot meta la mano debajo de la mesa para recoger cosas o recoger cosas del mostrador. dado que la base ocupa espacio, un robot con chasis con ruedas debe "extender" sus brazos para llegar a algunos rincones. de la casa eric jiang cree que "en este caso, el robot debería aprovechar el cambio de su centro de gravedad para recoger cosas como los humanos, por ejemplo, cuando se encuentra con una situación en la que algo cae en la esquina del gabinete". el robot debe poder levantar una pierna como un humano, colocar una mano sobre la mesa y usar su centro de gravedad para alcanzar el objeto.

eric jiang también puso un ejemplo en la entrevista: ¿por qué muchas estanterías dejan un cierto espacio en la parte inferior? "es simplemente para que a los humanos les resulte más fácil meter los dedos de los pies", para que la gente pueda presionar su cuerpo contra la estantería para coger libros.

por lo tanto, los dos pies pueden reducir la huella de movimiento del robot, mientras que la distancia entre ejes no puede adaptarse a escenas domésticas triviales.

ésta es la lógica del paso de 1x de la postura con ruedas a la postura con los pies. quizás, en un entorno familiar, la postura con las ruedas no puede "correr" tan bien como la postura con los pies. además, neo también tiene algunas fórmulas "únicas" en términos de generalización y recopilación de datos.

¿están ya los robots capaces de generalizar en el umbral?

como robot que se puede utilizar en casa, además de la seguridad, lo más importante es que puede ser un verdadero ayudante multifacético. esto requiere que el robot sea "inteligente", capaz de comprender las necesidades del propietario, capaz de operar de forma autónoma y lo suficientemente generalizado.

si observamos todas las empresas de robots en las que ha invertido openai, la característica común de sus productos es que son muy "inteligentes", es decir, pueden combinar muy bien modelos grandes con robots.

por ejemplo, el sorprendente desempeño de la figura 01 se debe en gran medida a su capacidad para comprender instrucciones e identificar elementos para emitir juicios. y este es exactamente el resultado de la combinación de grandes modelos multimodales y robots.

otra empresa invertida, physical intelligence, sólo tiene una página web y ningún producto hasta el momento. pero en entrevistas, la compañía dijo que su visión es "construir un modelo de inteligencia artificial de propósito general que, en lugar de impulsar robots que realizan tareas repetitivas en almacenes o fábricas, pueda aplicarse a una amplia gama de escenarios".

en cuanto a la parte mecánica, incluso anunciaron que no fabricarán ellos mismos el hardware, sino que comprarán múltiples tipos de robots para entrenar su software.

(imagen: inteligencia física)

no se trata tanto de una empresa de robótica como de una empresa modelo a gran escala.

y los robots de 1x no son una excepción.

eric jang, vicepresidente de ia de 1x, tiene una amplia experiencia en la integración de modelos grandes en robots. antes de unirse a 1x en 2022, dirigió un equipo en el proyecto saycan de google deepmind. este proyecto es el primer intento de inteligencia incorporada para integrar modelos de lenguaje y robots.

en febrero de este año, 1x publicó un vídeo de su eve realizando una misión de red neuronal completa, que se convirtió en un pequeño éxito. en una reunión de intercambio grasp sfi celebrada el 24 de abril, podemos ver la lógica operativa general de este modelo.

también se divide en un pipeline (formulario de flujo de trabajo). primero, se utiliza un modelo dit (diffusion-transformer), combinado con comandos de lenguaje natural, para utilizar difussion para generar una imagen predicha de su posición futura. luego, coloque esta predicción, la imagen actual y el objetivo en un nuevo modelo de transformador para predecir las actividades mecánicas posteriores requeridas.

en el vídeo podemos ver que eve puede clasificar objetos, transportarlos e incluso cargarse (no es de extrañar que se llame eve). algunas de estas tareas también se pueden realizar con las dos manos. pero mirando detenidamente este vídeo, resulta que las habilidades de eve en ese momento se limitaban a identificar, agarrar y colocar objetos. posteriormente, estas habilidades básicas se combinaron en tareas específicas, como empacar, mover y clasificar.

para agosto o septiembre de este año, básicamente todas las empresas de robótica que tengan acceso a circuitos modelo a gran escala podrán alcanzar estas capacidades.

por ejemplo, figura 01 publicó a finales de febrero un vídeo de su propio robot utilizando un modelo grande para conducir café, en el que incluso puede corregir errores por sí solo.

(imagen: figura 01 preparando café en el video de demostración)

sin embargo, después de eso, figure y 1x tomaron caminos diferentes en términos de modelos.

en marzo, figure optó por utilizar directamente gpt-4o, lo que otorga a sus robots sólidas capacidades lógicas y de conversación. utilizaron un pipeline (flujo de trabajo) para integrar los tres modelos.

en primer lugar, el modelo grande gpt-4o se utiliza para reconocer el lenguaje y planificar acciones. luego, su propia capa de política neuronal, es decir, su propio modelo de tareas entrenado de un extremo a otro, ejecuta la acción. al mismo tiempo, utiliza su propio modelo de control corporal para mantener el equilibrio del robot.

(imagen: figura explicación oficial de la composición de su modelo)

después de que la interacción se convirtiera en lo más destacado de su robot, la figura 02 también enfatizó la mejora en el nivel cerebral provocada por su potencia de cálculo 3 veces mayor. en términos de modelos, una mejor integración de los modelos openai se ha convertido en su foco de desarrollo.

pero no fue hasta el 31 de mayo que 1x lanzó su actualización de directiva de idioma. en su vídeo de demostración, el robot finalmente puede comprender tareas y realizar las operaciones correspondientes a través de comunicación por voz. pero incluso hasta ahora, 1x todavía no utiliza un modelo de lenguaje grande de alto nivel. en la documentación de la página de visualización de su sitio web oficial, mencionaron: “después de crear un conjunto de datos de pares de comandos de lenguaje visual a natural, el siguiente paso es utilizar modelos de lenguaje visual como gpt-4o, vila y gemini vision para predecir automáticamente acciones a nivel ". esto también da como resultado que sus robots carezcan de la capacidad de planificar tareas complejas.

parece que el 1x está un gran paso por detrás en términos de rendimiento inteligente.

pero esto puede deberse a que sus esfuerzos van en direcciones diferentes. en comparación con las capacidades de interacción y planificación, 1x se preocupa más por la generalización de tareas.

en su blog oficial de marzo, 1x explicó el modelo que estaba construyendo. están tratando de entrenar un "modelo base" para comprender una amplia gama de comportamientos físicos, desde limpiar y ordenar la casa hasta recoger objetos e interacciones sociales con humanos y otros robots. luego agregaron conjuntos de habilidades más específicas al modelo (por ejemplo, un modelo para operaciones generales de puertas y otro para tareas de almacén) acumulando más datos de capacitación de habilidades. en otras palabras, están intentando construir un "modelo básico" de robot que admita la generalización de tareas múltiples.

se trata de la generalización de las capacidades de las tareas, lo que permite que un único robot dependa de un único modelo para realizar múltiples tareas. en realidad, esto no es nada especial. casi todas las empresas que fabrican software para robots reciben formación en varias tareas individuales. sin embargo, en varios videos de demostración de robots y exhibiciones en conferencias, rara vez hemos visto a un robot completando continuamente una tarea compleja al mismo tiempo, como limpiar toda la habitación y luego cocinar.

esto se debe a que actualmente ningún modelo puede generalizar entre tareas.

eric jang dijo en una entrevista con "the robot report": "hemos demostrado anteriormente que nuestros robots pueden recoger y manipular objetos simples, pero para tener un robot doméstico verdaderamente práctico, debe poder realizar múltiples tareas sin problemas en serie. "pero esto no se puede lograr simplemente dividiendo una tarea compleja en múltiples tareas mediante un modelo de alto nivel como un "cerebro". porque la posición inicial y las condiciones son diferentes entre las tareas.

si un robot debe realizar una segunda tarea, primero debe compensar las deficiencias de la primera. por ejemplo, si el primer robot no logra alcanzar la posición correcta junto a la mesa, el segundo robot tendrá que extender sus brazos para agarrar el objeto y la tercera tarea requerirá una compensación adicional. los errores tienden a acumularse.

la solución 1x es dividir el modelo. actualmente, su modelo consta de dos partes, una es un modelo básico que comprende todas las tareas y "cadenas de tareas", y la otra son muchos modelos pequeños que comprenden mejor tareas específicas. también se ha convertido en una especie de pipeline (flujo de trabajo).

desarrollaron una interfaz de lenguaje natural que permite a los empleados guiar el robot a través de la voz para completar las acciones combinadas de múltiples modelos pequeños e intervenir en errores durante el proceso. esto permite que los modelos se conecten en serie en "cadenas de tareas" a más largo plazo. los datos relacionados con estas intervenciones y toda la tarea múltiple se utilizarán para entrenar el gran "modelo base". con el tiempo, ajustarán y entrenarán el "modelo básico" a través de datos de tareas acumulados y datos de "cadena de tareas", de modo que este modelo básico no solo pueda resolver la ejecución de una sola tarea, sino también el problema de conexión entre tareas.

(imagen: interfaz de control de lenguaje natural desarrollada por 1x)

por tanto, se diferencia del camino elegido por figura que enfatiza la interacción y la planificación. el problema central que 1x elige resolver actualmente es la capacidad de generalización entre tareas. y este puede ser el principal obstáculo para que los robots actuales se vuelvan verdaderamente universales.

entonces, ¿cómo es el progreso de generalización entre tareas de 1x?

en el último documental, podemos ver a un miembro del personal usando la voz para indicarle a un robot que complete las tareas de abrir la puerta, entrar al baño, cerrar la tapa del inodoro y salir paso a paso. esta tarea no se da de una sola vez, sino de forma individual y conectada.

esto no parece demasiado "automático", pero en realidad demuestra que el robot 1x ya tiene la capacidad preliminar de trabajar continuamente entre múltiples tareas de comando. siempre que tenga las capacidades básicas de ejecución de la "cadena de tareas" y las capacidades de planificación de modelos de vanguardia como gpt-4, pronto será posible completar de forma autónoma tareas complejas y continuas.

eric jang parece pensar lo mismo también. en un blog titulado "todos los caminos conducen a la robótica" en marzo de este año, escribió: "muchos investigadores de inteligencia artificial todavía creen que los robots de propósito general tardarán décadas en lograrse. pero recuerde, el nacimiento de chatgpt pareció ser de la noche a la mañana. entre. "creo que el campo de la robótica también marcará el comienzo de tales cambios".

en su opinión, los robots de uso general que pueden generalizar parecen estar a la vista.

pero el pesimismo de la industria está justificado. su principal preocupación no es el algoritmo, sino el hecho de que los datos actuales de inteligencia incorporada no son abundantes, también son muy difíciles de recopilar y faltan estándares.

pero grandes cantidades de datos son la clave para lograr la generalización en la ley de escala. en comparación con un modelo de lenguaje simple a gran escala, la inteligencia incorporada puede requerir una mayor cantidad de datos para ser universal porque incluye imágenes y acciones. y recopilar estos datos lleva mucho tiempo.

usar métodos "tontos" para recopilar datos "inteligentes"

eric jang hizo una vez una declaración en el documental que era contraria a las preocupaciones generales de la industria:"mucha gente sobreestima el cuello de botella en la recopilación de datos. en la práctica, durante los próximos 12 meses, los datos pueden volverse cada vez menos importantes".

su confianza en los datos proviene de prácticas anteriores. la lógica de 1x en la recopilación de datos siempre ha sido ligeramente diferente a la de otras empresas de robótica.

otras empresas generalmente utilizan todos los medios disponibles para recopilar la mayor cantidad de datos posible. los métodos incluyen colocar robots simulados en entornos físicos simulados como unreal 5 para recopilar grandes cantidades de datos, o usar datos de video para interceptar videos de humanos operando objetos y extraer información.

pero, de hecho, el método principal más utilizado en este momento es utilizar la teleoperación (entrenamiento a partir de demostración) para obtener datos a través de humanos que usan realidad virtual para realizar demostraciones a los robots.

este tipo de recopilación de operaciones remotas generalmente coloca al robot en un entorno de "fábrica de recopilación de datos" muy fijo para recopilar suficientes datos de la manera más eficiente posible. incluso si hay algunas repeticiones y similitudes.

(imagen: fábrica de recopilación de datos de tesla)

según eric jang, el método que utilizan actualmente es muy "estúpido". en comparación con el modo de recolección centralizado aparentemente eficiente utilizado por tesla, 1x optó por insistir en regresar a varias escenas de la vida para la recolección. así que los vemos recolectados en muchos espacios muy diferentes a los de una fábrica. tampoco utilizaron datos de simulación ni entrenamiento por vídeo, insistiendo en utilizar únicamente datos recopilados mediante teleoperación.

(imagen: las escenas de entrenamiento de eve son sorprendentemente diversas)

el director general bernt bornich afirmó en una entrevista: “la diversidad es el aspecto más importante de los datos de los robots humanoides. aprender de la diversidad en el entorno no estructurado de los robots de consumo hará posible robots verdaderamente inteligentes de uso general a partir de la diversidad de pensamiento”.

en opinión de x1, los entornos domésticos y de oficina donde eventualmente aterrizarán los robots no tienen una estructura fija y cambian constantemente con el uso humano, por lo que debe haber suficientes datos diversos para que sean significativos. por lo tanto, la fórmula de recopilación de datos 1x dada por eric jang es "diversidad>calidad>cantidad>algoritmo".

para lograr esta diversidad de colección, 1x ha organizado especialmente un equipo de operadores de robots, todos los cuales son cuidadosamente seleccionados. todos ellos pueden entrenar personalmente algunos modelos de comportamiento a través de un conjunto de interfaces gráficas nle simples. al respecto, eric jang escribió en un blog de tecnología: "1x es la primera empresa que conozco que permite a los recolectores de datos entrenar las capacidades del robot por sí mismos. esto acorta en gran medida el tiempo necesario para que el modelo alcance un buen estado, porque los datos los recolectores pueden obtener retroalimentación rápidamente sobre qué tan buenos son los datos y cuántos datos se necesitan realmente para resolver tareas robóticas es algo que preveo que se convertirá en un patrón común para la recopilación de datos robóticos en el futuro”.

por lo tanto, no solo tienen trabajadores de recolección, sino que también tienen un grupo de ingenieros de recolección que pueden ajustar directamente el modelo. identifican lo que no funciona en tareas específicas, recopilan datos para esos escenarios, luego vuelven a entrenar y ajustar el modelo, y repiten el proceso hasta que el modelo sea perfecto. entrenamiento todo en uno.

(imagen: en linkedin de 1x, la contratación de estos operadores son todos trabajos de tiempo completo, no subcontratados, con un salario mensual de entre 6.000 y 8.000 dólares estadounidenses, que es aproximadamente 1,5 veces el salario mensual promedio en los estados unidos)

estos métodos "estúpidos" garantizan la calidad y diversidad de los datos recopilados, y cada dato es lo más "útil" posible. en entrevistas de los últimos días, rric dijo: "si despliegas robots en una fábrica y realizas exactamente las mismas tareas repetidamente, los datos son básicamente inútiles".

sin duda, esta recopilación relativamente fina ralentizará el crecimiento de la magnitud de los datos, pero su efecto es muy significativo.

(arriba: número de horas de datos recopilados por 1x, abajo: diversidad de acciones recopiladas por 1x)

según el intercambio técnico de eric jang, hasta marzo de 2024, han recopilado un total de 1.400 horas de datos de entrenamiento que involucran 7.000 acciones únicas diferentes. también dijo que con el entrenamiento de estos datos, el robot eve puede tener actualmente cientos de habilidades independientes.

por el contrario, rt-2 utilizó 130.000 ejemplos en el entrenamiento y 13 robots pasaron 17 meses completos recogiéndolos. si cada ejemplo dura un promedio de 5 segundos, la duración total de estos ejemplos puede alcanzar decenas de miles de horas. puede realizar tareas con 700 instrucciones diferentes.

desde este punto de vista, el efecto de la recopilación de datos refinados es realmente bueno. utilice 1/10 de los datos para alcanzar al menos la mitad del nivel de habilidad. la idea de que las prisas generan desperdicio también es cierta en el mundo de la robótica.

conclusión

en general, la mayor “carta de triunfo” de 1x es su enfoque en las personas.

la cultura corporativa transmitida por 1x revela una sensación de "relajación", ya sea el eve anterior o el reciente neo, sus videos promocionales son completamente diferentes de las frías cifras tecnológicas de 1x que evitan los bordes afilados y no provocan deliberadamente a gran escala. la comunicación es también una especie de idealismo.

se puede ver en el video promocional de neo que 1x está creando una imagen de "hombre cálido" como el "hermano de al lado". viste ropa informal ajustada, resaltando las líneas musculares similares a las de los hombres humanos. también puede moverse con ligereza. él se encarga de la vida diaria de su familia, empaca tus paquetes antes de salir y te da un cálido abrazo antes de partir.

además, en el vídeo de demostración se puede ver que neo puede comprender los gestos humanos, lo que también supone una comprensión profunda de la comunicación humana. gran parte de la comunicación entre personas no depende del lenguaje. hay momentos en que los humanos "se quedan sin palabras". por lo tanto, neo puede "leer" el siguiente paso de los humanos y pueden entenderse entre sí, lo cual es así. particularmente especial: la tierra tiene un sabor "humano".

desde la perspectiva de la generalización de tareas y el diseño flexible, neo puede considerarse el primer robot humanoide bípedo en el ámbito doméstico.

si los robots pueden ser eternos en el futuro, ¿qué tipo de robot necesitamos para acompañarnos a nosotros mismos e incluso a las generaciones futuras? quizás neo sea una buena respuesta.