noticias

Supervisor de doctorado de la Universidad de Pekín posterior a los 90 construye un robot humanoide, no aprende de Tesla

2024-08-17

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Estados Unidos no es un modelo para China.

Texto 丨Wang Yutong
Editor: Cheng Manqi

En mayo de este año, un nuevo grupo de trabajadores con una altura de 1,72 metros llegó a trabajar a la fábrica de Texas en Estados Unidos. Se encargaron de cargar celdas de batería cilíndricas 4680 desde la mesa de transferencia en la caja roja que tenían frente a ellos. . No son muy hábiles, incluso son lentos y torpes. Pero estos trabajadores son Optimus, el robot humanoide que Tesla lanzará en 2022, y todo es diferente.

"Escenarios de uso perfectos", "progreso rápido" y "advertencia de desempleo", bajo el video de robots publicado por Tesla, los comentarios de la gente iban desde la exclamación hasta la preocupación.

Wang He no lo cree así. Cree que Optimus "todavía es una investigación (investigación)" en esta etapa.

Wang He, nacido en 1992, es actualmente profesor asistente y supervisor de doctorado en el Centro de Investigación en Computación Frontier de la Universidad de Pekín. Se graduó en el Departamento de Electrónica de la Universidad de Tsinghua con una licenciatura y un doctorado en la Universidad de Stanford. Ha participado en CVPR ICCV, la principal conferencia sobre visión por computadora, robótica e inteligencia artificial. Espere la publicación de decenas de artículos.

Después de mayo del año pasado, Wang He atrajo más atención como timonel de la empresa de robots inteligentes "Galaxy General". En junio de este año, Galaxy General rompió el récord de financiación de la ronda ángel de 2024 con una financiación de 700 millones de yuanes.

La mayoría de las empresas fabrican robots humanoides completos. Wang He cree que las piernas no son la solución óptima en esta etapa y sólo aumentarán los costos. "No es que la capacidad operativa del robot humanoide sea lo suficientemente fuerte, sino que carece de piernas. Es que todavía hay muchas tareas que los brazos robóticos tradicionales no pueden realizar". Wang consideró que sus manos son más valiosas al aterrizar en la escena. y una gran cantidad de escenas en realidad no los requieren. Con capacidades motoras suficientes, como inspección y patrullaje, el perro robot puede hacer lo mismo que el automóvil.

Galbot de Galaxy Universal está recogiendo basura. No tiene patas, sino un chasis plegable de una sola pata + ruedas.

Obtener suficientes datos es una dificultad en el desarrollo de la inteligencia incorporada. Tesla y Google han optado por utilizar la "teleoperación" para recopilar datos, es decir, permitir que personas reales usen algún equipo de recolección para completar las acciones que el robot necesita aprender. Wang He sintió que este no era un buen negocio: "Le tomó a Google más de diez meses y decenas de millones de dólares producir cientos de miles de datos que Galaxy Universal eligió todos en "Sim2Real (migración de simulación a máquina real"). )", es decir, basándose principalmente en datos de simulación sintéticos.

Las empresas de robots humanoides en Estados Unidos tienen mucho dinero y son audaces. Una de las observaciones de Wang He es que esto les impide buscar estrictamente PMF (Product Market Fit, ajuste de producto y mercado “en los Estados Unidos, ya que lo hacen). tienen dinero, simplemente lo juntan todo de una vez y está todo hecho”. Sin embargo, los problemas de la industria como la falta de datos reales y la inestabilidad del hardware deben resolverse en escenarios, por lo que cree que la comercialización debe considerarse desde el primer día.

"No debemos considerar lo que hace Tesla como un estándar". Wang He dijo que las nuevas empresas chinas "si todavía cuentan las historias de otras personas sin abundante capital en los Estados Unidos, sólo puede ser un callejón sin salida".

Wang He no está de acuerdo con Tesla y muchas personas en la industria no están de acuerdo con Galaxy GM. Tomando como ejemplo Sim2Real, que le interesa a Wang He, muchos practicantes creen que existen diferencias naturales entre los datos sintéticos simulados y el mundo real, lo que afectará el efecto del entrenamiento. Después del lanzamiento del primer robot Gabot de Galaxy Universal, algunos oponentes dijeron que se sentían "aliviados": "Hay una gran brecha entre la demostración y la aplicación real", "Escribí muchos artículos sobre agarre y la última mano fue una succión". taza. "

La pregunta más importante es que ahora no es el momento de iniciar un negocio de fabricación de robots humanoides. Algunos inversores creen que estas empresas se convertirán en mártires porque muchas tecnologías, como el hardware, los materiales y la energía, aún no están maduras. Kaifu Lee habló sobre la inteligencia incorporada y dijo: "Definitivamente no podemos invertir ahora en algo que sucederá 10 años después. Dai Yusen, socio de Zhenge, dijo que la encarnación todavía está en la era de BlackBerry y no podemos invertir en el iPhone". .

Los robots humanoides y la inteligencia incorporada aún se encuentran en una etapa muy temprana, y se trata de una industria con una cadena larga y una pila de tecnología compleja, que incluye inteligencia artificial, materiales, energía, desarrollo mecánico, fabricación, gestión de la cadena de suministro, desarrollo de clientes y, en última instancia; la empresa que sobrevive No puede haber carencias.

Es demasiado pronto para decir quién será el ganador, pero esta entrevista registra lo que un joven científico vio un año después de su partida. Ahora cree que aunque las grandes empresas tienen más recursos, no necesariamente tienen razón. Esta es su oportunidad.

Inteligencia encarnada y sociedad humanamáximo común divisor de

"Más tarde": desde 2016 estudia la inteligencia corporal actual, combinando modelos visuales, modelos de lenguaje natural y modelos de funcionamiento de robots. ¿Qué has visto en estos años de investigación y desarrollo?

Wang He: Estaba trabajando en inteligencia corporal cuando estaba estudiando para mi doctorado. En ese momento no se llamaba "inteligencia incorporada", inicialmente combiné estos tres pequeños modelos separados para lograr una estimación de la pose del objeto a nivel de categoría (pose: an). objeto La posición y la postura en el espacio tridimensional (estimación de la posición: encontrar la postura de un objeto) es en realidad una operación bimanual.

Después de regresar a China y antes de fundar aquí, instalé un brazo en la espalda del perro robot Yushu e intenté que realizara una serie de operaciones. Sin embargo, descubrimos que muchos aspectos de la informática, los recursos e incluso el sistema completo no podían satisfacer nuestras necesidades.

En ese momento, sentí que si no fabricábamos hardware, tendríamos que depender completamente de otros y las iteraciones de desarrollo del sistema serían limitadas. Cuando la industria de los robots no existe, es difícil hacer sólo inteligencia.

"Más tarde": ¿Qué cambios ocurrieron después? ¿Por qué decidiste iniciar un negocio en 2023?

Wang He: El emprendimiento inteligente encarnado comenzó a fermentar en China antes que en Estados Unidos. La razón principal es la madurez del hardware y la ontología.

La industria manufacturera de los Estados Unidos no permite la producción rápida de demostraciones completas de inteligencia incorporada. El suministro de piezas en los Estados Unidos es incompleto, hay que importar muchas cosas y hay escasez de ingenieros de hardware. La producción de hardware de China puede lograr el menor costo y la mayor confiabilidad. Por ejemplo, unas pocas personas pueden construir el robot humanoide de Yushu en medio año.

Pero la ontología es sólo un juguete grande. El siguiente paso es cómo competir en términos de inteligencia. Para 2023, habrán aparecido en todo el mundo grandes modelos multimodales incorporados, como PaLM-E, y se habrá encendido la chispa entre la percepción multimodal y la operación incorporada. Decidí iniciar un negocio en este momento.

"Más tarde": ¿Por qué decidiste iniciar un robot humanoide? El portador de la inteligencia encarnada no es necesariamente humanoide.

Wang He: De hecho, existen varias formas, incluidos perros, aviones y automóviles. Pero entre todas las formas, el mayor denominador común entre la inteligencia encarnada y la sociedad humana sólo puede ser la "forma humana".

Debido a que todo el entorno de vida y producción está diseñado para humanos, el humanoide puede realizar la mayoría de las operaciones, tendrá el mayor número en el futuro y tendrá el mayor valor de producción económica. Desde el punto de vista de la visión, se pueden equiparar la inteligencia encarnada y los robots humanoides.

"Tarde": Mucha gente cree que la ventana empresarial para la inteligencia incorporada aún no ha llegado. Ahora estas empresas se convertirán en mártires y muchas tecnologías, como el hardware, los materiales y la energía, aún no están maduras. Por ejemplo, cuando Kai-fu Lee habló sobre la inteligencia incorporada, dijo: "Definitivamente no podemos invertir en algo que sucederá 10 años después. Dai Yusen, socio de Zhenge, dijo que la incorporación todavía está en la era de BlackBerry". y no puedo invertir en el iPhone.

Wang He: Cuando me reuní con el Sr. Kaifu Li en 2019, dijo que tomaría otros 50 años. Ahora ha acelerado de 50 años a 10 años.

No podemos utilizar los teléfonos móviles como analogía con la inteligencia incorporada. Desde los teléfonos funcionales hasta los teléfonos inteligentes, la tecnología ha cambiado mucho y ahora la dirección técnica de la inteligencia incorporada ha sido clara: la ontología se integra con un modelo grande para convertirse en un robot universal. .

En este momento, cuanto antes termine el juego, más tecnología y datos se acumularán, lo que ampliará la brecha en la etapa posterior. Una vez que el robot entra en escena, los datos de la escena real complementarán su inteligencia. Es extremadamente difícil para los recién llegados superar a una empresa que ya tiene decenas de miles de robots, que constantemente recibe datos reales y que ya ha experimentado dificultades en la escena.

esto yConducción autónomaDe manera similar, sólo vendiendo una cantidad suficiente de automóviles habrá suficientes datos, y los datos se podrán utilizar para mejorar el algoritmo más rápidamente. En la batalla entre Google y Tesla, Tesla gana porque tiene suficientes coches.

La inteligencia incorporada tiene el potencial de convertirse en un mercado comparable al de los automóviles. Tiene las mismas características que los cambios tecnológicos anteriores: es lento al principio y reemplaza gradualmente a los robots para fines especiales, pero una vez que alcance la escala de 10.000 unidades, acelerará la sustitución de las industrias tradicionales;

"Tarde": Un hecho es que el auge del emprendimiento de inteligencia incorporada se produjo en ChatGPT y la gran locura por los modelos. Pero, de hecho, los modelos grandes sólo pueden resolver una pequeña parte de los problemas de la inteligencia incorporada, por lo que algunas personas piensan que es demasiado pronto.

Wang He: La inteligencia incorporada es el producto de la integración de software, hardware y algoritmos. En esta etapa, sus puntos de integración con modelos grandes son: percepción general y comunicación lingüística, que es la resolución de problemas de interacción. Por ejemplo, alguien viene a una farmacia y le pregunta al robot qué medicamento debe tomar cuando se siente incómodo. Sólo los robots que estén familiarizados con los nombres y la ubicación de los medicamentos pueden hablar con las personas.

Otra combinación es que ahora, al realizar operaciones específicas como agarrar y colocar objetos, el robot también se ha realizado de un extremo a otro según el modelo grande (la trayectoria del robot se genera directamente después de ingresar la información sensorial). El modelo grande jugará un papel en toda la planificación global.

En general, los modelos grandes son ahora auxiliares, pero la combinación de modelos grandes y pequeños puede conducir a robots universales.

"Tarde": La ruta de la Galaxia es un pequeño modelo visual tridimensional + un modelo básico grande ¿Cómo lo entiendes?

Wang He: Al igual que los humanos tenemos el Sistema 1 y el Sistema 2, el pensamiento rápido y el pensamiento lento. El primero es la capacidad del cerebelo, y en los robots son habilidades como el control interactivo y la operación diestra, que pueden ser manejadas por modelos pequeños. ; este último es Las capacidades del cerebro son cognición, comprensión, planificación y resolución de problemas con modelos grandes.

Este es un sistema de tres capas: la capa inferior es el hardware, la capa intermedia son modelos pequeños que pueden realizar diversas habilidades y la capa superior es el modelo grande básico responsable de la planificación de tareas. Después de que el robot recibe la instrucción, el modelo grande es responsable de llamar al modelo pequeño en la capa intermedia. Después de ejecutar el modelo pequeño, el modelo grande estudiará el siguiente paso en función de los resultados.

Los pies no son tan importantes;las manos son la clave

"Más tarde": Todos son humanoides. La mayoría de las empresas de la industria tienen robots con piernas. Su primer robot, Galbot, es un chasis con ruedas y manos.

Wang He: La pregunta más esencial es: ¿qué valor puede aportar su producto al mercado? Los bípedos sólo resuelven el problema del tráfico y no tienen capacidades operativas, por lo que sólo pueden realizar patrullas, inspecciones y otras escenas. Esto no supone un cambio cualitativo con respecto al uso de coches y perros en el pasado.

Pero las manos pueden realizar una producción flexible que los robots tradicionales no pueden hacer. En su mayoría son trabajos duros en industrias que requieren mucha mano de obra y son más fáciles de generalizar. Hay muchos espacios y escenarios imaginativos, por lo que la parte superior del cuerpo es más importante que la parte inferior.

"Late Later": ¿Qué es más difícil, la capacidad de operar las manos o la capacidad de realizar movimientos complejos de los pies? La forma final que todos imaginan es una forma humana completa, ¿la empresa que comienza primero no podrá mantenerse al día cuando quiera complementar sus capacidades atléticas?

Wang He: Hoy en día, la mayoría de las operaciones se realizan con ambas manos, por lo que primero usamos "manos" para entrar en escena y utilizamos chasis con ruedas reemplazables y de bajo costo para las piernas. Primero comercializamos y obtenemos datos reales.

El problema con los productos de dos patas es que no se pueden implementar en escenarios reales, por lo que las empresas que fabrican productos de dos patas deben esforzarse por lograr capacidades financieras sostenibles, y habrá grandes olas en los próximos tres años. Por supuesto, a medida que el rendimiento de las patas mejore y el precio sea correcto, también las reemplazaremos.

"Más tarde": ¿Por qué no es una opción hacerlo juntos?

Wang He: Porque las capacidades operativas del robot humanoide no son lo suficientemente fuertes, pero le faltan piernas. Todavía hay muchos trabajos que los brazos robóticos tradicionales no pueden realizar.

Teniendo en cuenta el uso real, el costo y la estabilidad de los robots con ruedas son mucho mejores que los de los robots bípedos. A la misma altura, el BOM (coste de materia prima) de dos patas es diez veces más caro que el de un chasis con ruedas. Además, los pies se caen fácilmente y, si el robot se cae, quedará completamente dañado.

Las dificultades técnicas actuales de las piernas aún deben superarse y quedan muy atrás en la escena a dos manos. Por ejemplo, si algo cae de un estante al suelo, ningún robot humanoide con patas en el mundo puede agacharse para recogerlo.

"Más tarde": Ponerse en cuclillas es bastante fácil para los humanos, ¿por qué los robots no pueden hacerlo?

Wang He: Lo más difícil es mantener el equilibrio corporal durante todo el proceso. La capacidad de equilibrio de las piernas tiene varias etapas: el primer paso es caminar y el segundo es subir las escaleras. Esto ya ha dejado perplejas a varias empresas. El tercer paso es agacharse. La dificultad es que saldrá el centro de gravedad. Luego están las sentadillas y las sentadillas divididas, que actualmente no son posibles en el laboratorio.

El desarrollo de las piernas va a la zaga del de las manos, y lo mismo ocurre con las personas cuando los bebés solo pueden gatear, sus manos pueden explorar todas partes, pero les lleva mucho tiempo levantarse y caminar de manera estable. seis o siete años.

De hecho, hace 20 años hubo demostraciones de marcha bípeda. Hoy en día, sólo hay un puñado de personas que pueden caminar sobre el suelo durante diez minutos sin ningún problema. La estabilidad de muchos robots bípedos simplemente no cumple con las expectativas de todos. En el campo de la inteligencia corporal, el desarrollo del cerebro está por delante de los brazos y las manos, y los brazos y las manos están por delante de las piernas.

"Tarde": Optimus, el robot humanoide de Tesla, tiene manos y pies y ahora puede trabajar en fábricas.

Wang He: La escena laboral actual de Optimus no tiene nada que ver con las piernas. Recoger baterías en la fábrica y realizar inspecciones de un lado a otro en el estacionamiento no requieren mejorar la capacidad de las piernas.

Y es difícil de calcular: el costo del robot es de cientos de miles a doscientos mil dólares, pero su trabajo consiste en colocar exactamente las mismas baterías en una caja de cinco por seis con un total de treinta rejillas, es decir, coloque baterías estándar en la canasta estándar, la posición de la canasta es fija. ¿Por qué algo como esto requeriría inteligencia encarnada? ¿Por qué no utilizar tradicional?Automatización industrial

"Tarde": Galaxy General Galbot clasifica medicamentos en las farmacias de Meituan. Esto también se puede hacer con un brazo robótico, pero también usaste una parte superior del cuerpo humanoide.

Wang He: Creamos esta escena para demostrar nuestras habilidades encarnadas. Si algo es demasiado difícil y la tecnología aún no se ha desarrollado hasta este punto, primero debemos buscar algo que se pueda hacer. La escena de Tesla se realizó originalmente con un brazo robótico, sin siquiera reemplazar a las personas. El trabajo realizado en la farmacia lo realizan humanos y la dificultad en sí es mayor que la de Tesla. En segundo lugar, no se puede lograr utilizando únicamente la automatización industrial, porque diferentes medicamentos no son productos estándar y diferentes pedidos no son requisitos estándar.

No consideres a Tesla como un modelo,La operación remota no puede resolver los problemas de datos

"Tarde": la falta de datos es una de las dificultades de la inteligencia incorporada hoy en día: los datos de texto ahora son 15T, las imágenes 6B y los videos 2,6B, pero los datos de robots son solo 2,4M. Tanto Tesla como Google recopilan datos mediante "teleoperación", es decir, permitiendo que personas reales usen el equipo de recolección para completar las acciones que el robot necesita aprender, mientras que Galaxy General usa "todo en Sim2Real", es decir, datos sintéticos simulados. ¿Por qué eres diferente de ellos?

Wang He: El control remoto no es algo que las empresas emergentes puedan permitirse. La operación remota requiere contratar a muchas personas para realizar varias operaciones repetidamente. Para obtener un dato válido, se necesita que un robot y una persona pasen 30 segundos o un minuto juntos.

Aquí es donde los robots humanoides se diferencian mucho de la conducción autónoma. La conducción autónoma de Tesla permite a un millón de propietarios de automóviles gastar dinero para comprarlo y conducirlo durante cientos de millones de horas sin tener que gastar dinero adicional en datos. Y conducir es solo una cosa, pero hay muchos tipos de trabajos en la fábrica: los que pegan, los que ponen pilas, los que aprietan tornillos... La correlación entre las diferentes tareas puede ser fuerte o débil.

Tesla encontró decenas de personas para realizar operaciones remotas en el lugar de colocación de las baterías, pero luego hubo más escenas de operación como bobinado y montaje, y eso no fue todo. Tesla tiene mucho dinero y su propia fábrica para comprar sus propios robots. Puede hacerlo, pero las startups no.

Así como los automóviles sin conductor ahora tienen monitores remotos, la teleoperación puede desempeñar el papel de control remoto. Si algo sale mal mientras el robot está trabajando en la escena y no hay nadie en el lugar, se puede utilizar el control remoto para intervenir.

"Más tarde": ¿Entonces el control remoto es un juego producido por una empresa importante?

Wang He: Esta es la historia que cuenta Musk. No tomemos como estándar lo que hace Tesla. Para ser honesto, esto es investigación.

Cuando Google estaba trabajando en RT (robot transformador, un algoritmo de control de robots), había un equipo de "Robots cotidianos" de más de 200 personas. Después de terminar RT-1, este departamento fue abolido porque el modelo de negocio no existía.

Actualmente, entre las empresas de inteligencia incorporadas de China, sólo aquellas que no tienen rutas propias pueden imitar a Tesla y Google en Estados Unidos. Si una empresa estadounidense no está bien capitalizada y aún cuenta las historias de otras personas, será un callejón sin salida.

"Más tarde": ¿Esto también depende de la cantidad de datos necesarios para fabricar un robot universal? Si es inferior a un orden de magnitud, una gran empresa especialmente rica o una startup que pueda recaudar dinero también podrá manejar el control remoto. ruta de operación?

Wang He: Nuestros propios experimentos han descubierto que, por ejemplo, en la tarea de rastreo, cuando hay mil millones de rastreos de datos, la tasa de éxito del robot puede alcanzar el 87% si la cantidad de datos se reduce a una diezmilésima. , es decir, 100.000 Cuando se rastreó por primera vez, la tasa de éxito fue solo del 58%. Esto muestra que la inteligencia incorporada también tiene leyes de escala claras y tiene una mayor sed de datos.

En el mundo real, es difícil obtener miles de millones de datos. Google necesitó más de diez meses y decenas de millones de dólares para recopilar cientos de miles de datos.

"Tarde": ¿Cuánto puede reducir los costos la simulación?

Wang He: A través de la síntesis de simulación, las sesenta imágenes se pueden renderizar en un segundo. En comparación con la recopilación de datos del mundo real, los datos sintéticos son casi gratuitos. Nuestra segunda curva es para obtener datos del mundo real.

En el simulador, sintetizamos el movimiento de cada objeto en 200 videos y luego simulamos y sintetizamos un solo objeto en una clase de objetos. Esto genera una gran cantidad de datos, que utilizamos para entrenar la capacidad de agarre del robot.

"Tarde": Mucha gente cree que los datos sintéticos obtenidos utilizando un emulador (un sistema que proporciona un entorno virtual simulado) son naturalmente diferentes de los datos del mundo real, lo que afectará el efecto del entrenamiento. ¿Cómo lo solucionas?

Wang He: El simulador nunca puede ser completamente real, pero la ruta Sim2Real no requiere que el simulador esté completamente simulado. Es un proceso de optimización conjunta de hardware, algoritmos y simulación.

En esta etapa, el simulador es una herramienta de verificación y el modelo físico matemático expresado en un algoritmo es el núcleo para obtener calificaciones de rastreo.

El simulador tiene algunas limitaciones, por ejemplo, cuando nuestras manos tocan una botella de agua mineral, es decir, cuando una mano flexible y deformable toca un objeto aparentemente rígido que en realidad puede deformarse, este proceso no es un contacto puntual, sino una fricción. físicamente perfectamente modelado.

En este momento, nuestro algoritmo debe tener fuertes capacidades de adaptación, como agregar control táctil y de fuerza, aprender la "forma" y luego controlarla después de captarla. De esta manera podemos evitar la parte más difícil de la simulación. Otra premisa es que el hardware debe ser lo suficientemente robusto (robusto, lo que significa que el sistema puede funcionar de manera relativamente estable incluso en circunstancias anormales).

"Tarde": ¿Cómo cooperan los simuladores y algoritmos, como los modelos matemáticos y físicos?

Wang He: Proponemos un conjunto de modelos matemáticos y físicos para capturar búsquedas eficientes y luego utilizamos un simulador para verificar si dicha captura es factible.

Aquí también se aborda la diferencia entre aprendizaje por refuerzo y aprendizaje supervisado. Si se trata de aprendizaje por refuerzo, significa interactuar con el simulador varias veces, prueba y error, y encontrar una solución. Esto tendrá muchos requisitos sobre la autenticidad del simulador que depende completamente del aprendizaje por refuerzo del simulador Sim2Real. Pero esto se probó y la eficiencia es relativamente baja.

Si puede decirle al robot cómo agarrar, se puede convertir en aprendizaje supervisado y la eficiencia del aprendizaje será mayor. Utilizamos el aprendizaje supervisado para aprender a agarrar con dos y cinco dedos.

Considéralo desde el primer díacomercialización

"Más tarde": la mayoría de las empresas chinas que fabrican humanoides también fabrican otros productos. Por ejemplo, Zhiyuan tiene un robot de limpieza comercial, Zhuji y Yushu fabrican perros robot, mientras que Estados Unidos lanza principalmente robots humanoides directamente. ¿Por qué existe esta diferencia?

Wang He: La abundancia de capital en China y Estados Unidos es diferente. En Estados Unidos como tienen dinero lo hacen todo de una vez. Empresas como Figure AI y Tesla utilizan modelos humanoides. Sin embargo, la valoración actual de Figure AI es de 2.500 millones de dólares y las operaciones que se muestran en la demostración no tienen nada que ver con la capacidad atlética. La burbuja en Estados Unidos les impide pensar en términos de PMF (product market fit) muy estricto.

En agosto de este año, FigureAI lanzó un nuevo robot, el Figura 02, que ya puede realizar algunas demostraciones de ensamblaje en la fábrica de automóviles BMW.

"Más tarde": ¿Crees que la forma más correcta es pensar en la implementación del producto desde el principio? ¿Es esto demasiado ansioso en un campo de vanguardia como los robots humanoides?

Wang He: Por un lado, sigue siendo una cuestión de datos. La inteligencia incorporada está ligada al hardware, por lo que si el robot no está desplegado en la escena, es difícil obtener una gran cantidad de datos. Pero no se puede distribuir en grandes cantidades de forma gratuita porque el coste de construcción del cuerpo principal es demasiado alto. No es necesario comercializar modelos grandes para obtener datos porque el coste de su popularización sigue siendo mucho menor que el de los robots.

Al mismo tiempo, el robot también necesita pulirse. Sin una observación a largo plazo del robot en la escena, es imposible iterar el robot hasta un estado en el que pueda funcionar de forma estable. Esta es también la razón por la que no hay empresas de PPT en el sector de la robótica.

"Más tarde": ¿Qué tipo de implementación de producto ha visto?

Wang He: El primer paso es realizar una sola operación en múltiples objetos en un solo entorno, como mover diferentes cosas en la misma fábrica o en la misma línea de producción. Esto es lo que hacen ahora el Google RT-1 y el Tesla Optimus, pero el Optimus maneja menos objetos. Ambos no son verdaderamente generalizados, es decir, universales, y todavía no pueden generar dinero.

El siguiente paso es que los robots realicen las mismas operaciones en diferentes objetos en diferentes escenarios de la misma industria. Por ejemplo, en la industria manufacturera industrial, se ha pasado de poder obtener piezas en fábricas de automóviles a poder obtener todas las piezas en cualquier fábrica de la industria minorista; se ha pasado de poder almacenar productos en pequeños supermercados a ser capaces de almacenar productos en pequeños supermercados; poder almacenar productos en Wal-Mart. Una sesión de formación para analizar diferentes escenarios en la misma industria es de gran valor.

El siguiente paso es tener más tareas, más escenarios, manejar todas las industrias y continuar volviéndose universal.

"Más tarde": toda la industria está dando el primer paso. ¿Cómo se elige la primera escena o el primer lote de escenas en este momento?

Wang He: En cualquier industria, siempre que se trate de un escenario de producción flexible pero no completamente automatizado, es probable que se implementen robots inteligentes incorporados. En particular, hay algunas operaciones discretas en la industria manufacturera. La demanda puede ser fuerte y la tecnología requerida puede no ser complicada.

Tenemos que hacerlo uno por uno, de fácil a difícil, de alto costo laboral a bajo costo laboral, de alta demanda a baja demanda.

"Más tarde": ¿Conseguir medicamentos en la farmacia se ajusta a la lógica que usted menciona? ¿O hiciste esta escena porque Meituan votó por ti?

Wang He: Queremos ser los primeros en aprovechar escenarios de alto valor y ganancias que puedan transformarse en una mayor versatilidad. Nuestro objetivo futuro es ingresar al hogar.

B to C es más adecuado para uso doméstico que solo B, por lo que configuramos una escena B to C en el comercio minorista para interactuar con la gente.

"Más tarde": ¿Cuándo se lanzará su primer robot?

Wang He: Aceptaremos pedidos de lotes pequeños en el cuarto trimestre de este año, con un precio de 500.000.

"Más tarde": ¿Es demasiado caro conseguir el medicamento en la farmacia?

Wang He: Ahora tenemos dos direcciones de ventas principales: escenarios de investigación científica y escenarios comerciales como Meituan. Los precios y configuraciones de estos escenarios son diferentes.

Lo que vendemos a escenarios de investigación científica es una versión desarrollable con suficiente potencia informática. Los productos que vendemos a escenarios comerciales no admiten el desarrollo y agregarán algunas funciones y reducirán otras funciones innecesarias y potencia informática. Por ejemplo, los robots ahora están equipados con tarjetas OrinX, pero en escenarios comerciales, la informática se puede colocar en la nube. .

En la actualidad existen decenas de reservas para escenarios de investigación científica. En escenarios empresariales, desde máquinas hasta servicios, nuestro equipo será responsable de todo el proceso.

"Más tarde": Una vez dijiste que se espera que Galaxy controle el costo de un conjunto de robots a 50.000 yuanes.

Wang He: No podemos hacerlo este año, pero cuando lleguemos a 1.000 o 10.000 unidades, seguiremos acercándonos a este objetivo.

"Más tarde": Hay un chiste que dice que las ventas de robots humanoides en China cuentan con el apoyo de empresas emergentes, laboratorios universitarios y otros pares.

Wang He: El límite máximo para la investigación científica es definitivamente bajo, pero la investigación científica es el primer paso. Es imposible que una empresa de un año venda mil robots, a menos que sea un juguete.

"Más tarde": Hemos hablado mucho sobre la falta de consenso actual en la industria de la inteligencia incorporada. ¿Cuál cree que es el consenso actual?

Wang He: Hasta el momento, no ha surgido ningún escenario de inteligencia incorporada que pueda producir beneficios económicos a gran escala. No hay consenso sobre cómo ganar dinero, por lo que no hay consenso sobre la forma del producto, la tecnología, la industria y los escenarios que se deben rechazar.

No haber consenso es algo bueno. Es decir, si todos llegan a un consenso, entonces la batalla final será de costos, recursos y conexiones. Estos factores no son en lo que los emprendedores son buenos y son perjudiciales para el espíritu empresarial.

Pero para imaginar el futuro, el fin de la tecnología, ingresar al hogar + humanoide completo + modelo grande, me temo que todos pueden estar de acuerdo con esto.

"Más tarde": ¿Cómo describiría la gran cantidad de nuevas empresas que ahora apuestan por Embodied? AGI ¿El viaje?

Wang He: Este es el proceso en el que los seres humanos vuelven a desempeñar el papel de creadores. La industria del automóvil también es una industria creada íntegramente por personas, y lo mismo ocurrirá con los robots de uso general en el futuro. También habrá empresas automovilísticas líderes como Tesla entre nosotros.