Diálogo entre Lang Xianpeng y Jia Peng, un estudiante de bajo rendimiento, ¿por qué entregó su trabajo antes de tiempo?

2024-08-02

Conducción inteligente, comienza una carrera cara. Determinar la clasificación y determinar el futuro.

Texto 丨Cheng Manqi Dou Yajuan
Editor: Song Wei

El Dr. Gu Junli, que ha trabajado para Tesla y Xpeng, dijo que el progreso de la investigación y el desarrollo de la conducción inteligente en China está al menos entre 1,5 y 2 años por detrás de Tesla. Lang Xianpeng, vicepresidente de Lideal Zhijia, cree que la brecha no es tan grande y que Lideal lleva un retraso de como máximo medio año en términos de experiencia con el producto.

Ideal destaca que su ventaja en la conducción inteligente es que tiene más coches y más datos, He Xiaopeng, fundador de Nonsense”.

La guerra de precios todavía está en pleno apogeo y las nuevas fuerzas automotrices de China se han metido colectivamente en un nuevo campo de batalla: la conducción inteligente, que está llena de diferencias, disputas y persecuciones mutuas.

No todas las compañías de automóviles pueden permitirse este billete. La inversión en I+D en conducción inteligente comenzó con 3.000 millones de RMB y aumenta año tras año. Idealmente, alquilar una tarjeta cuesta ahora mil millones de yuanes al año y costará mil millones de dólares en el futuro.

La razón por la que las nuevas fuerzas están tan locas y no están dispuestas a quedarse atrás es porque han visto el enorme progreso del Tesla FSD V12 (una nueva versión de conducción totalmente autónoma que Tesla comenzará a promover masivamente en enero de 2024), y también han Hemos visto el impacto de las capacidades de conducción inteligente en las decisiones de los consumidores. En septiembre del año pasado, Huawei anunció que lanzaría una solución sin imágenes que podría utilizarse en todo el país a finales de año. Al mismo tiempo, la industria promovía fuertemente la conducción inteligente. En sólo un mes, el volumen de ventas mensual, que rondaba los miles, superó las 10.000 y a finales de año alcanzó la marca de 30.000.

No mucho después de que Huawei anunciara su radical plan de conducción inteligente, Ideal celebró su reunión estratégica de otoño de 2023 y dejó claro que la conducción inteligente es una estrategia central y no debe perderse. El director ejecutivo Li quiere decir: "Nos convertiremos en el líder absoluto en conducción inteligente para 2024".

Desde entonces, Ideal ha acelerado la iteración y ha avanzado en dos frentes: mientras utiliza NPN (Neural Prior Net, un algoritmo neuronal a priori que utiliza información a priori de algunas carreteras y mapas para ayudar a identificar las características de las carreteras y reducir la dependencia de mapas de alta precisión). ), finalmente nos estamos poniendo al día. El NOA de cien ciudades se lanzó a fines del año pasado durante el mismo período, el NOA sin imágenes se desarrolló previamente en octubre del año pasado y la prueba interna con miles de personas comenzó cuatro; meses después, y se lanzó por completo en julio de este año.

Llegado el verano, no hay tiempo para respirar y nuevas fuerzas están entrando en la próxima batalla: de extremo a extremo, un término técnico que la mayoría de los consumidores no entienden y que se ha convertido en un campo de batalla para los estrategas militares.

La importancia de un extremo a otro es que lleva la investigación y el desarrollo de conducción inteligente a la era de la IA, sin depender más de una gran cantidad de programación manual. Mientras se utilicen más datos para entrenar el modelo, el sistema continuará. para volverse más fuertes y pueden funcionar mejor que los conductores humanos. Musk cree que esto acerca mucho a los humanos a la conducción totalmente autónoma.

Ideal lanzó esta semana una prueba interna de mil personas de la nueva arquitectura de "extremo a extremo + VLM (Visual Language Large Model)", calificándola como un modelo más avanzado y la primera implementación de sistema dual del mundo. Un modelo significa que los módulos de percepción y toma de decisiones de la conducción autónoma se completan con un solo modelo. La entrada son datos del sensor y la salida es la trayectoria de conducción.

La conducción autónoma tiene tres módulos: percepción, planificación y toma de decisiones, y control. Se basa en la percepción para "ver", la toma de decisiones para "pensar" cómo conducir y el módulo de control para completar el comportamiento de conducción. La tecnología de un extremo a otro abarca desde la percepción hasta la toma de decisiones, y todo el proceso se implementa utilizando un modelo grande.

Por esta época, Weilai anunció la producción en masa de AEB (función de frenado de emergencia) de extremo a extremo a principios de julio; Xiaopeng reiteró esta semana que es la única compañía automovilística del mundo que logra una producción en masa de vehículos grandes de extremo a extremo; El otro es, por supuesto, el modelo Tesla. Si incluye proveedores, Huawei y Momenta completaron el lanzamiento de extremo a extremo este año.

Ideal no empezará a desarrollar su propia conducción inteligente hasta 2021, dos años después que Weilai y Xpeng. El progreso actual de Ideal es como si un estudiante de bajo rendimiento de repente supiera la respuesta y entregara el trabajo con anticipación.

En este momento, hablamos con Lang Xianpeng, vicepresidente de Ideal Intelligent Driving, y Jia Peng, jefe de I+D de Ideal Intelligent Driving Technology. Explican cómo se consigue esto.

Lang Xianpeng es un conductor inteligente al que le gusta nombrar proyectos clave con el nombre de la mitología griega. Es doctor en reconocimiento de patrones y sistemas inteligentes. Las campañas que completó en Ideal incluyen "Acrópolis", "Ilíada" y "Titán". En 2018, Lang Xianpeng se incorporó a Ideal procedente de Baidu como director de conducción autónoma y posteriormente fue ascendido a vicepresidente.

Jia Peng es un joven jefe de investigación y desarrollo de tecnología. Fue una de las primeras personas en realizar conducción inteligente en NVIDIA en China. Vio que el gigante de los chips fue el primero en proponer modelos de conducción autónoma de extremo a extremo y a gran escala, pero descubrió que sólo las empresas de automóviles pueden implementarlos realmente.

Las empresas que están totalmente comprometidas con el extremo a extremo tienen diferentes hojas de ruta y avances, pero comparten una ambición y una dirección técnica: lograr en última instancia la conducción autónoma L4.

Vemos la locura actual por la conducción inteligente y de extremo a extremo, no solo por creencias técnicas, sino también por la competencia, la mentalidad de los usuarios y las clasificaciones de ventas.

Es una carrera cara. El costo no son solo los enormes gastos de reclutamiento de personas, compra de GPU y modelos de capacitación. Antes de que L4 se haga realidad, todavía habrá un ser humano sentado en el asiento del conductor. La seguridad, la confiabilidad y la estabilidad son los estándares de prueba del usuario para la conducción inteligente actual.

Los de bajo rendimiento entregan sus trabajos

"Tarde": Ideal comenzará la conducción inteligente de desarrollo propio recién en 2021, más tarde que Xpeng y NIO, y siempre ha estado en un estado de ponerse al día. Hasta este año, cambió directamente de NPN a NOA sin imágenes, y luego comenzó pruebas internas de un extremo a otro con miles de personas esta semana. Alguien comentó, ¿por qué los estudiantes de bajo rendimiento de repente entregaron sus trabajos antes de tiempo?

Lang Xianpeng: Puede que sea un contraataque de diaosi.

Hicimos tres generaciones el año pasado, desde gráficos hasta NPN de "información previa" y sin gráficos. En junio de este año, se verificó la arquitectura de extremo a extremo y también se propuso la arquitectura del sistema rápido y lento. El sistema rápido es de extremo a extremo, que es la capacidad de procesar rápidamente información para la conducción diaria; El sistema es VLM (Visual Language Model), que es la capacidad de manejar escenarios complejos.

Además, nuestro extremo a extremo es un modelo, la entrada es el sensor y la salida es la trayectoria de conducción, todo implementado por un modelo, sin reglas intermedias. A excepción de Tesla, otros fabricantes de automóviles solo han implementado de extremo a extremo en un enlace determinado.

"Tarde": su primer progreso clave: desde la solución NPN hasta la ausencia de imagen, comenzó a verificarlo en octubre del año pasado, se probó internamente en febrero de este año y se lanzó por completo en julio. Sólo tomó 4 meses completar el cambio. Suena increíble. ¿Cómo lo hiciste?

Lang Xianpeng: Somos más eficientes y rápidos que otros. Por ejemplo, ahorra mucho proceso de toma de decisiones. Desde decidir qué hacer hasta elaborar un plan y reunir al equipo, puede que solo lleve una semana. Si se trata de una empresa de automóviles tradicional, es posible que se necesiten 3 meses para iniciar el proyecto.

"Más tarde": ¿A qué renunciaste por esto?

Lang Xianpeng: Quizás sea una ruptura personal. Todo el mundo conoce los objetivos de la empresa y no tenemos vuelta atrás.

Jia Peng: Yo también estoy acostumbrado. Renuncié a NVIDIA y me uní a Ideal en 2020. El entorno al que siempre nos hemos enfrentado es el de nuestro bajo rendimiento y nuestros padres nos regañan todos los días.

"Más tarde": ¿Es este padre Li Xiang?

Jia Peng: Es un usuario.

"Más tarde": Parece que la dirección de su ruta de tecnología de conducción inteligente es muy clara: aprender de Tesla, ¿cómo la aprendió específicamente?

Lang Xianpeng: Todo el mundo pensará que la investigación y el desarrollo tecnológico requieren tiempo, pero lo que a menudo se necesita no es tiempo de investigación y desarrollo, sino tiempo de prueba y error. De hecho, Tesla es un buen punto de referencia. Si no logra funcionar mediante prueba y error, no nos iremos.

La evolución e iteración de Tesla FSD nos ha demostrado que se puede lograr el éxito sin imágenes. ¿Elegir NPN o sin imagen? Ahora que salió Tesla, no elegimos ninguna imagen, por lo que hicimos el cambio a los pocos meses.

Pero la mayor inspiración de Tesla para nosotros es cómo pasar de 0 a 1 y de 1 a 10 en investigación y desarrollo de conducción autónoma. Tesla utilizó por primera vez la solución de conducción inteligente del proveedor Mobileye, pero pronto descubrió que el proveedor no podía cumplir con sus requisitos, por lo que comenzó una autoinvestigación en 2016, experimentó un período de conmoción y finalmente logró los resultados de Mobileye. En 2019, desarrolló su propio chip FSD y tenía hardware para respaldar su investigación y desarrollo de IA. Desde entonces, ha surgido de un extremo a otro. Básicamente, utiliza capacidades de IA para la conducción inteligente.

"Más tarde": el núcleo del V12 es de extremo a extremo. De hecho, la versión V11 lanzada por Tesla a principios de 2023 no tenía imagen.

Lang Xianpeng: Es como si todo el mundo pensara que las matemáticas avanzadas son muy importantes, pero si no conoces las cuatro operaciones aritméticas, ¿cómo puedes aprender bien las matemáticas avanzadas?

También me comuniqué con Wu Xinzhou (exjefe de conducción inteligente de Xiaopeng) sobre esto. Todos estamos de acuerdo en que todo el proceso puede acelerarse, pero no saltarse. Todo el mundo lo hace de un extremo a otro, pero desde el gráfico, NPN, sin gráfico hasta el final, no se pueden omitir todos los pasos. Al omitir estos pasos, en realidad se está saltando muchos conocimientos técnicos.

Si no hubiéramos intentado construir una NOA de cien ciudades en la segunda mitad del año pasado, no tendríamos una comprensión tan clara del fracaso de la NPN. Sólo en términos de escala, sólo hay entre 30.000 y 400.000 kilómetros de carreteras en el país, pero hay millones de kilómetros en las ciudades. Si queremos extenderlo por todo el país, este mapa no estará completo en absoluto.

"Más tarde": Pero antes dijiste que la gran decisión no es una cuestión de si puedes hacerlo, sino de si te atreves a hacerlo.

Lang Xianpeng: No es que no se pueda hacer, si realmente se hace, será una guerra por los recursos. De todos modos, si quieres hacerlo, miles de personas lo difundirán.

Jia Peng: Bromeamos entre nosotros diciendo que esta carretera eventualmente se convertirá en una empresa de mapas.

"Más tarde": ¿En qué te basaste para acelerar más tarde?

Lang Xianpeng: La eficiencia organizacional siempre ha sido una ventaja ideal. De NPN a sin gráficos y luego de extremo a extremo, estos son cambios importantes, pero lo hicimos tan pronto como lo pedimos.

La eficiencia de la cooperación entre I+D y la entrega es muy importante. La tecnología debe superar el límite superior. Lo difícil es tomar una decisión, pero después de tomar la decisión, la entrega debe ser responsable de elevar el límite inferior. En la reunión de estrategia de la compañía en la segunda mitad del año pasado, Li Xiang dejó en claro que RD (investigación y desarrollo) y PD (producción y entrega en masa) deben realizarse juntos. Una vez que las ideas de investigación y desarrollo estén claras, siempre habrá algo. Habrá dos líneas de PD y RD dentro de nuestro equipo. Lo hicimos sin imágenes en noviembre y diciembre del año pasado. En enero de este año, estaba casi listo para su entrega. Inmediatamente se transfirió a PD. En febrero, se entregó por primera vez la versión 5.2. y luego Beta 1, Beta 2 y Beta 3. Está bien pulido.

Jia Peng: Creo que es una prueba y error rápidos. Nuestro proceso es: encontrar un área cerrada, verificar el paradigma en un corto período de tiempo, primero alcanzar el límite superior de lo que este paradigma puede lograr e inmediatamente expandirse hacia afuera una vez que el área esté despejada, agregar simultáneamente una política de seguridad y luego lentamente extiéndalo. Probemos este paradigma en todo el país para ver si funciona. Si no funciona, agregaremos datos y cambiaremos estrategias rápidamente. En el proceso de aceptación del producto, desde los huevos de pájaro hasta los madrugadores y las pruebas internas de miles de personas, permitimos que los usuarios trabajen con nosotros para probar e iterar el producto.

"Más tarde": Suena muy arriesgado. ¿Cómo estabas tan seguro de que serías capaz de superar este proceso?

Lang Xianpeng: El riesgo es muy alto, pero siempre hemos estado aquí.

Nuestro primer automóvil, el Lideal ONE, utiliza la solución de conducción inteligente de Mobileye. Más tarde, cuando el lavado de cara Ideal ONE estaba a punto de entregarse, Mobileye dijo que ya no cooperaría y que no podía realizar la entrega en caja blanca. Ya era 2021 y pensamos que si no dominamos la tecnología de conducción asistida en ese momento, definitivamente no funcionaría. Entonces tomé una decisión difícil: hacerlo yo mismo. Si no podemos hacerlo es porque somos incompetentes. Pero si hoy somos demasiado tímidos y seguimos recurriendo a proveedores, es posible que no tengamos futuro.

Nos vimos "obligados" a idear un proceso de I+D muy diferente. Se entregó en mayo y el prototipo debía producirse en marzo. Para el 25 de mayo de 2021, el día antes de la conferencia de lanzamiento de Ideal ONE, todavía teníamos un montón de cosas. errores que resolver. Los cambios finalmente se completaron esa mañana. Este es el prototipo de nuestro proceso actual: primero verificar un área pequeña, luego mejorar las capacidades, corregir errores y estabilizar la calidad.

En ese momento, el equipo solo tenía 100 personas y 40 personas se fueron en el primer mes. Alguien me dijo: "¿Por qué podemos entregar en tres meses algo que a otros les lleva uno o dos años entregar? No te engañes".

"Más tarde": No se muestra lo mismo. Xiaopeng abrió la ciudad el año pasado más lento que usted este año y Xiaopeng dijo que cada vez que va a una ciudad para abrir una ciudad, debe realizar al menos cuatro rondas de campo. Sólo de esta manera se puede garantizar la seguridad. El usuario abre la caja ciega. ¿Cómo garantiza la seguridad con su método de desarrollo rápido, entrega y luego desde huevos de aves hasta miles de personas para pruebas internas?

Lang Xianpeng: El método actual de evaluación de los sistemas de conducción autónoma es muy diferente al anterior. En la conducción inteligente anterior, las funciones se diseñaban primero y luego se desarrollaban, y las funciones se probaban una por una para verificarlas. Hoy en día, la conducción autónoma basada en datos se basa en capacidades más que en funciones. La “capacidad” sólo puede evaluarse mediante un “examen”.

Usamos modelo mundial + modo sombra para realizar el examen. El modelo mundial se reconstruye y se genera en una escena real, con el coche rodando en ella, lo que equivale a una prueba de simulación para evaluar la capacidad en el proceso de investigación y desarrollo. Después de pasar la prueba simulada, utilizamos vehículos de prueba internos y el modo sombra para realizar la prueba del auto real. Si falla, continuaremos iterando hasta que pase.

"Tarde": si hay una respuesta a la composición de la propuesta, lo ideal es que pueda ejecutarla más rápido que otros, pero la respuesta no siempre estará disponible y la mayoría de las preguntas técnicas pueden ser preguntas abiertas.

Lang Xianpeng: Lo que vemos hoy es la llamada composición de propuestas. Nos estamos poniendo al día rápidamente, pero después de ponernos al día, es posible que seamos más rápidos porque todo el sistema está configurado.

Esto no significa que solo comenzaremos la autoinvestigación en 2021, para poder ofrecer productos peores que los de nuestros pares. Desde el primer día que entregamos, tenemos que competir con los mejores estudiantes de la clase. Esto también significa que si uso el método de aprendizaje de la otra persona para aprender, definitivamente no podré aprender de él. Así que tenemos que hacer las cosas a nuestra manera.

Al borde de la tierra de nadie

"Más tarde": de extremo a extremo no es un concepto nuevo. Tanto Nvidia como Waymo propusieron el concepto de extremo a extremo hace unos años, pero ¿por qué fue Tesla quien lo implementó y promovió?

Jia Peng: Porque no solo presenta ideas técnicas, sino que también muestra a todos los resultados de su uso.

Lang Xianpeng: Mucha gente en Tesla lo vio porque lo creyó, pero más gente lo creyó porque lo vio.

"Tarde": Si Tesla no hubiera estado explorando el camino a seguir, ¿lo ideal se habría quedado atrás durante más tiempo?

Lang Xianpeng: Algorítmicamente llegamos tarde porque las condiciones y los recursos originales eran insuficientes. Pero aún no es demasiado tarde para acumular datos y construir un sistema de investigación y desarrollo que nos permita ponernos al día.

Desde el principio, tuvimos clara la filosofía de Tesla: la tecnología basada en datos es correcta, por lo que construiremos la infraestructura de I+D de acuerdo con ella. En la primera generación de Ideal ONE en 2019, construimos un sistema de circuito cerrado de datos: Poseidon, un conjunto de cadenas de herramientas para recopilar, extraer, etiquetar y entrenar datos. No teníamos los recursos para hacer nuestra propia investigación en ese momento, pero también colocamos una cámara adicional junto a la cámara de Mobileye para recopilar y analizar problemas.

Por ejemplo, si se encuentra un problema durante una prueba en carretera, el método tradicional es que la persona a bordo lo anote y luego conduzca hasta que se repita la misma escena. Encontramos un problema. Los datos se pueden sincronizar en segundo plano. La prueba aún no ha terminado, los datos se han analizado e incluso el problema ha comenzado a resolverse. Lo que las empresas tradicionales tardan varios días o incluso una semana en hacer, probablemente nosotros podamos hacerlo en una hora.

En términos de acumulación de datos, el kilometraje total de conducción autónoma realizado por usuarios ideales ha superado los 2 mil millones de kilómetros, de los cuales casi mil millones de kilómetros han sido conducidos por NOA. Tesla lo hizo temprano, tiene una mayor cantidad de clientes y un mayor kilometraje.

"Más tarde": ¿Es esto más insistencia de Li Xiang o tuya?

Lang Xianpeng: Somos unánimes. Cuando vine a Ideal para una entrevista en 2018, Li Xiang me preguntó: ¿cuál es el principal problema que debe resolverse para finalmente realizar L4? Digo datos: sin un sistema de circuito cerrado de datos, ya sea una muestra o una pregunta, la eficiencia del análisis no es alta. La gente puede minar y desarrollar algoritmos, pero si el problema de los datos no se resuelve, definitivamente no se hará bien.

"Más tarde": Weilai acaba de producir en masa AEB de extremo a extremo no hace mucho; ¿Cuáles son las diferencias de extremo a extremo entre cada empresa?

Jia Peng: La arquitectura actual de Xpeng 5.2 es similar a la de Wutu que acabamos de lanzar en julio. La percepción es un modelo, la toma de decisiones es un modelo y acaban de completarlo. El ADS 3.0 que ha lanzado Huawei también está segmentado de extremo a extremo.

Tesla es un modelo desde la percepción hasta la toma de decisiones. Nuestra última versión también integra la percepción y la toma de decisiones en un solo modelo y comenzó a realizar pruebas con miles de personas esta semana.

"Tarde": ¿Cuál es la diferencia entre el extremo a extremo y el extremo a extremo segmentado de un modelo de percepción y toma de decisiones? ¿Quién está por delante?

Lang Xianpeng: Todavía depende del objetivo. El modelo segmentado es más adecuado para la conducción asistida de nivel L2+, mientras que el modelo único realmente puede realizar conducción autónoma de nivel L3 y L4.

Porque aunque el segmento de extremo a extremo ha reemplazado algunas reglas con reglas basadas en datos dentro del módulo de toma de decisiones, todavía hay reglas en todo el proceso. Es esencialmente similar a la arquitectura de conducción inteligente anterior y a la investigación y el desarrollo. El proceso también es similar, todavía dividido en módulos. El primer modelo no contiene ninguna regla. Los datos del sensor entran y sale la trayectoria planificada.

"Más tarde": ¿Puedes explicar en una frase cuál es el mayor valor de un extremo a otro?

Jia Peng: Desde la perspectiva del usuario, el comportamiento de conducción se vuelve más humano y el control detallado es más fluido. Desde una perspectiva de investigación y desarrollo, la iteración es más eficiente.

Lang Xianpeng: De extremo a extremo es la primera vez que se utilizan datos puros para impulsar la conducción autónoma. El método de investigación y desarrollo ha pasado de comenzar con funciones y escenarios a mejorar las capacidades del sistema. Realmente ha entrado en la era de la inteligencia artificial. Mientras el sistema siga fortaleciéndose, tendrá un rendimiento que superará las expectativas.

"Tarde": ¿Cómo entrenar un modelo más inteligente en menos tiempo?

Jia Peng: Los datos, especialmente los de alta calidad, son muy importantes. Seleccionamos los mejores datos de 20 mil millones de kilómetros de datos de 800.000 propietarios de automóviles, entrenamos más de 1 millón de kilómetros de datos y superamos los 5 millones de kilómetros al final del año.

El segundo es el método de entrenamiento. Sobre la base del aprendizaje por imitación, agregamos aprendizaje reforzado para que el modelo sepa qué está mal.

Lang Xianpeng: Lo último es la potencia informática. La GPU ideal tiene una potencia informática equivalente a 5000 A100 y A800. Si alquila una tarjeta, cuesta mil millones al año, lo que requiere ganancias saludables para sostenerla.

"Más tarde": ha enfatizado repetidamente que puede ponerse al día porque tiene datos, pero esta semana, He Xiaopeng dijo: "Si alguien dice que tiene muchos autos y muchos datos" para poder realizar conducción autónoma, "No lo creas, es una absoluta tontería".

Lang Xianpeng: También esperamos que todos puedan tratar los productos de manera objetiva. Pero todavía estamos en la era en la que Edison y Tesla demostraron si la corriente continua o la corriente alterna es mejor. Una persona usó corriente alterna para la electrocución y la otra demostró que está bien usar corriente alterna para atravesar el cuerpo humano.

"Más tarde": Tesla tiene la mayor cantidad de datos y la mayor inversión en potencia informática. ¿Significa esto que no puede ser superado?

Jia Peng: La limitación actual de Tesla es el hardware, porque la potencia informática del HW 3.0 (el hardware de conducción inteligente de tercera generación de Tesla) es 144 TOPS, y los parámetros del modelo que puede admitir no serán particularmente grandes si agrega demasiados datos ". Olvido catastrófico”. Es por eso que después de la actualización V12.4, algunas escenas mejoraron, mientras que otras empeoraron, como escenas vacías que comenzaron a cambiar de carril aleatoriamente.

"Más tarde": pero mirándolo desde otra perspectiva, FSD puede funcionar sin problemas en HW 3.0, que se lanzó en 2018, lo que demuestra que Tesla tiene una gran capacidad para combinar software y hardware.

Jia Peng: Es realmente fuerte. Pero creo que existen desafíos para que FSD ingrese a China. En primer lugar, la mayoría de las carreteras de Estados Unidos son relativamente sencillas; en segundo lugar, Tesla puede obtener información sobre la topología de las carreteras en Estados Unidos, que no está disponible en China. Entonces, FSD es en realidad un mapa ligero, y realmente no tenemos mapas, sin ninguna información cartográfica previa.

"Tarde": en julio de este año, el Dr. Gu Junli, que trabajó para Tesla y Xpeng, dijo que "el progreso de la investigación y el desarrollo de Tesla está entre 1,5 y 2 años por delante de la conducción inteligente nacional". ¿Estás de acuerdo?

Lang Xianpeng: No estoy de acuerdo.

La versión sin imagen representa el límite superior de las reglas. De extremo a extremo representa el límite superior de la tecnología basada en datos. No contiene reglas, solo un modelo. Sin embargo, la conducción autónoma no se puede lograr sin imágenes y de extremo a extremo, porque todavía está resolviendo el problema de la cola larga y no puede manejar situaciones que nunca antes había encontrado. Para llegar a L4, el sistema debe aprender a afrontar escenarios desconocidos. Creemos que esta capacidad debe resolverse mediante VLM en lugar de de un extremo a otro.

Por lo tanto, nuestra nueva arquitectura es de extremo a extremo + VLM. El primero es el sistema 1 para el pensamiento rápido, que maneja la mayoría de los escenarios de conducción que requieren una respuesta rápida; el segundo es el sistema 2 para el pensamiento lento y la toma de decisiones a largo plazo; puede aprender; Aprenda algo de sentido común para lidiar con situaciones desconocidas, como identificar semáforos irregulares invisibles, diversas formas de marcas de carriles de marea, características circundantes a la escuela, etc., y dígale al automóvil con anticipación que no puede entrar ni reducir la velocidad.

Sistema 1 + Sistema 2, lo ideal es ser el primero en construir esta arquitectura.

Jia Peng: A juzgar por la información pública, la arquitectura técnica actual de Tesla no tiene VLM.

"Tarde": Wayve, una empresa británica de conducción autónoma con inversión de Nvidia y SoftBank, lanzó Lingo-2 en abril de este año. También agregó un modelo de lenguaje grande al automóvil. ¿Se inspiró en Wayve?

Lang Xianpeng: No tiene el Sistema 1. Lingo-2 y los modelos en la nube de Wayve son modelos de lenguaje grande multimodales, similares a VLM. La idea es que un modelo resuelva el sistema 1 más el sistema 2. Sin embargo, durante la producción en masa, se descubrirá que la potencia informática de Orin está ahí y no puede soportar el modelo grande del Sistema 2. Wayve puede hacer esto porque no es un vehículo producido en masa y requiere un servidor en la parte trasera del vehículo para ejecutar Lingo-2.

Jia Peng: Nuestra primera inspiración fueron los sistemas robóticos RT-1 y RT-2 de Google, que son un modelo VLA (Visual-Language-action), y el comportamiento final también lo genera el modelo. Puede que sea el final del juego: si mi hardware es lo suficientemente bueno, en teoría puedo ejecutar VLA en tiempo real.

"Más tarde": ¿Entonces la inspiración no vino de la industria automovilística, sino de la robótica?

Lang Xianpeng: Porque consideramos la conducción autónoma como una aplicación típica de la inteligencia artificial. Esta solución de sistema dual en realidad propone una arquitectura de inteligencia incorporada universal, que es conducción autónoma en el automóvil y robot inteligente en el robot.

"Tarde": la arquitectura "de extremo a extremo + VLM" que propuso, la primera está inspirada en Tesla y la segunda en Google RT, y el documento de VLM es una colaboración con la Universidad de Tsinghua. ¿Significa esto que está más acostumbrado a la innovación combinada en esta etapa?

Lang Xianpeng: Al cooperar con el profesor Zhao Xing de la Universidad de Tsinghua, nuestras opiniones chocaron entre sí, y no fue él quien propuso las opiniones, sino nosotros quienes las implementamos.

"Más tarde": ¿Considera usted la conducción autónoma como parte de la inteligencia incorporada universal? ¿Tiene también leyes de escala? ¿Cree en ellas?

Lang Xianpeng: Las leyes de escala de un extremo a otro no serán particularmente obvias, porque los parámetros son limitados y se pueden completar decenas de millones de datos, y si agrega más datos, comenzará a olvidarse. Ya vemos este fenómeno desde el Tesla FSD V12.4.

Pero las leyes de escala de VLM definitivamente existen y pueden alcanzar decenas de miles de millones o incluso cientos de miles de millones de parámetros. Mientras haya suficientes datos y parámetros suficientemente grandes, el rendimiento aumentará. Este camino nos resulta muy atractivo.

"Tarde": si VLM puede ejecutarse lo suficientemente rápido y tener una latencia lo suficientemente baja en el automóvil, ¿no hay necesidad del Sistema 1?

Jia Peng: Teóricamente sí. Ahora nuestro VLM puede alcanzar 3,4 HZ en el automóvil (Nota: HZ es el número de eventos periódicos que ocurren por unidad de tiempo. Cuanto mayor es el valor, menor es el retraso. Es un modelo con 2,2 B (2,2 mil millones) de parámetros, pero). Para poder reemplazar de un extremo a otro, debe funcionar a más de diez HZ, lo que corresponde a un retraso de 100 a 200 milisegundos, que es la velocidad de reacción humana. Ciertos escenarios tienen requisitos de latencia más altos, como AEB (frenado de emergencia).

"Más tarde": ¿Qué tan única es esta estructura? Huawei también está hablando de los Sistemas 1 y 2; el "Modelo de lenguaje grande XBrain" de Xiaopeng también se ocupa de escenarios desconocidos. ¿Es similar al Sistema 2 del que estás hablando?

Lang Xianpeng: Somos los primeros en proponer sistemas duales en la industria; y nuestro VLM se implementa en el chip Orin X del lado del automóvil producido en masa. Anteriormente, intentos similares de otras compañías se realizaron en computadoras industriales.

Ya sea un modelo de extremo a extremo o VLM, esta arquitectura ha sido entregada y está siendo probada por miles de personas.

"Más tarde": También mencionaste que estás trabajando en un modelo mundial de nube. ¿Qué papel juega esto en toda la arquitectura?

Jia Peng: Este es nuestro sistema 3. El modelo del mundo en la nube hace dos cosas: primero, VLM se puede destilar del modelo del mundo en la nube, que consiste en entrenar primero un modelo muy grande en la nube, como el parámetro 400 B Lamma 3.1 lanzado recientemente por Meta, y luego destilar un Modelo 8 B. Esto funciona mejor que entrenar modelos 8 B desde cero.

En segundo lugar, el modelo mundial puede examinar las capacidades del Sistema 1 y del Sistema 2. En el proceso de realizar pruebas sin mapas de un extremo a otro, descubrimos que la verificación a nivel nacional es muy difícil. Hay 10 millones de kilómetros de carreteras y antes solo podíamos asignar mano de obra para probarlas.

"Tarde": Tesla también está trabajando en un modelo mundial. ¿Pero necesita la industria tantos modelos mundiales? Después de todo, sólo tenemos un mundo.

Lang Xianpeng: En el proceso de 0 a 1, habrá muchas rutas e intentos. Al igual que no necesitamos tantas marcas de vehículos eléctricos, pero hay cientos en las horas punta.

"Más tarde": la industria creía anteriormente que las clasificaciones de conducción inteligente de China eran Huawei, Momenta, Xpeng e Ideal. ¿Cuándo se reescribirá esta clasificación? ¿Y cuál es el siguiente punto que cambiará los rankings de conducción inteligente?

Lang Xianpeng: Ha sido reescrito. En el futuro, cada equipo irá a tierra de nadie: si Wutu resuelve el problema y se puede abrir en todo el país, y de extremo a extremo hará posible que todo el país se abra bien, entonces el siguiente paso es L4.

¿Cómo producir L4 en masa? Deben haber cien flores floreciendo al principio, y luego convergerán. Pero no todos volverán a la misma línea de partida, porque la brecha en datos y potencia informática será cada vez más amplia.

Revisión de seis batallas clave de una conducción ideal e inteligente

"Más tarde": Escuché que eres bueno nombrando batallas.

Lang Xianpeng: Nos tomamos en serio los nombres.

El equipo de conducción inteligente libró seis batallas clave: la primera batalla fue el Proyecto Acrópolis, luego el Proyecto Ilíada y el Proyecto Odisea, la primera y segunda parte de la epopeya de Homero, luego el Proyecto Titán, el Proyecto Manzana Dorada y, después de la Batalla de Titán, el Nuevo Dios. Derrotó a los viejos dioses. Pasemos ahora al Proyecto Damocles actual, que es un proyecto de principio a fin. Este proyecto es desafiante y peligroso. Si no se hace bien, la Espada de Damocles caerá.

"Tarde": ¿Cuáles son los mayores desafíos y recompensas en cada batalla?

Lang Xianpeng:

El Proyecto Acrópolis es nuestro primer proyecto de autoinvestigación: ofrece funciones básicas como AEB, crucero adaptativo ACC y mantenimiento de carril en el Ideal ONE lanzado en mayo de 2021. Estas tecnologías están maduras, pero solo tenemos 90 días, Dios, qué importa. es una ejecución fuerte. A partir de ese día pensamos en cómo ponernos al día rápidamente.
En 2022 iniciaremos el programa Iliad, entregando el proyecto Orin X en el modelo L9. El algoritmo anterior en Horizon J3 ya no es aplicable y necesitamos volver a desarrollar el sistema en Orin. Además de la epidemia, se cortó el suministro de chips y Bosch no pudo proporcionar suficientes chips de radar de ondas milimétricas angulares. Tuvimos que elegir eliminar el radar de onda milimétrica angular y utilizar una solución visual pura para la detección de puntos ciegos, evitar obstáculos y otras funciones. Al final, tomó tres meses entregar la solución, varios meses antes del tiempo que le tomó al amigo entregar Orin.
Al mismo tiempo que Iliad, Jia Peng fue responsable del desarrollo de la plataforma Pro basada en Horizon J5, que es el Proyecto Odyssey. El mayor desafío es la falta de gente. En ese momento, todo el equipo tenía solo 500 personas. En 2021, tanto Xiaopeng como Weilai tenían miles de personas, y Huawei afirmó tener más de 2000 personas en ese momento.
En 2023, nuestra plataforma Orin se ha vuelto relativamente estable y ha alcanzado la paridad en términos de hardware. Consideramos que la próxima batalla será la NOA urbana, y solo aquellos que puedan ganar serán elegibles para ingresar al primer nivel. Esto se llama Proyecto Titán.
El Proyecto Manzana Dorada es un NOA de cien ciudades propuesto en el Salón del Automóvil de Shanghai de 2023. También proviene de la mitología griega. Hércules fue a buscar manzanas doradas, pero las manzanas doradas estaban custodiadas por un dragón de cien cabezas. las manzanas doradas, debemos cortar las cabezas del dragón gigante una por una y eliminar los cientos de ciudades una por una.
El Proyecto Damocles es un proyecto de principio a fin iniciado este año, lo que significa que la Espada de Damocles caerá si no se hace bien.

"Más tarde": Otras empresas no han eliminado el radar de ondas milimétricas de cuatro ángulos. ¿Ha considerado el impacto en la seguridad del sistema después de su eliminación?

Lang Xianpeng: Quitamos el radar de ondas milimétricas por dos razones: una fue para garantizar la entrega. En ese momento, se cortó el suministro de chips de radar Bosch Corner y tuvimos que tomar una decisión. O se reemplaza el radar por visión o no se cumple. El segundo es la selección de tecnología. En ese momento, Tesla quería adoptar una solución puramente visual que estuviera más cerca de la capacidad humana de reconocer el entorno. Si hay un radar de onda milimétrica angular y sensores visuales en la carrocería del automóvil, y hay una diferencia entre los dos, es necesario utilizar reglas lógicas escritas por humanos para juzgarlo, e inevitablemente se producirán errores.

Otro beneficio adicional es que la tecnología reduce costes, ahorrando unos 500 millones.

Sin embargo, es muy difícil y arriesgado utilizar varias cámaras para sustituir el radar de ondas milimétricas de ángulo. Hemos realizado muchas pruebas y el resultado final es que la precisión y la tasa de éxito son ligeramente superiores a las del radar angular.

"Más tarde": Mencionaste antes el problema de la insuficiencia de recursos. ¿Este problema está resuelto ahora?

Lang Xianpeng: Propusimos “tres estrategias principales” en nuestra reunión estratégica de otoño del pasado mes de septiembre. La primera estrategia es la estrategia de conducción inteligente. Entonces comenzamos a reclutar mucha gente en la segunda mitad del año. Los requisitos y expectativas de la empresa también han aumentado, ya sean cien ciudades u otras, necesita ponerse al día con el escalón más alto.

"Más tarde": ¿Entonces la conducción inteligente no era una estrategia central ideal antes?

Lang Xianpeng: Esta vez está oficialmente claro.

"Más tarde": ¿Es esto porque se da cuenta de que el impacto de la conducción inteligente en las ventas de productos está aumentando y que la distancia entre usted y Huawei se está ampliando?

Jia Peng: Sí, entonces la estrategia de otoño de 2023 determinará que idealmente seremos el líder absoluto en conducción inteligente este año, porque consideramos que la lógica de compra de automóviles de toda la industria se convertirá primero en conducción inteligente.

"Más tarde": ¿Qué acumulaste de las seis batallas?

Lang Xianpeng: Si quieres ganar, debes pensar en términos de cómo ganar. Es decir, empezar con el fin en mente, encontrar la necesidad y descubrir qué se debe hacer para resolver un problema. Algunos ejemplos son los mapas de radar con ángulo eliminado y los mapas de corte NPN.

"Tarde": ¿No se basa el punto de partida de los ideales en la competencia? Por ejemplo, la carrera del Proyecto 100 Ciudades del año pasado.

Lang Xianpeng: Después de que Huawei anunció el año pasado que lanzaría ADS (la solución NOA sin imagen de Huawei) que se puede abrir en todo el país, enfatizamos demasiado la competencia y comparamos algunos de los indicadores de Huawei, como las tasas de adquisición, pero ignoramos la experiencia del usuario. Así fue esta primavera. Algo que fue criticado por todos en la reunión de estrategia.

Posteriormente reflexionamos que toda aceptación y entrega de producto debe basarse en la evaluación del usuario.

"Más tarde": ¿Cómo diseña su I+D de conducción inteligente y su organización de productos para hacer frente a la competencia de alta intensidad actual?

Lang Xianpeng: Nuestra conducción inteligente es una organización horizontal y vertical. Soy responsable del departamento comercial vertical y hago investigación, desarrollo y entrega. Sin embargo, la organización, ejecución y operación del producto final, incluida la evaluación comparativa competitiva externa y la inversión en recursos de I + D, están a cargo del PDT (equipo de desarrollo de productos) de conducción inteligente, un equipo de desarrollo de productos multifuncional.

Participaré en la formulación de algunas estrategias y planes de talento. Una vez finalizado el plan, lo implementaremos firmemente.

"Tarde": el otoño pasado, Ideal contrató gente a gran escala y el equipo de conducción inteligente se expandió de más de 700 personas a más de 1.000 personas. En mayo de este año, despidió a otras doscientas o trescientas personas, y en junio. recordó a algunos empleados en puestos clave. ¿Qué significa pasar de contratar a despedir y luego volver a contratar empleados en un corto período de tiempo?

Lang Xianpeng: La esencia es la iteración tecnológica. En el pasado, había una gran cantidad de reglas en el sistema de conducción inteligente, que requerían programación manual, gestión del progreso y pruebas. Pero de extremo a extremo se trata más de modelos de IA, y las posiciones mencionadas anteriormente se han reducido significativamente. Posteriormente, algunas personas fueron retiradas, en su mayoría debido a ajustes basados en las necesidades comerciales. De hecho, el equipo de conducción inteligente de Tesla siempre ha estado formado por entre 200 y 300 personas y ha creado la flota de conducción autónoma más grande del mundo.

"Tarde": el técnico indio Dhaval Shroff propuso por primera vez internamente el modelo integral de Tesla y lo adoptó de abajo hacia arriba. ¿Tiene una organización de I+D ideal el terreno para la innovación ascendente?

Lang Xianpeng: De hecho, estas ideas para VLM surgieron de nuestros equipos de investigación previa y de I+D. No habíamos previsto un sistema dual de este tipo desde el principio.

"Más tarde": ¿Cómo evaluarías tu reserva de talentos? Antes de Xiaopeng, estaba Wu Xinzhou y Weilai tenía a Ren Shaoqing. Algunas personas creen que el equipo de conducción inteligente ideal siempre ha carecido de expertos técnicos.

Lang Xianpeng: En este nivel, tanto la capacidad técnica como la capacidad de obtener resultados son importantes. Muchos de nuestros líderes técnicos, incluidos Jia Peng, Wang Jiajia y yo, hemos estado trabajando en la conducción autónoma en 2014 o 2015. Nuestros nuevos reclutas también son relativamente fuertes. Los más de 200 recién graduados de este año se encuentran en su mayoría entre los 50 mejores estudiantes del QS100 (British QS World University Rankings). Y tenemos potencia informática y reservas de datos, que son el terreno para el crecimiento del talento.

"Más tarde": aunque ingresó al campo de la conducción inteligente desde muy temprano, inicialmente trabajó en algoritmos relacionados con mapas en Baidu, no en la conducción inteligente en sí.

Lang Xianpeng: La experiencia de Baidu es muy importante. Esa experiencia hizo que no tuviera miedo de nada en la gestión. Creo que si encuentro el método correcto puedo lograr mejores resultados en menos tiempo.

Mi primer proyecto en Baidu fue similar a la autoinvestigación de primera generación de Ideal en el sentido de que el ciclo era extremadamente ajustado. Me uní a Baidu a finales de abril de 2013 y el proyecto Street View se lanzará en la Conferencia de Baidu cuatro meses después. Al principio solo había 4 personas en este equipo y finalmente completamos el lanzamiento a la medianoche del día antes de la conferencia.

Aquí hay dos claves. Una es utilizar nuevas tecnologías. Al hacer escenas callejeras, es necesario difuminar las matrículas y las caras. El método convencional en aquel entonces era hacerlo manualmente, pero utilizamos un algoritmo visual, que es más rápido y preciso, y salva a mucha gente. El otro son los datos. Para este algoritmo, originalmente queríamos cooperar con los equipos de Yu Kai (más tarde fundador de Horizon) y Ni Kai (más tarde fundador de Heduo) de Baidu IDL, pero su algoritmo solo tenía una precisión del 86% en este escenario. Hicimos la matrícula el 99% nosotros mismos, el 97% de las caras. La clave es que marcamos decenas de miles de datos.

Algorítmicamente, definitivamente no somos tan buenos como ellos. Son las personas con los mejores algoritmos del mundo. Pero esto es sólo una diferencia de 80 a 90 puntos; en términos de datos de escena, tenemos un orden de magnitud más. Entonces, durante la entrevista posterior, Li quiso preguntarme: ¿cuál es el problema más importante para resolver la conducción autónoma? Yo diría datos.

"Más tarde": En los últimos años, muchas personas optaron por irse porque no podían soportar la presión o no creían que sus ideales pudieran lograrse. ¿Por qué al final te quedaste?

Lang Xianpeng: Nosotros, un grupo de personas, sólo queremos que L4 suceda, y creo que esto sólo se puede hacer de manera ideal.

Jia Peng: Antes de llegar a Ideal, estuve en NVIDIA durante 5 años, ya fueran modelos de extremo a extremo o grandes, NVIDIA fue la primera en proponerlo, pero no se implementó en ese momento. Cuando me uno a una empresa de automóviles, finalmente tengo la oportunidad de hacer de la conducción autónoma un circuito cerrado, lo cual es fantástico.

Fuente de la imagen del título: "Genius Gunner"

noticias

Diálogo entre Lang Xianpeng y Jia Peng, un estudiante de bajo rendimiento, ¿por qué entregó su trabajo antes de tiempo?

Introducción

Mi informacion de contacto