noticias

Li Auto Lang Xianpeng: Sin una ganancia de mil millones de dólares en el futuro, no podemos permitirnos la conducción autónoma 36Kr Entrevista exclusiva |

2024-08-06

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Entrevista |Li Qin y Li Anqi

Texto |

Editor | Li Qin

A principios de junio, el día antes de su discurso en el Foro del Automóvil de Chongqing, Li Xiang, director ejecutivo de Li Auto, cambió temporalmente el guión del discurso. El equipo originalmente le preparó un tema sobre inteligencia artificial, pero de lo que Li quería hablar era de conducción autónoma.

Li Xiang dijo en la reunión que la conducción autónoma en el futuro será como los humanos, con la capacidad de reaccionar rápidamente y de manejar eventos complejos con razonamiento lógico. La respuesta ideal es: modelo de lenguaje visual VLM + de extremo a extremo; este también es el tema más candente en la industria de la conducción inteligente en este momento.

Un mes después, el equipo de conducción inteligente de Li Auto lanzó una solución detallada "de extremo a extremo + VLM". A diferencia de la solución "segmentada de extremo a extremo" de sus pares nacionales, la solución de Li Auto está más cerca de Tesla y se llama "One". Modelo”, una gran red.

En la impresión del mundo exterior, el coche inteligente ideal siempre ha sido un perseguidor. Durante la feroz guerra de Kaicheng en la industria el año pasado, para ponerse al día con el ritmo de la industria, Ideal comenzó a cambiar con frecuencia su ruta: de confiar en mapas de alta precisión a mapas livianos (redes de funciones NPN) y luego eliminar mapas de alta precisión.

Lang Xianpeng, vicepresidente de investigación y desarrollo de conducción inteligente de Li Auto, y Jia Peng, jefe de investigación y desarrollo de tecnología de conducción inteligente, aceptaron recientemente una entrevista con 36Kr. Al recordar este viaje de búsqueda, Lang Xianpeng concluyó: “El núcleo. El principio es si podemos encontrar la esencia del problema y luego decidirnos a corregirlo rápidamente”.

La elección de la vía técnica "de extremo a extremo" también es una continuación de este principio. Lang Xianpeng dijo que en el pasado las soluciones de conducción inteligente, ya fueran con o sin mapas, la arquitectura técnica subyacente estaba "basada en mapas" y funcionaba de acuerdo con el "proceso de percepción a control" existente. La información estaba dañada y la regulación y el control posteriores eran limitados. "Esto requiere mucha mano de obra y recursos" para reparar constantemente las vulnerabilidades.

Por supuesto, la inversión en recursos sigue siendo una cuestión secundaria. El problema central es que "la experiencia de conducción inteligente basada en reglas tiene un límite superior y nunca puede ser antropomórfica".

El "modelo mundial de extremo a extremo + VLM +" es el paradigma ideal de implementación de inteligencia artificial.

En pocas palabras, la solución ideal de extremo a extremo elimina los múltiples módulos independientes del sistema de conducción inteligente original, como la percepción, la predicción y el control de planificación, que dependen de reglas artificiales, y los fusiona en una gran red neuronal. "Datos del sensor de entrada y trayectoria planificada de salida", concluyó Lang Xianpeng.

El modelo de lenguaje visual VLM proporciona un complemento de un extremo a otro similar a ChatGPT. La pregunta de un extremo a otro es "qué tipo de datos le proporciona y qué tipo de comportamiento tendrá". El modelo de lenguaje visual VLM tiene la capacidad de comprender el mundo y el razonamiento lógico. En escenarios complejos, los usuarios de un extremo a otro pueden hacer preguntas a VLM en tiempo real y este último brindará sugerencias de conducción relevantes.

El modelo mundial es un enorme libro de pruebas incorrecto, que puede generar datos de simulación a través de reconstrucción + producción, además de casos reales acumulados antes de Ideal, formando "preguntas de prueba reales + preguntas de prueba simuladas" para probar el modelo de un extremo a otro. Sólo después de que el modelo pase la prueba y obtenga puntuaciones altas se podrá promocionar entre los usuarios.

Internamente, estos tres modelos se denominan Sistema 1, Sistema 2 y Sistema 3 respectivamente. El Sistema 1 corresponde al modo de pensamiento en tiempo real en el cerebro humano, el Sistema 2 corresponde al pensamiento lógico en el cerebro humano y el Sistema 3 es un modelo de examen responsable de aceptar los resultados de entrenamiento y aprendizaje del Sistema 1 y el Sistema 2.

Tesla inició la tecnología de conducción inteligente de extremo a extremo. En agosto de 2023, Musk demostró las capacidades de la versión FSD v12 de extremo a extremo en una transmisión en vivo. Actualmente, FSD se ha iterado a la versión v12.5. Pero a diferencia de Tesla, además del modelo mundial y de extremo a extremo, Ideal también presenta capacidades de modelo de lenguaje grande VLM.

Jia Peng explicó a 36Kr que pasó una semana en la costa este y la costa oeste de los Estados Unidos probando el FSD de Tesla y descubrió que incluso "de extremo a extremo" tiene un límite superior. En la costa este de los Estados Unidos, donde las condiciones de las carreteras son complejas, como Nueva York y Boston, la tasa de aceptación de Tesla ha aumentado significativamente "la cantidad de parámetros del modelo de extremo a extremo que se pueden ejecutar en HW3.0 no lo hará". ser particularmente grande, y la capacidad del modelo también tiene un límite superior natural."

La función ideal de VLM es aumentar el límite superior de "de un extremo a otro". Puede aprender sobre caminos con baches, escuelas, ser responsable de la construcción, rotondas y otros eventos, y proporcionar toma de decisiones de un extremo a otro. -Fin del sistema en momentos críticos.

Tanto Lang Xianpeng como Jia Peng creen que VLM es la variable más importante en el sistema de conducción inteligente ideal. Debido a que los parámetros de VLM han alcanzado los 2.200 millones y el tiempo de respuesta es de 300 milisegundos, si hay un chip con mayor potencia informática, la cantidad de parámetros que VLM puede implementar alcanzará decenas de miles de millones, que es el mejor camino hacia la tecnología avanzada. Conducción autónoma L3/L4.

"El propio VLM también está siguiendo el desarrollo de la tecnología de modelos de lenguajes grandes. Nadie puede responder qué tan grande será eventualmente el número de parámetros", dijo Jia Peng.

No es difícil descubrir que características como los modelos de lenguaje visual de gran tamaño y basados ​​en datos determinan que la industria de la conducción inteligente ha participado en el juego del poder informático iniciado por empresas como OpenAI, Microsoft y Tesla.

Lang Xianpeng no se anduvo con rodeos. Cuando se trata de este punto, lo que todos comparan es la cantidad y calidad de los datos, así como la reserva de potencia informática. Los datos de alta calidad se basan en una escala de datos absoluta; respaldar el entrenamiento del modelo L4 requiere alrededor de docenas de EFLOPS de potencia informática.

"Ninguna empresa sin un beneficio neto de mil millones de dólares podrá permitirse la conducción autónoma en el futuro", dijo sin rodeos Lang Xianpeng.

En la actualidad, la potencia de computación en la nube de Li Auto es de 4,5 EFLOPS, lo que rápidamente ha reducido la brecha con la empresa líder Huawei. Según 36Kr Auto, Ideal compró recientemente una gran cantidad de chips en la nube NVIDIA y "básicamente compró todas las tarjetas en manos de los distribuidores del canal".

El propio director ejecutivo, Li Xiang, también tiene una idea de la tendencia de esta competencia: utilizar recursos y aprovechar la tecnología inteligente para deshacerse de sus pares. A menudo toma la iniciativa de preguntarle a Lang Xianpeng: "¿Hay suficientes recursos informáticos? Si no son suficientes, deje que Xie Yan (CTO ideal) obtenga más".

"También tenemos autos y más dinero que otros, por lo que tenemos una gran oportunidad de ampliar la brecha con nuestros oponentes en este camino", quiso decir Li. El informe financiero muestra que en el primer trimestre de este año, las reservas de efectivo de Li Auto se acercaban a los 99 mil millones de yuanes.

Ideal puede ver a partir de datos internos que el circuito cerrado empresarial de la conducción inteligente ha comenzado a mostrar señales. A principios de julio, Ideal comenzó a entregar la versión 6.0 Smart Driving que se puede conducir en todo el país a los usuarios de la versión Max de Smart Driving. Lang Xianpeng descubrió que la proporción del modelo Lideal Max superó rápidamente el 50%. más del 10% cada mes. Si entre el 2% y el 3% puede entenderse como nerviosismo normal, más del 10% es un crecimiento efectivo”.

Lang Xianpeng también sabe que, aunque la visión de la conducción autónoma L4 está empezando a aclararse, su camino de implementación no ha cambiado: "Debemos ayudar rápidamente a la empresa a vender coches. Sólo vendiendo los coches podremos tener dinero para comprar tarjetas para entrenar de forma inteligente. conduciendo."

Si la conducción inteligente es la ganadora en el futuro campo de batalla del automóvil, obviamente se trata de un juego de recursos más cruel. Ideal ha realizado preparativos avanzados desde la estrategia de alto nivel hasta la preparación técnica y la inversión de recursos. ¿Qué pasa con los demás?

La siguiente es una conversación entre 36Kr Automobile y Lang Xianpeng, vicepresidente de I + D de Ideal Intelligent Driving Technology, y Jia Peng, jefe de I + D de Ideal Intelligent Driving Technology Editada:

Hablando del límite superior de la conducción inteligente: haya imagen o no, es una arquitectura homogénea

36Kr Auto: ¿Ha habido una revisión interna? ¿Cómo se pasa de quedarse atrás en conducción inteligente a alcanzar rápidamente un nivel comparable al de Huawei?

Lang Xianpeng: De hecho, en comparación con Xiaopeng, NIO y Huawei, no queremos decir que tengamos múltiples jefes, y puede que ni siquiera tengamos tantas familias como otros, pero exigimos ser realistas. A veces siento que las personas pueden no buscar la esencia del problema. Cuando encuentran dificultades, solo piensan en si lo que están haciendo ahora se puede modificar e iterar.

Por ejemplo, desde tener imágenes hasta no tenerlas, el mayor problema es la imagen misma. He trabajado mucho en el mapa antes y me gustaría luchar un poco más. De hecho, quiero invertir rápidamente en la siguiente fase de investigación y desarrollo. Depende de si podemos encontrar el problema esencial y decidirnos a corregirlo rápidamente.

Automóvil 36Kr: Lo ideal es lograr una conducción inteligente sin mapas a nivel nacional. Hay muchas versiones.

Lang Xianpeng: El año pasado, en el Salón del Automóvil de Shanghai, todo el mundo empezó a hacer NOA urbano. Cada empresa tiene ideas similares. Se utilizan mapas de alta precisión para las carreteras, por lo que el primer paso es ver si el plan de carreteras se puede utilizar en las ciudades. Debe preguntarle al distribuidor de mapas que existen mapas de alta precisión. ciudades, pero sólo unas 20 ciudades. Dijimos que lo intentes primero.

Sin embargo, la actualización iterativa del plan y el mapa está limitada. En ese momento, estábamos trabajando en Wangjing. Estábamos construyendo carreteras, cambiando rutas e incluso cambiando semáforos. Tuvimos que esperar a que AutoNavi repitiera los dibujos antes de poder continuar trabajando. Aproximadamente en junio del año pasado, decidimos no rehacer el mapa y cambiar a la solución NPN (una red neuronal previa). Es equivalente al mapeo local, utilizando información previa NPN en las principales intersecciones, rotondas, etc., y nuestro automóvil actualiza las funciones.

Pero en las grandes ciudades como Beijing, Shanghai, Guangzhou y Shenzhen, hay muchos automóviles, pero en las ciudades pequeñas, hay pocos automóviles. ¿Hacerlo siempre en una gran ciudad? Los usuarios no pagarán por ello. En ese momento, el equipo todavía dudaba y Beijing, Shanghai y Guangzhou estaban bien. También hay voces internas que dicen que en lugar de construir cien ciudades, deberíamos construir algunas ciudades de primer nivel. De todos modos, Huawei solo estará en 50 ciudades al principio, por lo que no tenemos que ser el primero o el segundo.

Dije que eso no es posible y que todavía necesito hacerlo rápidamente. Todavía quiero saber si realmente se hace a mayor escala, ¿está bien el método NPN? Ese es el problema. Los mapas siempre han tenido restricciones y también hay críticas de que algunas ciudades solo pueden abrir dos carreteras. Entonces, después de aprender de la experiencia, comenzamos a recortar planes después de entregar las 100 ciudades en diciembre del año pasado.

36Kr Auto: ¿Cuáles son las necesidades de desarrollar un NOA sin gráficos de principio a fin?

Lang Xianpeng: Todavía hay un problema sin imagen. Resulta que el mapa puede proporcionar información relativamente precisa después de eliminar la información anterior del mapa, los requisitos para la percepción ascendente se vuelven particularmente altos. En el área de regulación y control aguas abajo, la entrada de información era muy regular antes, pero ahora se percibe que hay algunos problemas de inquietud y errores, lo que también es un gran desafío.

Continuar haciéndolo requerirá mucha mano de obra. Por ejemplo, si hay un problema con la percepción, se deben agregar muchas reglas al modelo de entorno intermedio. Si hay algún impacto en la regulación posterior, se pueden agregar reglas para compensarlo. Esto plantea un enorme desafío de recursos humanos para el equipo. Así surgió Wutu de Huawei (ventaja de mano de obra). Originalmente queríamos contratar más personas en la segunda mitad del año pasado.

Pero el límite superior de esto es bastante obvio. Básicamente, todas las reglas las crean personas y las diseñan ingenieros. Especialmente en los últimos meses de enero y febrero de este año, a menudo cambiamos una regla. Si este caso funciona bien, otros casos no funcionarán. La implicación mutua es demasiado grande e interminable.

Por supuesto, invertir recursos es secundario. Lo más importante es que la experiencia basada en reglas tiene un límite superior y nunca puede ser antropomórfica. Así que iteramos hasta el VLM y de extremo a extremo actual. De extremo a extremo, es la primera vez que se utiliza inteligencia artificial para la conducción inteligente.

36Kr Auto: ¿Cuándo es el momento ideal para empezar a invertir de punta a punta?

Lang Xianpeng:Siempre tenemos dos líneas de trabajo, una línea abierta es para producción y entrega en masa, la imagen clara de NPN del año pasado sin imagen es una línea abierta y la de extremo a extremo es una línea oscura, que es nuestra línea de investigación previa. .

Es solo que la Conferencia Estratégica del Lago Yanqi lo dejó claro el año pasado. En la reunión estratégica, Li Xiang mencionó que la conducción autónoma es nuestra estrategia central y que la I+D (investigación y desarrollo tecnológico) debe alcanzar hitos importantes. La idea de un extremo a otro existe desde hace mucho tiempo, pero siempre ha habido presión para cumplir y ningún recurso para explorar.

36Kr Auto: Es posible que Wutu tenga que ir de un extremo a otro poco después de su lanzamiento. ¿Cómo se considera este ritmo?

Lang Xianpeng: A principios de año, le dije esto a Li Xiang: aunque queremos hacerlo de un extremo a otro, todavía tenemos que hacerlo sin una imagen. Debido a que sin gráficos es soporte de extremo a extremo, sin gráficos, ¿de dónde vendrían los datos y la experiencia para brindar soporte de extremo a extremo?

Y debe cargarse sin imágenes antes de que el automóvil pueda venderse fácilmente. De lo contrario, ¿cómo puede competir con Huawei? Ahora que estamos en Wutu, estamos tratando de ganar tiempo de principio a fin y, al mismo tiempo, mejorar las capacidades de nuestros productos para ayudar a vender automóviles.

36Kr Auto: En el camino, ha ido negando sus planes. ¿Existe alguna presión desde la perspectiva de la gestión ascendente?

Lang Xianpeng:No. En primer lugar, mi responsabilidad es llevar a todos a realizar la conducción autónoma; en segundo lugar, una organización ideal tiene su propia metodología o proceso, como hacer las cosas que son correctas pero no fáciles. Parece una tontería, pero es crucial.

Li Xiang nunca diría por qué Lang Bo negó lo que había hecho antes. Le dejamos claro por qué estábamos haciendo esto, que queríamos ganar en la estrategia de IA y encontramos un paradigma de sistema dual, que comprendió de inmediato. Sólo diría que de principio a fin es fantástico y debe hacerse rápidamente.

Lo que la inteligencia artificial requiere es potencia informática y datos. Li Xiang viene a menudo y me pregunta: Lang Bo, ¿eres lo suficientemente poderoso? Si no es suficiente, pídele a Xie Yan que te traiga más.

Li quería decir que también tenemos automóviles y más dinero que otros, por lo que tenemos una gran oportunidad de ampliar la brecha con otros en este camino. Así que no hagas estos retoques y date prisa y haz la IA detrás de esto.

Hablando del futuro de la conducción inteligente: End-to-end + VLM es el mejor paradigma para la inteligencia artificial

36Kr: Algunas empresas nunca han hecho el no-map y piensan que de extremo a extremo es una oportunidad para cambiar de carril y adelantar. ¿Es esto cierto?

Lang Xianpeng: Eso es medio cierto. De hecho, es posible cambiar de carril de un extremo a otro, independientemente de si hay un gráfico, NPN o ningún gráfico, el núcleo de la solución es homogéneo. Elimina el mapa, mejora la percepción, apila módulos pequeños en varios modelos grandes y utiliza el mismo plan para evolucionar poco a poco.

Pero de un extremo a otro es diferente. Por primera vez utiliza inteligencia artificial para la conducción autónoma. Después de usar One Model para hacer de un extremo a otro, la entrada son solo datos, la salida es trayectoria y los módulos intermedios se integran en un modelo.

Todo el sistema de procesos de I+D es completamente diferente. En el modelo tradicional de desarrollo de productos, la fuerza impulsora proviene del diseño de la demanda o de la retroalimentación del problema. No funciona en este escenario. Después de que hay un error, se requiere alguna iteración y verificación del diseño manual.

De un extremo a otro es una caja negra y sus capacidades dependen completamente del tipo de datos que se le proporcionen. Lo que estamos filtrando ahora son los datos de conductores experimentados. Si los datos no son buenos, el modelo producido no será bueno. Lo que entra es basura y lo que sale es basura. Es un proceso de entrenamiento del flujo de datos. Solía ​​​​ser un proceso de investigación y desarrollo de funciones de productos, pero ahora es un proceso de mejora de capacidades.

Por lo tanto, no hay problema en cambiar de carril de un extremo a otro, pero si desea adelantar, debe tener datos y capacidad informática de entrenamiento. Si no existen estos dos requisitos previos, para ser honesto, todos tienen el modelo y el modelo en sí no será muy diferente. No importa qué tan bueno sea el modelo, sin datos ni potencia informática, son solo un montón de parámetros.

36Kr: Lo ideal es acumular muchos datos, pero He Xiaopeng planteó recientemente la idea de que tener más datos no significa que se pueda lograr la conducción autónoma. ¿Qué opinas?

Lang Xianpeng:Nuestros datos de entrenamiento son clips, que incluyen datos completos del conductor conduciendo durante decenas de segundos, incluidos sensores visuales, información del estado del vehículo en ese momento y datos operativos como el acelerador y el freno.

Pero los datos deben ser de alta calidad para que sean útiles. ¿Qué es la alta calidad? Junto con nuestro equipo de evaluación subjetiva del desempeño de productos y vehículos, hemos definido conjuntamente un estándar llamado "Conductor humano de alta calidad". Algunos conductores conducen todos los días y son muy hábiles. Si siempre aceleran y desaceleran repentinamente, usan AEB o giran el volante repentinamente, es posible que no funcione.

Según estos estándares, sólo el 3% de nuestros 800.000 propietarios de automóviles son "conductores humanos de alta calidad". Junto con los datos de alta calidad acumulados anteriormente, finalmente se formaron millones de clips, que son todos los mejores. He Xiaopeng tiene razón: de hecho se necesitan datos de alta calidad, pero la calidad de los datos se basa en la escala absoluta de los datos.

36Kr Auto: Después de un extremo a otro, ¿es necesario actualizar el sistema de herramientas de datos?

Lang Xianpeng: La cadena de herramientas ha cambiado mucho. Anteriormente, era un proceso de desarrollo de funciones del producto, como la toma de control del usuario, la transmisión de datos, el análisis manual de problemas y luego la modificación del código, la evaluación real del vehículo y la publicación en línea. Este proceso de datos de circuito cerrado ya es muy eficiente. Pero también llevará varios días y se necesitará mucha mano de obra. Cuantas más pruebas haya, más problemas habrá y más gente necesitará hacer modificaciones.

El proceso actual es que si el propietario de un automóvil se hace cargo, después de que se obtengan los datos, se generarán automáticamente escenas similares utilizando el modelo mundial y se convertirán en un banco de preguntas incorrecto. También verifique si hay datos similares en la base de datos de preguntas incorrecta. De lo contrario, investigue la base de datos existente y realice una capacitación conjunta.

Después de entrenar un nuevo modelo, el modelo regresa al sistema de examen de modelos mundial y se prueba dos veces. La primera vez es para ver si has respondido correctamente las preguntas equivocadas, y la segunda vez es una serie de preguntas reales para poner a prueba tu habilidad. Si no hay ningún problema en ambas ocasiones, el modelo está descartado. En el extremo, no hay nadie en el medio y es un proceso de circuito cerrado muy automatizado.

36Kr Auto: El proceso de capacitación de un extremo a otro es una caja negra y es necesario agregar mucho código para conocer los detalles. ¿Puedes juzgar cuánto trabajo implica?

Lang Xianpeng:Nuestro volumen de código para la versión con gráficos es de aproximadamente 2 millones de líneas, y para la versión sin gráficos, es de 1,2 millones. El total de extremo a extremo es solo 200.000, que es solo el 10% del original.

De hecho, existen algunas reglas ocultas para controlar esto. Debido a que los datos del sensor se ingresan de un extremo a otro y la trayectoria planificada en realidad se genera, puede haber problemas, por lo que tendremos algunas reglas violentas para evitar algunos comportamientos de control anormales, como girar el volante 180 grados.

36Kr Auto: Musk dijo que se eliminaron 300.000 líneas de código. Parece que eres más agresivo si hay más y más problemas después del envío, ¿se volverá a agregar el código?

Lang Xianpeng: No creo que cambie mucho. Lo principal es que tenemos la capacidad de iterar constantemente.

36Kr Auto: Ideal siempre ha tenido dos líneas internamente: producción en masa y preinvestigación. ¿La transición de principio a fin de la preinvestigación a la producción en masa es lo que ahora es la preinvestigación?

Lang Xianpeng: L4. Esto se remonta a nuestra comprensión de la inteligencia artificial. Descubrimos que si queremos lograr una verdadera conducción autónoma, el enfoque actual es muy diferente.

De un extremo a otro, qué tipo de datos se le proporcionan, qué tipo de comportamiento tendrá. Si no se facilitan datos similares no se tratará. Pero la gente no. Por ejemplo, si conduzco en Beijing, también puedo conducir en Estados Unidos. Si realmente queremos lograr la conducción autónoma, el sistema debe entender las cosas como lo hacen los humanos y tener la capacidad de razonar.

Estudiamos cómo funciona y piensa el cerebro humano. En agosto y septiembre del año pasado, Jia Peng y Zhan Kun vieron la teoría del sistema dual, que es un marco muy bueno para el pensamiento humano. Supongamos que la inteligencia artificial es un sistema dual. El sistema 1 tiene la capacidad de responder rápidamente y el sistema 2 tiene la capacidad de pensar de manera lógica y puede manejar bien cosas desconocidas.

Todo esto es parte del Tao, cosas del nivel teórico. Cuando se trata de conducción autónoma, el modelo de extremo a extremo es el Sistema 1 y el Sistema 2 es el modelo de lenguaje visual VLM. Esta es la mejor solución para realizar la inteligencia artificial en el mundo físico.

Entonces, ¿cómo se miden las capacidades del Sistema 1 y del Sistema 2? También tenemos un modelo mundial, que en realidad se llama Sistema 3. Nuestro uso del modelo mundial es muy claro. Se utiliza para probar el Sistema 1 y el Sistema 2. Es un examinador.

Disponemos de un banco de pruebas real, que son datos reales sobre personas que conducen normalmente. El modelo mundial es un modelo generativo que puede generar otras preguntas al hacer inferencias a partir de datos existentes. Una vez entrenado un modelo, responda las preguntas reales una vez y luego realice algunas series de preguntas simuladas para ver cuánto obtiene. Cada modelo tendrá una puntuación y cuanto mayor sea la puntuación, más poderoso será el modelo.

36Kr Auto: ¿Bajo qué circunstancias se activará el Sistema 2?

Lang Xianpeng: El Sistema 1 y el Sistema 2 siempre están funcionando. Si algunos sistemas son más complejos, el Sistema 1 puede no ser fácil de identificar, como pasos elevados, charcos y pisos de cemento recién construidos. El Sistema 2 funcionará en tales escenarios, pero su frecuencia de operación será más baja, como 3-4 Hz. , el Sistema 1 puede estar funcionando a una frecuencia alta de más de diez Hz. Al igual que GPT, el Sistema 1 siempre le hará preguntas al Sistema 2 sobre qué hacer cuando se encuentre con este escenario.

36Kr Auto: ¿El propio System 2 VLM tiene límites de capacidad?

Lang Xianpeng: Puede considerarlo como un modelo de lenguaje grande. Algunos modelos de lenguaje grande pueden ser buenos en matemáticas, otros pueden ser buenos en codificación y tienen capacidades diferentes. Nos centramos en proporcionarle leyes relacionadas con la conducción, vídeos didácticos y libros de texto para las materias 1 a 4. Nuestro VLM es en realidad un gran modelo de lenguaje centrado en la conducción.

A corto plazo, todavía no tiene algún conocimiento, pero a medida que el circuito cerrado gira cada vez más rápido, el límite superior de sus capacidades será cada vez mayor. Los parámetros actuales de un extremo a otro son solo más de 300 millones y los parámetros del sistema VLM son 2,2 mil millones.

36Kr Auto: Entonces, ¿la variable más importante en el futuro de la conducción inteligente es el Sistema 2?

Lang Xianpeng:El soporte subyacente es el Sistema 1, pero para ir más allá, incluido alcanzar el nivel de conducción autónoma L3L4, debemos tener capacidades muy sólidas del Sistema 2. Los 2.200 millones de parámetros actuales pueden no ser suficientes y será necesario agregar más.

Jia Peng: El sistema 2 se centra principalmente en escenas complejas. El tiempo de respuesta de 2200 millones de parámetros es de 300 mm. En escenas difíciles, este tiempo de inferencia está bien. Pero el sistema 1 definitivamente no es suficiente: tarda unas decenas de milisegundos.

36Kr Auto: ¿Existe un límite superior para los parámetros del modelo? ¿Como 8 mil millones? ¿Cuáles son los requisitos aproximados para la potencia informática del chip?

Jia Peng:Al igual que el modelo de lenguaje grande, nadie puede responder cuántos parámetros tiene.

Lang Xianpeng:Ahora tenemos conocimientos y habilidades. El Sistema 1 más el Sistema 2 es un buen paradigma de inteligencia artificial, pero cómo implementarlo específicamente requiere que lo exploremos lentamente.

36Kr Auto: Si el modelo segmentado de extremo a extremo va a evolucionar hacia One Model, ¿necesitamos reinventar la rueda?

Jia Peng: El desafío es bastante grande. Nuestro modelo sin gráficos es equivalente al modelo segmentado, con solo dos modelos. Pero primero, el desafío técnico es relativamente grande, porque los tradicionales ya no existen. ¿Cómo entrenar el modelo para lograr buenos resultados? El segundo es el desafío humano. ¿Cómo pueden dos grupos de personas con diferentes antecedentes en percepción y control trabajar juntos para construir un modelo?

Nuestro equipo también está luchando y dando vueltas. Cuando se trata de un extremo a otro, es posible que los roles de muchas personas hayan cambiado. Las personas que solían hacer ingeniería podrían definir datos y escenarios. Cambiar tu rol es todo un desafío.

Hablando de negocios de circuito cerrado: no puedes permitirte la conducción autónoma sin mil millones de dólares

36Kr Auto: Parece que los fondos se están quemando. ¿Cuánto planea invertir de principio a fin?

Lang Xianpeng: Ciertamente, actualmente cuesta mil millones de RMB. En el futuro, la capacitación de modelos de conducción autónoma puede requerir mil millones de dólares estadounidenses, sin incluir otras cosas como compras con tarjeta, facturas de electricidad y talento. Ninguna empresa sin un beneficio neto de mil millones de dólares puede permitírselo.

36Kr Auto: La tecnología de extremo a extremo puede ser un hito en la industria automotriz. Desde una perspectiva comercial de circuito cerrado, ¿cuál es el desempeño comercial de la conducción inteligente?

Lang Xianpeng: A partir de la versión 6.0, en los últimos 1 o 2 meses, nuestra proporción de AD Max ha superado el 50%, con un crecimiento de más del 10% cada mes. Si 2% -3% puede entenderse como fluctuación normal, pero más de 10. El % es crecimiento efectivo. En Beijing, Shanghai, Guangzhou y Shenzhen, la proporción de nuestros modelos de conducción inteligente ha alcanzado el 70%. El pedido AD MAX para el modelo L9 es del 75%, L8 es del 55% y L7 es del 65%.

Jia Peng: L6 también tiene el 22%. La conducción inteligente ya es un factor muy importante para que los jóvenes compren coches. Después de utilizar la conducción inteligente, es difícil volver al estado original.

Lang Xianpeng: Hoy en día, la NOA de alta velocidad es bien reconocida por todos, mientras que la NOA urbana aún se encuentra en una etapa muy temprana. En gran medida, las capacidades de los productos urbanos no son lo suficientemente buenas, incluso sin imágenes, han llegado al techo, en comparación con el nivel de comodidad de la conducción humana. Después de un extremo a otro, todo cambiará y algunas actuaciones son bastante cercanas a las humanas.

Con la incorporación de datos y potencia informática, es probable que la conducción urbana inteligente derivada de la arquitectura de extremo a extremo logre una experiencia de conducción a alta velocidad. En esta etapa, resulta muy útil para los usuarios comprar automóviles.

36Kr Auto: El valor comercial de la conducción inteligente es cada vez más obvio, pero la función de conducción inteligente ideal siempre ha sido gratuita. ¿Se volverá a discutir la estrategia para resaltar el valor comercial?

Lang Xianpeng: Mucha gente compra Ideal para refrigeradores, televisores en color y sofás grandes, pero en el futuro también pueden comprar Ideal para conducción inteligente, lo cual es suficiente para mostrar el valor comercial de la conducción inteligente. La diferencia entre las versiones Max y Pro es realmente de 30.000 yuanes.

En cuanto a la carga del software, si alcanza el nivel L4, será realmente fantástico. Imagínese poder ayudar a los usuarios a recoger a sus hijos en la puerta de la escuela. A medida que mejoren las capacidades, surgirán algunos modelos de negocio adicionales, pero la premisa debe ser que las capacidades de conducción inteligente mejoren enormemente.

36Kr Auto: Xiaopeng mencionó que logrará una experiencia similar a Waymo de Google en los próximos 18 meses. ¿Tiene ese cronograma?

Lang Xianpeng: Está bien si los datos y el negocio pueden respaldar los objetivos. Hemos realizado algunos cálculos internos. No hablemos de L3L4. Si queremos admitir VLM y la capacitación de un extremo a otro, necesitaremos alrededor de docenas de potencia de computación en la nube de EFLOPS.

El de Xpeng es 2,51 EFLOPS, y lo ideal es 4,5 EFLOPS. Se requieren al menos 10 EFLOPS de potencia informática para lograrlo, lo que equivale a aproximadamente mil millones de dólares estadounidenses y 6 mil millones de yuanes por año. Si puedes permitírtelo todos los años, puedes jugar.

36Kr Auto: Además de la potencia informática, según la arquitectura técnica actual, ¿cuánta inversión necesitará el equipo de conducción inteligente por año en promedio?

Lang Xianpeng: La mayor parte de los gastos son el entrenamiento de chips, el almacenamiento de datos y el tráfico, que cuestan al menos entre 1.000 y 2.000 millones de dólares al año. Pero yendo más allá, especialmente en el modelo mundial, el objetivo final es restaurar todo el mundo físico real. Esto también requiere formación y muchos recursos informáticos.

En cuanto a cuál es el límite superior, no puedo imaginarlo en este momento. Es al menos más de 10 EFLOPS. Musk dijo que serían cientos de EFLOPS. No creemos que esto sea una tontería.

36Kr Auto: Las empresas de automóviles todavía se basan en el modelo de ganancias de la industria manufacturera. Este año habrá una guerra de precios y las ganancias se verán afectadas. ¿Es más apropiado que las empresas de automóviles hagan lo que hacen las empresas de tecnología?

Lang Xianpeng: Cualquiera que pueda obtener datos de alta calidad y tener suficiente potencia informática de entrenamiento puede construir un modelo grande. Puede que no haya tantos talentos, pero los talentos correspondientes deben estar ahí. ¿Quién más puede tener los tres además de Ideal, Huawei y Tesla? No puedo resolverlo.

Nuestra idea actual es ayudar rápidamente a la empresa a vender automóviles. Sólo vendiendo los automóviles podremos tener dinero para comprar una tarjeta para entrenar la conducción inteligente.

Cuanto más avancemos en la conducción inteligente, mayor será la brecha. Antes no había cuadros, pero todos hacían algo donde se podía ver el techo. Para lograr avances en el futuro, será necesario agregar la IA, y todo el mundo compite por los datos y la potencia informática. Si no se puede resolver, solo podemos pasar a la dimensión anterior y pasaremos a la siguiente dimensión para cosechar los dividendos de los datos.

36Kr Auto: La tecnología de conducción inteligente cambia tan rápidamente y la inversión es tan grande. ¿Cómo puede Li Xiang mantener su conciencia sobre la conducción inteligente?

Lang Xianpeng: Hablaría con el profesor Jia y conmigo en cualquier momento. Desde septiembre del año pasado mantenemos un encuentro semanal sobre inteligencia artificial, que reúne a todas las personas relacionadas con la IA en la empresa, incluyendo personas de espacios inteligentes, infraestructuras y plataformas de formación. La comprensión de Li Xiang sobre la inteligencia artificial sigue siendo muy buena.

También tiene otros recursos y conoce a mucha gente. Ha conversado con Lu Qi, el director ejecutivo de Kimi, Yang Zhilin, Horizon Yu Kai y otros. No sólo comprende la esencia central y la tecnología esencial de la IA, sino que también puede expresarlas en algunos términos populares.

36Kr Auto: ¿Cuánta mano de obra se requiere para el diseño del modelo de un extremo a otro? ¿De cuántas personas será el tamaño medio de un futuro equipo de conducción inteligente?

Jia Peng: Puede que no necesites demasiados. En realidad, Tesla tiene muy pocos fabricantes de modelos verdaderamente de élite, y el equipo visual sólo tiene 20 personas en total. En realidad, esto se puede inferir, por ejemplo, con el chip OrinX, el modelo en sí se ejecuta a 12-15 Hz, lo que básicamente determina la cantidad de parámetros del modelo y qué tipo de estructura del modelo usar para el entrenamiento. Quizás algunas personas puedan definirlo de manera aproximada. él.

Lang Xianpeng: Tesla es más extremo, con un equipo de algoritmos de software de más de 200 personas, pero sólo fabrica un chip y unos pocos modelos. No podemos ser tan perfectos como él ahora, pero aún así seremos varias veces mejores que él. Debido a que nuestras plataformas de chips son diferentes y tenemos muchos modelos, aunque no empleamos a una cantidad particularmente grande de personas, todavía hay algunas personas en cada lugar.

36Kr Auto: La potencia de la computación en la nube será una gran inversión en el futuro. ¿Ha considerado reemplazarla con chips nacionales? ¿Será difícil cambiar?

Jia Peng: Los J3 y J5 de Horizon se utilizaron por primera vez en el extremo del automóvil. Cloud está probando algunos productos nacionales, pero la mayor dificultad actualmente es que su ecología no es tan buena. El ecosistema CUDA de NVIDIA es tan invencible que sería muy problemático adaptarse a otro ecosistema. Ahora todavía quiero anteponer la eficiencia y prestar atención al progreso interno. Ya han comenzado los intercambios y las pruebas.

36Kr Auto: Una vez que se lance el chip de conducción inteligente de desarrollo propio, ¿cuál será el efecto de la integración de un extremo a otro?

Jia Peng: La combinación de software y hardware definitivamente dará mejores resultados y Tesla ya ha producido un prototipo. Los chips son más baratos, la potencia informática es mayor y el soporte para AD es mejor. Querían ampliar los parámetros 5 veces en FSD V12.5 y lo ampliaron. Esto tiene grandes ventajas.

Lang Xianpeng:El requisito previo es que se deben determinar los algoritmos L3 y L4.

36Kr Auto: ¿Habrá un momento para la conducción autónoma L4?

Lang Xianpeng: Sólo 3-5 años. Primero entregamos L3, que es el trampolín hacia L4. En primer lugar, nos permite tener una comprensión más clara de la potencia informática y los requisitos de datos de L4, incluidas las capacidades básicas del sistema de examen y el circuito cerrado de datos.

En segundo lugar, en términos de productos, necesitamos establecer una relación de confianza mutua con las personas. Como el sistema de extremo a extremo sigue siendo una caja negra, la gente todavía no confía en el sistema. Luego, a través de los productos L3, podrá construir una buena relación de confianza con las personas.

36Kr Auto: El origen de muchas tecnologías de inteligencia artificial está en Silicon Valley. Solía ​​​​seguir a Tesla, y ahora Ideal también está explorando cómo garantizar que el juicio o el sentido de la tecnología sean precisos y agudos, en lugar de elegir. ¿Árbol tecnológico equivocado?

Lang Xianpeng:Ya tenemos un sistema completo. Todavía faltan entre 3 y 5 años para L4, pero ya hemos comenzado a tocarlo. Si cometemos un error, lo cometeremos temprano y todavía hay una posibilidad.

De hecho, existe una división en inteligencia artificial entre China y Estados Unidos. En realidad, hay muchos talentos en China. Hacemos todo lo posible para encontrar a los mejores jóvenes. Por ejemplo, este año reclutamos a más de 240 estudiantes. de 240 escuelas, todas las cuales se encuentran entre las 100 mejores de QS (las 100 mejores universidades del mundo).

Hablando de Tesla: aprende de Tesla y supera a Tesla

36Kr Auto: Algunas personas dicen que la brecha entre la conducción inteligente doméstica y la de Tesla es de 2 años. ¿Qué opinas?

Lang Xianpeng: Ciertamente no. No comentaremos sobre las soluciones técnicas porque Tesla no ha dicho mucho sobre sus soluciones técnicas en los últimos dos años. En términos de experiencia con el producto, estamos básicamente en el nivel en el que Tesla acaba de lanzar la versión de extremo a extremo el año pasado. Hay una brecha de aproximadamente medio año.

36Kr Auto: Tesla también ha encontrado algunos problemas. Musk dijo que hay menos datos y menos comentarios.

Lang Xianpeng:Estas son etapas diferentes. Cuando las encontramos, significa que hemos entrado en la siguiente etapa.

Jia Peng: El mayor problema de Tesla ahora es la verificación. Puede ver que la v12.4 (número de versión de Tesla FSD) no funciona bien, y luego se lanzó la v12.5, con la cantidad de parámetros ampliada 5 veces. Supongo que el paso de verificación no se realizó particularmente bien. Cuando salió el modelo, no sabía cómo funcionaría cuando los usuarios realmente lo usaran.

Por eso hacemos hincapié en los modelos mundiales. Hemos aprendido estas lecciones y debemos completar la verificación con anticipación. De lo contrario, ¿cómo se puede verificar el modelo para todas las carreteras del país, incluso dentro de las comunidades del parque?

Si nos fijamos en el Día de la IA de Tesla en 2022, sigue siendo una simulación muy tradicional. La escalabilidad (escalabilidad) es demasiado pobre para soportar su apertura total en América del Norte. Llegados a este punto, de hecho hay algunas lecciones que hemos aprendido de Tesla. Por eso ponemos tanto esfuerzo en crear modelos mundiales.

36Kr Auto: ¿Hay algo que le resulte difícil en el proceso de creación de la solución integral? ¿Como una cadena de herramientas de datos?

Jia Peng: El conjunto de datos se ha construido desde 2019 y al menos es el mejor de China. Los datos y la capacitación son en realidad rutinas y existen paradigmas a seguir. En la actualidad, la verificación es el mayor desafío.

Otro es el propio VLM, que poco a poco va adquiriendo un mayor protagonismo. Puede usarse solo en el 5% de los casos al principio, pero luego puede encontrar un límite superior de un extremo a otro y la experiencia restante del producto dependerá de VLM para iterar. Esto será un desafío en el futuro.

Esto también es diferente de Tesla. Hicimos VLM y modelo mundial porque vimos los problemas de Tesla. Hay un problema con la verificación de la versión 12.4. Lo hemos conducido en Norteamérica dos veces antes, cada vez durante aproximadamente una semana, tanto en la costa oeste como en la costa este. Aparentemente es bueno en la costa oeste y malo en la costa este. Boston y Nueva York no son tan buenas, porque estas dos ciudades son mucho más complicadas que la costa oeste.

En la costa este, la tasa promedio de adquisición de Tesla es bastante alta, y quizás algunos de los límites superiores de un extremo a otro estén aquí. Entonces, cuando hacemos VLM, queremos romper este techo. El límite superior de VLM es muy alto y es posible superarlo (Tesla) a través de este conjunto de caminos.