Ejecutivo de Li Auto: Si no invertimos mil millones de dólares en potencia informática cada año en el futuro, seremos eliminados

2024-08-08

Nota del editor: El departamento editorial de Tencent Automotive llama a la ola de electrificación de la última década la "era turbulenta" de la industria automotriz de China. Ahora, en 2024, un nodo histórico conocido como el "Año de la conducción inteligente", no podemos evitarlo. pero me pregunto: ¿A qué ruta técnica se adherirán los principales actores de la industria? ¿Cómo construir sus respectivas barreras a la competencia? Tencent Auto ha lanzado especialmente una serie de planificación de conducción inteligente a través de entrevistas, pruebas reales, revisiones horizontales, revisiones y otros métodos, se esfuerza por situarse en el origen de la historia y obtener más información sobre los grandes cambios que pueden ocurrir en la industria automotriz. en los próximos diez años, proporcionando así a los lectores y a la industria más información, una guía de contenido integral puede dejar valiosas notas históricas a pie de página para la industria.

Tencent News "Luz larga"

Autor Ao Dun

Editor Shi Ding

Las soluciones "de extremo a extremo" (E2E) están siendo reconocidas como la mejor solución para la conducción inteligente en la industria. Sin embargo, cuando la gente intenta despejar la niebla y explorar la verdad, parece que hay diez mil "de extremo a extremo". "Soluciones "de extremo a extremo" a los ojos de 10.000 empresas automovilísticas. De extremo a extremo”.

El pasado diciembre,teslaDespués de lanzar FSD V12 y proponer una solución de extremo a extremo, el término extremo a extremo se elevó rápidamente en el círculo de conducción inteligente de la noche a la mañana, Huawei,Xiaopeng,horizonte,NÍOOtras empresas han propuesto soluciones integrales. A finales de julio, He Xiaopeng, presidente y director ejecutivo de Xpeng Motors, dijo que Xpeng Motors es la única empresa automovilística del mundo que ha logrado una producción en masa de principio a fin. modelos grandes.

5 de julio,auto ideal Se lanzó una nueva arquitectura de tecnología de conducción autónoma basada en el modelo de extremo a extremo, el modelo de lenguaje visual VLM y el modelo mundial. La primera versión se lanzó a miles de usuarios de prueba a fines de julio. Li Xiang anunció en junio de este año que el plan se implementará completamente en la primera mitad de este año como muy pronto y en la primera mitad del próximo año como muy pronto.

Según Lang Xianpeng, vicepresidente de I+D de conducción inteligente de Li Auto, el diseño arquitectónico mencionado anteriormente se inspiró en la teoría del sistema rápido-lento mencionada por el premio Nobel Daniel Kahneman en "Pensar, rápido y lento" y simula el pensamiento y la Pensando en el campo de la conducción autónoma, el proceso de toma de decisiones para formar una solución de conducción más inteligente y humana.

El sistema rápido, a saber, el Sistema 1, es implementado por el modelo de extremo a extremo, recibe la entrada del sensor y genera directamente la trayectoria de conducción para el control del vehículo. El sistema lento, a saber, el Sistema 2, se implementa mediante el modelo de lenguaje visual VLM. Después de recibir la entrada del sensor, envía información para la toma de decisiones al Sistema 1 después del pensamiento lógico. La capacidad de conducción autónoma compuesta por los sistemas duales también será entrenada y verificada. utilizando el modelo mundial en la nube.

Comparando horizontalmente con sus pares de la industria, Lang Xianpeng enfatizó que el modelo de extremo a extremo de Li Auto es el primer modelo de extremo a extremo de One Model, que es muy diferente de otros modelos segmentados: “One Model es donde los datos del sensor generan la trayectoria. directamente. No hay otras reglas o modelos en el medio, y es posible que sea necesario vincular otros requisitos de un extremo a otro con algunas reglas ".

A juzgar por la información pública, la industria cree que Xpeng Motors y Huawei están segmentados de extremo a extremo. El modelo a gran escala de extremo a extremo utilizado por Xpeng Motors en la producción en masa se compone de la red neuronal XNet + el modelo de control a gran escala XPlanner + el modelo de lenguaje a gran escala XBrain la parte de percepción del extremo a extremo de Huawei; El sistema final utiliza la gran percepción GOD (detección general de objetos, reconocimiento general de obstáculos). La parte de red, toma de decisiones y planificación utiliza la red PDP (predicción-planificación, predecisión y planificación) para realizar la predecisión y planificación de una red.

En el pasado, los sistemas de conducción inteligentes se podían dividir en varios módulos principales: percepción, predicción, planificación y control. Varios módulos se encargaban de diferentes tareas. Esto también se llamó la era de las reglas de conducción autónoma. El popular extremo a extremo de hoy es, para ser precisos, un gran modelo de inteligencia artificial que puede utilizar tecnología de aprendizaje profundo para generar directamente resultados de salida a partir de datos de entrada originales. Los datos de entrada son los datos obtenidos por sensores como cámaras y lidar. resultados de salida y aceleración, comportamientos de conducción como reducir la velocidad y frenar.

En la práctica, las ideas anteriores no se pueden lograr en un solo paso. Solo en el aspecto técnico, se deben resolver una serie de cuestiones complejas como la arquitectura del modelo, los datos y la verificación de ingeniería. Desde la perspectiva de la experiencia del usuario, el objetivo final de la solución de extremo a extremo es acercarse infinitamente al "conductor experimentado" humano e incluso superar al conductor veterano explorando constantemente el límite superior de capacidades. No hay ninguna conclusión en la industria cuando se pueda lograr este objetivo.

En opinión de Jia Peng, jefe de investigación y desarrollo de tecnología de conducción inteligente de Li Auto, ahora nos encontramos en una tierra deshabitada de conducción inteligente: "Nadie más ha dicho cómo se hace de un extremo a otro, y todo el mundo está 'ciego'. y tratando de descubrir al elefante'". Sin embargo, cree que el significado de extremo a extremo no significa un modelo y dos modelos. Su mayor importancia es cambiar esencialmente todo el proceso de I+D. “Con el proceso de IA que hace época, será posible hacer su propio proceso. sistema verdaderamente lo más humano posible”. Misma capacidad de conducción”.

Aunque de extremo a extremo se considera la solución óptima para la conducción inteligente, todavía se encuentra en sus primeras etapas y no existe una definición clara o un estándar de evaluación en la industria. Lang Xianpeng cree que los fabricantes de automóviles nacionales se encuentran actualmente en la misma línea de salida de un extremo a otro, pero si nos fijamos en el One Model, Ideal puede estar por delante. En su opinión, la solución integral de Li Auto es actualmente la mejor solución para implementar la inteligencia artificial en el mundo físico, “porque simula muy bien los mecanismos de cognición y pensamiento humanos y realmente permite que el sistema tenga las capacidades del pensamiento humano. y pensar. La capacidad de comprender el mundo es la ventaja de los sistemas duales".

A más largo plazo, de extremo a extremo puede ser una competencia y una competencia de fortaleza financiera. Lang Xianpeng cree que, tarde o temprano, los actores líderes definitivamente se moverán en la dirección de un extremo a otro, y la brecha definitivamente se ampliará para entonces. En la era de la inteligencia artificial, todos lucharán por dos cosas: 1. ¿Hay suficientes? productos de alta calidad? 2. ¿Existe un grupo de potencia informática de capacitación suficiente para igualarlo?

"Al final, lo que todo el mundo hace es competir por la potencia informática y los datos, pero el umbral para estas dos cosas es muy alto. Si las reservas financieras no son suficientes para cubrir los gastos anuales de formación, no podrás jugar más adelante. L3 o L4, si se trata de automóviles, si el número de empresas no es grande, los datos no podrán respaldar la demanda de capacitación ", dijo Lang Xianpeng, según estimaciones preliminares, la inversión anual ideal actual en capacitación es 1. mil millones de yuanes, y se espera que el costo alcance los mil millones de dólares estadounidenses por año en el futuro". Es solo el costo de capacitar la potencia informática, sin incluir otros costos de personal, por lo que si no puede gastar mil millones de dólares estadounidenses al año "Un año de entrenamiento, es posible que quedes eliminado en la futura competencia de conducción autónoma".

Los siguientes son extractos (editados) de conversaciones entre Tencent News "High Beam" y otros medios y Lang Xianpeng y Jia Peng:

Todo el mundo está "ciego y tocando al elefante", e Ideal ha entregado el mejor plan

P: ¿Cuáles son las oportunidades para pasar de la tecnología tradicional de conducción inteligente a la tecnología de extremo a extremo? ¿Cuáles son las ventajas y desventajas de la solución técnica propuesta por Lili frente a Tesla, Huawei y Xpeng?

Lang Xianpeng: En cuanto a las ventajas de esta solución de arquitectura de sistema, deberíamos partir de nuestras reflexiones sobre la conducción autónoma en agosto y septiembre del año pasado. El año pasado, hicimos tres generaciones de investigación y desarrollo de tecnología, comenzando con el desarrollo de alta velocidad y luego pasando a la conducción autónoma en las ciudades. En las ciudades, primero utilizamos NPN (Neural PriorNet, red neuronal previa), una solución con escenarios. y luego Convertir a la solución actual sin gráficos y luego iterar hasta la solución actual de un extremo a otro.

Durante este proceso, descubrimos que esta solución todavía tiene un defecto o problema muy grande para la conducción autónoma de niveles L3 y L4 posteriores. El problema es que los humanos podemos entender escenas desconocidas y lugares en los que nunca hemos estado, y aquellos que conducen normalmente pueden acostumbrarse un poco. Pero ya sea la solución actual de extremo a extremo o la solución sin imágenes, son esencialmente las escenas que se han visto o los datos que se han entrenado los que pueden funcionar mejor. Si hay una nueva escena, es posible que no pueda manejarla correctamente, pero si queremos entregar completamente el automóvil al sistema para que lo conduzca en lugar de a las personas, entonces nuestro sistema debe tener la capacidad de lidiar con escenas desconocidas como los humanos. .

Para dar un ejemplo simple, nuestros semáforos son diferentes de los semáforos en otros lugares. Los semáforos en Tianjin son semáforos tipo barra de progreso, pero en otros lugares tenemos bombillas o cuentas regresivas. entender. Pero creo que si alguien con sentido común va a Tianjin y ve algo así erigido en la intersección, pensará que es un semáforo y se detendrá y arrancará normalmente según las instrucciones del semáforo. Entonces, debemos hacer que el sistema también tenga este tipo de comprensión de la escena, o la capacidad de razonar lógicamente este tipo de conocimiento. En este momento vimos la teoría de los sistemas duales, que es una buena explicación del mecanismo de la cognición humana. El sistema rápido produce respuestas de procesamiento oportunas, y el sistema lento corresponde al pensamiento complejo y a los juicios lógicos. El sistema dual juntos forman el. Mecanismo de cognición y pensamiento humanos, por lo que queremos pensar en cómo se puede aplicar la teoría de este sistema a la conducción autónoma.

Entonces, ¿qué utiliza exactamente el Sistema 1 para lograr la sistematización? Finalmente elegimos implementar el sistema aplicando el modelo de un extremo a otro, y el sistema 2 se implementó utilizando el modelo de lenguaje visual grande de VLM. Estos son nuestros dos métodos de implementación específicos. Después de la investigación previa y el desarrollo, ahora hemos implementado estos dos sistemas en nuestros vehículos reales producidos en masa.Creemos que actualmente es la mejor solución para implementar la inteligencia artificial en el mundo físico, porque simula muy bien los mecanismos de cognición y pensamiento humanos y realmente permite que el sistema tenga la capacidad de pensar y comprender el mundo como los humanos. sistema.

Nuestro sistema dual tiene algunas características únicas. En primer lugar, nuestro modelo de extremo a extremo es el primer modelo integral de One Model, que es muy diferente de otros modelos segmentados. En segundo lugar, nuestro modelo VLM es el primer modelo que se puede implementar en automóviles y producir en masa. Otros modelos pueden entrenarse y probarse en sus propios grupos de entrenamiento, pero en realidad usamos terminales de automóviles producidos en masa como Orin X. Fue el primero en optimizar el chip e implementarlo en el automóvil, y este modelo es lo suficientemente grande, con 2.200 millones de parámetros. En un sentido práctico, ya es un modelo grande. Nuestro sistema dual también es el primero que propusimos e implementamos, desde la arquitectura del sistema hasta la implementación del sistema, tenemos algunas de nuestras propias ventajas y características.

P: Con el modelo de voz visual de extremo a extremo, ¿puede esta solución respaldar el desarrollo de L3 y L4?

Lang Xianpeng:Al menos desde la perspectiva actual, creo que debería ser posible en términos de métodos, pero ya sean dos modelos de extremo a extremo más VLM, o dos modelos en uno, o un modelo con parámetros más grandes, u otras estructuras, Creo que se puede hacer lentamente, pero creo que la idea general debería estar bien.

Pregunta: ¿Cómo se dividen el Sistema 1 y el Sistema 2?

Jia Peng: Disponemos de dos modelos, dos Orin, porque el coche hay que controlarlo en tiempo real. Aunque VLM tiene una gran cantidad de parámetros, no se puede controlar cada uno o dos segundos. Ahora lo hemos optimizado a un nivel casi en tiempo real de aproximadamente 3,4 Hz, con un retraso de aproximadamente trescientos milisegundos. Está tomando decisiones en todo momento y genera dos decisiones, como una para reducir la velocidad o ceder el paso, y la segunda dará una trayectoria de referencia, como si me dirijo hacia este carril o hacia aquel carril. se introduce directamente en el modelo y luego se producirán los resultados al mismo tiempo. Es más o menos una estructura que el sistema 1 no adopta completamente las opiniones del sistema 2. El sistema 2 mejora la toma de decisiones del sistema 1.

El Sistema 1 juega el papel principal, y el Sistema 2 es solo una referencia o consulta para situaciones especiales. Al llegar a L4, el Sistema 2 jugará un papel más importante. No significa que el Sistema 2 esté controlando el coche todo el tiempo, pero sí. Realmente juega un papel muy importante en la toma de decisiones y el juicio. En algunos escenarios desconocidos, la capacidad del Sistema 2 determina si puedes alcanzar L4, pero la capacidad básica del Sistema 1 es la garantía necesaria para L3.

P: ¿Los dos sistemas se fusionarán en uno solo en el futuro?

Jia Peng: Este es el siguiente paso en nuestra investigación previa. De hecho, la idea actual es producir en masa dos modelos. Actualmente, Wutu 6.0 está disponible en todo el país. Creemos que el conjunto + VLM de extremo a extremo puede ser mejor en todo el país. Ahora, de cara al futuro, ¿cómo hacer un L4 producido en masa? Nuestra idea puede ser hacer que el modelo sea más grande en tamaño y capacidad y, al mismo tiempo, aumentar su velocidad de fotogramas, o existe la posibilidad de que no sean estos dos. Los modelos se pueden combinar en uno solo. Deje que el modelo decida por sí mismo si utiliza el Sistema 1 o el Sistema 2. Entonces, si en el futuro aparecen chips con mayor potencia informática y mejores plataformas, esto puede desempeñar un papel importante.

Pregunta: ¿Por qué no se puede llamar VLM de un extremo a otro? En mi opinión, también es de un extremo a otro.

Jia Peng: Si la potencia informática en el futuro es lo suficientemente grande, el propio VLM puede funcionar en tiempo real, por ejemplo, a más de diez Hz o incluso 20 Hz. Quizás también pueda lograr una respuesta rápida de un extremo a otro, pero actualmente VLM lo es. en realidad, varias rondas de preguntas y respuestas. Quiero preguntar ¿Cómo puedo conducirlo en tales condiciones de trabajo? ¿Por qué se abre de esta manera y cuáles son los resultados después de abrirlo?

Lang Xianpeng: De hecho, desde nuestro punto de vista, siempre que sea un modelo puramente basado en datos, su entrada son datos y su salida es el resultado. Sin embargo, el resultado es la trayectoria en el sistema uno. Y el resultado en el sistema dos es la toma de decisiones. Permítanme enfatizar nuevamente que existe una gran diferencia entre un modelo múltiple de un extremo a otro y de un extremo a otro, o un modelo y un modelo de un extremo a otro.porqueAl igual que el modelo único que idealmente construimos aquí, la salida de datos del sensor se genera directamente desde la trayectoria, sin otras reglas o modelos intermedios. Es posible que sea necesario unir otros requisitos de un extremo a otro con algunas reglas.

Pregunta: ¿Cuál es el límite superior de las capacidades del sistema ahora?

Lang Xianpeng: Ahora VLM debería estar al borde de una tierra de nadie. En el futuro, todas las empresas, incluidas nosotros, tendrán que hacerlo de un extremo a otro, pero creo que somos la primera empresa en hacerlo. Todavía estamos en esto. Durante el proceso, tendremos nuestra propia exploración. Mientras lo hacemos, encontraremos la mejora de rendimiento aportada por la escala de datos. Aún no hemos visto el límite superior. Todavía estamos explorando el límite entre la mejora de los datos y la mejora del rendimiento, y aún no lo hemos alcanzado.

Tenemos un análisis. La potencia de cálculo del chip es limitada, por lo que la escala de parámetros tiene limitaciones. Ahora tenemos una escala de parámetros de extremo a extremo de aproximadamente 300 millones. ¿Cuánto volumen de entrenamiento de datos puede alcanzar una escala de parámetros de aproximadamente 300 millones? consumir? De hecho, hay un límite superior. Es imposible verterlo en él indefinidamente.

Jia Peng: Aunque la potencia informática ha mejorado, para los modelos grandes, el cuello de botella más grave de los chips actuales para los automóviles es el ancho de banda de la memoria. Realmente hemos llegado a un lugar relativamente deshabitado. Nadie más ha dicho cómo se hace de un extremo a otro, y todos están "ciegos e intentando descubrir al elefante".

Nuestro modelo de extremo a extremo alcanza la trayectoria, y se agregan algunos bolsillos de seguridad después de la trayectoria, porque antes de que el modelo alcance el límite superior, todavía hay algunas cosas con las que lidiar, como girar el volante con fuerza y dejarlo. deshacernos de él. Esto es lo que planeamos.

La mayor importancia del principio a fin es que esencialmente cambia todo el proceso de I+D.

Pregunta: ¿Cómo definir que el modelo integrado es más potente y avanzado que el modelo segmentado? ¿Cuál es el límite para el desarrollo final de extremo a extremo? ¿Habrá modelos más potentes en el futuro?

Lang Xianpeng:En primer lugar, no creo que haya nada bueno o malo, ya sea adecuado o no. Si desea realizar niveles L3, 4 y superiores de conducción autónoma, creo que este modelo integrado de extremo a extremo es el mejor. Debes elegir el modelo, porque no es así. Pero elegir este modelo en sí se trata más de que usted elija un proceso y método iterativo o de investigación y desarrollo más avanzado, segmentado y algunos modos anteriores también son muy adecuados para la conducción asistida de nivel L2.

De principio a fin, su cambio no es tan simple como un modelo y dos modelos, pero todo su pensamiento, el proceso y la forma de hacer las cosas han sufrido cambios tremendos. No hay reglas en él. alimentarlo con datos de alta calidad, además de capacitación para mejorar las capacidades del modelo, para que pueda tomar mejores decisiones y planificar.

Luego necesito hacer iteraciones razonables en el marco del modelo. La forma más importante es encontrar datos de mejor calidad. Estos datos deben ser lo suficientemente grandes en cantidad y de buena calidad. Básicamente hemos alcanzado el nivel de 3 millones de parámetros y nuestra selección de datos es muy particular. En primer lugar, conducimos con nuestro equipo de producto y nuestro equipo de evaluación subjetiva. Todas estas personas son conductores experimentados y su experiencia de conducción es muy buena.

Trabajaron con nosotros para desarrollar un conjunto de estándares para conductores experimentados, como sus condiciones de conducción segura y su estilo de conducción. Después de completar las iteraciones en varias dimensiones, utilizamos esta regla para compararla con los 80 propietarios de automóviles de Wan existentes. Proyección, y queremos aquellos con una puntuación de 90 o superior. Este clip debe ser proyectado.Debido a que tenemos esta base, podemos filtrar 1 millón o 10 millones de fragmentos de alta calidad. En la superficie, puede que solo parezcan 10 millones, pero en realidad es posible filtrar 1.200 millones de kilómetros de datos. que estos pocos Este es uno de los datos de decenas de millones de kilómetros.

Cuando analizamos datos, tenemos nuestra propia cadena de herramientas detrás. No se trata solo de seleccionar y elegir, sino que también tenemos algunas de nuestras propias proporciones y recetas de datos, lo cual también es muy crítico.

Pregunta: Algunas empresas dicen que muchos de los datos anteriores no se pueden utilizar en la era de un extremo a otro. Ahora están pasando por lo más doloroso: derribar los puentes anteriores, construir otros nuevos y construir un sistema de seguridad. que puede ponerlos a prueba, ¿qué opinas de esta afirmación?

Lang Xianpeng: En mi opinión, su afirmación es inconsistente. Quiere decir que los datos no son tan importantes, pero su afirmación también muestra que los datos son importantes. De hecho, hace tiempo que nos damos cuenta de esto, ¿qué es lo más importante de la conducción autónoma? ¿Es financiación del talento? Creo que son datos. Sin datos, no habrá base para el entrenamiento y verificación de algoritmos en el futuro.

Hemos estado acumulando datos y construyendo nuestra plataforma de datos desde que se entregó el primer vehículo en 2019.deIdeal L9 Al principio, todos éramos muñecas matryoshka. Las muñecas Matryoshka son de gran beneficio para la conducción autónoma. Todas las especificaciones de la cámara y las ubicaciones de instalación son las mismas. Aunque existen ligeras diferencias en la longitud, podemos reutilizar estos datos por completo. Pero algunos fabricantes pueden tener automóviles o SUV y los sensores pueden ser diferentes, por lo que puede ser un desafío para ellos.

P: Algunas personas dicen que de extremo a extremo simplificará el proceso de desarrollo de la conducción inteligente y reducirá los costos laborales.

Lang Xianpeng:Si utilizamos esta solución, realmente no necesitaremos tanta gente. Todo el proceso de I + D de extremo a extremo simplemente significa seleccionar datos, entrenar modelos, evaluar modelos y modelos mundiales. El modelo mundial se llama internamente Sistema 3. es un sistema de examen Las capacidades del Sistema 1 y del Sistema 2 son evaluadas y certificadas por nuestro Sistema 3. Pero anteriormente, nuestra evaluación y prueba de este sistema de conducción autónoma las realizaban humanos, ya sea que se estuviera realizando una gran prueba en carretera o una prueba en carretera. Coche. La prueba del lugar es evaluada por personas, pero la gente no puede evaluarla.

Hay millones de kilómetros de carreteras en todo el país que cambian a lo largo del año. Es imposible que la gente las atropelle. No son como las autopistas. Las autopistas que se encuentran en Beijing no son muy diferentes de las de Guangdong. En entornos urbanos es realmente difícil cubrirlos. Entonces tenemos el Sistema 3, que nos ayudará a probar las capacidades del Sistema 1 y del Sistema 2. Después de la prueba, si pasamos la iteración y nos conectamos, comenzará la siguiente ronda.

En este proceso, además de la necesidad de personas en el proceso de desarrollo de estas plataformas del sistema, en realidad no hay muchas personas involucradas en el trabajo real, lo que reducirá en gran medida el uso de personas para la gestión optimizada dentro de nuestra organización. El uso de personas también tendrá muchos beneficios. Por lo tanto, algunos de nuestros próximos ajustes en realidad se basan en cambios en este negocio. No son ajustes por ajustarse como todos imaginan.

Pregunta: Desde la perspectiva de los consumidores y usuarios, cuando se implemente la tecnología de extremo a extremo, ¿qué tipo de actualización se verá en la experiencia?

Lang Xianpeng:Desde la perspectiva del usuario, ya sea que utilice tecnologías de extremo a extremo u otras, no depende de sus soluciones y rutas técnicas. Los usuarios solo necesitan experimentarlo, por eso cuando implementamos el producto VLM plus de extremo a extremo para todos. usuarios en el futuro, esperamos que sería genial darles a los usuarios la sensación de que un conductor con mucha experiencia conduce para mí.

No es necesario que los usuarios sepan qué tipo de tecnología se trata, pero si están interesados podemos tener muchas referencias.No enfatizaremos demasiado el tipo de soluciones técnicas que utilizamos para los usuarios. Solo comunicamos a los usuarios qué tipo de experiencia con el producto tienen.

P: Si el sistema de extremo a extremo se va a enviar oficialmente directamente a los usuarios, ¿cuál cree que es un buen estándar? ¿Cuándo se podrá lanzar oficialmente?

Jia Peng: Creo que el estándar es la experiencia del usuario. ¿Por qué necesitamos tener 1.000 usuarios pioneros en lugar de establecer algunos objetivos de adquisición nosotros mismos? Si hay 1.000 usuarios y 10.000 usuarios, su experiencia es muy buena, creo que se puede promocionar o puede superar la experiencia del no. -versión de imagen. Entre aquellos que participan actualmente en la prueba anticipada, realizamos algunas evaluaciones y descubrimos que su experiencia, estabilidad y seguridad cumplieron con los estándares.

P: Con este plan progresivo, ¿se recurrirá al Modelo Único? ¿Es One Model la única dirección correcta?

Jia Peng: Desde nuestro punto de vista, One Model es de extremo a extremo. Otros dicen que no es de extremo a extremo. Sin embargo, si alguien quiere agregarlo de esta manera, está bien, de hecho, lo hacemos en segmentos sin. una foto. En ese momento lo llamamos modelo de percepción y modelo de planificación predictiva. Pero también puedes darle un modelo segmentado.

El significado de extremo a extremo no significa un modelo y dos modelos. Su mayor importancia es que esencialmente cambia todo el proceso de investigación y desarrollo. Con el proceso de IA que hace época, es posible que usted realmente cree su sistema. Tener habilidades de conducción similares a las de los humanos.

En el pasado, simplemente se llamaba función. Tenía la función de pasar rampas y cabinas de peaje, pero ahora tengo la capacidad de conducción de un conductor experimentado. Es posible que pueda experimentar nuestra experiencia de extremo a extremo más adelante. Por supuesto, he conducido mucho este coche, se puede decir que empezamos a conducir la primera versión con torpeza y ahora lo conducimos muy bien. A menudo nos sorprenden algunas de las prestaciones y capacidades de este modelo.

Cuando se le dieran 800.000 datos, no podría cruzar la rotonda, pero cuando se le dieran 1 millón, de repente podría cruzar la rotonda un día. De hecho, no obtuvimos deliberadamente algunos datos de la rotonda, simplemente los guardamos. alimentándolo. Solo datos. Esto es como enseñarle a un niño. ¿Qué clase tomará hoy y qué clase tomará mañana? De repente, un día vendrá y te enseñará algunas palabras en inglés.

De extremo a extremo es diferente de la I+D anterior. En la I+D de productos anteriores, sabía que serías así en el futuro, porque así es como te diseñé. El modelo de extremo a extremo tiene su propia capacidad de crecer y emerger, o es posible que solo pueda descubrir sus capacidades, pero no puede diseñar sus capacidades. Creo que esta es una diferencia muy grande.

P: ¿Ha encontrado algún desafío importante en el proceso de principio a fin?

Lang Xianpeng: De hecho, hay muchos desafíos. El punto más importante es que hemos realizado un trabajo de investigación previa con anticipación. Este es uno de ellos.

En segundo lugar, desde los ideales de la empresa hasta la comprensión y el conocimiento de la conducción inteligente por parte de nuestro equipo, creo que la comprensión de la inteligencia artificial es coherente y muy profunda. El mayor desafío es si todos tienen la misma comprensión y conocimiento de este asunto, si algunas personas piensan que es radical, otras piensan que es conservador o si algunas personas piensan que el plan es confiable o no.

De hecho, pasé mucho tiempo explicando cómo pasamos de NPN a tecnología sin gráficos y de extremo a extremo, paso a paso. Este proceso es el proceso de descubrir y resolver problemas. Después de la alineación cognitiva, la toma de decisiones es muy rápida y la fuerte capacidad de ejecución de Li Auto es lo que hemos entrenado y acumulado en los últimos años.

En términos de organización y eficiencia, la construcción de la cadena de herramientas basadas en datos o la infraestructura de este sistema durante los últimos cinco años es muy crítica. Aunque ahora tenemos personas, potencia informática y datos, si no los tenemos. completo No puede operar una cadena de herramientas eficiente de manera eficiente. Debo utilizar una infraestructura de capacidad de circuito cerrado de datos automatizados para llevar a cabo la recopilación de datos, la anotación de muestras, la anotación automatizada, la capacitación automatizada y luego la evaluación automatizada y el desarrollo iterativo automatizado. Las iteraciones han continuado desde el primer automóvil en 2019, por lo que la capacidad de construir una infraestructura de circuito cerrado de datos ideal es absolutamente de primera categoría en la industria.

Aquellos que no puedan invertir mil millones de dólares cada año en potencia informática serán eliminados.

P: Una vez mencionó que la experiencia de conducción inteligente ideal está medio año por detrás de Tesla. ¿Cómo llegó a esta conclusión?

Lang Xianpeng: A partir de Tesla FSD V12.3, vamos a los Estados Unidos con regularidad para probarlo. Lo hemos probado tanto en la costa este como en el oeste. De hecho, a Tesla le está yendo muy bien actualmente en la costa oeste de Estados Unidos, porque actualmente tiene la mayor cantidad de datos en California. Pero cuando llegue a Boston y Nueva York, encontrará que su rendimiento caerá drásticamente. Especialmente después de llegar a Nueva York, su MPI (millaje por intervención) básicamente ha alcanzado alrededor de 10 u 11. De hecho, el nivel de adquisición en Nueva York. York es más o menos igual que Nueva York. El desempeño de los líderes nacionales no amplió la brecha generacional. Pero incluso las condiciones del tráfico en Nueva York son mucho menos complicadas que las de Shanghai y Guangzhou, China, razón por la cual nos atrevemos a sacar esta conclusión o decir esto.

Por otro lado, Tesla (en los Estados Unidos) puede obtener mucha información que no está disponible en China, como información de mapas. De hecho, Google no proporciona muchos de estos mapas de navegación nacionales. Te doy esta información. Tesla De hecho, logré esta experiencia sobre una muy buena base.Por eso dijimos que si FSD llega a China, debería probarse en Shanghai ahora. Creo que necesita mucho trabajo, incluidos mapas, porque no puede obtener tanta información rica en el mapa, y es necesario. hacer muchas modificaciones, así que tomamos esta decisión.

P: El objetivo de Ideal este año es convertirse en líder absoluto en el campo de la conducción inteligente. ¿Qué dimensiones se utilizan para definirlo?

Lang Xianpeng: Creo que al final todo se reduce al volumen. ¿Nuestro modelo AD Max es líder en el mercado en términos de volumen de ventas este año? De hecho, este es el indicador más concreto. Solo miro los autos de Max, no el total. Vendí 50,000 autos este mes, pero si AD Max solo vende 10,000, significa que lo que hice con AD Max fue un fracaso. Pero si digo que tengo éxito, la proporción de Max será. ser alto.

En el mes transcurrido desde que lanzamos la versión 6.0 hasta el lanzamiento de extremo a extremo, nuestros propietarios de automóviles ingresaron más a la tienda y las ventas también aumentaron. La proporción de pedidos de AD MAX de nuestros usuarios aumentó del 37% en mayo al 49%. Para el modelo L9, el 75% de los pedidos fueron de AD MAX. Creo que esto es lo más convincente cuando los usuarios realmente pagan por su producto.

Para nosotros, internamente, también tuvimos una reflexión en la reunión estratégica de marzo de este año, es decir, no debemos mirar demasiado a la competencia. ¿Por qué todos se quejaron de la calidad promedio de nuestra primera versión sin imágenes en la primera mitad de este año? De hecho, el problema en ese momento era que mirábamos demasiado a la competencia. En ese momento, considerábamos a Huawei como una muy buena empresa. punto de referencia competitivo, y su tasa de adquisición y los indicadores de producto se convirtieron en nuestros. De hecho, al observar estos indicadores solo, nuestra versión no es mala, pero la experiencia del usuario no es buena, por lo que finalmente la cambiamos a experiencia y evaluación del usuario en lugar de simplemente mirar los indicadores, pero los indicadores son una referencia. Es algo que hay que ver.

Pregunta: Después de que se lance el Tesla FSD y se resuelvan algunos problemas en las condiciones de las carreteras de China, es posible que algunas empresas automotrices líderes se encuentren en la misma línea de partida. ¿En qué estarán trabajando todos en ese momento?

Lang Xianpeng: Esto también está relacionado con algunos de nuestros planes posteriores. De principio a fin, todos realmente utilizarán la inteligencia artificial para realizar la conducción autónoma. Creo que, tarde o temprano, los principales actores definitivamente lo harán. Una vez que entres en esta dirección, la brecha entre todos definitivamente se ampliará. En lugar de ser un conductor auxiliar como ahora, crees que alguien con 7.000 yuanes puede hacerlo, ¿verdad? Puedes hacerlo con 1 Orin, puedes hacerlo con 2 Orin, puedes hacerlo con 4 Orin, pero si realmente llegas a la era de la inteligencia artificial, todos harán dos cosas.

La primera es si tiene suficientes datos de alta calidad, y la segunda es si tiene un clúster con suficiente potencia informática de entrenamiento para igualarlo. Entonces, al final, todos tienen que luchar por la potencia informática y los datos, pero el umbral para estos. Dos cosas son muy altas. Si las reservas de capital de su empresa no son suficientes para cubrir sus gastos anuales de capacitación, no podrá jugar en el L3 o L4 posterior. Si su empresa de automóviles no tiene muchos de estos automóviles, sus datos en realidad no pueden. apoyar sus necesidades de formación.

Inicialmente estimamos que la inversión anual ideal actual en costos de capacitación es de mil millones de yuanes. Estimamos que el costo futuro será de mil millones de dólares estadounidenses por año. Esto es solo la potencia informática de la capacitación y no incluye otro personal ni otros. Gastos Entonces, si no puede gastar mil millones de dólares estadounidenses al año en capacitación, es posible que quede eliminado en la futura competencia de conducción autónoma.

Pregunta: Mil millones de dólares al año, ¿cómo deducir esto?

Lang Xianpeng:Es más directo desde la perspectiva de los parámetros del modelo. Tomando a Tesla como ejemplo, FSD V12.3-12.5 expande el modelo 5 veces y la potencia informática también se expande 5 veces. Tiene alrededor de 300 a 400 millones de parámetros, y luego VLM tiene 2.2 mil millones de parámetros. Para la generación Thor, su potencia informática ha mejorado enormemente. El modelo no puede permanecer sin cambios para aumentar el límite superior para L3 y L4. La potencia informática de formación también debe duplicarse. Creo que esta es la lógica.

Pregunta: ¿Están ahora los fabricantes nacionales en la misma línea de partida en el camino de principio a fin?

Lang Xianpeng: Los fabricantes nacionales están en la misma línea de salida de principio a fin, pero creo que si nos fijamos en el One Model, Ideal puede estar por delante.Sobre la base de One Model, lanzamos por primera vez nuestra propia versión de Bird Egg, y fue un lanzamiento y una entrega relativamente grandes a una escala de miles de personas, y de hecho, todos han experimentado esta mejora de extremo a extremo y en el rendimiento. y la experiencia provocada por tal cosa no se ha demostrado antes. Mi juicio ahora se basa en esta base.

Pregunta: En cuanto a las cuestiones de potencia informática y compra de tarjetas, ¿la empresa lo apoya?

Lang Xianpeng: Nuestra empresa también nos apoya mucho. Ahora Li Xiang viene de vez en cuando para preguntar: Lang Bo, ¿tu tarjeta todavía es suficiente? Si no tienes suficiente, pídele a alguien que te ayude a resolverlo. Yo diré que sí y gracias. Aunque lo estamos haciendo muy bien en todos los aspectos de nuestras operaciones, creo que Li Xiang tiene un conocimiento relativamente profundo de la inteligencia artificial. Por lo tanto, no nos preocupa especialmente la potencia informática, etc. Cuando quiera aprobar el presupuesto, creo que él los tendrá en cuenta.

Pregunta: Usted mencionó que no todas las empresas de automóviles pueden realizar conducción autónoma. En términos de potencia informática, ¿cuánta reserva se necesita para cumplir con el estándar del boleto de admisión?

Lang Xianpeng: Ahora que hemos implementado nuestros ideales, debemos gastar 1.000 millones de yuanes en potencia informática al año. Si no tiene uno, su velocidad de iteración será lenta o su producto no será lo suficientemente competitivo. Creemos que en el futuro se necesitarán 1.000 millones de dólares al año para tal inversión en potencia informática. Probablemente lo hayamos calculado nosotros mismos. Ahora tenemos unas 15.000 tarjetas, lo que ya es bastante tenso para coordinar la asignación de tarjetas. día, pero a medida que pasa el tiempo creo que el aumento en el número de parámetros del modelo es al menos 3-4 veces (entrada), lo que parece más razonable. Debido a que la potencia informática en sí ha mejorado mucho, su ancho de banda y almacenamiento también han mejorado mucho. Creo que básicamente corresponde a la sensación de un pequeño A100 de 100.000, que pueden ser unos 3 mil millones de flops de potencia informática.

Pregunta: ¿Este tipo de inversión es interminable, habrá un límite superior o puede estabilizarse en cierto punto? ¿Cómo garantizar el equilibrio de la comercialización?

Jia Peng: En los últimos dos años, los parámetros del modelo han aumentado de decenas de miles de millones a billones, o incluso 10 billones de parámetros. Esta es una curva muy pronunciada, pero recientemente todo el mundo ha vuelto a reflexionar sobre una cosa: si más grande es mejor, y ahora está empezando a reducirse un poco. Tal vez hacer algunos modelos grandes en campos profesionales no requiera tantos parámetros, siempre y cuando. ya que la calidad de los datos es suficiente, es posible que la cantidad de parámetros de mi modelo no sea tan grande. Esta es una curva HYPE. Puede volver a caer después de un tiempo, pero creo que eventualmente alcanzará un estado estable. es el número de parámetros del modelo o la potencia de cálculo, existe tal proceso. Al principio, todos subirán cuesta arriba rápidamente y luego, al final, pueden regresar un poco y luego alcanzar la practicidad real.

P: En la primera mitad de la competencia eléctrica, Tesla,BYDAhora que los competidores se han quedado muy atrás, ¿cómo será la competencia de conducción inteligente en la segunda mitad?

Lang Xianpeng:La primera mitad trata sobre electrificación y la segunda mitad definitivamente trata sobre inteligencia. A continuación, definitivamente verán que parte de nuestra inversión y desempeño en inteligencia de extremo a extremo es solo el comienzo.

noticias

Ejecutivo de Li Auto: Si no invertimos mil millones de dólares en potencia informática cada año en el futuro, seremos eliminados

Todo el mundo está "ciego y tocando al elefante", e Ideal ha entregado el mejor plan

La mayor importancia del principio a fin es que esencialmente cambia todo el proceso de I+D.

Aquellos que no puedan invertir mil millones de dólares cada año en potencia informática serán eliminados.

Introducción

Mi informacion de contacto