mi información de contacto
correo[email protected]
2024-09-25
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
¿puede realmente la conducción autónoma llegar a buen puerto?
la humanidad ha consumido innumerables tiempo y dinero en el desarrollo de la conducción autónoma. hoy en día, los accidentes frecuentes, la quema interminable de dinero y el lento progreso han causado muchas confusiones y preguntas: ¿la conducción sin conductor es una estafa o incluso la industria está muerta?
esta industria es realmente una de las más divididas que he visto. cada facción tiene puntos de vista diferentes, se desprecian y se culpan entre sí. después de que los dioses pelean, todos siguen su propio camino, pisan sus propios obstáculos. y derrotarse unos a otros. cada uno gasta su propio dinero.
el resultado es que la conducción sin conductor entrará en el frío invierno antes de 2024.
pero este frío invierno, cuando musk afirma haber reconstruido el fsd de tesla "mediante tecnología de inteligencia artificial de extremo a extremo" y anunció que ingresará a la industria de los taxis autónomos (robaxi), parece haber nueva vitalidad y esperanza.
¿puede el principio a fin llevarnos hacia una verdadera conducción sin conductor? ¿están realmente alejadas las definiciones l2 y l4 en la conducción autónoma? ¿dónde se ha desarrollado hoy la tecnología sin conductor? ¿es realmente interminable la batalla entre la visión pura y la multimodalidad?
para explorar cómo se está desarrollando la industria de la conducción autónoma, pasamos tres meses entrevistando a las empresas de conducción autónoma más innovadoras del mercado global, incluidos ex empleados principales de waymo y cruise, ex ingenieros de tesla fsd e inversionistas del mercado primario y secundario. hay hasta diez profesionales en la industria de la conducción autónoma.
descubrimos que la industria todavía está fragmentada y no hay consenso en la industria sobre muchas rutas técnicas.
en esta serie de artículos, exploraremos el estado de vanguardia de la tecnología de conducción autónoma actual desde múltiples perspectivas, como la percepción, los algoritmos, los productos, las operaciones, la economía y la ley.
en este artículo, primero hablaremos de tecnología de manera integral y en el próximo número la analizaremos desde una perspectiva operativa y económica.
1. ¿qué es la conducción autónoma?
primero hagamos una distinción conceptual: ¿cuál es la diferencia entre conducción sin conductor y conducción autónoma?
según el grado de inteligencia, la conducción autónoma se divide en 6 niveles del l0 al l5:
l0 significa sin automatización, l1 significa asistencia a la conducción, l2 significa conducción automática parcial, l3 significa conducción automática condicional, l4 significa conducción altamente automática y l5 significa conducción completamente automática, es decir, verdadera conducción sin conductor.
waymo y cruise, que mencionamos más adelante, y los camiones no tripulados construidos por hou xiaodi pertenecen al nivel l4. tesla fsd pertenece al nivel l2, pero el tesla robotaxi que musk afirma es l4.
por lo tanto, actualmente en esta industria, cuando se habla de conducción autónoma, generalmente se hace referencia a empresas l4, porque nadie puede llegar a l5 todavía y, en general, la conducción autónoma incluye todos los niveles y es una llamada más general.
echemos un vistazo a cómo empezó la industria de la conducción autónoma.
aunque los humanos comenzaron a explorar la conducción autónoma hace ya 100 años, se reconoce que la conducción autónoma moderna se originó oficialmente en el desafío darpa del ejército estadounidense en 2004.
después de varios años de desarrollo, se formó un vínculo operativo de percepción-planificación-control. el módulo de percepción incluye percepción y predicción.
la capa de percepción necesita obtener las condiciones de la carretera a través de sensores como radares y cámaras, predecir las trayectorias de movimiento de los objetos y generar un mapa del entorno circundante en tiempo real, que es la vista aérea común que vemos en los automóviles y máquinas, y luego pasa esta información a la capa de planificación, el sistema determina la velocidad y la dirección según el algoritmo, y finalmente se transfiere a la capa de control de ejecución para controlar el acelerador, el freno y el mecanismo de dirección correspondientes.
más tarde, con el auge de la ia, la gente empezó a dejar que la máquina aprendiera a conducir por sí sola. primero, dejar que el algoritmo conduzca en el mundo digital simulado. después de que el entrenamiento de simulación alcance un cierto nivel, puede comenzar a realizar pruebas en la carretera. .
en los últimos dos años, a medida que tesla aplicó la solución "de extremo a extremo" a la versión fsd v12, el vínculo operativo de percepción-planificación-control también comenzó a cambiar.
a continuación, nos centraremos en hablar de las dos rutas técnicas de la industria de la conducción autónoma a nivel de percepción: la escuela visual pura y la escuela de fusión multimodal. estas dos facciones llevan muchos años luchando y cada una tiene la suya propia. méritos.hablemos de sus agravios y odios.
2. percepción: visión pura versus fusión multimodal
actualmente, existen dos soluciones de percepción convencionales para automóviles.
la primera es una solución de detección de fusión multimodal adoptada por muchas empresas, que agrega y fusiona información recopilada por sensores como lidar, radar de ondas milimétricas, sensores ultrasónicos, cámaras y unidades de medición inercial para determinar el entorno circundante.
volviendo al darpa challenge que mencionamos en el capítulo anterior, en la primera sesión de 2004, aunque ningún vehículo terminó la carrera, un concursante llamado david hall se dio cuenta de la importancia del lidar durante la competencia, velodyne, la empresa que lo creó. fundada, comenzó a pasar del audio al lidar.
en ese momento, el lidar escaneaba con una sola línea y solo podía medir la distancia en una dirección. sin embargo, david hall inventó un lidar giratorio mecánico de 64 líneas que podía escanear el entorno 360 grados.
posteriormente, tomó este lidar giratorio para participar en el segundo desafío darpa en 2005. finalmente, un coche con 5 lidars en la cabeza terminó la carrera y ganó el campeonato.
pero este no era el auto de david hall... su auto se retiró a mitad de camino debido a una falla mecánica, pero su desempeño hizo que todos se dieran cuenta de que lidar es un "enchufable".
en el tercer desafío darpa en 2007, cinco de los seis equipos que terminaron la competencia utilizaron el lidar de velodyne. en este punto, lidar ha comenzado a volverse popular en la industria de la conducción autónoma y velodyne también se ha convertido en la empresa líder en lidar automotriz.
zhang hang (director científico senior de cruise):
ahora, ya sea cruise o waymo, algunas soluciones basadas en l4 se basan principalmente en lidar, que puede obtener directamente información de ubicación. en este caso, los requisitos para el algoritmo en sí serán relativamente bajos, y luego habrá mucha información 3d. se puede obtener directamente a través de sensores, lo que mejorará la robustez y seguridad del sistema y facilitará algunos problemas de cola larga.
otra facción técnica es la solución puramente visual representada por tesla, que solo se basa en cámaras para recopilar información ambiental y luego usa redes neuronales para convertir videos 2d en mapas 3d, que incluyen obstáculos y predicciones del entorno circundante, velocidad y otros. información.
en comparación con la solución lidar que genera directamente mapas 3d, la visión pura tiene un proceso adicional de conversión de 2d a 3d. en opinión de zhang hang, depender únicamente de datos de entrenamiento en "video" que carecen de información 3d traerá ciertos desafíos a la seguridad.
zhang hang (director científico senior de cruise):
se requiere una gran cantidad de datos de entrenamiento para aprender la falta de información 3d. en este caso, hay una falta de supervisión. debido a que no hay un objeto de referencia, es difícil obtener una verdad fundamental (datos de valor real) en la realidad. si es completamente a través de esta semi-supervisión, creo que es más difícil lograr la seguridad del sistema basándose en el método de aprendizaje. creo que el objetivo principal de tesla es controlar los costos, incluida la modificación de algunos mecanismos de cambio de marchas, todo para ahorrar costos en algunas piezas.
pero según yu zhenhua, ex ingeniero de inteligencia artificial de tesla, elegir la visión pura no se trata solo de ahorrar costos.
1. ¿más equivale a caos?
yu zhenhua (ex ingeniero de inteligencia artificial de tesla):
de hecho, el sistema de piloto automático original de tesla tenía un radar de ondas milimétricas. la fusión de sensores es en realidad un algoritmo muy complejo, pero no necesariamente es bueno cuando se implementa.
en ese momento tenía un automóvil que fue uno de los últimos automóviles en tener un radar de ondas milimétricas. en 2023, mi automóvil fue sometido a mantenimiento y el ingeniero de servicio eliminó automáticamente mi radar. ¿cuál es la conclusión de este asunto? quitar el radar de ondas milimétricas no es por motivos económicos, porque mi coche ya tiene un radar de ondas milimétricas. la razón fundamental es que la visión pura ha superado al radar de ondas milimétricas. entonces tesla está restando, eliminando algunas cosas redundantes que cree que son innecesarias o engorrosas.
yu zhenhua cree que,si el algoritmo de fusión no se hace bien, o si la visión pura puede lograr resultados suficientemente buenos, más sensores se convertirán en una carga.
muchos profesionales de l4 que entrevistamos también coincidieron en que más información no es mejor. por el contrario, demasiada información adicional no válida recopilada por los sensores aumentará la carga sobre el algoritmo.
entonces, ¿es posible confiar únicamente en el sensor de la cámara que musk siempre ha defendido?
2. ¿menos es más?
musk dijo que dado que los humanos pueden conducir con solo dos ojos, los automóviles también pueden lograr una conducción autónoma basándose únicamente en información de imágenes. sin embargo, la preocupación de la industria por las imágenes puras siempre ha sido el engaño visual, lo que de hecho ha traído menos accidentes en el pasado.
por ejemplo, tesla identifica un camión blanco como el cielo y la luna como una luz amarilla, o ideal identifica el contenido de un cartel publicitario como un automóvil, lo que provoca accidentes como frenadas bruscas y colisiones traseras a altas velocidades.
¿significan estos casos que las soluciones visuales puras sin información profunda tienen deficiencias inherentes?
yu zhenhua (ex ingeniero de inteligencia artificial de tesla):
de hecho, múltiples flujos de información pueden proporcionar más información, pero hay que responder una pregunta: ¿no tiene la cámara suficiente información? ¿o es insuficiente la capacidad del algoritmo para extraer información?
por ejemplo, cuando frena repentinamente o se siente frustrado al conducir en vías urbanas, la causa principal es en realidad una estimación insuficiente de la velocidad y el ángulo de los objetos circundantes. si esta es la razón, entonces el lidar es mucho mejor que las cámaras porque puede proporcionar información. si proporciona información más directa, la propia cámara en realidad le brinda información, pero nuestro algoritmo no es lo suficientemente bueno para extraer dicha información.
yu zhenhua no cree que la causa fundamental del engaño visual sea la información insuficiente de la cámara, sino que el algoritmo es insuficiente para procesar o extraer la información proporcionada por la cámara. él cree que, especialmente después del lanzamiento del algoritmo fsd v12 de tesla, se ha demostrado que cuando el algoritmo se ha optimizado en gran medida, la extracción y el procesamiento de la información de la cámara han mejorado significativamente.
yu zhenhua (ex ingeniero de inteligencia artificial de tesla):
el fsd v12 actual no es perfecto y tiene muchos problemas, pero hasta ahora no he encontrado qué problema se debe a sensores insuficientes. por supuesto, antes del v12, muchos problemas se debían a sensores insuficientes, pero el v12 actual no tiene este problema.
sin embargo, los profesionales de l4 tienen una perspectiva diferente. creen que las cámaras tienen desventajas naturales.
zhang hang (director científico senior de cruise):
personalmente creo que es difícil y no creo que sea necesariamente un problema con el algoritmo en sí.
en primer lugar, la cámara en sí no es tan complicada como el ojo humano. cada cámara tiene algunos parámetros y sus limitaciones.
luego está el algoritmo en sí. la gente no necesita saber dónde se mueven todos los coches en un radio de 200 metros. sólo necesito saber qué coches y qué peatones pueden afectar el comportamiento de mi coche. los puntos son suficientes y no necesito mucha potencia informática. puede que no sea posible alcanzar esta altura a través de algoritmos en el corto plazo. creo que lidar es un método complementario.
zhang hang, que participa en la investigación de l4, cree que las cámaras no pueden igualar al ojo humano. la razón principal es que la distancia focal y los píxeles de la cámara son fijos, mientras que el ojo humano tiene una precisión muy alta y puede hacer zoom automáticamente. al mismo tiempo, el modo de pensamiento saltador de los seres humanos no se puede aplicar a las computadoras en el corto plazo, por lo que el lidar se puede utilizar para complementar las deficiencias de las cámaras.
sin embargo, hay otras opiniones en el mercado que creen que, además de la información visual, otros sensores también proporcionarán información de interferencias.
por ejemplo, lidar también tiene sus propias desventajas. dado que utiliza alcance láser, cuando se enfrenta a algunos objetos reflectantes, lluvia o nieve, o láseres emitidos por otros automóviles, interferirá con lidar y eventualmente causará efectos ilusorios.
liu bingyan (director de kargo software):
soy una persona visual pura y muy firme. los caminos de este mundo están diseñados para las personas y la visión. es decir, aparte de la visión, puedes pensar en la información que recopilas como una interferencia. por supuesto que puedes recopilarla. la información proporciona interferencia, y el valor real que proporciona, ¿qué tipo de distribución es? creo que a medida que las imágenes mejoran cada vez más, podría ser todo lo contrario.
si se puede desarrollar un algoritmo de fusión de múltiples sensores que permita que la información lidar y de imagen se verifiquen entre sí, la seguridad del sistema podría mejorarse aún más.
hou xiaodi propuso una vívida metáfora:cuando dos estudiantes del mismo nivel toman el examen, al que usa una calculadora le resultará más fácil al final. es sólo la base económica la que determina si puede permitirse una calculadora.
el debate entre la visión pura y las soluciones de fusión multimodal basadas en lidar lleva varios años y parece que no habrá respuesta a corto plazo. opara algunas startups la ruta no es tan importante en absoluto, pero las cuentas económicas y de costes son las más importantes.
hou xiaodi (ex fundador y director ejecutivo de tusimple, fundador de bot.auto):
solía ser considerado una persona visual porque lidar no estaba disponible en ese momento, por lo que nos vimos obligados a encontrar soluciones más visuales.
tampoco estoy en contra del lidar;¿cuándo se volvió barato el lidar? fui el primero en hacer cola.lidar es realmente barato ahora, así que también estoy haciendo cola para comprar lidar. para mí, es un buen gato que atrapa al ratón. mientras el costo de este dispositivo sea lo suficientemente bajo y mientras este dispositivo pueda proporcionarnos información suficientemente valiosa desde una perspectiva de teoría de la información, deberíamos usarlo.
david (presentador de "grandes caballos hablando de tecnología"):
el círculo de conducción autónoma de china rápidamente puso a disposición este hardware, como el lidar y el radar de ondas milimétricas, a un precio de ganga. en este estado, ¿deberíamos seguir haciendo visión pura como tesla? de hecho, muchas empresas están dudando ahora. ¿debería comprar un lidar de estado sólido por más de 1.000 yuanes o debería utilizar visión pura? pero provocará un gran desperdicio de potencia informática.
yu zhenhua (ex ingeniero de inteligencia artificial de tesla):
creo que 1.000 yuanes es demasiado caro y tesla ni siquiera está dispuesto a utilizar un sensor de lluvia.
wang chensheng (exdirector de adquisiciones de tesla):
pero creo que a medida que aumenta la escala de la cadena de suministro y el costo disminuye significativamente, cuando lidar puede alcanzar un precio similar al de las cámaras, especialmente en un escenario de aplicación de extremo a extremo, ¿sigue siendo la visión pura un camino único?
3. ¿arrepentirse?
curiosamente, a medida que el precio del lidar ha bajado significativamente, la industria ha comenzado a no estar de acuerdo sobre si el próximo taxi autónomo de tesla utilizará lidar.
por ejemplo, zhang hang cree que dado que robotaxi no requiere intervención humana, y si algo sale mal, la empresa debe ser responsable, tesla puede elegir una ruta más conservadora y utilizar lidar, que alguna vez menospreció.
zhang hang (director científico senior de cruise):
especialmente cuando tiene que ser responsable de accidentes corporativos, debe ser más conservador y creo que puede ser necesario un sensor adicional. desde esta perspectiva, tesla puede adoptar algunas tecnologías que antes despreciaba.mientras esto sea útil y pueda lograr su propósito l4, lo adoptará gradualmente.
recientemente, también hemos descubierto que tesla también está considerando algunos aspectos de l4 y l5, y también está hablando de cooperación con algunos fabricantes de este lidar, por lo que puede ser que todos alcancen el mismo objetivo por diferentes caminos.
este año, el fabricante de lidar luminar publicó su informe financiero del primer trimestre, que muestra que los pedidos de tesla alcanzaron el 10%, lo que lo convierte en su mayor cliente. pero yu zhenhua no estuvo de acuerdo, pensando que esto no era nada nuevo.
yu zhenhua (ex ingeniero de inteligencia artificial de tesla):
en primer lugar, definitivamente no es para el uso de lidar en futuros automóviles producidos en masa, porque los ingresos totales de luminar en el primer trimestre parecen ser de 20 millones de dólares estadounidenses y el 10% son 2 millones, lo que no es suficiente para instalar varios. lidares. de hecho, no es ningún secreto que los vehículos de ingeniería y los vehículos de prueba de tesla están equipados con lidar. el lidar se utiliza para recopilar datos reales (datos de valor real) para entrenar redes neuronales, porque los humanos no pueden marcar a cuántos metros se encuentra un objeto de usted. para marcar se deben utilizar sensores especiales.
pero en realidad estoy muy confundido por qué lumina reveló esto en el primer trimestre, porque musk también respondió en ese momento, diciendo que después de llegar a v12, no necesitamos datos de valor real porque es de extremo a extremo y ocupa la red. esta es una cuestión de la era v11. creo que hay algunos malentendidos aquí, es decir, en los informes financieros o en las reglas financieras.
aunque actualmente no está claro si el próximo robotaxi de tesla estará equipado con lidar, una cosa es segura es que con la configuración de detección actual de tesla, la seguridad no es suficiente para alcanzar l4 o para operar un robotaxi.
liu bingyan (director de kargo software):
estoy muy seguro de que los modelos tesla existentes tienen puntos ciegos muy claros, que son puntos ciegos que no son visualmente accesibles, y este punto ciego hará que si quiere lograr lo último, ya sea conducción autónoma l4 o l5, su próximo el coche debe resolver este problema de punto ciego.
desmantelaremos en detalle la última actualización tecnológica de extremo a extremo de tesla en los capítulos 3 y 4, así como las especulaciones sobre los detalles de robotaxi que se anunciarán en octubre. a continuación, analicemos primero otra tecnología importante en la percepción: los mapas de alta precisión.
4. ¿atemporal?
además del lidar, los mapas de alta precisión también son una fuente importante de costos en el sentido de detección de la conducción autónoma.
los mapas de alta precisión recopilan información de la carretera con anticipación, reducen la presión sobre el módulo de percepción para dibujar mapas en 3d y mejoran la precisión.
casualmente, la primera persona en promover mapas de alta precisión fue sebastian thrun, el ganador del segundo darpa challenge en 2005, el propietario del automóvil con cinco lidars en la cabeza.
durante el desafío darpa de 2004, google estaba preparando el proyecto "street view". el fundador de google, larry page, fue personalmente al sitio de la competencia para identificar talentos. después de la competencia en 2005, page se acercó a sebastian thrun y lo invitó a unirse al trabajo de google. le dieron el dibujo del mapa.
en el proceso, thrun y page se dieron cuenta de repente:si existe un mapa que pueda registrar con precisión todas las líneas de carriles, señales de tráfico, semáforos y otra información de la carretera, será de gran ayuda para la conducción autónoma., que también establece la importante posición de los mapas de alta precisión en los proyectos de conducción autónoma.
sin embargo, producir mapas de alta precisión es muy costoso. el costo promedio para las empresas de conducción autónoma para recopilar mapas de alta precisión es de aproximadamente 5.000 dólares por kilómetro si quieren cubrir 6,6 millones de kilómetros de carreteras en los estados unidos, solo el costo de la recolección. alcanzará los 3.300 millones de dólares.
sumado a los frecuentes costos de mantenimiento del mapa, el consumo final será inimaginablemente astronómico.
muchas empresas automotrices ahora están promoviendo soluciones sin mapas que abandonan los mapas de alta precisión y en su lugar utilizan vehículos para construir mapas ambientales localmente.
un ingeniero de conducción autónoma que entrevistamos de forma anónima dijo que estas comparaciones y promociones se deben más a consideraciones del modelo de negocio. para las empresas que hacen negocios con robotaxi, el uso de mapas de alta precisión puede aumentar la seguridad.para las empresas de automóviles, renunciar a los mapas de alta precisión puede reducir efectivamente los costos, por lo que no significa que renunciar a los mapas de alta precisión conducirá a un mayor nivel técnico.
encuestado anónimo (ingeniero l4):
huawei también tiene un ideal. su solución es un automóvil producido en masa. los clientes pueden venir de varias ciudades y usted desea poder conducirlo en cualquier ciudad.
el umbral principal para los mapas de alta precisión convencionales es que requiere un proceso de recopilación de mapas. este proceso de recopilación de mapas en realidad requiere mucho tiempo y mano de obra, y también requiere experiencia profesional en este dispositivo de recopilación de mapas.
entonces, si usted está en el negocio de la producción de automóviles en masa, no puede decir que tengo un automóvil dedicado a la recolección de mapas y que he viajado por toda china para usted. esto no es realista.
empresas l2 como tesla, huawei e ideal abandonaron los mapas de alta precisión porque no podían cubrir todas las calles y callejones.
mientras waymo y cruise hacían esto, la empresa l4 de robotaxi decidió seguir utilizando mapas de alta precisión porque descubrieron quesólo necesitamos cubrir algunas ciudades clave para captar suficientes mercados.
por lo tanto, el uso de mapas de alta precisión se vuelveel problema de contabilidad financiera de robotaxi no es un problema técnico.
minfa wang (ex ingeniera senior de aprendizaje automático de waymo):
si observa solo el modelo de negocio de robotaxi y divide la demanda de robotaxi en los estados unidos, encontrará que las cinco ciudades principales ya representan la mitad del volumen comercial en los estados unidos. en cualquier lugar de estados unidos. de hecho, ya tienes un mercado bastante grande.
de manera similar, otro invitado que entrevistamos que trabaja en camiones autónomos l4 también compartió que si quieren ampliar sus rutas operativas, es decir, ampliar la cobertura de mapas de alta precisión, primero deben medir si esta ruta es rentable, de lo contrario simplemente perderá y gritará.
después de una ronda de charla así, no existe una visión unificada en la industria desde el punto de vista de la percepción. tal como dijo hou xiaodi, un gato es un buen gato si caza ratones.
a continuación, centrémonos en los avances recientes en los algoritmos de conducción autónoma a los que todo el mundo está prestando mucha atención últimamente, especialmente la tecnología "de extremo a extremo" que tesla ha promovido recientemente. ¿cambiará realmente la dirección de la industria de la conducción autónoma?
3. algoritmo: ¿es de extremo a extremo el futuro de la conducción autónoma?
1. ¿qué es la tradición?
el vínculo operativo tradicional de la conducción autónoma es primero detectar, predecir, luego planificar y finalmente controlar.
el módulo de percepción primero debe identificar la carretera a través de sensores como cámaras y radares, traducir esta información a un lenguaje que la máquina pueda ver y pasarla al módulo de predicción.
el modelo de predicción juzgará las trayectorias de conducción de otros vehículos y peatones, luego pasará esta información al módulo de planificación para encontrar el camino con el menor riesgo y finalmente pasará la señal de control al sistema de control.
el algoritmo en este momento se basa principalmente en la "base de reglas". los ingenieros deben escribir continuamente varias reglas, como reducir la velocidad cuando se encuentran con peatones, detenerse en semáforos en rojo, etc. tienes que cubrir todas las posibilidades tanto como sea posible y, en consecuencia, el código es muy, muy largo.
¿cuáles son las dificultades con tal algoritmo?
el mayor problema es que el sistema está dividido en diferentes módulos, pero la transmisión de información entre módulos se perderá. si el flujo descendente no puede obtener información completa, aumentará la dificultad de predicción y planificación.
por poner un ejemplo sencillo y fácil de entender, todo el mundo ha oído hablar del juego de teletransportación multijugador, ¿verdad? diez personas pronuncian una frase de principio a fin, pero a menudo los detalles se pierden o alteran durante el proceso de pronunciación por parte de varias personas, de modo que el significado es completamente diferente cuando llega a la última persona.
de manera similar, en el modelo tradicional basado en reglas, si el módulo de la capa superior no funciona lo suficientemente bien, afectará el rendimiento de la siguiente capa.
otra desventaja es que todas las reglas están diseñadas y definidas por humanos, pero las reglas limitadas no pueden cubrir infinitas situaciones posibles de la vida real. para algunos problemas poco comunes y que fácilmente se pasan por alto, es difícil para las máquinas encontrar las soluciones correspondientes. el "caso de cola larga" también se denomina "caso de esquina", lo que generará costos muy altos para una implementación a gran escala.
yu zhenhua (ex ingeniero de inteligencia artificial de tesla):
otra cosa es que cuando se divide en dos módulos, creo que esta tecnología es difícil de escalar. ¿por qué? cada vez que agrega una nueva tarea a una escena compleja y realista, debe agregar algunas interfaces nuevas y cambiar la percepción y la planificación del control.
tomemos como ejemplo a tesla hace unos años, la nhtsa (administración de seguridad en el transporte de ee. uu.) exigió que tesla detectara vehículos de emergencia, como camiones de bomberos y ambulancias. en términos de percepción, usted debe detectarlos y luego controlarlos también. necesita hacer esto. esta es solo una tarea. puede haber cientos o miles de tareas de este tipo. entonces, ¿sabe que hay miles de ingenieros? alrededor de 6.000 ingenieros, porque surgirán muchas tareas nuevas. cuanto más complejo sea el entorno, más tareas no creo que sea un modelo escalable.
david (presentador de "grandes caballos hablando de tecnología"):
este método todavía está relativamente anticuado. aunque parece una metodología relativamente inteligente para la industria de los robotaxi, no puede satisfacer las necesidades de los turismos y de millones de vehículos que circularán por las carreteras de todo el mundo en el futuro.
¿cuáles son entonces las soluciones a estos problemas? en este momento tenemos que hablar de "end to end".
2. nuevas superestrellas
en el campo de la conducción autónoma, la definición actual actual de "de extremo a extremo" es:la información recopilada por el sensor se pasa al modelo grande basado en la red neuronal sin ningún procesamiento y los resultados del control se emiten directamente.
en otras palabras, no es necesario escribir manualmente varias reglas y dejar que el algoritmo aprenda a conducir siguiendo los datos que se le envían.
yu zhenhua (ex ingeniero de inteligencia artificial de tesla):
porque cuando los humanos conducimos, no juzgamos mentalmente la velocidad y el ángulo de un determinado automóvil. usted toma sus decisiones de manera inconsciente a través de un entorno complejo.
la lógica de pensamiento de "hacer que los algoritmos se parezcan más a los humanos, porque así es como funcionan los humanos" es exactamente la dirección de musk para liderar tesla. no es de extrañar que la tecnología "de extremo a extremo" no sea nueva en la conducción autónoma. tesla.
aunque tesla lanzará el fsd v12 utilizando "de extremo a extremo" por primera vez a finales de 2023, el "extremo a extremo" no es nada nuevo en el mundo de la conducción autónoma. de hecho, ya en 2016, nvidia tenía un documento que proponía "de extremo a extremo".
ahora, el "de extremo a extremo" también se divide en dos tipos: uno es reemplazar algunos módulos con redes neuronales. este "de extremo a extremo" de submódulos es solo una forma excesiva, no completa, porque. cada módulo para transferir información entre ellos, aún es necesario definir varias interfaces, lo que provoca la pérdida de datos.
desde la perspectiva general, solo cuando se integran varios módulos en un todo y se eliminan las definiciones de capa de percepción, capa de predicción y capa de planificación, se puede considerar puro "de un extremo a otro".
en 2023, el mejor artículo de cvpr, "conducción autónoma orientada a la planificación", propuso que el pasado "de extremo a extremo" solo se ejecutaba en algunos módulos o requería que se insertaran algunos componentes en el sistema.
este artículo propone la arquitectura del modelo uniad, que es la primera vez que todos los módulos de detección, predicción y planificación se integran en un marco de red de extremo a extremo basado en transformer.
en comparación con el enlace de ejecución tradicional basado en reglas (basado en reglas), "de extremo a extremo" ya no requiere que los ingenieros de algoritmos mejoren repetidamente la base de reglas, por lo que cuando musk lanzó fsd v12, afirmó que "su código ha crecido desde 300.000 líneas a se redujo a 2.000 líneas."
aunque tesla no inventó la tecnología "de extremo a extremo" de conducción autónoma, tesla fue de hecho la primera empresa en desarrollar la tecnología "de extremo a extremo" de redes neuronales y llevarla al mercado principal.
3. ventajas “de extremo a extremo”
en noviembre de 2023, tesla lanzó la primera versión de prueba de fsd v12, pero solo estaba abierta a empleados seleccionados. a principios de 2024, tesla comenzará a abrir la versión fsd v12 a todos los propietarios de tesla en los estados unidos, y cada propietario tendrá una prueba gratuita de un mes.
después del lanzamiento del fsd v12, causó revuelo por un tiempo. por la experiencia del usuario, vemos que la mayoría de las opiniones públicas creen que la función del fsd de tesla ha mejorado mucho en comparación con el anterior. "primero en el mundo de la conducción autónoma". momento chatgpt”.
david (presentador de "grandes caballos hablando de tecnología"):
lo que realmente me hace pensar que el progreso es la planificación. por ejemplo, cuando se trata de rotondas, es bastante difícil cruzar la rotonda en la dirección de planificación tradicional, porque el coche que va delante tiene que quedarse atascado y hay que avanzar. fuera de la rotonda. ¿cómo configurar el medio? ¿este tipo de prioridad?
incluso si estableces la prioridad, ¿a qué distancia debes mantenerte del auto de adelante y del auto de al lado antes de poder salir? esta es en realidad una lógica muy complicada, pero el rendimiento de esto en la nueva versión de fsd realmente lo hace. me siento increíble. esto me da una gran sorpresa.
muchas personas que han experimentado fsd v12 dijeron que este sistema, que aprende de los datos de conducción humana, tiene un estilo de conducción muy humano y ya no tiene la frustración causada por los algoritmos mecánicos.
pero al mismo tiempo, algunos invitados pensaron después de experimentarlo,fsd v12 no es tan bueno como para que la gente deba usarlo y todavía existe una cierta brecha entre este y l4.
justin mok (director de inversiones de una family office):
pero no es tan bueno como gpt4, y no es tan bueno como para tener que usarlo o usarlo de inmediato, y puede ser adecuado para usar en muchos de mis escenarios.
minfa wang (ex ingeniera senior de aprendizaje automático de waymo):
su rendimiento es relativamente bueno en la carretera, pero en las calles, siento que básicamente hay que controlarlo manualmente cada 5 millas aproximadamente.
especialmente en lo que llamamos giro a la izquierda sin protección, es relativamente fácil de hacer, lo que me hace sentir que no es un comportamiento muy seguro. si su mpi (kilometraje de adquisición) es solo 5, entonces obviamente está lejos de la conducción autónoma. todavía queda un largo camino por recorrer.
yo también he experimentado la versión fsd 12.4.4. en comparación con vehículos l4 como waymo, el tesla fsd actual todavía me asusta en ciertos momentos o, a veces, muestra un comportamiento inexplicable.
por ejemplo, al girar a la derecha, debido a que su radio de giro era demasiado grande, casi golpea al auto que viene en sentido contrario, así que tuve que tomar el control manualmente.
desde el punto de vista del rendimiento, el fsd v12 "de un extremo a otro" todavía tiene margen de mejora. desde una perspectiva de ingeniería, operación y gestión, las ventajas "de un extremo a otro" tienen tres puntos:
en primer lugar, puede simplificar el sistema general.después de eliminar la base de reglas, solo necesita agregar continuamente casos de capacitación para mejorar aún más el rendimiento del modelo, y los costos de mantenimiento y actualización también se reducirán significativamente.
en segundo lugar, ahorre costos laborales.dado que "de un extremo a otro" ya no depende de una base de reglas compleja, no es necesario implementar un gran equipo de desarrollo ni siquiera confiar en expertos.
en tercer lugar, puede lograr una promoción más amplia.puede ver que actualmente las empresas l4 solo pueden operar en áreas limitadas, independientemente de las restricciones regulatorias y de licencia, porque no es una solución "de extremo a extremo" y debe optimizarse para regiones específicas, y "de extremo a extremo". " puede manejar todas las condiciones de la carretera. , más bien como un conductor "universal", que es una de las razones por las que se compara el tesla fsd v12 con el chatgpt.
dado que "de extremo a extremo" tiene tantas ventajas, ¿puede resolver los problemas técnicos que enfrenta actualmente la conducción autónoma?
4. modelo de caja negra
muchos de los invitados que entrevistamos creían que,en esta etapa, un mayor desarrollo de la ruta de un extremo a otro es una tendencia reconocida en el campo de la conducción autónoma., pero todavía hay muchos problemas.
zhang hang (director científico senior de cruise):
creo que esta dirección es la dirección correcta. es imposible para nosotros crear una solución l4 a gran escala parcheándola todo el tiempo, pero en la actualidad, creo que es imposible lograr rápidamente una solución l4 por completo. solución integral, por lo que ahora es un momento contradictorio.
la razón por la que el actual extremo a extremo todavía está muy por detrás de la l4 comienza con su incertidumbre.
de un extremo a otro es como una caja negra, lo que traerá más incertidumbres.
por ejemplo, los ingenieros no pueden verificar si el modelo ha aprendido los casos de datos de entrada o, cuando encuentran un error, no pueden localizar qué enlace causó el problema o si los datos recién agregados harán que el conocimiento aprendido se olvide o se sobrescriba; , esta situación se llama olvido catastrófico.
por ejemplo, la versión de tesla fsd 12.4.2 se produjo internamente hace mucho tiempo, pero tomó mucho tiempo lanzarla a gran escala, musk explicó que los datos que se alimentaban contenían muchos videos que se tomaban manualmente. , fue difícil el nivel del modelo ha retrocedido.
dado que la esencia de un extremo a otro es la imitación, si la situación encontrada tiene casos similares en los datos de entrenamiento, funcionará muy bien, pero si excede los casos de referencia existentes, el rendimiento será peor, es decir, digamos, de un extremo a otro tiene requisitos muy altos en cuanto a la cantidad de datos de entrenamiento y la riqueza de casos.
zhang hang (director científico senior de cruise):
cuando hay un semáforo en rojo en una intersección de tráfico, no debe pasar el semáforo en rojo. es una regla tan simple. si está basada en heurística (algoritmo heurístico), simplemente podemos usar un if más para lograr tal efecto.
pero si se trata de un modelo completamente de extremo a extremo, se basa completamente en el aprendizaje. al final, en realidad le resulta muy difícil aprender de esa manera. entonces creo que todavía hay una gran brecha entre l4 de un extremo a otro en un corto período de tiempo. creo que este algoritmo es inmaduro.
liu bingyan (director de kargo software):
no tienes reglas estrictas y rápidas, pero él puede intentar hacer todas las cosas que establezcas y que no se pueden hacer. por tanto, habrá muchas colisiones frontales en la simulación.
al mismo tiempo, la inexplicabilidad que genera el extremo a extremo también es motivo de preocupación para algunas personas.
la llamada inexplicabilidad significa que cambiar cualquier peso, nodo o número de capas en el modelo del algoritmo tendrá un impacto impredecible en el rendimiento del modelo. incluso los diseñadores y entrenadores del modelo no pueden conocer el proceso de razonamiento intermedio.
lo contrario es la interpretabilidad. por ejemplo, en el modo basado en reglas, los ingenieros han escrito la regla de que "puedes continuar conduciendo cuando se detecta que pasa una bolsa de plástico", por lo que no tenemos que preocuparnos por cambios repentinos en esta situación. vamos, frena de golpe.
liu bingyan (director de kargo software):
puede ver que en v12, la visualización en pantalla es mucho mejor, pero ¿de dónde viene esta llamada visualización de extremo a extremo? si esta visualización proviene del modelo original, uno de los problemas involucrados es que en realidad hemos agregado una capa de interfaces definidas artificialmente a este modelo para que pueda extraer esta información de una ubicación determinada en el modelo.
otra cosa que creo que es aún más aterradora es que esta visualización toma un camino completamente diferente. eso también significa que el auto muestra que hay un camión al frente. no significa que el modelo controlado realmente piense que hay un camión al frente. si esto fuera así, daría mucho, mucho miedo ver un coche delante pero no estás seguro de que no vaya a chocar contra él.
de hecho, tengo algunas dudas sobre si es realmente de un extremo a otro, o puede que no lo dude, pero puede haber otros peligros aquí.
wang chensheng (exdirector de adquisiciones de tesla):
entonces, para industrias como la conducción autónoma, que tienen requisitos de seguridad tan altos, ¿la inexplicabilidad provocada por el modelo de extremo a extremo es la otra cara de la moneda?
dado que tesla aún no ha anunciado la tecnología de fsd v12, no sabemos si fsd adopta una estrategia de múltiples módulos, pero descubrimos quealgunos propietarios de automóviles se han encontrado con casos en los que la visualización de la pantalla no coincide con el comportamiento real.
por ejemplo, la vista aérea construida por el vehículo mostró que había alguien delante, pero no mostró ningún signo de frenado, pero continuó pasando. afortunadamente, fue solo una detección errónea por parte del sensor y no ocurrió ningún accidente. .
aunque se puede ver en este caso que, bajo el algoritmo de extremo a extremo, los errores de la capa superior no afectarán las ventajas de la toma de decisiones de la capa inferior, también muestra que la capa de planificación ocasionalmente no reconoce los resultados de la capa de percepción. , confirmando las preocupaciones de liu bingyan.
¿se convertirá la inexplicabilidad en un problema importante que obstaculice el desarrollo de un extremo a otro? luego viene el tercer conflicto que vemos.
yu zhenhua (ex ingeniero de inteligencia artificial de tesla):
creo que sí,un problema muy grave de la ia es que su naturaleza teórica está muy por detrás.
la ia no te dice si esto definitivamente funcionará o no. por tanto, es un tema experimental, no se considera ciencia y requiere mucha verificación.
v12 aplasta completamente a v11, por lo que es una cuestión de resultados. entonces, ¿piensas que si hay tanta inexplicabilidad de un extremo a otro, entonces debido a que está completamente aplastado, es muy estúpido y deberías caer?
yu zhenhua cree que la ia es un tema experimental, siempre que los resultados cumplan con las expectativas, demuestra que la dirección es correcta y debe seguir avanzando. hou xiaodi dijo que el rendimiento del v12 está significativamente por delante del del v11, solo porque la base del v11 es demasiado pobre y su rendimiento aún está lejos de ser una verdadera conducción sin conductor.
wang chensheng (exdirector de adquisiciones de tesla):
si realmente se trata de conducción totalmente autónoma y está restringido por la l5, debe pasar por las autoridades reguladoras, y estas deben tener explicabilidad o previsibilidad.
además, hay muchísimas ciudades en el mundo y, en estados unidos, cada ciudad puede tener leyes y regulaciones diferentes. si este automóvil necesita adaptarse a las leyes y regulaciones locales en términos de hardware y software se ha convertido en una gran pregunta sobre si se podrá ampliar.
de extremo a extremo no se puede ajustar el modelo a través de reglas definidas artificialmente, por lo que si puede adaptarse a diferentes regulaciones se ha convertido en un desafío para la escala de extremo a extremo.
otro factor que afecta la escala es que de un extremo a otro es más sensible al volumen de datos y a los sensores.
5. el futuro es incierto
liu bingyan (director de kargo software):
existe un problema muy grave de extremo a extremo, que esserá más sensible al sensor., es decir, cuando cambias el sensor o la distribución del sensor, tu modelo puede volver a entrenarse por completo.
desde otro punto de vista, es inaceptable desde el punto de vista de la ingeniería, o no podemos imaginar que el mismo coche circule por las carreteras de todo el mundo en el futuro.
una vez que se cambia la distribución del sensor, el modelo dejará de ser válido y será necesario reiniciar el entrenamiento. se deberá recopilar una gran cantidad de datos para el entrenamiento, lo que inevitablemente generará enormes costos.
el medio financiero estadounidense cnbc informó que a principios de 2023,para entrenar fsd, tesla utilizó más de 10 millones de vídeos de conducción de propietarios de tesla.
además, estos más de 10 millones de datos de entrenamiento no se utilizan a la ligera. deben ser conductores humanos con habilidades de conducción relativamente altas. de lo contrario, el nivel del modelo solo empeorará cada vez más.
por lo tanto, entrenar el modelo de un extremo a otro no solo requiere una gran cantidad de datos, sino que también requiere una selección compleja, que consume mucha mano de obra. puede que no sea un problema para tesla, que vende muchos coches, pero para otras empresas, las fuentes de datos se han convertido en un gran problema.
david (presentador de "grandes caballos hablando de tecnología"):
muchos oem han sido engañados porque siguieron ciegamente la metodología de tesla, pero este conjunto de cosas realmente no es adecuado para el 90% de los oem.
¿significa eso que otros fabricantes realmente no pueden entrar en el campo de extremo a extremo?
aunque nvidia y tesla impulsan las operaciones de algoritmos de un extremo a otro a través de visión pura, el extremo a extremo puede aceptar entradas multimodales.
los sensores de uso común actual, como el radar de ondas milimétricas, el lidar y el radar ultrasónico, tienen posiciones relativamente fijas en el vehículo, especialmente el lidar, que se encuentra básicamente en el techo del vehículo. por lo tanto, se puede utilizar el acceso multimodal de un extremo a otro. los datos recopilados de diferentes modelos se utilizan para entrenar el modelo y el espacio de diseño dejado para el oem será mayor.
después de otra ronda de charlas, cada algoritmo tiene sus propios méritos y aún no está claro qué método puede llevarnos a un futuro totalmente sin conductor.
zhang hang (director científico senior de cruise):
no creo que exista actualmente ningún algoritmo que pueda ser simple y a gran escala, y luego cumplir con el estándar l4. creo que el algoritmo en sí no existe. este campo es un campo que todos deberían promover juntos. soy muy optimista en que todos llegarán al mismo destino por caminos diferentes, aunque cada uno tendrá desviaciones ligeramente diferentes.
6. no se puede hacer nada
no importa qué algoritmo se utilice, eventualmente se enfrentará al problema de la cola larga.
bajo el modelo tradicional basado en reglas (basado en reglas), escribir una base de reglas requiere que un equipo enorme gaste mucha energía y es difícil cubrirlo todo, lo mismo que el problema de la cola larga. se soluciona?
minfa wang (ex ingeniera senior de aprendizaje automático de waymo):
resolvió los casos convencionales, pero creo que el problema de la cola larga seguirá existiendo.
minfa cree que la tasa de tolerancia a fallas del sistema de conducción autónoma es muy baja. si se va a utilizar un sistema de caja negra en l4, se deben introducir otros mecanismos de seguridad, pero esto vuelve a la cuestión del costo en el modo basado en reglas.
el algoritmo de conducción autónoma se practicará primero en el sistema de simulación. ¿puede el entrenamiento con simulación resolver ciertos problemas de cola larga?
zhang hang (director científico senior de cruise):
en la actualidad, no existe una buena solución que realmente pueda ayudar a nuestro desempeño en la carretera en la vida real a través de los datos de simulación generados.
minfa wang (ex ingeniera senior de aprendizaje automático de waymo):
en los campos de la conducción autónoma o la robótica, el entorno es muy, muy complejo. si quieres simular, no sólo te estás simulando a ti mismo, sino también cómo se moverá el coche en el futuro. la principal dificultad es cuál es la trayectoria de tu vehículo. tu propio coche cambia. a veces, influirás en el comportamiento de todos los coches y personas que te rodean para que cambien.
creo que todavía es un tema abierto cómo simular bien sin causar un cambio de distribución (cambio de distribución).
dado que las escenas virtuales no pueden simular completamente las posibilidades de la realidad, ¿significa eso que actualmente no hay forma de resolver el problema de la cola larga en la industria y que sólo puede depender de la acumulación de experiencia a largo plazo?
encuestado anónimo (ingeniero l4):
hasta cierto punto sí, pero no hace falta ser perfecto, ¿verdad? los humanos no son perfectos, sólo hay que hacerlo mejor que los demás. la gente también tiene sus propios índices de accidentes, siempre que lo hagas mejor que esto, es suficiente.
hou xiaodi (ex fundador y director ejecutivo de tusimple, fundador de bot.auto):
creo que la cuestión de la cola larga es en realidad una propuesta falsa. me alegra que la hayas mencionado.
en mi opinión, hay un problema de cola larga. por ejemplo, ¿qué debo hacer si veo un cocodrilo? ¿qué debo hacer si veo un elefante? veo un avión de ala fija estacionado en la autopista, ¿qué debo hacer?
de hecho, para muchos problemas de cola larga, los envolvemos en una gran categoría de problemas. ¿cómo lidiar con objetos que nunca antes había visto? es bastante manejable si lo englobamos en un tipo de problema más general.
por ejemplo, una vez vimos un avión de ala fija estacionado en la carretera, así que nuestra solución fue muy sencilla, detenerlo, ¿no?
¿es el problema de la cola larga una proposición falsa o es un problema que debe resolverse? cada uno puede tener su propia respuesta a este tema. el problema de la cola larga corresponde a cuándo l4 o incluso l5 se pueden implementar a gran escala, así que a continuación, echemos un vistazo al feroz conflicto entre l2 y l4.
4. ¿puede tesla robotaxi tener éxito? el conflicto entre l2 y l4
1. "no se puede hacer"
preguntamos a los invitados su opinión antes de que musk anunciara el aplazamiento de robotaxi. todos tenían una opinión muy unánime al respecto: es imposible que el taxi autónomo de tesla se lance este año.
la razón principal por la que todos tienen una visión tan unificada es que los modelos existentes de tesla no pueden cumplir con el estándar l4 para taxis autónomos.
liu bingyan (director de kargo software):
estoy muy seguro de que los modelos tesla existentes tienen puntos ciegos muy claros. si quiere lograr lo último, ya sea la conducción autónoma l4 o l5, su próximo automóvil debe resolver este problema. para solucionar este problema de punto ciego, volvemos a lo que acabamos de decir. se debe ajustar la posición del sensor de la cámara. el resultado inmediato de ajustar estas posiciones es que el modelo anterior fallará por completo.
desde la perspectiva de la arquitectura de la cámara visual, es imposible que los automóviles existentes logren un fsd que pueda estar completamente desatendido. desde esta perspectiva, debe tener un nuevo hardware.
zhang hang (director científico senior de cruise):
desde la perspectiva del sensor, es necesario introducir cierta redundancia, que quizás no haya sido necesaria antes en l2.
si bien los expertos de la industria no son optimistas, ¿qué hace que musk tenga tanta confianza en el lanzamiento de robotaxi?
yu zhenhua (ex ingeniero de inteligencia artificial de tesla):
creo que la razón principal son los varios avances técnicos de este fsd v12. como personaje de musk, cuando vio el fsd v12 hoy, en su plan, sintió que robotaxi debería incluirse en la agenda.
entonces, ¿puede fsd v12 permitir a tesla pasar a l4 y asumir la importante tarea de robotaxi? ¿qué tan grande es la brecha en comparación con waymo o cruise existentes?
al entrevistar a hou xiaodi sobre esta pregunta, su respuesta nos permitió ver otro punto de vista en la industria: es decir, la brecha entre l2 y l4 es muy grande.
2. “ni siquiera cerca”
hou xiaodi (ex fundador y director ejecutivo de tusimple, fundador de bot.auto):
en primer lugar, lo que está haciendo tesla no es conducción sin conductor. de lo que estamos hablando hoy es de una solución que elimina a las personas y hace que las empresas de desarrollo de software asuman la responsabilidad. eso se llama conducción sin conductor. conducir, que no es conducir sin conductor, por lo que lo que haces no es lo mismo.
en la actualidad, la conducción asistida l2 es ampliamente utilizada por empresas de automóviles, como tesla, xiaomi, huawei, xpeng, etc., mientras que empresas como waymo, cruise, baidu y otros taxis autónomos utilizan la conducción altamente automatizada l4, dejando de lado los escritos. definiciones de conceptos,la diferencia esencial entre los dos es quién tiene la responsabilidad.
hou xiaodi (ex fundador y director ejecutivo de tusimple, fundador de bot.auto):
la solución que elimina a las personas y pone la responsabilidad en las empresas de desarrollo de software se llama conducción autónoma. déjame contarte un chiste, ¿qué pasa si un tesla golpea a alguien y lo mata? para elon musk, no es asunto suyo.
por lo tanto, si tesla quiere fabricar taxis autónomos, debe asumir su propia responsabilidad. ¿cuáles son entonces las diferencias técnicas entre conducción asistida y conducción autónoma?
hou xiaodi (ex fundador y director ejecutivo de tusimple, fundador de bot.auto):
¿cuál es el principal problema que debe resolver la conducción autónoma l4? es seguridad, es redundancia., cuando todos los módulos de un sistema pueden fallar, el sistema aún puede garantizar la seguridad final. esta es la parte más difícil y crítica de l4. tiene que resolver el problema de seguridad antes de ganar dinero, pero este asunto no es en absoluto el propósito de diseño de tesla.
otro investigador de conducción autónoma l4 también analizó las diferencias entre l2 y l4 desde la perspectiva de hardware y software.
zhang hang (director científico senior de cruise):
la solución l4, en primer lugar, es que tenemos sensores relativamente potentes, que pueden ser difíciles de usar en escenarios l2, al menos no un lidar de tan alta precisión.
desde un punto de vista algorítmico, l2 puede estar más enfocado en ser más eficiente y reducir el costo a un nivel muy bajo. no requiere sensores particularmente costosos y puede requerir menos cálculos para lograr tal efecto. estos l2 en realidad no necesitan considerar este caso único entre un millón.
entonces, lo que buscamos en l4 es que la asistencia remota humana debe introducirse solo una vez por millón de millas o más. lo que buscamos es este caso entre un millón.
para resumir:la solución l4 utiliza sensores con mayor precisión, el chip tiene más potencia informática y puede manejar escenarios más completos.
sin embargo, en la solución l2, la consideración principal es el costo, por lo que el nivel de hardware será ligeramente menor. al mismo tiempo, para adaptarse al hardware de nivel inferior, el algoritmo prestará más atención a la eficiencia que a la seguridad. la frecuencia de adquisición de l2 será mucho mayor que la de l4.
entonces, ¿pueden las empresas l2 como tesla lograr efectos l4 mejorando el hardware y el software?
3. “dos cosas diferentes”
hou xiaodi (ex fundador y director ejecutivo de tusimple, fundador de bot.auto):
no apoyo la lenta evolución de l2 a l4 y l5. creo que este asunto es otra proposición falsa con fuertes propiedades de extrapolación.
con el tiempo, ¿pueden los delfines evolucionar hasta convertirse en civilización? creo que es posible, pero debemos saber que la civilización terrestre ya no puede tolerar la evolución de los delfines, porque ya hay empresas que lo han hecho. mi empresa está aquí para poner en práctica l4 lo más rápido posible. no tendré nada que ver contigo después de que aterrice en el suelo, ¿verdad? cuando el homo sapiens tomó la jabalina, no había delfines para crear la civilización.
en opinión de hou xiaodi,las empresas l4 existentes ya han construido barreras técnicas. bajo una competencia feroz, no darán a l2 la oportunidad de evolucionar.al mismo tiempo, algunas personas creen que esto no significa que la tecnología l4 sea más avanzada que l2, sino que todos apuntan a diferentes escenarios.
yu zhenhua (ex ingeniero de inteligencia artificial de tesla):
si decimos que l4 es realmente superior técnicamente y por delante de l2 como todo el mundo imagina, es absolutamente avanzado. entonces me gustaría preguntar por qué la tecnología l4 no se puede degradar directamente a l2.
de hecho, en los últimos años, debido a la presión de los ingresos, las empresas l4 han estado ayudando a los fabricantes de automóviles a fabricar l2, pero no pueden simplemente bajar de categoría, sino que básicamente tienen que volver a desarrollarlo.
entonces también sabemos que en los estados unidos, gm (general motors) es propietaria de la empresa cruise l4 y ford es propietaria de argo ai, que también es una empresa l4. ¿por qué gm no puede utilizar la tecnología de cruise en sus vehículos de producción en masa? ¿por qué ford no puede utilizar la tecnología l4 de argo ai en sus vehículos de producción? así que l4 no es en absoluto más avanzado que l2. en términos de dificultad técnica, no creo que si haces l4 parezcas muy avanzado.
¿por qué no se puede degradar directamente la tecnología l4 a l2 para su uso? zhang hang explicó que debido a que l4 utiliza especificaciones de hardware más altas y el algoritmo de l2 debe adaptarse a sensores con especificaciones más bajas y procesadores con menos potencia informática, las tecnologías de los dos no se pueden migrar directamente.
al igual que un diseñador de arquitectura a quien le confiscaron su computadora y solo le dieron una regla menos precisa, lápiz y papel, también tuvo que adaptarse a la nueva forma de dibujar.
zhang hang (director científico senior de cruise):
el problema que mencionaste anteriormente es la cantidad de cálculo. es imposible admitir la solución l2. colocamos una supercomputadora en el maletero de un automóvil.
al mismo tiempo, zhang hang también mostró una mente más abierta al comparar las tecnologías de l2 y l2, tiene una cobertura más amplia y necesita enfrentar más escenarios, y solo es necesario resolver problemas básicos. l4 tiene una cobertura limitada, pero presta más atención a varios detalles. entonces hay pros y contras entre los dos.
zhang hang (director científico senior de cruise):
la propia l4 no puede utilizarse como solución l2 simplemente simplificando el sistema existente y eliminando la redundancia, sino viceversa. si desea alcanzar los estándares l4 en l2, llevará mucho tiempo perfeccionarlo. necesita mucho tiempo para recopilar datos y luego acumular experiencia.
pero no creo que eso signifique que nuestra ruta técnica o profundidad técnica será mayor que l2. no creo que este sea necesariamente el caso. l4 puede tener muchos algoritmos que no son muy avanzados, pero se resuelven a través de algunos. diseño cuidadoso. estos son algunos problemas de cola larga muy detallados.
¿qué punto de vista apoyaría usted? puedes dejarnos un mensaje para contarnos. en nuestras entrevistas, diferentes personas tendrán sus propias respuestas a esta pregunta.
yu zhenhua (ex ingeniero de tesla l2):
creo que el público en general, e incluso algunas empresas l4, inculcarán un concepto en todos, es decir, la tecnología l4 es mejor que l3 y luego mejor que l2. creo que este es un escenario que rompe con sus restricciones para engañar al público, porque el robotaxi actual de l4 tiene escenarios muy restringidos y debe estar en una región específica. por ejemplo, waymo solo puede operar en una región de operación.
shao xuhui (inversionista socio gerente de foothill ventures):
personalmente, seguiré siendo optimista sobre las empresas l4, porque según esta lógica, l4 puede reducir la dimensionalidad y el ataque, pero si solo haces esto, no serás ascendido a l2, o será muy, muy difícil ser ascendido.
encuestado anónimo (ingeniero l4):
de hecho, no creo que exista un umbral particularmente difícil en la pila de tecnología. por ejemplo, si una empresa puede afirmar que es una empresa l2 hoy, entonces tal vez agregue algunas tecnologías nuevas mañana y también pueda ser l4, ¿verdad? ? todo depende de qué tecnología utilice en su aplicación, o qué nuevos avances tecnológicos tenga, ¿no?
hou xiaodi (ex fundador y director ejecutivo de tusimple, fundador de bot.auto):
la conducción asistida y la conducción sin conductor son dos cosas diferentes.
productores: hong jun, chen qian, autor: wang ziqin, editor: chen qian