Wang Xiaogang, mejor actor de SenseTime: Incluso si el enfoque de "dos etapas" de un extremo a otro se implementa durante otros diez años, no se convertirá en el "ChatGPT" de la conducción inteligente

Wang Xiaogang, mejor actor de SenseTime: Incluso si el enfoque de extremo a extremo de "dos etapas" se implementa durante otros diez años, no se convertirá en el "ChatGPT" de la conducción inteligente.

2024-07-15

Wang Xiaogang, cofundador y científico jefe de SenseTime Technology y presidente de Jueying Intelligent Automotive Business Group

En el WAIC 2024 recién concluido, SenseTime lanzó un video one-shot.

En el video, un vehículo UniAD equipado con solo 7 cámaras no solo puede desplazarse libremente a través de caminos de construcción urbana, grandes intersecciones e intersecciones con semáforos sin imágenes, sino que también puede navegar suavemente por caminos rurales con condiciones de tráfico complejas a través de intersecciones asimétricas sin marcas. puede evitar vehículos parados estacionados al costado de la carretera y vehículos en carriles estrechos, y también puede girar a la derecha en curvas grandes sin carriles.

Esta serie de movimientos de conducción suaves como la seda es impresionante. Detrás está la solución de conducción autónoma integral UniAD propuesta por SenseTime Jueying, que es la primera en la industria en integrar la percepción y la toma de decisiones.

En los últimos años, la conducción inteligente ha sido el foco de atención de las empresas de automóviles, pero el nivel de conducción real suele ser insatisfactorio. Después del surgimiento de ChatGPT, la industria de la conducción inteligente esperaba con ansias el mismo momento de cambio cualitativo.

En este momento, "de un extremo a otro" señala una dirección. Desde este año, la industria de la conducción inteligente ha prestado cada vez más atención de principio a fin. Ya sean empresas automotrices como Xpeng, Ideal, NIO o Great Wall, o proveedores de tecnología como Huawei, Yuanrong Qixing y Haomo Zhixing, todos han recurrido a la ruta de extremo a extremo.

A finales de 2022, SenseTime Jueying propuso UniAD, un modelo general para la conducción autónoma integrada en la percepción y la toma de decisiones. DriveAGI también se basa iterativamente en UniAD. Utiliza grandes modelos multimodales para admitir soluciones de un extremo a otro. para crear la próxima generación de tecnología de conducción autónoma. Incluso si se encuentra con una ambulancia en la carretera, con las capacidades cognitivas de DriveAGI, el vehículo puede identificar y comprender con precisión el objetivo y ceder el paso activamente.

DriveAGI no sólo puede identificar ambulancias, sino también dar paso de forma proactiva a las ambulancias de servicio.

Después de dos años de planificación proactiva, las ventajas de entrada temprana y rápida iteración de SenseTime Jueying están surgiendo gradualmente. Ha cooperado con más de 30 empresas de automóviles nacionales y extranjeras, cubriendo más de 90 modelos, y ha entregado un total de 1,95 millones de automóviles inteligentes. . Durante el proceso de cooperación, SenseTime Jueying y las empresas automotrices encontraron sus respectivos límites, aprovecharon al máximo sus respectivas ventajas y están trabajando juntos para acelerar la llegada del "momento GPT" de la conducción autónoma.

Si la ruta técnica es incorrecta, incluso subir al autobús será en vano”.

En un momento en el que muchos jugadores se están reuniendo para ingresar al campo de un extremo a otro, Wang Xiaogang, cofundador, científico jefe de SenseTime y presidente de Jueying Intelligent Automotive Business Group, explicó en la aplicación TMTpost Media por qué fue el primero en ¿Centrarse en el extremo a extremo?

En 2017, SenseTime y Honda Motor de Japón anunciaron una cooperación para desarrollar conjuntamente la tecnología de conducción autónoma L4. El propio SenseTime comenzó con tecnología de visión de IA. En ese momento, Honda le pidió a SenseTime que usara solo cámaras e implementara funciones de conducción inteligentes sin mapas de alta precisión. Esto puede verse como el prototipo de una solución de extremo a extremo. Desde entonces, el equipo ha seguido trabajando de principio a fin.

Ahora, aunque la competencia de un extremo a otro está en pleno apogeo, un problema común es que la ruta técnica de un extremo a otro aún no se ha convertido en la mejor práctica y existen diferencias en la ruta técnica.

Wang Xiaogang dijo a la aplicación TMTpost que la mayoría de las soluciones de extremo a extremo actuales adoptan una solución de "dos etapas" que es más fácil de implementar, es decir, que consta de dos modelos: percepción y toma de decisiones. "La parte de percepción del primer párrafo ya utiliza redes neuronales, por lo que no hay muchos cambios. El mayor cambio se produce en la parte de planificación y control del segundo párrafo. Originalmente, esta parte se realizó escribiendo reglas, pero ahora también se aplica redes neuronales.

Sin embargo, en su opinión, la solución de "dos etapas" consiste en conectar dos modelos pequeños y optimizarlos conjuntamente de un extremo a otro. En la solución de "dos etapas", después de que el modelo de percepción filtra la información, hay muchas pérdidas, dejando solo algunas etiquetas como personas, automóviles y objetos, por lo que el modelo de la segunda etapa es en realidad solo una pequeña modelo. "La diferencia fundamental entre el plan de dos etapas y el plan de una etapa es si es la era de los modelos pequeños o la era de los modelos grandes".

Wang Xiaogang dijo sin rodeos que incluso si la solución de "dos etapas" se implementa durante otros 10 años, no se convertirá en "ChatGPT" para la conducción autónoma.

Precisamente con estas cuestiones en mente, desde el comienzo de la investigación y el desarrollo, SenseTime Jueying ha adoptado una solución de "un solo paso" que integra la percepción, la toma de decisiones, la planificación y otros módulos en un transformador de pila completa de extremo a extremo. modelo final para lograr una percepción y toma de decisiones integradas. Es decir, la entrada del sensor se utiliza para generar directamente la trayectoria del comportamiento.

En este proceso, la máquina sintetizará información y pensará y juzgará como el cerebro humano, como si estuvieras leyendo una novela de misterio. Hay varios personajes y tramas en la novela, incluidas habitaciones secretas y misterios. novela No está del todo claro qué pasará a continuación. A través de los diferentes personajes y tramas de la novela, se pueden predecir varias posibilidades para el asesino. Lo que hace el cerebro de la máquina es como en una novela de misterio.

Sin embargo, aunque sólo hay una palabra de diferencia entre el plan de una etapa y el plan de dos etapas, la dificultad es muy diferente. Wang Xiaogang explicó que con la ruta de una etapa, la cantidad de información de video en el extremo frontal es muy grande, pero la señal de salida debe ser muy precisa, lo que impone mayores requisitos en cuanto a la capacitación, los datos y la canalización de toda la red.

"La solución de 'una etapa' es difícil, pero una vez que se aprende el modelo, sus capacidades serán muy sólidas. Este es el momento 'ChatGPT' en la conducción autónoma que estamos persiguiendo", dijo Wang Xiaogang.

Un modelo de conducción autónoma puro de extremo a extremo no es la respuesta definitiva a la conducción autónoma”.

La elección de la ruta técnica es el primer paso. A finales de 2022, SenseTime y sus laboratorios conjuntos propusieron UniAD, el primer modelo universal de la industria para la conducción autónoma integrada en la percepción y la toma de decisiones, y ganaron el mejor artículo en la Conferencia Internacional sobre Visión por Computadora y Reconocimiento de Patrones (CVPR) de 2023. año siguiente.

En el Salón del Automóvil de Beijing de este año, SenseTime Jueying demostró los resultados del vehículo real de UniAD en la carretera, que puede circular libremente por vías urbanas y rurales. Inmediatamente después, en WAIC 2024, SenseTime mostró una demostración de vehículo real de UniAD en caminos urbanos complejos, caminos rurales, etc.

UniAD es un modelo universal de conducción autónoma puramente visual de extremo a extremo. Aunque mejora las capacidades de conducción del sistema de conducción inteligente, el modelo de conducción autónoma pura de extremo a extremo no es la respuesta final a la conducción autónoma. Wang Xiaogang dijo que una señal importante de que los automóviles inteligentes se están volviendo superinteligentes es poseer aún más capacidades de percepción, razonamiento, toma de decisiones e interacción en el mundo abierto. Por lo tanto, SenseTime Jueying ha creado DriveAGI, un gran modelo de conducción inteligente basado en el modelo grande multimodal.

La dirección evolutiva de DriveAGI es hacer que la conducción inteligente de un extremo a otro sea "interpretable e interactiva".

La denominada explicabilidad significa que no sólo permite a los vehículos comprender el complejo mundo real de forma más parecida a los humanos, obtener información sobre las motivaciones de comportamiento de los distintos participantes del tráfico, aprender rápidamente diversas normas de tráfico, captar información vial en constante cambio, sino también explicar la conducción. decisiones al proceso de razonamiento de los usuarios.

Por ejemplo, si un vehículo que normalmente conduce por el lado derecho de una carretera de dos carriles está equipado con DriveAGI, cuando encuentra una ambulancia acercándose por detrás, puede reconocerla inmediatamente y determinar que la ambulancia está de servicio. Por lo tanto, se juzga por primera vez que hay espacio para cambiar de carril en el lado izquierdo de la carretera, y el lado derecho de la carretera se cambia al lado izquierdo a tiempo para garantizar que la ambulancia pueda pasar sin problemas y rápidamente. Todo el proceso es similar al cerebro humano. No sólo puede ver claramente las diferentes situaciones que se encuentran en la carretera, sino que también puede pensar y juzgar basándose en las normas de tráfico y realizar acciones de conducción correctas.

La interoperabilidad significa que los usuarios no sólo pueden pedirle a DriveAGI que les explique su proceso de toma de decisiones, sino también controlar el comportamiento de conducción autónoma mediante instrucciones de voz o gestos. Por ejemplo, en el futuro, bajo conducción autónoma, la navegación indica al vehículo que dé la vuelta en la siguiente intersección para llegar al destino, pero el conductor sabe que hay un atajo más adelante y puede girar directamente, luego solo necesita decir "girar". izquierda directamente" al sistema. El sistema ejecutará este comando basándose en las condiciones actuales de la carretera.

Desde la operación de caja negra y la salida unidireccional hasta la interpretabilidad y la interactividad, el truco clave es cómo entrenar el modelo.

El primer elemento del entrenamiento de modelos es una gran cantidad de datos y grandes parámetros del modelo. Musk ha hablado anteriormente de la importancia de los datos para los modelos autónomos: 1 millón de cajas de video están entrenadas, que es apenas suficiente; 2 millones, que es un poco mejor, se sentirá increíble con 10 millones; increíble.

Wang Xiaogang también dijo que la estructura de red actual no es el secreto central y que la estructura de red de todos es relativamente similar. La clave es cómo lograr una excelente calidad de rendimiento en estructuras de red similares. Esto depende principalmente de si el tamaño del modelo es lo suficientemente grande y si el proceso de producción de datos es potente.

Habiendo estado profundamente involucrado en el campo de la IA durante diez años, SenseTime se ha implementado en muchas industrias, incluidas la inteligencia urbana, el comercio, la atención médica, las finanzas, la conducción autónoma e incluso escenarios industriales como el acero, la minería del carbón y la energía eléctrica. y ha acumulado una gran cantidad de datos multimodales en diversas industrias. El 5 de julio, SenseTime Jueying demostró en vivo en WAIC 2024 que la solución de implementación del extremo del automóvil modelo 8B montada en la plataforma 200 TOPS+ tenía 8 mil millones de parámetros.

Rendimiento del modelo multimodal 8B del extremo del vehículo SenseTime Jueying

Si hay cantidad, también hay que garantizar la calidad. Wang Xiaogang dijo que no podemos centrarnos simplemente en la cantidad de datos y la cantidad de parámetros del modelo. Si no hay una tarea difícil, incluso si se aumenta la cantidad de datos y parámetros, las capacidades del modelo solo girarán en su lugar.

Luego puso un ejemplo: Las abejas pueden trabajar en un panal tan complejo, con tanta precisión y tan bien, pero siempre tienen una única habilidad y sólo pueden hacer una cosa. El cerebro humano es diferente. Después de miles de años de evolución, los humanos pueden enviar satélites y cohetes al cielo. "Esta es la diferencia entre habilidades generales y habilidades exclusivas. Una abeja solo hace una cosa durante toda su vida, dos o tres vidas. Al igual que un modelo, si solo le das datos sobre personas, automóviles y objetos, Sólo podrá hacer esto por el resto de su vida”.

Además de los datos, el suministro de potente potencia informática es el factor más escaso y competitivo en la actualidad.

SenseTime Jueying es uno de los pocos proveedores importantes de energía informática de la industria. A partir de 2018, SenseTime comenzó a diseñar una infraestructura informática y construyó un centro informático inteligente AIDC en Lingang, Shanghai. Tiene 45.000 GPU para proporcionar servicios de inferencia y entrenamiento de modelos a gran escala al mundo exterior, y puede entrenar modelos con cientos de miles de millones o incluso. billones de parámetros. Con el apoyo de AIDC, la potencia informática operativa de SenseTime Jueying ha alcanzado los 12.000 P. Se espera que para el cuarto trimestre de 2024, la potencia informática máxima alcance los 25.000 P.

No excluyamos la entrega de cajas blancas, sólo cuando la vegetación prospere podremos lograr resultados ecológicos beneficiosos para todos”.

Por muy buena que sea la tecnología, la clave sigue estando en su implementación.

Wang Xiaogang presentó que los productos de conducción inteligente producidos en masa de SenseTime Jueying se han lanzado en múltiples marcas y modelos, como GAC Aion LX Plus, Hezhong Nezha S, GAC Haopin GT y Hongqi, y también han comenzado a estar disponibles otras funciones. implementado Al mismo tiempo, Jueying también está promoviendo la entrega de más modelos. A principios de junio, GAC y FAW fueron seleccionados para el primer lote de proyectos piloto nacionales de L3, y SenseTime Jueying les proporcionó algoritmos de percepción orientados a L3. No solo eso, las múltiples soluciones de conducción inteligente actuales producidas en masa de SenseTime Jueying se pueden actualizar a una arquitectura de extremo a extremo en el futuro.

Tienen muchos clientes y pedidos, pero los proveedores de soluciones tecnológicas representados por SenseTime Jueying tienen que enfrentarse a un problema: la autoinvestigación por parte de las empresas automovilísticas.

Tomemos como ejemplo a Tesla. Su característica es que utiliza inteligencia artificial y tiene una gran cantidad de infraestructura, como miles de GPU. También produce millones de automóviles cada año y almacena información y datos del usuario final.

¿Harán lo mismo otras empresas automovilísticas? ¿Y se puede imitar? Wang Xiaogang dijo que incluso una empresa tan poderosa y rica en recursos humanos como Microsoft ha optado por cortar su equipo de IA y en su lugar cooperar con OpenAI.

Al mismo tiempo, explicó que la llamada "autoinvestigación" no significa que tengas que hacerlo todo tú mismo de principio a fin. La clave es la controlabilidad. "Mientras los clientes de la compañía automovilística entiendan y tomen la iniciativa en el control de todo lo que sucede, y puedan utilizar sus propias plataformas para iterar productos, eso es suficiente".

Por lo tanto, en términos de métodos de cooperación, en el pasado, SenseTime Jueying tendía a entregar el código como una caja negra, creyendo que era el activo más valioso. Pero Wang Xiaogang reveló que ahora SenseTime Jueying no rechaza la entrega de caja blanca. Porque incluso si se proporciona el código, la competitividad se puede mejorar rápidamente mediante una iteración y una cooperación más profundas.

Además, la cooperación también puede ayudar a las empresas de automóviles a ahorrar dinero. "Hemos invertido más de 10 mil millones en modelos grandes y en el proceso hemos creado nuestra propia infraestructura, grandes instalaciones y rentables servicios en la nube para alcanzar el punto de equilibrio. Al trabajar con nosotros, las empresas automotrices no tendrán que soportar esta carga. Algunas inversiones enormes "Los fabricantes de automóviles no necesitan involucrarse en estas áreas, abriremos los recursos pertinentes a los fabricantes de automóviles".

Sin embargo, también admitió que uno de los problemas que surgen en la cooperación con las empresas automovilísticas es la falta de información sobre los datos. Por lo general, la retroalimentación de los datos del terminal depende de la iniciativa proporcionada por el fabricante del automóvil, lo que puede dar lugar a iteraciones y ciclos de datos ineficientes. Por eso es especialmente importante una estrecha colaboración con los clientes de las empresas automovilísticas.

A través de la entrega de caja blanca, SenseTime Jueying ayuda a los socios de las empresas automotrices a comprender la tecnología de modelos grandes y dominar el conocimiento. Por otro lado, los OEM, como socios, pueden compartir datos e información que no implican privacidad ni confidencialidad con Jueying. modelo grande nativo del vehículo, y las dos partes lo desarrollarán conjuntamente para acelerar la iteración del producto y crear un producto de modelo grande de IA nativo nativo del automóvil inteligente verdaderamente centrado en el usuario.

Sobre la base de la abundante potencia informática líder en la industria y las capacidades del modelo grande "Ririxin" líder en el mundo, y a través de un modelo de cooperación estratégica más profunda, SenseTime Jueying creará una situación beneficiosa para todos con muchos socios, como los OEM.

SenseTime Jueying ha fijado el tiempo de lanzamiento del modelo grande de extremo a extremo en 2025. Wang Xiaogang dijo que cuando salió ChatGPT, no todo se hizo a la perfección. Por ejemplo, cuando GPT 3.5 estaba realizando tareas, había muchas cosas que no podía hacer. hazlo bien. Pero la clave es que todos han visto la dirección correcta. No hay problema en seguir este camino, pero llevará algunos meses más de iteración. Lo mismo ocurre de un extremo a otro.

Al mismo tiempo, también afirmó con confianza que cuando la producción en masa de extremo a extremo de SenseTime Jueying comience el próximo año, los usuarios verán cosas que antes eran completamente imposibles de hacer en algunos escenarios, y esas serán las nuevas capacidades que surgirán.

Wu Xinzhou, vicepresidente de la división automotriz de NVIDIA, afirmó una vez públicamente que de extremo a extremo es la canción final de la trilogía de conducción inteligente. En el camino hacia el final, Shangtang Jueying merece atención y expectativas.

noticias

Wang Xiaogang, mejor actor de SenseTime: Incluso si el enfoque de extremo a extremo de "dos etapas" se implementa durante otros diez años, no se convertirá en el "ChatGPT" de la conducción inteligente.

Introducción

Mi informacion de contacto