notizia

Il miglior attore di SenseTime, Wang Xiaogang: Anche se l'approccio end-to-end "a due fasi" verrà implementato per altri dieci anni, non diventerà il "ChatGPT" per la guida intelligente.

2024-07-15

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


Wang Xiaogang, co-fondatore e capo scienziato di SenseTime Technology e presidente di Jueying Intelligent Automotive Business Group

Al WAIC 2024 appena concluso, SenseTime ha pubblicato un video one-shot.

Nel video, un veicolo UniAD dotato di sole 7 telecamere non solo può spostarsi liberamente attraverso strade di costruzione urbana, grandi incroci e incroci con semaforo senza immagini, ma può anche percorrere agevolmente strade rurali con condizioni di traffico complesse attraverso incroci asimmetrici senza segnaletica orizzontale. puoi evitare i veicoli fermi parcheggiati sul bordo della strada e i veicoli nelle corsie strette, e puoi anche svoltare a destra nelle curve ad ampia curvatura senza corsie.

Questa serie di movimenti di guida fluidi come la seta è impressionante. Dietro c’è la soluzione di guida autonoma end-to-end UniAD proposta da SenseTime Jueying, che è la prima nel settore a integrare percezione e processo decisionale.

Negli ultimi anni la guida intelligente è stata al centro dell’attenzione delle case automobilistiche, ma il livello di guida effettivo è spesso insoddisfacente. Dopo l’avvento di ChatGPT, l’industria della guida intelligente attende con impazienza lo stesso momento di cambiamento qualitativo.

In questo momento, "end-to-end" indica una direzione. Da quest’anno, il settore della guida intelligente presta sempre maggiore attenzione all’end-to-end. Che si tratti di aziende automobilistiche come Xpeng, Ideal, NIO o Great Wall o di fornitori di tecnologia come Huawei, Yuanrong Qixing e Haomo Zhixing, tutti hanno adottato il percorso end-to-end.

Già alla fine del 2022, SenseTime Jueying ha proposto UniAD, un modello generale per la guida autonoma integrata nella percezione e nel processo decisionale. Anche DriveAGI si basa in modo iterativo su UniAD. Utilizza modelli di grandi dimensioni multimodali per supportare soluzioni end-to-end per creare la prossima generazione di tecnologia di guida autonoma. Anche se incontri un'ambulanza sulla strada, con le capacità cognitive di DriveAGI, il veicolo può identificare e comprendere con precisione il bersaglio e dare la precedenza attivamente.


DriveAGI non solo può identificare le ambulanze, ma anche dare la precedenza in modo proattivo alle ambulanze in servizio.

Dopo due anni di pianificazione proattiva, i vantaggi di SenseTime Jueying di ingresso anticipato e iterazione rapida stanno gradualmente emergendo. Ha collaborato con più di 30 case automobilistiche nazionali ed estere, coprendo più di 90 modelli e ha consegnato un totale di 1,95 milioni di auto intelligenti. . Durante il processo di cooperazione, SenseTime Jueying e le case automobilistiche hanno trovato i rispettivi confini, sfruttato appieno i rispettivi vantaggi e stanno lavorando insieme per accelerare l'arrivo del "momento GPT" della guida autonoma.

Se il percorso tecnico è sbagliato, anche salire sull’autobus sarà vano”.

In un momento in cui molti attori si stanno riunendo per entrare nel campo end-to-end, Wang Xiaogang, co-fondatore, capo scienziato di SenseTime e presidente di Jueying Intelligent Automotive Business Group, ha spiegato all'app TMTpost Media perché è stato il primo a farlo concentrarsi sull'end-to-end?

Nel 2017, SenseTime e la giapponese Honda Motor hanno annunciato una collaborazione per sviluppare congiuntamente la tecnologia di guida autonoma L4. SenseTime stesso ha iniziato con la tecnologia di visione AI. A quel tempo, Honda ha chiesto a SenseTime di utilizzare solo fotocamere e implementare funzioni di guida intelligenti senza mappe ad alta precisione. Questo può essere visto come il prototipo di una soluzione end-to-end. Da allora, il team ha continuato a lavorare end-to-end.

Ora, sebbene la concorrenza end-to-end sia in pieno svolgimento, un problema comune è che il percorso tecnico end-to-end non ha ancora costituito la pratica migliore e ci sono differenze nel percorso tecnico.

Wang Xiaogang ha dichiarato a TMTpost App che la maggior parte delle attuali soluzioni end-to-end adottano una soluzione “a due fasi” più facile da implementare, ovvero composta da due modelli: percezione e processo decisionale. "La parte relativa alla percezione del primo paragrafo utilizza già le reti neurali, quindi non c'è molto cambiamento. Il cambiamento più grande è nella parte di pianificazione e controllo del secondo paragrafo. Originariamente questa parte veniva realizzata scrivendo regole, ma ora si applica anche reti neurali.

Tuttavia, a suo avviso, la soluzione "a due fasi" consiste nel collegare insieme due piccoli modelli e ottimizzarli congiuntamente end-to-end. Nella soluzione "a due stadi", dopo che le informazioni sono state filtrate dal modello di percezione, c'è molta perdita, lasciando solo alcune etichette come persone, automobili e oggetti, quindi il modello del secondo stadio è in realtà solo un piccolo modello. "La differenza fondamentale tra il piano a due fasi e quello a una fase è se si tratta dell'era dei piccoli modelli o dell'era dei grandi modelli."

Wang Xiaogang ha detto senza mezzi termini che anche se la soluzione “a due fasi” verrà implementata per altri 10 anni, non diventerà “ChatGPT” per la guida autonoma.

È proprio con queste problematiche in mente che fin dall'inizio della ricerca e sviluppo, SenseTime Jueying ha adottato una soluzione "one-step" che integra percezione, processo decisionale, pianificazione e altri moduli in un Transformer end-to-stack completo. modello finale per ottenere percezione e processo decisionale integrati. Cioè, l'input del sensore viene utilizzato per emettere direttamente la traiettoria del comportamento.

In questo processo, la macchina sintetizzerà le informazioni, penserà e giudicherà proprio come il cervello umano, proprio come se stessi leggendo un romanzo giallo. Ci sono vari personaggi e trame nel romanzo, comprese stanze segrete e misteri mentre stai leggendo il mistero romanzo Non è del tutto chiaro cosa succederà dopo. Attraverso i diversi personaggi e le trame del romanzo, puoi prevedere diverse possibilità per l'assassino. Ciò che fa il cervello della macchina è proprio come un romanzo giallo.

Tuttavia, sebbene vi sia una sola parola di differenza tra il piano a una fase e quello a due fasi, la difficoltà è molto diversa. Wang Xiaogang ha spiegato che con il percorso a una fase, la quantità di informazioni video sul front-end è molto grande, ma il segnale di uscita deve essere molto preciso, il che impone requisiti più elevati alla formazione, ai dati e alla pipeline dell'intera rete.

"La soluzione 'a uno stadio' è difficile, ma una volta appreso il modello, le sue capacità saranno molto forti. Questo è il momento 'ChatGPT' nella guida autonoma che stiamo perseguendo", ha affermato Wang Xiaogang.

Un puro modello di guida autonoma end-to-end non è la risposta definitiva alla guida autonoma”.

La scelta del percorso tecnico è il primo passo. Alla fine del 2022, SenseTime e i suoi laboratori congiunti hanno proposto UniAD, il primo modello universale del settore per la guida autonoma integrata nella percezione e nel processo decisionale, e hanno vinto il miglior articolo alla Conferenza internazionale sulla visione artificiale e il riconoscimento dei modelli (CVPR) del 2023, l'anno seguente.

Al Salone dell’Auto di Pechino di quest’anno, SenseTime Jueying ha dimostrato i risultati del vero veicolo su strada di UniAD, che può guidare liberamente su strade urbane e rurali. Subito dopo, al WAIC 2024, SenseTime ha mostrato una dimostrazione del veicolo UniAD nella vita reale su strade urbane complesse, strade rurali, ecc.

UniAD è un modello universale di guida autonoma end-to-end puro. Sebbene migliori le capacità di guida del sistema di guida intelligente, il modello di guida autonoma end-to-end puro non è la risposta definitiva alla guida autonoma. Wang Xiaogang ha affermato che un segno importante del fatto che le auto intelligenti diventino super-intelligenti è possedere ulteriormente le capacità di percezione, ragionamento, processo decisionale e interazione nel mondo aperto. Pertanto, SenseTime Jueying ha creato DriveAGI, un grande modello di guida intelligente basato sul grande modello multimodale.

La direzione evolutiva di DriveAGI è quella di rendere “interpretabile e interattiva” la guida intelligente end-to-end.

La cosiddetta spiegabilità significa che non solo consente ai veicoli di comprendere il complesso mondo reale in modo più simile agli esseri umani, di acquisire informazioni sulle motivazioni comportamentali dei vari partecipanti al traffico, di apprendere rapidamente varie regole del traffico, di cogliere informazioni stradali in continua evoluzione, ma anche di spiegare la guida decisioni agli utenti.

Ad esempio, se un veicolo che normalmente circola sul lato destro di una strada a due corsie è dotato di DriveAGI, quando trova un'ambulanza che si avvicina da dietro, può riconoscerla immediatamente e determinare che l'ambulanza è in servizio. Pertanto, si ritiene inizialmente che ci sia spazio per cambiare corsia sul lato sinistro della strada e che il lato destro della strada venga cambiato sul lato sinistro in tempo per garantire che l'ambulanza possa passare agevolmente e rapidamente. L'intero processo è simile al cervello umano: non solo può vedere chiaramente le diverse situazioni incontrate sulla strada, ma può anche pensare e giudicare in base alle regole del traffico ed eseguire azioni di guida corrette.

Interoperabilità significa che gli utenti non solo possono chiedere a DriveAGI di spiegare il loro processo decisionale, ma anche controllare il comportamento di guida autonoma attraverso istruzioni vocali o gestuali. Ad esempio, in futuro, con la guida autonoma, il sistema di navigazione ordinerà al veicolo di svoltare al prossimo incrocio per raggiungere la destinazione, ma il conducente sa che c'è una scorciatoia davanti a sé e potrà svoltare direttamente, quindi dovrà solo dire "svolta". sinistra direttamente" al sistema. Il sistema eseguirà questo comando in base alle condizioni stradali attuali.

Dal funzionamento in scatola nera e dall'output unidirezionale all'interpretabilità e all'interattività, il trucco chiave è come addestrare il modello.

Il primo elemento dell'addestramento del modello è una grande quantità di dati e parametri del modello di grandi dimensioni. Musk ha già parlato dell'importanza dei dati per i modelli di guida autonoma: vengono addestrati 1 milione di casi video, che sono appena sufficienti; 2 milioni, che è leggermente migliore; incredibile.

Wang Xiaogang ha anche affermato che l'attuale struttura della rete non è il segreto principale e che la struttura della rete di tutti è relativamente simile. La chiave è come ottenere un'eccellente qualità delle prestazioni con strutture di rete simili. Ciò dipende principalmente dal fatto che le dimensioni del modello siano sufficientemente grandi e che la pipeline di produzione dei dati sia potente.

Essendo stato profondamente coinvolto nel campo dell'intelligenza artificiale per dieci anni, SenseTime è stato implementato in molti settori, tra cui l'intelligenza urbana, il commercio, l'assistenza medica, la finanza, la guida autonoma e persino scenari industriali come l'acciaio, l'estrazione del carbone e l'energia elettrica. e ha accumulato una grande quantità di dati multimodali in vari settori. Il 5 luglio, SenseTime Jueying ha dimostrato dal vivo al WAIC 2024 che la soluzione di distribuzione per auto del modello 8B montata sulla piattaforma 200 TOPS+ aveva 8 miliardi di parametri.


SenseTime Jueying veicolo end-side 8B modello multimodale prestazioni

Se la quantità c’è, anche la qualità deve essere garantita. Wang Xiaogang ha affermato che non possiamo concentrarci solo sulla quantità di dati e sul numero di parametri del modello. Se non ci sono compiti difficili, anche se la quantità di dati e parametri aumenta, le capacità del modello gireranno solo sul posto.

Poi ha fatto un esempio: le api possono lavorare in un favo così complesso, così accuratamente e così bene, ma hanno sempre solo un'abilità e possono fare solo una cosa. Il cervello umano è diverso. Dopo migliaia di anni di evoluzione, gli esseri umani possono inviare satelliti e razzi nel cielo. "Questa è la differenza tra abilità generali e abilità esclusive. Un'ape fa solo una cosa per tutta la sua vita, due vite o tre vite. Proprio come un modello, se le fornisci solo dati su persone, automobili e oggetti, volontà. Potrà farlo solo per il resto della sua vita”.

Oltre ai dati, l’offerta di una potente potenza di calcolo è oggi il fattore più scarso e competitivo.

SenseTime Jueying è uno dei pochi principali fornitori di potenza di calcolo nel settore. A partire dal 2018, SenseTime ha iniziato a predisporre l'infrastruttura informatica e ha costruito un centro di calcolo intelligente AIDC a Lingang, Shanghai. Dispone di 45.000 GPU per fornire servizi di addestramento e inferenza di modelli di grandi dimensioni al mondo esterno e può addestrare modelli con centinaia di miliardi o addirittura. trilioni di parametri. Basandosi sul supporto di AIDC, la potenza di calcolo operativa di SenseTime Jueying ha raggiunto 12.000 P. Si prevede che entro il quarto trimestre del 2024 la potenza di calcolo di picco raggiungerà 25.000 P.

Non escludere la consegna della scatola bianca, solo quando la vegetazione prospera possiamo ottenere risultati ecologici vantaggiosi per tutti”.

Non importa quanto sia valida la tecnologia, la chiave sta ancora nella sua implementazione.

Wang Xiaogang ha introdotto che i prodotti di guida intelligente prodotti in serie da SenseTime Jueying sono stati lanciati su più marchi e modelli come GAC Aion LX Plus, Hezhong Nezha S, GAC Haopin GT e Hongqi High-speed NOA e hanno iniziato ad esserlo Allo stesso tempo, Jueying sta anche promuovendo la consegna di più modelli. All’inizio di giugno, GAC e FAW sono stati selezionati nel primo lotto di progetti pilota nazionali L3 e SenseTime Jueying ha fornito loro algoritmi di percezione orientati alla L3. Non solo, le molteplici soluzioni di guida intelligente attualmente prodotte in serie di SenseTime Jueying potranno essere aggiornate in futuro all'architettura end-to-end.

Hanno molti clienti e ordini, ma i fornitori di soluzioni tecnologiche rappresentati da SenseTime Jueying devono affrontare un problema: l'autoricerca da parte delle case automobilistiche.

Prendiamo Tesla come esempio: la sua caratteristica è che fa intelligenza artificiale e dispone di una grande quantità di infrastrutture, come migliaia di GPU, produce anche milioni di automobili ogni anno e conserva informazioni e dati sugli utenti finali.

Altre case automobilistiche seguiranno l’esempio? Ed è imitabile? Wang Xiaogang ha affermato che anche un'azienda potente e ricca di risorse umane come Microsoft ha scelto di eliminare il proprio team AI e collaborare invece con OpenAI.

Allo stesso tempo, ha spiegato che la cosiddetta "ricerca personale" non significa che devi fare tutto da solo, dall'inizio alla fine. La chiave è la controllabilità. "Finché i clienti dell'azienda automobilistica comprendono e assumono l'iniziativa di controllare tutto ciò che accade e possono utilizzare le proprie piattaforme per ripetere i prodotti, questo è sufficiente."

Pertanto, in termini di metodi di cooperazione, in passato SenseTime Jueying tendeva a fornire il codice come una scatola nera, ritenendo che questa fosse la risorsa più preziosa. Ma Wang Xiaogang ha rivelato che ora SenseTime Jueying non rifiuta la consegna della scatola bianca. Perché anche se il codice viene fornito, la competitività può essere rapidamente migliorata attraverso un’iterazione e una cooperazione più approfondite.

Inoltre, la cooperazione può anche aiutare le aziende automobilistiche a risparmiare denaro. "Abbiamo investito più di 10 miliardi in modelli di grandi dimensioni e nel frattempo abbiamo creato la nostra infrastruttura, grandi installazioni e servizi cloud redditizi per raggiungere il pareggio. Lavorando con noi, le case automobilistiche non dovranno sostenere questo onere. Alcuni investimenti enormi I produttori di automobili non hanno bisogno di essere coinvolti in queste aree, apriremo le risorse pertinenti ai produttori di automobili”.

Tuttavia, ha anche ammesso che uno dei problemi incontrati nella collaborazione con le case automobilistiche è la mancanza di feedback sui dati. Di solito il feedback dei dati terminali si basa sull'iniziativa fornita dal produttore dell'auto, il che può portare a un'iterazione e a un ciclo dei dati inefficienti. Pertanto è particolarmente importante una collaborazione approfondita con i clienti delle case automobilistiche.

Attraverso la consegna della scatola bianca, SenseTime Jueying aiuta i partner delle case automobilistiche a comprendere la tecnologia dei modelli di grandi dimensioni e a padroneggiare il know-how. D'altra parte, gli OEM come partner possono condividere dati e informazioni che non implicano privacy e riservatezza con Jueying modello di grandi dimensioni nativo per veicolo, e le due parti lo svilupperanno congiuntamente per accelerare l'iterazione del prodotto e creare un prodotto di grande modello AI nativo per auto intelligente realmente incentrato sull'utente.

Sulla base dell'abbondante potenza di calcolo leader del settore e delle capacità del modello di grandi dimensioni "Ririxin" leader a livello mondiale e attraverso un modello di cooperazione strategica più approfondito, SenseTime Jueying creerà una situazione vantaggiosa per tutti con molti partner come gli OEM.

SenseTime Jueying ha fissato il tempo di lancio del modello di grandi dimensioni end-to-end nel 2025. Wang Xiaogang ha affermato che quando è uscito ChatGPT, non tutto è stato fatto perfettamente. Ad esempio, quando GPT 3.5 stava eseguendo le attività, c'erano molte cose che non potevano fare del bene. Ma la chiave è che tutti abbiano visto la direzione giusta. Non ci sono problemi a seguire questa strada, ma ci vorrà ancora qualche mese di iterazione. Lo stesso vale per l'end-to-end.

Allo stesso tempo, ha anche affermato con sicurezza che quando la produzione di massa end-to-end di SenseTime Jueying inizierà il prossimo anno, gli utenti vedranno cose che prima erano completamente impossibili da fare in alcuni scenari, e quelle saranno le nuove funzionalità che emergeranno.

Wu Xinzhou, vicepresidente della divisione automobilistica di NVIDIA, una volta ha dichiarato pubblicamente che end-to-end è la canzone finale della trilogia di guida intelligente. Verso la fine, Shangtang Jueying merita concentrazione e aspettative.