notizia

Dialogo tra Lang Xianpeng e Jia Peng, uno scarso rendimento, perché ha consegnato il suo documento in anticipo?

2024-08-02

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina



Guida intelligente, inizia una corsa costosa. Determinare la classifica e determinare il futuro.

Testo丨Cheng Manqi Dou Yajuan
Redattore丨Song Wei

Il dottor Gu Junli, che ha lavorato per Tesla e Xpeng, ha affermato che i progressi della ricerca e dello sviluppo sulla guida intelligente in Cina sono almeno 1,5-2 anni indietro rispetto a Tesla. Lang Xianpeng, vicepresidente di Lideal Zhijia, ritiene che il divario non sia così grande e che Lideal rimanga indietro di almeno sei mesi in termini di esperienza del prodotto.

Ideal sottolinea che il suo vantaggio nella guida intelligente è che ha più auto e più dati He Xiaopeng, fondatore di Nonsense”.

La guerra dei prezzi infuria ancora e le nuove forze automobilistiche cinesi sono entrate collettivamente in un nuovo campo di battaglia: la guida intelligente, piena di differenze, controversie e rincorse.

Non tutte le case automobilistiche possono permettersi questo biglietto. Gli investimenti in ricerca e sviluppo nella guida intelligente sono iniziati con 3 miliardi di RMB e aumentano di anno in anno. Idealmente, noleggiare una carta costa ora 1 miliardo di yuan all’anno e in futuro costerà 1 miliardo di dollari.

Il motivo per cui le nuove forze sono così pazze e non disposte a restare indietro è perché hanno visto gli enormi progressi di Tesla FSD V12 (una nuova versione di guida completamente autonoma che Tesla inizierà a promuovere in massa nel gennaio 2024), e hanno anche visto l'impatto delle capacità di guida intelligente sulle decisioni dei consumatori. Nel settembre dello scorso anno, Huawei ha annunciato che avrebbe lanciato una soluzione senza immagini che avrebbe potuto essere utilizzata a livello nazionale entro la fine dell’anno. Allo stesso tempo, l’industria stava promuovendo fortemente la guida intelligente. In un solo mese, il volume delle vendite mensili, che si aggirava sulle migliaia, ha superato le 10.000 unità e alla fine dell'anno ha raggiunto la soglia delle 30.000.

Non molto tempo dopo che Huawei aveva annunciato il suo piano radicale di guida intelligente, Ideal ha tenuto la riunione strategica autunnale del 2023 e ha chiarito che la guida intelligente è una strategia fondamentale e non deve essere persa. Il CEO Li vuole dire: “Diventeremo il leader assoluto nella guida intelligente entro il 2024”.

Da allora, Ideal ha accelerato l'iterazione e fatto progressi su due fronti: utilizzando NPN (Neural Prior Net, algoritmo neurale a priori, che utilizza informazioni a priori di alcune strade e mappe per aiutare a identificare le caratteristiche stradali e ridurre la dipendenza da mappe ad alta precisione ), stiamo finalmente recuperando terreno. La NOA delle cento città è stata lanciata alla fine dello scorso anno, nello stesso periodo la NOA senza immagini è stata pre-sviluppata nell'ottobre dello scorso anno e il test interno con migliaia di persone è iniziato quattro volte. mesi dopo, ed è stato lanciato completamente nel luglio di quest’anno.

Con l’arrivo dell’estate, non c’è tempo per respirare e nuove forze stanno entrando nella prossima battaglia: end-to-end, un termine tecnico che la maggior parte dei consumatori non capisce, ed è diventato un campo di battaglia per gli strateghi militari.

L’importanza dell’end-to-end è che porta la ricerca e lo sviluppo sulla guida intelligente nell’era dell’intelligenza artificiale, senza più fare affidamento su molta programmazione manuale. Finché verranno utilizzati più dati per addestrare il modello, il sistema continuerà diventare più forti e possono avere prestazioni migliori rispetto ai conducenti umani. Musk ritiene che ciò avvicini molto gli esseri umani alla guida completamente autonoma.

Ideal questa settimana ha lanciato un test interno con un migliaio di persone della nuova architettura "end-to-end + VLM (Visual Language Large Model)", definendolo un modello più avanzato e la prima implementazione al mondo di un doppio sistema. Un modello significa che i moduli di percezione e decisionali della guida autonoma sono tutti completati da un modello. L’input sono i dati dei sensori e l’output è la traiettoria di guida.



La guida autonoma ha tre moduli: percezione, pianificazione e processo decisionale e controllo. Si basa sulla percezione per "vedere", sul processo decisionale per "pensare" come guidare e sul modulo di controllo per completare il comportamento di guida. La tecnologia end-to-end va dalla percezione al processo decisionale e l'intero processo viene implementato utilizzando un modello di grandi dimensioni.

In questo periodo, Weilai ha annunciato la produzione di massa dell'AEB (funzione di frenata di emergenza) end-to-end all'inizio di luglio Xiaopeng ha ribadito questa settimana di essere l'unica azienda automobilistica al mondo a realizzare la produzione di massa di grandi dimensioni end-to-end; L'altro è ovviamente Tesla Pull. Se si includono i fornitori, Huawei e Momenta hanno completato il lancio end-to-end quest'anno.

Ideal inizierà a sviluppare la propria guida intelligente solo nel 2021, due anni dopo Weilai e Xpeng. L'attuale progresso dell'Ideale è come uno scarso rendimento che all'improvviso conosce la risposta e consegna il documento in anticipo.

In questo momento abbiamo parlato con Lang Xianpeng, vicepresidente di Ideal Intelligent Driving, e Jia Peng, capo della ricerca e sviluppo sulla tecnologia di guida intelligente ideale. Spiegano come si ottiene questo risultato.

Lang Xianpeng è un pilota intelligente a cui piace dare nomi ai progetti chiave secondo la mitologia greca. È un dottore in riconoscimento di modelli e sistemi intelligenti. Le campagne che ha completato in Ideal includono "Acropoli", "Iliade" e "Titano". Nel 2018, Lang Xianpeng è entrato in Ideal da Baidu come direttore della guida autonoma e successivamente è stato promosso a vicepresidente.

Jia Peng è un giovane responsabile della ricerca e sviluppo tecnologico. È stata una delle prime persone a dedicarsi alla guida intelligente presso NVIDIA in Cina. Ha visto che il colosso dei chip è stato il primo a proporre modelli end-to-end di guida autonoma su larga scala, ma ha scoperto che solo le case automobilistiche possono realmente implementarli.

Le aziende pienamente impegnate nell’approccio end-to-end hanno percorsi e progressi diversi, ma condividono un’ambizione e un’unica direzione tecnica: raggiungere infine la guida autonoma L4.

Vediamo la mania odierna per la guida intelligente e end-to-end, non solo per convinzioni tecniche, ma anche per concorrenza, mentalità dell'utente e classifiche di vendita.

È una gara costosa. Il costo non riguarda solo le enormi spese per il reclutamento di persone, l’acquisto di GPU e modelli di formazione. Prima che L4 venga veramente realizzato, ci sarà ancora un essere umano seduto al posto di guida. Sicurezza, affidabilità e stabilità sono gli standard di prova dell'utente per l'attuale guida intelligente.

Quelli con risultati inferiori consegnano i documenti

"Late": Ideal inizierà la guida intelligente sviluppata autonomamente solo nel 2021, più tardi di Xpeng e NIO, ed è sempre stata in uno stato di recupero. Fino a quest’anno, è passato direttamente da NPN a NOA senza immagini, per poi iniziare i test interni end-to-end con migliaia di persone questa settimana. Qualcuno ha commentato: perché gli studenti con risultati inferiori hanno improvvisamente consegnato i loro documenti in anticipo?

Lang Xianpeng: Potrebbe essere un contrattacco di diaosi.

L'anno scorso abbiamo realizzato tre generazioni, dai grafici alle "informazioni precedenti" NPN al senza grafico. Nel giugno di quest'anno è stata verificata l'architettura end-to-end ed è stata proposta anche l'architettura del sistema veloce e lento. Il sistema veloce è end-to-end, ovvero la capacità di elaborare rapidamente le informazioni per la guida lenta; sistema è VLM (Visual Language Model), ovvero la capacità di gestire scenari complessi.

Inoltre, il nostro end-to-end è un modello, l'input è il sensore e l'output è la traiettoria di guida, il tutto implementato da un modello, senza regole intermedie. Ad eccezione di Tesla, altre case automobilistiche hanno implementato l’end-to-end solo in un determinato collegamento.

"In ritardo": il tuo primo progresso chiave: dalla soluzione NPN a nessuna immagine, hai iniziato a verificarlo nell'ottobre dello scorso anno, è stato testato internamente a febbraio di quest'anno ed è stato lanciato completamente a luglio. Ci sono voluti solo 4 mesi per completare il passaggio. Sembra incredibile. Come hai fatto?

Lang Xianpeng: Siamo più efficienti e più veloci degli altri. Ad esempio, consente di risparmiare molto processo decisionale. Dal decidere cosa fare, all'elaborazione di un piano, alla riunione della squadra, potrebbe volerci solo una settimana. Se si tratta di un'azienda automobilistica tradizionale, potrebbero essere necessari 3 mesi per avviare il progetto.

"Più tardi": a cosa hai rinunciato per questo?

Lang Xianpeng: Forse è una rottura personale. Tutti conoscono gli obiettivi dell'azienda e non abbiamo possibilità di ritirarsi.

Jia Peng: Ci sono abituato anch'io. Mi sono dimesso da NVIDIA e sono entrato a far parte di Ideal nel 2020. L'ambiente che abbiamo sempre affrontato è quello in cui abbiamo risultati inferiori e veniamo rimproverati dai nostri genitori ogni giorno.

"Più tardi": questo genitore è Li Xiang?

Jia Peng: È un utente.

"Più tardi": Sembra che la direzione del tuo percorso verso la tecnologia di guida intelligente sia molto chiara: imparare da Tesla. Come l'hai imparato nello specifico?

Lang Xianpeng: Tutti penseranno che la ricerca e lo sviluppo tecnologico richiedano tempo, ma ciò che spesso è necessario non è tempo di ricerca e sviluppo, ma tempo di tentativi ed errori. Tesla è davvero un buon punto di riferimento Se non riesce a funzionare attraverso tentativi ed errori, non lasceremo.

L'evoluzione e l'iterazione di Tesla FSD ci hanno dimostrato che il successo può essere raggiunto senza immagini. Scegli NPN o nessuna immagine? Ora che Tesla è uscita sul mercato, non abbiamo scelto alcuna immagine, quindi abbiamo effettuato il passaggio nel giro di pochi mesi.

Ma la più grande ispirazione di Tesla per noi è come passare da 0 a 1 e da 1 a 10 nella ricerca e sviluppo sulla guida autonoma. Tesla ha utilizzato per la prima volta la soluzione del fornitore Mobileye per la guida intelligente, ma presto ha scoperto che il fornitore non poteva soddisfare le sue esigenze, quindi ha iniziato una ricerca personale nel 2016, ha vissuto un periodo di shock e alla fine ha raggiunto i risultati di Mobileye. Nel 2019, ha sviluppato il proprio chip FSD e disponeva di hardware per supportare la ricerca e lo sviluppo dell'intelligenza artificiale. Da allora, è emerso end-to-end. Utilizza essenzialmente le funzionalità dell'intelligenza artificiale per la guida intelligente.

"Più tardi": il nucleo del V12 è end-to-end In effetti, la versione V11 lanciata da Tesla all'inizio del 2023 era priva di immagini. Perché non l'hai imparato in quel momento?

Lang Xianpeng: È come se tutti pensassero che la matematica avanzata sia molto importante, ma se non conosci le quattro operazioni aritmetiche, come puoi imparare bene la matematica avanzata?

Ne ho parlato anche con Wu Xinzhou (ex capo della guida intelligente di Xiaopeng). Siamo tutti d’accordo sul fatto che l’intero processo può essere accelerato, ma non saltato. Tutti lo fanno end-to-end, ma dal grafico, NPN, nessun grafico all'end-to-end, ogni passaggio non può essere omesso. Saltando questi passaggi, in realtà stai perdendo gran parte della comprensione tecnica.

Se non avessimo provato a costruire una NOA di cento città nella seconda metà dello scorso anno, non avremmo una comprensione così chiara del fallimento della NPN. Solo in termini di scala, ci sono solo da 30.000 a 400.000 chilometri di autostrade nel paese, ma ci sono milioni di chilometri nelle città. Se vogliamo estenderla a tutto il paese, questa mappa non sarà affatto completata.

"Più tardi": Ma prima hai detto che la grande decisione non è una questione se puoi farcela, ma se hai il coraggio di farlo.

Lang Xianpeng: Non è che non si possa fare, se verrà fatto davvero, sarà una guerra per le risorse. Comunque, se vuoi farlo, migliaia di persone lo diffonderanno.

Jia Peng: Scherziamo tra noi dicendo che questa strada alla fine si trasformerà in una compagnia di mappe.

"Più tardi": su cosa ti sei basato per accelerare più tardi?

Lang Xianpeng: L'efficienza organizzativa è sempre stata un vantaggio ideale. Da NPN a senza grafico e poi a end-to-end, questi sono cambiamenti importanti, ma li abbiamo apportati non appena lo abbiamo chiesto.

L’efficienza della cooperazione tra ricerca e sviluppo e consegna è molto importante. La tecnologia deve superare il limite superiore. La cosa difficile è fare una scelta, ma dopo aver fatto la scelta, la consegna deve essere responsabile dell’innalzamento del limite inferiore. Durante l'incontro strategico dell'azienda nella seconda metà dello scorso anno, Li Xiang ha chiarito che RD (ricerca e sviluppo) e PD (produzione di massa e consegna) dovrebbero essere fatti insieme Dopo che le idee di ricerca e sviluppo saranno chiare, ci sarà sempre essere due linee di PD e RD all'interno della nostra squadra. Lo abbiamo fatto senza immagini a novembre e dicembre dell'anno scorso. A gennaio di quest'anno, RD è stato immediatamente trasferito a PD. A febbraio è stata fornita per la prima volta la versione 5.1 e ora è la versione 5.2. e poi Beta 1, Beta 2 e Beta 3. È rifinito bene.

Jia Peng: Penso che sia un processo veloce per tentativi ed errori. Il nostro processo è: trovare un'area chiusa, verificare il paradigma in un breve periodo di tempo, raggiungere prima il limite superiore di ciò che questo paradigma può ottenere ed espandersi immediatamente verso l'esterno una volta che l'area è stata ripulita, aggiungere contemporaneamente una politica di sicurezza e poi lentamente stenderlo. Testiamo questo paradigma in tutto il paese per vedere se funziona. In caso contrario, aggiungeremo rapidamente dati e modificheremo le strategie. Nel processo di accettazione del prodotto, dalle uova degli uccelli ai primi test interni fino ai test interni di migliaia di persone, lasciamo che gli utenti lavorino con noi per testare e iterare il prodotto.

"Più tardi": sembra molto rischioso. Come eri così sicuro di riuscire a superare questo processo?

Lang Xianpeng: Il rischio è molto alto, ma siamo sempre stati qui.

La nostra prima auto, la Lideal ONE, utilizza la soluzione di guida intelligente di Mobileye. Successivamente, quando il restyling di Ideal ONE stava per essere consegnato, Mobileye ha dichiarato che non avrebbe più collaborato e non avrebbe potuto fornire la consegna della scatola bianca. Era già il 2021 e pensavamo che se non fossimo riusciti a padroneggiare la tecnologia di guida assistita entro quel periodo, sicuramente non avrebbe funzionato. Quindi ho preso una decisione difficile: prenderla da sola. Se non riusciamo a farlo è perché siamo incompetenti. Ma se oggi siamo troppo timidi e utilizziamo ancora i fornitori, allora potremmo non avere futuro.

Siamo stati "costretti" a elaborare un processo di ricerca e sviluppo molto diverso. È stato consegnato a maggio e il prototipo doveva essere prodotto a marzo. Entro il 25 maggio 2021, il giorno prima della conferenza di lancio di Ideal ONE, ne avevamo ancora un sacco bug da risolvere Le modifiche sono state finalmente completate quella mattina. Questo è il prototipo del nostro processo attuale: prima verifica una piccola area, quindi migliora le funzionalità, correggi i bug e stabilizza la qualità.

A quel tempo, la squadra contava solo 100 persone e nel primo mese se ne sono andate 40. Qualcuno mi ha detto: "Perché possiamo consegnare qualcosa che altri impiegano uno o due anni per consegnarlo in tre mesi? Non illuderti".

"Più tardi": lo stesso non è raffigurato. Xiaopeng ha aperto la città l'anno scorso più lentamente di te quest'anno e ha avuto più tester Xiaopeng ha detto che ogni volta che va in una città per aprire una città, deve condurre almeno quattro round di campo Solo in questo modo è possibile garantire la sicurezza dell'utente che apre il cassonetto. Come garantite la sicurezza con il vostro metodo di sviluppo rapido, consegna e quindi trasferimento delle uova di uccello a migliaia di persone per i test interni?

Lang Xianpeng: L'attuale metodo di valutazione dei sistemi di guida autonoma è molto diverso da prima. Nella precedente guida intelligente le funzioni venivano prima progettate e poi sviluppate, e le funzioni venivano testate una ad una per verificarle. Al giorno d’oggi, la guida autonoma basata sui dati si basa su capacità piuttosto che su funzioni. L’“abilità” può essere valutata solo attraverso un “esame”.

Utilizziamo il modello mondiale + la modalità ombra per sostenere l'esame. Il modello del mondo viene ricostruito e generato in una scena reale, con l'auto che corre al suo interno, il che equivale a un test di simulazione per valutare l'abilità nel processo di ricerca e sviluppo. Dopo aver superato il test simulato, utilizziamo l'early bird, i veicoli di prova interni e la modalità shadow per sostenere il test dell'auto reale. Se fallisci, continueremo a ripetere finché non lo superi.

"Tardi": se c'è una risposta alla composizione della proposta, idealmente puoi correre più veloce degli altri, ma la risposta non sarà sempre disponibile e la maggior parte delle domande tecniche potrebbero essere domande a risposta aperta.

Lang Xianpeng: Ciò che vedete oggi è la cosiddetta composizione della proposta. Stiamo recuperando rapidamente, ma dopo aver recuperato, potremmo essere più veloci perché l'intero sistema è impostato.

Ciò non significa che inizieremo la ricerca personale solo nel 2021, in modo da poter fornire prodotti peggiori di quelli dei nostri pari. Dal primo giorno della consegna, dobbiamo competere con i migliori studenti della classe. Ciò significa anche che se utilizzo il metodo di apprendimento di un'altra persona per imparare, sicuramente non sarò in grado di imparare da lui. Quindi dobbiamo semplicemente fare le cose a modo nostro.

Ai confini della terra di nessuno

"Più tardi": End-to-end non è un concetto nuovo sia Nvidia che Waymo hanno proposto l'end-to-end qualche anno fa, ma perché è stata Tesla a implementarlo e promuoverlo?

Jia Peng: Perché non solo propone idee tecniche, ma mostra anche a tutti i risultati dell'utilizzo.

Lang Xianpeng: Molte persone in Tesla lo videro perché ci credevano, ma molte più persone ci credettero perché lo videro.

"Late": se Tesla non avesse esplorato la strada da percorrere, l'ideale sarebbe rimasto indietro per un tempo più lungo?

Lang Xianpeng: Algoritmicamente siamo arrivati ​​in ritardo perché le condizioni e le risorse originali erano insufficienti. Ma non è troppo tardi per accumulare dati e costruire un sistema di ricerca e sviluppo, in modo da poter recuperare il ritardo.

Fin dall’inizio, abbiamo avuto chiara la filosofia di Tesla: la guida ai dati è giusta, quindi costruiremo l’infrastruttura di ricerca e sviluppo in conformità con essa. Sulla prima generazione di Ideal ONE nel 2019, abbiamo creato un sistema di dati a circuito chiuso: Poseidon, un insieme di catene di strumenti per la raccolta, l'estrazione, l'etichettatura e il training dei dati. All'epoca non avevamo le risorse per svolgere le nostre ricerche, ma abbiamo anche posizionato una fotocamera aggiuntiva accanto a quella di Mobileye per raccogliere e analizzare i problemi.

Ad esempio, se durante una prova su strada si riscontra un problema, il metodo tradizionale prevede che la persona a bordo lo annoti e poi guidi fino a quando la stessa scena non si ripete. Abbiamo riscontrato un problema. I dati possono essere sincronizzati in background Il test non è ancora finito, i dati sono stati analizzati e il problema ha persino iniziato a essere risolto. Ciò che le aziende tradizionali impiegano diversi giorni o addirittura una settimana per fare, probabilmente possiamo farlo in un’ora.

In termini di accumulo di dati, il chilometraggio totale della guida autonoma da parte degli utenti ideali ha superato i 2 miliardi di chilometri, di cui quasi 1 miliardo di chilometri percorsi dalla NOA. Tesla lo ha fatto presto, ha un numero maggiore di clienti e un chilometraggio più lungo.

"Più tardi": è più un'insistenza di Li Xiang o tua?

Lang Xianpeng: Siamo unanimi. Quando sono venuto a Ideal per un colloquio nel 2018, Li Xiang mi ha chiesto: qual è il problema principale che deve essere risolto per realizzare finalmente L4? Dico dati: senza un sistema di dati a circuito chiuso, che si tratti di un campione o di una domanda, l'efficienza dell'analisi non è elevata. Le persone possono estrarre dati e sviluppare algoritmi, ma se il problema dei dati non viene risolto, sicuramente non verrà risolto bene.

"Più tardi": Weilai ha appena prodotto in serie l'AEB end-to-end non molto tempo fa; Quali sono le differenze end-to-end tra ciascuna azienda?

Jia Peng: L'attuale architettura di Xpeng 5.2 è simile a Wutu che abbiamo appena lanciato a luglio. Perception è un modello, il processo decisionale è un modello e sono collegati a metà. L'hanno appena completato. Anche l'ADS 3.0 rilasciato da Huawei è segmentato end-to-end.

Tesla è un modello dalla percezione al processo decisionale. La nostra ultima versione integra anche percezione e processo decisionale in un unico modello e questa settimana ha iniziato a testare su migliaia di persone.

"Late": qual è la differenza tra il modello end-to-end e quello segmentato end-to-end di un modello di percezione e processo decisionale? Chi è avanti?

Lang Xianpeng: Dipende ancora dall'obiettivo. Il modello segmentato è più adatto per la guida assistita di livello L2+, mentre l'unico modello può veramente eseguire la guida autonoma di livello L3 e L4.

Perché sebbene l'end-to-end segmentato abbia sostituito alcune regole con regole basate sui dati all'interno del modulo decisionale, ci sono ancora regole nell'intero processo. È essenzialmente simile alla precedente architettura di guida intelligente e alla ricerca e sviluppo anche il processo è simile, ancora suddiviso in moduli. L'unico modello non contiene regole. I dati del sensore entrano e la traiettoria pianificata esce. È puramente guidata dai dati.

"Più tardi": puoi spiegare in una frase qual è il valore più grande dell'end-to-end?

Jia Peng: Dal punto di vista dell'utente, il comportamento di guida diventa più simile a quello umano e il controllo dettagliato è più fluido. Dal punto di vista della ricerca e dello sviluppo, l’iterazione è più efficiente.

Lang Xianpeng: L'end-to-end è la prima volta che utilizza dati puri per guidare la guida autonoma. Il metodo di ricerca e sviluppo è cambiato partendo da funzioni e scenari per migliorare le capacità del sistema. È davvero entrato nell'era dell'intelligenza artificiale: come finché il sistema continuerà a rafforzarsi, avrà prestazioni che supereranno le aspettative.

"Late": come addestrare un modello più intelligente in meno tempo?

Jia Peng: I dati, soprattutto quelli di alta qualità, sono molto importanti. Abbiamo selezionato i dati migliori da 20 miliardi di chilometri di dati provenienti da 800.000 proprietari di auto, addestrato più di 1 milione di chilometri di dati e superato i 5 milioni di chilometri entro la fine dell'anno.

Il secondo è il metodo di formazione Sulla base dell'apprendimento per imitazione, aggiungiamo l'apprendimento per rinforzo per far capire al modello cosa c'è che non va.

Lang Xianpeng: L'ultima cosa è la potenza di calcolo. La GPU ideale ha una potenza di calcolo equivalente a 5.000 A100 e A800. Se noleggi una carta, costa 1 miliardo all'anno, il che richiede buoni profitti per sostenersi.

"Più tardi": hai ripetutamente sottolineato che puoi recuperare il ritardo perché disponi di dati, ma questa settimana He Xiaopeng ha detto: "Se qualcuno dice che ha molte macchine e molti dati" per essere in grado di guidare autonomamente, "Non crederci, è una totale sciocchezza."

Lang Xianpeng: Speriamo anche che tutti possano trattare i prodotti in modo obiettivo. Ma siamo ancora nell'era in cui Edison e Tesla dimostrarono se è migliore la corrente continua o la corrente alternata. Una persona usava la corrente alternata per l'elettrocuzione e l'altra dimostrava che è giusto usare la corrente alternata per passare attraverso il corpo umano.

"Più tardi": Tesla ha il maggior numero di dati e il maggiore investimento in potenza di calcolo. Ciò significa che non può essere superata?

Jia Peng: L'attuale limite di Tesla è l'hardware, perché la potenza di calcolo dell'HW 3.0 (l'hardware di guida intelligente di terza generazione di Tesla) è 144 TOPS e i parametri del modello che può supportare non saranno particolarmente grandi se si aggiungono troppi dati, ". Dimenticanza catastrofica”. Questo è il motivo per cui dopo l'aggiornamento V12.4, alcune scene sono migliorate, mentre altre sono peggiorate, come le scene vuote che iniziano a cambiare corsia in modo casuale.

"Più tardi": Ma guardando la cosa da un'altra prospettiva, FSD può funzionare senza problemi sull'HW 3.0, lanciato nel 2018, il che dimostra che Tesla ha una forte capacità di combinare software e hardware.

Jia Peng: È davvero forte. Ma penso che ci siano sfide per l’ingresso della FSD in Cina. Innanzitutto, la maggior parte delle strade negli Stati Uniti sono relativamente semplici; in secondo luogo, Tesla può ottenere informazioni sulla topologia stradale negli Stati Uniti, che non sono disponibili in Cina. Quindi FSD è in realtà una mappa leggera e noi siamo davvero senza mappa, senza alcuna informazione preliminare sulla mappa.

"In ritardo": nel luglio di quest'anno, il dottor Gu Junli, che ha lavorato per Tesla e Xpeng, ha affermato che "i progressi nella ricerca e nello sviluppo di Tesla sono 1,5-2 anni avanti rispetto alla guida intelligente domestica". sei d'accordo?

Lang Xianpeng: Non sono d'accordo.

La versione non raffigurata rappresenta il limite superiore delle regole. L'end-to-end rappresenta il limite superiore del data-driven, non contiene regole, solo un modello. Tuttavia, la guida autonoma non può essere raggiunta senza immagini ed end-to-end, perché sta ancora risolvendo il problema della coda lunga e non è in grado di gestire situazioni mai incontrate prima. Per raggiungere L4, il sistema deve imparare ad affrontare scenari sconosciuti. Riteniamo che questa capacità debba essere risolta tramite VLM anziché end-to-end.

Quindi la nostra nuova architettura è end-to-end + VLM. La prima è il sistema 1 per il pensiero rapido - gestendo la maggior parte degli scenari di guida che richiedono una risposta rapida; il secondo è il sistema 2 per il pensiero lento e il processo decisionale a lungo termine - può imparare Impara un po' di buon senso per affrontare situazioni sconosciute, come identificare semafori irregolari invisibili, varie forme di segnaletica orizzontale, caratteristiche circostanti la scuola, ecc., e comunica in anticipo all'auto che non può entrare o rallentare.

Sistema 1 + Sistema 2, l'ideale è essere i primi a costruire questa architettura.

Jia Peng: A giudicare dalle informazioni pubbliche, l’attuale architettura tecnica di Tesla non dispone di VLM.

"Late": Wayve, una società britannica di guida autonoma investita da Nvidia e SoftBank, ha rilasciato Lingo-2 nell'aprile di quest'anno e ha aggiunto un grande modello linguistico all'auto. Sei stato ispirato da Wayve?

Lang Xianpeng: Non ha il Sistema 1. Il Lingo-2 di Wayve e i modelli cloud sono modelli linguistici multimodali di grandi dimensioni, simili a VLM. L’idea è che un modello risolva il sistema 1 più il sistema 2. Tuttavia, durante la produzione di massa, si scoprirà che la potenza di calcolo di Orin è presente e non può supportare il modello di grandi dimensioni del Sistema 2. Wayve può farlo perché non è un veicolo prodotto in serie e richiede un server sul retro del veicolo per eseguire Lingo-2.

Jia Peng: La nostra prima ispirazione sono stati i sistemi robotici di Google RT-1 e RT-2, che sono un modello VLA (Visual-Language-action), e anche il comportamento finale viene prodotto dal modello. Potrebbe essere la fine dei giochi: se il mio hardware è abbastanza buono, teoricamente posso eseguire VLA in tempo reale.

"Più tardi": Quindi l'ispirazione non è venuta dall'industria automobilistica, ma dalla robotica?

Lang Xianpeng: Perché consideriamo la guida autonoma come una tipica applicazione dell'intelligenza artificiale. Questa soluzione a doppio sistema propone in realtà un’architettura universale di intelligenza incorporata, che prevede la guida autonoma nell’auto e un robot intelligente nel robot.

"Late": l'architettura "end-to-end + VLM" che hai proposto, la prima è ispirata a Tesla, la seconda a Google RT e il documento VLM è una collaborazione con l'Università Tsinghua. Significa che in questa fase siete più abituati all'innovazione combinata?

Lang Xianpeng: Collaborando con il professor Zhao Xing dell'Università Tsinghua, le nostre opinioni si sono scontrate tra loro e non è stato lui a proporre le opinioni, ma noi a metterle in pratica.

"Più tardi": consideri la guida autonoma come parte dell'intelligenza incarnata universale. Ha anche leggi di scala e credi nelle leggi di scala?

Lang Xianpeng: Le leggi di scaling end-to-end non saranno particolarmente ovvie, perché i parametri sono limitati e decine di milioni di dati potrebbero essere riempiti e se aggiungi più dati, inizieranno a essere dimenticati già vedo questo fenomeno da Tesla FSD V12.4.

Ma le leggi di scala di VLM esistono sicuramente e possono raggiungere decine di miliardi o addirittura centinaia di miliardi di parametri. Finché ci sono dati sufficienti e parametri sufficientemente grandi, le prestazioni aumenteranno. Questa strada è molto attraente per noi.

"Late": se il VLM può funzionare abbastanza velocemente e avere una latenza sufficientemente bassa sull'auto, non è necessario il Sistema 1?

Jia Peng: Teoricamente sì. Ora il nostro VLM può raggiungere 3,4 HZ sull'auto (Nota: HZ è il numero di eventi periodici che si verificano per unità di tempo. Maggiore è il valore, minore è il ritardo. È un modello con parametri di 2,2B (2,2 miliardi), ma Per poterlo sostituire end-to-end, deve raggiungere più di dieci HZ, corrispondenti a un ritardo di 100-200 millisecondi, che è la velocità di reazione umana. Alcuni scenari hanno requisiti di latenza più elevati, come l'AEB (frenata di emergenza).

"Più tardi": quanto è unica questa struttura? Huawei parla anche del Sistema 1 e 2; Anche il "Large Language Model XBrain" di Xiaopeng si occupa di scenari sconosciuti. È simile al Sistema 2 di cui parli?

Lang Xianpeng: Siamo i primi a proporre sistemi duali nel settore; e il nostro VLM è implementato sul chip Orin X prodotto in serie per le auto. Precedenti tentativi simili da parte di altre aziende riguardavano computer industriali.

Che si tratti di un modello end-to-end o VLM, questa architettura è stata consegnata e viene testata da migliaia di persone.

"Più tardi": hai anche detto che stai lavorando su un modello mondiale cloud. Che ruolo gioca nell'intera architettura?

Jia Peng: Questo è il nostro sistema 3. Il modello del mondo cloud fa due cose: in primo luogo, VLM può essere distillato dal modello del mondo cloud, che consiste nel addestrare prima un modello molto grande nel cloud, come il parametro 400 B Lamma 3.1 recentemente rilasciato da Meta, e quindi distillare un Modello 8B Funziona meglio che addestrare i modelli 8B da zero.

In secondo luogo, il modello mondiale può esaminare le capacità del Sistema 1 e del Sistema 2. Durante il processo di test mapless end-to-end, abbiamo scoperto che la verifica a livello nazionale è molto difficile. Ci sono 10 milioni di chilometri di strade e in precedenza potevamo mettere a disposizione solo la manodopera per testarli.

"Late": anche Tesla sta lavorando a un modello mondiale. Ma l’industria ha davvero bisogno di così tanti modelli mondiali? Dopotutto abbiamo un solo mondo.

Lang Xianpeng: Nel processo da 0 a 1 ci saranno molti percorsi e tentativi. Proprio come non abbiamo bisogno di così tante marche di veicoli elettrici, ma ce ne sono centinaia nelle ore di punta.

"Più tardi": in precedenza l'industria credeva che le classifiche cinesi sulla guida intelligente fossero Huawei, Momenta, Xpeng e Ideal Quando verrà riscritta questa classifica? E qual è il prossimo punto che cambierà le classifiche di guida intelligente?

Lang Xianpeng: È stato riscritto. In futuro, ogni squadra andrà nella terra di nessuno: se Wutu risolve il problema e può essere aperto a livello nazionale, e end-to-end consentirà a tutto il paese di aprirsi bene, allora il passo successivo è L4.

Come produrre in serie L4? Devono essere cento fiori che sbocciano all'inizio, e poi convergeranno. Ma non tutti torneranno alla stessa linea di partenza, perché il divario nei dati e nella potenza di calcolo non potrà che aumentare sempre di più.

Revisione delle sei battaglie chiave della guida ideale e intelligente

"Più tardi": ho sentito che sei bravo a dare un nome alle battaglie.

Lang Xianpeng: Prendiamo sul serio la denominazione.

L'intelligente squadra di guida ha combattuto sei battaglie chiave. La prima battaglia è stata il Progetto Acropoli, poi il Progetto Iliade e il Progetto Odissea, la prima e la seconda parte dell'epopea di Omero; poi il Progetto Titano, il Progetto Mela d'Oro e, dopo la Battaglia di Titano, il Nuovo Dio sconfisse gli antichi dei. Passiamo ora all’attuale progetto Damocle, che è un progetto end-to-end. Questo progetto è impegnativo e pericoloso. Se non viene fatto bene, la Spada di Damocle cadrà.

"Late": quali sono le sfide e le ricompense più grandi in ogni battaglia?

Lang Xianpeng:

  • Project Acropolis è il nostro primo progetto di ricerca personale: fornisce funzioni di base come AEB, crociera adattiva ACC e mantenimento della corsia sull'Ideal ONE rilasciato a maggio 2021. Queste tecnologie sono mature, ma ci vengono concessi solo 90 giorni, Dio, ciò che conta è un'esecuzione forte. Da quel giorno in poi, abbiamo pensato a come poter recuperare rapidamente il ritardo.
  • Nel 2022 avvieremo il programma Iliad, consegnando il progetto Orin X sul modello L9. L'algoritmo precedente su Horizon J3 non è più applicabile e dobbiamo sviluppare nuovamente il sistema su Orin. Inoltre, per mettersi al passo con l'epidemia, la fornitura di chip è stata interrotta e Bosch non è stata in grado di fornire un numero sufficiente di chip radar a onde millimetriche angolari. Abbiamo dovuto scegliere di rimuovere il radar a onde millimetriche angolari e utilizzare una soluzione visiva pura per il rilevamento degli angoli ciechi, l'elusione degli ostacoli e altre funzioni. Alla fine, ci sono voluti tre mesi per consegnare la soluzione, diversi mesi in anticipo rispetto al tempo impiegato dall'amico per consegnare Orin.
  • Contemporaneamente a Iliad, Jia Peng è stata responsabile dello sviluppo della piattaforma Pro basata sull'Horizon J5, ovvero l'Odyssey Project. La sfida più grande è la mancanza di persone. A quel tempo, l’intero team contava solo 500 persone. Nel 2021, sia Xiaopeng che Weilai contavano migliaia di persone e Huawei affermava di averne più di 2.000.
  • Nel 2023, la nostra piattaforma Orin è diventata relativamente stabile e ha raggiunto la parità in termini di hardware. Riteniamo che la prossima battaglia sarà NOA urbana e solo coloro che riusciranno a vincere potranno accedere al primo livello. Questo si chiama Progetto Titan.
  • Il Golden Apple Project è un NOA di cento città proposto al Salone dell'Auto di Shanghai del 2023. Anche questo deriva dalla mitologia greca. Ercole andò a cercare mele d'oro, ma le mele d'oro erano custodite da un drago dalle cento teste le mele d'oro, dobbiamo tagliare le teste del drago gigante una per una ed eliminare tutte le centinaia di città una per una.
  • Il Progetto Damocle è un progetto end-to-end iniziato quest'anno, il che significa che la Spada di Damocle cadrà se non viene fatto bene.

"Più tardi": Altre aziende non hanno rimosso il radar a onde millimetriche a quattro angoli Avete considerato l'impatto sulla sicurezza del sistema dopo averlo rimosso?

Lang Xianpeng: Abbiamo rimosso il radar a onde millimetriche per due motivi. Il primo era garantire la consegna. A quel tempo, la fornitura dei chip radar Bosch Corner era stata interrotta e abbiamo dovuto fare una scelta. O sostituisci il radar con la visione o fallisci nel fornire risultati. La seconda è la selezione della tecnologia. A quel tempo Tesla voleva adottare una soluzione puramente visiva che fosse più vicina alla capacità umana di riconoscere l'ambiente circostante. Se sulla carrozzeria dell'auto sono presenti sia radar a onde millimetriche angolari che sensori visivi, e c'è una differenza tra i due, è necessario utilizzare la logica delle regole scritte dall'uomo per giudicarla e si verificheranno inevitabilmente degli errori.

Un altro ulteriore vantaggio è che la tecnologia riduce i costi, consentendo un risparmio di circa 500 milioni.

Tuttavia, è molto difficile e rischioso utilizzare più telecamere per sostituire il radar a onde millimetriche angolari. Abbiamo effettuato molti test e il risultato finale è che la precisione e il tasso di successo sono leggermente superiori a quelli del radar angolare.

"Più tardi": prima hai accennato al problema delle risorse insufficienti. Questo problema è risolto adesso?

Lang Xianpeng: Abbiamo proposto “tre strategie principali” durante la nostra riunione strategica autunnale dello scorso settembre. La prima strategia è la strategia di guida intelligente. Quindi abbiamo iniziato a reclutare molte persone nella seconda metà dell'anno. Anche le esigenze e le aspettative dell'azienda sono aumentate, che si tratti di un centinaio di città o di altre, deve raggiungere i vertici.

"Più tardi": Quindi prima la guida intelligente non era una strategia fondamentale ideale?

Lang Xianpeng: Questa volta è ufficialmente chiaro.

"Più tardi": è perché ti rendi conto che l'impatto della guida intelligente sulle vendite dei prodotti è in aumento e la distanza tra te e Huawei si sta ampliando?

Jia Peng: Sì, quindi la strategia autunnale del 2023 determinerà che quest'anno saremo idealmente il leader assoluto nella guida intelligente, perché riteniamo che la logica di acquisto di automobili dell'intero settore diventerà prima la guida intelligente.

"Più tardi": cosa hai accumulato dalle sei battaglie?

Lang Xianpeng: Se vuoi vincere, devi pensare in termini di come vincere. Vale a dire, iniziare con il fine in mente, trovare la necessità e capire cosa è necessario fare per risolvere un problema. Esempi sono il radar ad angolo rimosso e le mappe di cut-off NPN.

"Late": il punto di partenza degli ideali non è forse basato sulla competizione? Ad esempio, la gara 100 Cities Project dello scorso anno.

Lang Xianpeng: Dopo che Huawei ha annunciato l'anno scorso che avrebbe lanciato ADS (la soluzione NOA senza immagine di Huawei) che può essere aperta a livello nazionale, abbiamo enfatizzato eccessivamente la concorrenza e confrontato alcuni indicatori di Huawei, come i tassi di acquisizione, ma abbiamo ignorato anche l'esperienza dell'utente il caso questa primavera. Qualcosa che è stato criticato da tutti durante la riunione strategica.

Successivamente, abbiamo riflettuto sul fatto che l'accettazione e la consegna di tutti i prodotti dovrebbero basarsi sulla valutazione dell'utente.

"Più tardi": come progettate la vostra organizzazione di ricerca e sviluppo e di prodotto basata sulla guida intelligente per far fronte alla concorrenza ad alta intensità di oggi?

Lang Xianpeng: La nostra guida intelligente è un'organizzazione orizzontale e verticale. Sono responsabile del dipartimento aziendale verticale, mi occupo di ricerca, sviluppo e consegna. Tuttavia, l'organizzazione, l'esecuzione e il funzionamento del prodotto finale, compreso il benchmarking competitivo esterno e gli investimenti in risorse di ricerca e sviluppo, sono tutti gestiti dal PDT di guida intelligente (Product Development Team, un team di sviluppo prodotto interfunzionale).

Parteciperò alla formulazione di alcune strategie e piani per i talenti. Una volta finalizzato il piano, lo implementeremo con fermezza.

"Tardi": lo scorso autunno Ideal ha assunto personale su larga scala e il team di guida intelligente è passato da più di 700 a più di 1.000 persone. A maggio di quest'anno ha licenziato altre duecento-trecento persone e a giugno ha richiamato alcuni dipendenti in posizioni chiave. Cosa significa passare dal reclutamento al licenziamento per poi richiamare i dipendenti in un breve periodo di tempo?

Lang Xianpeng: L'essenza è l'iterazione tecnologica. In passato, il sistema di guida intelligente prevedeva un gran numero di regole che richiedevano programmazione manuale, gestione dei progressi e test. Ma l’end-to-end riguarda più i modelli di intelligenza artificiale e le posizioni sopra menzionate sono state notevolmente ridotte. Successivamente alcune persone sono state richiamate, per lo più sulla base di aggiustamenti basati su esigenze aziendali. In effetti, il team di guida intelligente di Tesla è sempre stato composto da 200 a 300 persone e ha creato la più grande flotta di guida autonoma del mondo.

"Late": il sistema end-to-end di Tesla è stato proposto per la prima volta internamente da un tecnico indiano, Dhaval Shroff, e adottato dal basso verso l'alto. Un’organizzazione di ricerca e sviluppo ideale dispone del terreno per l’innovazione dal basso verso l’alto?

Lang Xianpeng: In effetti, queste idee per VLM provengono dai nostri team di pre-ricerca e ricerca e sviluppo. Non abbiamo pianificato molto presto un sistema così duale.

"Più tardi": come valuteresti il ​​tuo pool di talenti? Prima di Xiaopeng, c'era Wu Xinzhou e Weilai aveva Ren Shaoqing. Alcune persone credono che il team di guida intelligente ideale sia sempre mancato di tali esperti tecnici.

Lang Xianpeng: A questo livello sono importanti sia l'abilità tecnica che la capacità di ottenere risultati. Molti dei nostri leader tecnici, tra cui me, Jia Peng e Wang Jiajia, hanno lavorato sulla guida autonoma nel 2014 o 2015. Anche le nostre nuove reclute sono relativamente forti. Gli oltre 200 neolaureati di quest'anno sono per lo più tra i primi 50 studenti della classifica QS100 (British QS World University Rankings). E disponiamo di potenza di calcolo e riserve di dati, che costituiscono il terreno per la crescita dei talenti.

"Più tardi": anche se sei entrato molto presto nel campo della guida intelligente, inizialmente hai lavorato su algoritmi relativi alle mappe presso Baidu, non sulla guida intelligente stessa.

Lang Xianpeng: L’esperienza di Baidu è molto importante. Quella esperienza mi ha fatto non avere paura di nulla nella gestione. Credo che se trovo il metodo giusto, potrò ottenere risultati migliori in un tempo più breve.

Il mio primo progetto presso Baidu era simile alla ricerca personale di prima generazione di Ideal in quanto il ciclo era estremamente serrato. Mi sono iscritto a Baidu alla fine di aprile 2013 e il progetto Street View verrà lanciato alla Conferenza Baidu quattro mesi dopo. All'inizio c'erano solo 4 persone in questo team e alla fine abbiamo completato il lancio a mezzanotte del giorno prima della conferenza.

Ci sono due chiavi qui. Uno è usare le nuove tecnologie. Quando si realizzano scene di strada, è necessario sfocare targhe e volti. Il metodo convenzionale allora era farlo manualmente, ma abbiamo utilizzato un algoritmo visivo, che è più veloce e preciso e salva molte persone. L'altro sono i dati. Per questo algoritmo, inizialmente volevamo collaborare con i team di Yu Kai (in seguito fondatore di Horizon) e Ni Kai (in seguito fondatore di Heduo) di Baidu IDL, ma in questo scenario il loro algoritmo aveva solo una precisione dell'86%. Abbiamo realizzato la targa al 99% da soli, al 97% dai volti. La chiave è che abbiamo segnato decine di migliaia di dati.

Algoritmicamente, sicuramente non siamo bravi quanto loro. Sono le persone con i migliori algoritmi al mondo. Ma questo è solo un divario di 80-90 punti, in termini di dati di scena abbiamo un ordine di grandezza in più; Quindi, durante l'intervista successiva, Li ha voluto chiedermi: qual è il problema più importante nella risoluzione della guida autonoma? Direi dati.

"Più tardi": negli ultimi anni molte persone hanno scelto di andarsene perché non sopportavano la pressione o non credevano che i loro ideali potessero essere raggiunti. Perché alla fine sei rimasto?

Lang Xianpeng: Noi, un gruppo di persone, vogliamo solo realizzare L4 e penso che questo possa essere fatto solo idealmente.

Jia Peng: Prima di arrivare a Ideal, sono rimasto in NVIDIA per 5 anni. Che si trattasse di modelli end-to-end o di grandi dimensioni, NVIDIA è stata la prima a proporlo, ma all'epoca non è stata implementata. Quando entro in un’azienda automobilistica, ho finalmente l’opportunità di rendere la guida autonoma un circuito chiuso, il che è fantastico.

Fonte immagine titolo: "Genius Gunner"