Dirigente di Li Auto: Se in futuro non investiremo 1 miliardo di dollari ogni anno in potenza di calcolo, verremo eliminati

2024-08-08

Nota dell'editore: il dipartimento editoriale automobilistico di Tencent definisce l'ondata di elettrificazione dell'ultimo decennio "l'era turbolenta" dell'industria automobilistica cinese. Ora, nel 2024, un nodo storico noto come "Anno della guida intelligente", non possiamo farci niente ma mi chiedo. D: Quale percorso tecnico seguiranno i principali attori del settore? Come costruire le rispettive barriere competitive? Tencent Auto ha lanciato appositamente una serie di pianificazione della guida intelligente. Attraverso interviste, test reali, revisioni orizzontali, revisioni e altri metodi, si sforza di stare all'origine della storia e ottenere ulteriori informazioni sugli enormi cambiamenti che possono verificarsi nell'industria automobilistica. nei prossimi dieci anni, fornendo così ai lettori e all’industria maggiori informazioni. Una guida completa sui contenuti può lasciare preziose note storiche per l’industria.

Novità Tencent "Luci abbaglianti"

Autore Ao Dun

Redattore Shi Ding

Le soluzioni "end-to-end" (E2E) vengono riconosciute come la migliore soluzione per la guida intelligente nel settore. Tuttavia, quando le persone cercano di dissipare la nebbia ed esplorare la verità, sembrano essercene diecimila "end-to-end" agli occhi di 10.000 case automobilistiche. end-to-end”.

Lo scorso dicembre,TeslaDopo aver lanciato FSD V12 e aver proposto una soluzione end-to-end, il termine end-to-end è diventato subito popolare nel circolo della guida intelligente, subito dopo, Huawei;Xiaopeng,orizzonte,NIOAltre aziende hanno proposto soluzioni end-to-end Alla fine di luglio, He Xiaopeng, presidente e amministratore delegato di Xpeng Motors, ha affermato che Xpeng Motors è l'unica azienda automobilistica al mondo ad aver raggiunto la produzione di massa end-to-end. modelli di grandi dimensioni.

luglio 5,macchina ideale È stata rilasciata una nuova architettura tecnologica di guida autonoma basata sul modello end-to-end, sul modello del linguaggio visivo VLM e sul modello mondiale. La prima versione è stata distribuita a migliaia di utenti di prova alla fine di luglio. Li Xiang ha annunciato nel giugno di quest'anno che il piano sarà pienamente attuato non prima della prima metà di quest'anno e non prima della prima metà del prossimo anno.

Secondo Lang Xianpeng, vicepresidente della ricerca e sviluppo sulla guida intelligente di Li Auto, il suddetto progetto architettonico è stato ispirato dalla teoria del sistema veloce-lento menzionata dal premio Nobel Daniel Kahneman in "Thinking, Fast and Slow" e simula il pensiero umano e pensare nel campo della guida autonoma processo decisionale per formare una soluzione di guida più intelligente e più simile a quella umana.

Il sistema veloce, vale a dire il Sistema 1, è implementato dal modello end-to-end, riceve l'input del sensore e restituisce direttamente la traiettoria di guida per il controllo del veicolo. Il sistema lento, vale a dire il Sistema 2, viene implementato dal modello del linguaggio visivo VLM. Dopo aver ricevuto l'input dei sensori, trasmette le informazioni decisionali al Sistema 1 dopo il pensiero logico. Anche la capacità di guida autonoma composta dai sistemi duali verrà addestrata e verificata utilizzando il modello mondiale nel cloud.

Confrontando orizzontalmente con i colleghi del settore, Lang Xianpeng ha sottolineato che il modello end-to-end di Li Auto è il primo modello end-to-end One Model, che è molto diverso dagli altri modelli segmentati “Un modello è il punto in cui i dati del sensore emettono la traiettoria direttamente. Non ci sono altre regole o modelli intermedi e potrebbe essere necessario collegare altri requisiti end-to-end con alcune regole."

A giudicare dalle informazioni pubbliche, l’industria ritiene che Xpeng Motors e Huawei siano segmentate end-to-end. Il modello end-to-end su larga scala utilizzato da Xpeng Motors nella produzione di massa è composto dalla rete neurale XNet + il modello di controllo su larga scala XPlanner + il modello linguistico su larga scala XBrain; il sistema finale utilizza GOD (General Object Detection, riconoscimento generale degli ostacoli) ampia percezione La parte di rete, processo decisionale e pianificazione utilizza la rete PDP (Prediction-DecisionPlanning, pre-decisione e pianificazione) per realizzare la pre-decisione e la pianificazione di una rete.

In passato, i sistemi di guida intelligenti potevano essere suddivisi in diversi moduli principali: percezione, previsione, pianificazione e controllo. Diversi moduli erano responsabili di compiti diversi. Questa era anche chiamata l’era delle regole di guida autonoma. Il popolare end-to-end di oggi è, per essere precisi, un modello di intelligenza artificiale di grandi dimensioni che può utilizzare la tecnologia di deep learning per generare direttamente risultati di output dai dati di input originali risultati di output e accelerazione, comportamenti di guida come rallentare e frenare.

In pratica, le idee di cui sopra non possono essere realizzate in un unico passaggio. Dal lato tecnico, è necessario risolvere una serie di questioni complesse come l’architettura del modello, i dati e la verifica ingegneristica. Dal punto di vista dell'esperienza dell'utente, l'obiettivo finale della soluzione end-to-end è essere infinitamente vicino al "guidatore esperto" umano e persino superare il guidatore veterano esplorando costantemente il limite superiore delle capacità nessuna conclusione nel settore quando questo obiettivo potrà essere raggiunto.

Secondo Jia Peng, responsabile della ricerca e sviluppo della tecnologia di guida intelligente di Li Auto, ora ci troviamo in una terra disabitata di guida intelligente: "Nessun altro ha detto come si fa end-to-end e tutti sono "ciechi". e cercando di capire l'elefante.'" Tuttavia, ritiene che il significato di end-to-end non significhi un modello e due modelli. Il suo significato più grande è cambiare essenzialmente l'intero processo di ricerca e sviluppo. “Con il processo di intelligenza artificiale epocale, sarà possibile creare il tuo sistema davvero il più simile possibile a quello umano." Stessa capacità di guida."

Sebbene l’end-to-end sia considerata la soluzione ottimale per la guida intelligente, è ancora nelle fasi iniziali e non esiste una definizione chiara o uno standard di valutazione nel settore. Lang Xianpeng ritiene che le case automobilistiche nazionali siano attualmente sulla stessa linea di partenza end-to-end, ma se si guarda al modello One, Ideal potrebbe essere in vantaggio. A suo avviso, la soluzione end-to-end di Li Auto è attualmente la migliore soluzione per implementare l'intelligenza artificiale nel mondo fisico, "perché simula molto bene la cognizione umana e i meccanismi di pensiero e consente veramente al sistema di avere le capacità del pensiero umano". e il pensiero. La capacità di comprendere il mondo è il vantaggio dei sistemi duali."

A lungo termine, l’end-to-end può essere una competizione e una competizione per la forza finanziaria. Lang Xianpeng ritiene che prima o poi i principali attori si muoveranno definitivamente nella direzione end-to-end, e a quel punto il divario si allargherà definitivamente. Nell'era dell'intelligenza artificiale, tutti combatteranno per due cose: 1. Ce ne sono abbastanza prodotti di alta qualità; 2. Esiste una potenza di calcolo sufficiente per la formazione?

"Quello che fanno tutti alla fine è competere per la potenza di calcolo e i dati, ma la soglia per queste due cose è molto alta. Se le riserve finanziarie non sono sufficienti a sostenere le spese annuali di formazione, non potrai giocare il secondo L3 o L4. Se si parla di automobili, se il numero di imprese non è elevato, i dati non saranno in grado di supportare la domanda di formazione ", ha affermato Lang Xianpeng, secondo le stime preliminari, l'attuale investimento annuale ideale nella formazione è 1 miliardi di yuan, e si prevede che il costo raggiungerà in futuro 1 miliardo di dollari USA all'anno." È solo il costo dell'addestramento della potenza di calcolo, esclusi altri costi del personale, quindi se non puoi spendere 1 miliardo di dollari USA al anno di formazione, potresti essere eliminato nella futura competizione di guida autonoma.

Quelli che seguono sono estratti (modificati) di conversazioni tra Tencent News "High Beam" e altri media e Lang Xianpeng e Jia Peng:

Tutti sono "ciechi e toccano l'elefante" e Ideal ha consegnato il piano migliore

D: Quali sono le opportunità di passaggio dalla tradizionale tecnologia di guida intelligente alla tecnologia end-to-end? Quali sono i vantaggi e gli svantaggi della soluzione tecnica proposta da Lili rispetto a Tesla, Huawei e Xpeng?

Lang Xianpeng: Per quanto riguarda i vantaggi di questa soluzione di architettura di sistema, dovremmo partire dalle nostre riflessioni sulla guida autonoma in agosto e settembre dello scorso anno. L'anno scorso abbiamo svolto tre generazioni di ricerca e sviluppo tecnologico, iniziando con lo sviluppo ad alta velocità per poi passare alla guida autonoma nelle città. Nelle città abbiamo utilizzato per la prima volta NPN (Neural PriorNet, rete a priori neurale), una soluzione con scenari. e quindi Converti nella soluzione senza grafico corrente, quindi esegui l'iterazione nella soluzione end-to-end corrente.

Durante questo processo, abbiamo scoperto che questa soluzione presenta ancora un grosso difetto o problema per la guida autonoma successiva di livello L3 e L4. Il problema è che noi esseri umani siamo in grado di comprendere scene sconosciute e luoghi in cui non siamo mai stati, e chi guida normalmente può solo abituarsi un po’. Ma che si tratti dell'attuale soluzione end-to-end o della soluzione senza immagini, sono essenzialmente le scene che sono state viste o i dati che sono stati addestrati che possono funzionare meglio. Se c'è una nuova scena, potrebbe non essere in grado di gestirla correttamente, ma se vogliamo affidare completamente al sistema l'auto da guidare invece delle persone, allora il nostro sistema deve avere la capacità di gestire scene sconosciute come gli esseri umani .

Per fare un semplice esempio, i nostri semafori sono diversi dai semafori di altri luoghi. I semafori di Tianjin sono semafori a forma di barra di avanzamento, ma in altri luoghi abbiamo lampadine o conti alla rovescia. Questo è molto strano capire. Ma credo che se qualcuno dotato di normale buon senso va a Tianjin e vede una cosa del genere eretta all'incrocio, penserà che sia un semaforo e si fermerà e ripartirà normalmente secondo le istruzioni del semaforo. Quindi dobbiamo fare in modo che anche il sistema abbia questo tipo di comprensione della scena, o la capacità di ragionare logicamente su questo tipo di conoscenza. Come ottenere questa capacità? In questo momento abbiamo visto la teoria dei sistemi duali, che è una buona spiegazione del meccanismo della cognizione umana. Il sistema veloce fornisce risposte di elaborazione tempestive e il sistema lento corrisponde al pensiero complesso e ai giudizi logici meccanismo della cognizione e del pensiero umano, quindi vogliamo pensare a come la teoria di questo sistema possa essere applicata alla guida autonoma.

Quindi cosa utilizza esattamente il Sistema 1 per ottenere la sistematizzazione? Alla fine abbiamo scelto di implementare il sistema applicando il modello end-to-end e il sistema 2 è stato implementato utilizzando il grande modello del linguaggio visivo di VLM. Questi sono i nostri due metodi di implementazione specifici. Dopo la ricerca preliminare e lo sviluppo, ora abbiamo implementato questi due sistemi sui nostri veri veicoli prodotti in serie.Riteniamo che attualmente sia la soluzione migliore per implementare l’intelligenza artificiale nel mondo fisico, perché simula molto bene i meccanismi cognitivi e di pensiero umani e consente veramente al sistema di avere la capacità di pensare e comprendere il mondo come gli umani. Questo è il duale vantaggio.

Il nostro sistema duale presenta alcune caratteristiche uniche. Innanzitutto, il nostro modello end-to-end è il primo modello end-to-end One Model, che è molto diverso dagli altri modelli segmentati. In secondo luogo, il nostro modello VLM è il primo modello che può essere implementato sull'auto e prodotto in serie. Altri modelli possono essere addestrati e testati nei propri cluster di addestramento, ma l'uso effettivo di auto prodotte in serie come Orin X lo è. il primo ad ottimizzare il chip e ad installarlo sull'auto, e questo modello è abbastanza grande, con 2,2 miliardi di parametri. In senso pratico è già un modello grande. Il nostro doppio sistema è anche il primo che abbiamo proposto e implementato Dall'architettura del sistema all'implementazione del sistema, abbiamo alcuni dei nostri vantaggi e caratteristiche.

D: Con il modello vocale visivo end-to-end, questa soluzione può supportare lo sviluppo di L3 e L4?

Lang Xianpeng:Almeno dalla prospettiva attuale, penso che dovrebbe essere possibile in termini di metodi, ma che si tratti di due modelli end-to-end più VLM, o di due modelli in uno, o di un modello con parametri più ampi, o di altre strutture, Penso che si possa fare lentamente l'iterazione, ma penso che l'idea generale dovrebbe essere OK.

Domanda: come sono divisi il sistema 1 e il sistema 2?

Jia Peng: Abbiamo due modelli, due Orin, perché l'auto ha bisogno di essere controllata in tempo reale. Sebbene il VLM abbia un gran numero di parametri, non può essere controllato ogni uno o due secondi. Ora lo abbiamo ottimizzato a un livello quasi in tempo reale di circa 3,4 Hz, con un ritardo di circa trecento millisecondi. Prende decisioni in ogni momento e produce due decisioni, come una per rallentare o cedere, e la seconda fornirà una traiettoria di riferimento, ad esempio se mi sto dirigendo verso questa corsia o quella corsia essere inseriti direttamente nel modello, e quindi i risultati saranno prodotti allo stesso tempo. Si tratta più o meno di una struttura che il sistema 1 non adotta completamente le opinioni del sistema 2. Il sistema 2 migliora il processo decisionale del sistema 1.

Il sistema 1 gioca il ruolo principale e il sistema 2 è solo un riferimento o una consultazione per situazioni speciali. Quando si raggiunge L4, il sistema 2 svolgerà un ruolo più importante. Ciò non significa che il sistema 2 controlla sempre l'auto, ma lo fa gioca davvero un ruolo. Gioca un ruolo molto importante nel processo decisionale e nel giudizio. In alcuni scenari sconosciuti, l'abilità del Sistema 2 determina se puoi raggiungere L4, ma l'abilità di base del Sistema 1 è la garanzia necessaria per L3.

D: I due sistemi si fonderanno in uno solo in futuro?

Jia Peng: Questo è il passo successivo nella nostra ricerca preliminare. In effetti, l'idea attuale è quella di produrre in serie due modelli. Attualmente, Wutu 6.0 è disponibile a livello nazionale. Riteniamo che il set end-to-end + VLM possa essere migliore in tutto il paese Ora, andando avanti, come realizzare un L4 prodotto in serie La nostra idea potrebbe essere quella di ingrandire il modello in termini di dimensioni e capacità e allo stesso tempo aumentare il frame rate, oppure c'è la possibilità che non siano questi due? i modelli possono essere combinati in uno solo. Lascia che sia il modello a decidere da solo se utilizzare il Sistema 1 o il Sistema 2. Quindi, se in futuro ci saranno chip con maggiore potenza di calcolo e piattaforme migliori, questo potrà svolgere un ruolo importante.

Domanda: Perché VLM non può essere chiamato end-to-end, secondo me è anche end-to-end?

Jia Peng: Se in futuro la potenza di calcolo sarà sufficientemente grande, VLM stesso potrà funzionare in tempo reale, ad esempio, a più di dieci Hz o addirittura a 20 Hz. Forse può anche ottenere una risposta rapida end-to-end, ma attualmente VLM lo è in realtà più cicli di domande e risposte voglio chiedere: come posso guidarlo in tali condizioni di lavoro? Perché viene aperto in questo modo e quali sono i risultati dopo averlo aperto?

Lang Xianpeng: In effetti, dal nostro punto di vista, finché è un modello puramente basato sui dati, è end-to-end. Il suo input è costituito dai dati e il suo output è il risultato. Tuttavia, il risultato è la traiettoria nel sistema , e il risultato nel sistema due è il processo decisionale, lasciatemelo sottolineare ancora, c'è una grande differenza tra end-to-end ed end-to-end di più modelli, o un modello ed end-to-end.PerchéCome il modello unico che idealmente costruiamo qui, l'output dei dati del sensore viene emesso direttamente dalla traiettoria, senza altre regole o modelli intermedi. Potrebbe essere necessario mettere insieme altri requisiti end-to-end con alcune regole.

Domanda: Qual è il limite superiore delle capacità del sistema adesso?

Lang Xianpeng: Ora VLM dovrebbe trovarsi al confine di una terra di nessuno. Andando avanti, ogni azienda, compresi noi, dovrà farlo end-to-end, ma credo che siamo la prima azienda a farlo processo. Faremo la nostra esplorazione. Mentre lo facciamo, troveremo il miglioramento delle prestazioni apportato dalla scala dei dati. Non abbiamo ancora visto il limite superiore. Stiamo ancora esplorando il confine tra miglioramento dei dati e miglioramento delle prestazioni e non l'abbiamo ancora raggiunto.

Abbiamo un'analisi. La potenza di calcolo del chip è limitata, quindi la scala dei parametri ha dei limiti Ora abbiamo una scala dei parametri end-to-end di circa 300 milioni. Quanto volume di addestramento dei dati può scalare un parametro di circa 300 milioni consumare? In effetti, esiste un limite superiore. È impossibile versarlo indefinitamente.

Jia Peng: Sebbene la potenza di calcolo sia migliorata, per i modelli di grandi dimensioni, il collo di bottiglia più grave degli attuali chip lato auto è la larghezza di banda della memoria. Abbiamo davvero raggiunto un luogo relativamente disabitato. Nessun altro ha detto come è fatto dall'inizio alla fine, e tutti sono "ciechi e cercano di capire l'elefante".

Il nostro modello end-to-end raggiunge la traiettoria e alcune tasche di sicurezza vengono aggiunte dopo la traiettoria, perché prima che il modello raggiunga il limite superiore, ci sono ancora alcune cose da affrontare, come girare forte il volante e lasciarlo sbarazzarcene. Questo è ciò che pianifichiamo.

Il significato più grande dell'end-to-end è che cambia essenzialmente l'intero processo di ricerca e sviluppo.

Domanda: Come definire che il modello integrato è più potente e avanzato del modello segmentato Qual è il tetto per lo sviluppo finale end-to-end Ci saranno modelli più potenti in futuro?

Lang Xianpeng:Prima di tutto, non penso che ci sia qualcosa di buono o cattivo, se sia adatto o meno. Se vuoi fare livelli L3, 4 e superiori di guida autonoma, penso che questo modello integrato end-to-end sia il migliore. modello che devi scegliere, perché non è così. Ma la scelta di questo modello in sé dipende più dalla scelta di un processo e di un metodo iterativo o di ricerca e sviluppo più avanzati, segmentato e alcune modalità precedenti. Sono anche molto adatte per la guida assistita di livello L2.

Dall'inizio alla fine, il suo cambiamento non è semplice come un modello e due modelli, ma il suo intero pensiero, il processo e il modo di fare le cose, hanno subito enormi cambiamenti. Non ci sono regole in esso fornirgli dati di alta qualità, oltre a formazione per migliorare le capacità del modello, in modo che possa prendere decisioni e pianificazioni migliori.

Quindi devo fare iterazioni ragionevoli sulla struttura del modello. Il modo più importante è trovare dati di migliore qualità. Questi dati devono essere sufficientemente grandi in quantità e sufficientemente buoni in termini di qualità. Ormai abbiamo praticamente raggiunto il livello di 3 milioni di parametri e la nostra selezione dei dati è molto particolare. Prima di tutto, guidiamo con il nostro team di prodotto e il nostro team di valutazione soggettiva. Queste persone sono tutti guidatori esperti e la loro esperienza di guida è molto buona.

Hanno lavorato con noi per sviluppare una serie di standard per conducenti esperti, come le condizioni di guida sicure e il loro stile di guida. Dopo aver completato le iterazioni in diverse dimensioni, abbiamo utilizzato questa regola per confrontarla con i proprietari delle nostre auto 80 Wan esistenti. proiezione e vogliamo che quelli con un punteggio pari o superiore a 90 debbano essere proiettati.Poiché disponiamo di questa base, possiamo filtrare 1 milione o 10 milioni di frammenti di alta qualità. In superficie potrebbero sembrare solo 10 milioni, ma in realtà vengono filtrati da 1,2 miliardi di chilometri di dati che questi pochi Questo è uno dei dati di decine di milioni di chilometri.

Quando esaminiamo i dati, abbiamo dietro la nostra catena di strumenti. Non si tratta solo di selezionare e scegliere, ma abbiamo anche alcuni dei nostri rapporti e ricette di dati, il che è anche molto fondamentale.

Domanda: Alcune aziende affermano che molti dati precedenti non possono essere utilizzati nell'era end-to-end. Ora stanno attraversando la fase più dolorosa: stanno abbattendo i ponti precedenti, costruendone di nuovi e costruendo un sistema di sicurezza che può metterli alla prova, cosa ne pensi di questa affermazione?

Lang Xianpeng: Secondo me la sua affermazione è incoerente. Vuole dire che i dati non sono così importanti, ma la sua affermazione dimostra anche che i dati sono importanti. In effetti, per quanto riguarda gli ideali, lo abbiamo capito da tempo. Qual è la cosa più importante della guida autonoma? Si tratta di finanziamento del talento? Penso che siano dati. Senza dati, non ci saranno basi per la futura formazione e verifica degli algoritmi.

Accumuliamo dati e costruiamo la nostra piattaforma dati da quando il primo veicolo è stato consegnato nel 2019.daIdeale L9 All'inizio eravamo tutti bambole matrioska. Le bambole matrioska sono di grande vantaggio per la guida autonoma. Tutte le specifiche della fotocamera e le posizioni di installazione sono le stesse. Sebbene ci siano lievi differenze nella lunghezza, possiamo riutilizzare completamente questi dati. Ma alcuni produttori potrebbero avere automobili o SUV e i sensori potrebbero essere diversi, quindi potrebbe davvero essere una sfida per loro.

D: Alcuni dicono che l'end-to-end semplificherà il processo di sviluppo della guida intelligente e ridurrà i costi della manodopera. Cosa ne pensi?

Lang Xianpeng:Se utilizziamo questa soluzione, non avremo davvero bisogno di così tante persone. L'intero processo di ricerca e sviluppo end-to-end significa semplicemente selezionare dati, modelli di addestramento, modelli di valutazione e modelli mondiali è un sistema di esame. Le capacità del Sistema 1 e del Sistema 2 sono valutate e certificate dal nostro Sistema 3. Ma in precedenza, la nostra valutazione e il test di questo sistema di guida autonoma venivano eseguiti da esseri umani, sia che si trattasse di un'ampia prova su strada o di un'auto. macchina. Il test del luogo viene valutato dalle persone, ma le persone non possono valutarlo.

Ci sono milioni di chilometri di strade in tutto il paese che cambiano durante l'anno. È impossibile che le persone ci investano. Non sono come le superstrade che trovi a Pechino non sono molto diverse dalle superstrade del Guangdong, ma in in contesti urbani è davvero difficile coprirli. Quindi abbiamo il Sistema 3, che ci aiuterà a testare le capacità del Sistema 1 e del Sistema 2. Dopo il test, se superiamo l'iterazione e andiamo online, inizierà il round successivo.

In questo processo, oltre alla necessità di personale nel processo di sviluppo di queste piattaforme di sistema, in realtà non ci sono molte persone coinvolte nel lavoro vero e proprio, il che ridurrà notevolmente l'impiego di personale per la gestione ottimizzata all'interno della nostra organizzazione l'uso delle persone avrà anche molti vantaggi. Pertanto, alcuni dei nostri prossimi aggiustamenti sono in realtà basati su cambiamenti in questo settore. Non sono aggiustamenti fini a se stessi, come tutti immaginano.

Domanda: Dal punto di vista dei consumatori e degli utenti, quando verrà implementata la tecnologia end-to-end, che tipo di aggiornamento si vedrà nell'esperienza?

Lang Xianpeng:Dal punto di vista dell'utente, se utilizzi tecnologie end-to-end o di altro tipo, non dipende dalle soluzioni tecniche e dai percorsi, gli utenti devono solo sperimentarlo, quindi quando spingiamo il prodotto end-to-end più VLM a tutti utenti in futuro, speriamo che sarebbe fantastico dare agli utenti la sensazione di un guidatore molto esperto che guida per me.

Non è necessario che gli utenti sappiano di che tipo di tecnologia si tratta, ma se sono interessati, potremmo avere molte referenze.Non sottolineeremo eccessivamente il tipo di soluzioni tecniche che utilizziamo per gli utenti. Comunichiamo con gli utenti solo il tipo di esperienza del prodotto che hanno.

D: Se l'end-to-end deve essere ufficialmente presentato direttamente agli utenti, quale pensi sia un buon standard? Quando potrà essere lanciato ufficialmente?

Jia Peng: Penso che lo standard sia l'esperienza dell'utente. Perché abbiamo bisogno di 1.000 utenti early bird invece di fissare noi stessi alcuni obiettivi di acquisizione Se ci sono 1.000 utenti e 10.000 utenti, la loro esperienza è molto buona, penso che possa essere promossa o possa superare l'esperienza del no? -versione immagine. Tra coloro che stanno attualmente partecipando al test early bird, abbiamo condotto alcune valutazioni e abbiamo scoperto che la sua esperienza, stabilità e sicurezza soddisfano tutti gli standard.

D: Con questo piano progressivo, si passerà a One Model? One Model è l’unica direzione corretta?

Jia Peng: Dal nostro punto di vista, One Model è end-to-end Altri dicono che non è end-to-end Tuttavia, se qualcuno vuole aggiungerlo in questo modo, in effetti lo facciamo in segmenti senza una foto. A quel tempo lo chiamavamo modello di percezione e modello di pianificazione predittiva. Ma puoi anche dargli un modello segmentato.

Il significato di end-to-end non significa un modello e due modelli. Il suo significato più grande è che cambia essenzialmente l'intero processo di ricerca e sviluppo. Con il processo di intelligenza artificiale epocale, è possibile creare veramente il tuo sistema Avere capacità di guida simili a quelle umane.

In passato si chiamava semplicemente funzione. Avevo la funzione di superare rampe e caselli di pedaggio, ma ora ho la capacità di guida di un conducente esperto. Potresti essere in grado di provare la nostra esperienza end-to-end in seguito. Naturalmente, ho guidato molto questa macchina, si può dire che abbiamo iniziato a guidare la prima versione in modo goffo, e ora la stiamo guidando molto bene. Spesso siamo sorpresi dalle prestazioni e dalle capacità di questo modello.

Se gli venissero forniti 800.000 dati, non sarebbe in grado di attraversare la rotatoria, ma se gli venissero forniti 1 milione, un giorno sarebbe improvvisamente in grado di attraversare la rotatoria. In effetti, non abbiamo ottenuto deliberatamente alcuni dati sulla rotatoria, li abbiamo semplicemente conservati alimentandolo. Solo dati. È proprio come insegnare a un bambino. Che lezione seguirà oggi e quale lezione seguirà domani. All'improvviso un giorno verrà a insegnarti alcune parole in inglese?

L'end-to-end è diverso dalla precedente ricerca e sviluppo dei prodotti, sapevo che saresti stato così in futuro, perché è così che ti ho progettato. Il modello end-to-end ha la sua capacità di crescere ed emergere, oppure potresti solo essere in grado di scoprirne le capacità, ma non puoi progettarle. Penso che questa sia una differenza molto grande.

D: Hai incontrato sfide importanti nel processo end-to-end?

Lang Xianpeng: In effetti, ci sono molte sfide. Il punto più importante è che abbiamo svolto un lavoro di pre-ricerca in anticipo. Questa è una di queste.

In secondo luogo, dagli ideali dell'azienda alla comprensione e alla conoscenza della guida intelligente da parte del nostro team, penso che la comprensione dell'intelligenza artificiale sia coerente e molto approfondita. La sfida più grande è se tutti abbiano la stessa comprensione e consapevolezza di questa questione, se alcuni pensano che sia radicale, altri pensano che sia conservatore, o se alcuni pensano che il piano sia affidabile o inaffidabile.

In realtà ho passato molto tempo a spiegare come siamo passati da NPN a graphless e end-to-end passo dopo passo. Questo processo è il processo di scoperta e risoluzione dei problemi Dopo l’allineamento cognitivo, il processo decisionale è molto veloce e la forte capacità di esecuzione di Li Auto è ciò che abbiamo allenato e accumulato negli ultimi anni.

In termini di organizzazione ed efficienza, la costruzione della catena di strumenti basata sui dati o dell'infrastruttura di questo sistema negli ultimi cinque anni è molto critica, anche se ora disponiamo di persone, potenza di calcolo e dati, se non ne abbiamo completo Non è possibile gestire in modo efficiente una catena di strumenti efficiente. Devo utilizzare un'infrastruttura di dati automatizzata a circuito chiuso per eseguire la raccolta dei dati, l'annotazione dei campioni, l'annotazione automatizzata, la formazione automatizzata e quindi la valutazione automatizzata e lo sviluppo iterativo automatizzato Le iterazioni sono continuate sin dalla prima vettura nel 2019, quindi la capacità di costruire un’infrastruttura dati a circuito chiuso ideale è assolutamente di prim’ordine nel settore.

Coloro che non potranno investire 1 miliardo di dollari in potenza di calcolo ogni anno verranno eliminati.

D: Una volta hai affermato che l'esperienza di guida intelligente ideale è un anno e mezzo indietro rispetto a Tesla. Come sei arrivato a questa conclusione?

Lang Xianpeng: A partire da Tesla FSD V12.3, andiamo regolarmente negli Stati Uniti per testarlo. L'abbiamo provato sia sulla costa occidentale che su quella orientale. Questo è ciò che noi stessi abbiamo riassunto. In effetti, Tesla attualmente sta andando molto bene sulla costa occidentale degli Stati Uniti, perché attualmente dispone del maggior numero di dati in California. Ma quando arrivi a Boston e New York, scoprirai che le sue prestazioni diminuiranno drasticamente. Soprattutto dopo l'arrivo a New York, il suo MPI (Mileage Per Intervention) ha sostanzialmente raggiunto circa 10 o 11. In effetti, il livello di acquisizione a New York. York è più o meno uguale a quella di New York. La performance dei leader nazionali non ha ampliato il divario generazionale. Ma anche le condizioni del traffico a New York sono molto meno complicate di quelle di Shanghai e Guangzhou, in Cina, motivo per cui osiamo trarre questa conclusione o dire questo.

D'altro canto, Tesla (negli Stati Uniti) può ottenere molte informazioni che non sono disponibili in Cina, come ad esempio le informazioni sulle mappe. In effetti, Google ha fornito molte di queste mappe di navigazione nazionali che non sono disponibili darti queste informazioni Tesla In effetti, ho raggiunto questa esperienza basandomi su ottime basi.Ecco perché abbiamo detto che se l'FSD arriva in Cina, dovrebbe essere testato a Shanghai adesso. Penso che abbia bisogno di molto lavoro, comprese le mappe, perché non può ottenere così tante informazioni dettagliate sulla mappa, e deve farlo. apportare molte modifiche, quindi abbiamo espresso questo giudizio.

D: L’obiettivo di Ideal quest’anno è diventare il leader assoluto nel campo della guida intelligente. Quali dimensioni vengono utilizzate per definirlo?

Lang Xianpeng: Penso che alla fine tutto dipenda dal volume. Il nostro modello AD Max sarà leader nel mercato in termini di volume di vendite quest'anno? In realtà, questo è l’indicatore più importante. Guardo solo le auto di Max, non il totale. Ho venduto 50.000 auto questo mese, ma se AD Max ne vende solo 10.000, significa che quello che ho fatto con AD Max è stato un fallimento. Ma se dico che ho avuto successo, la proporzione di Max lo farà essere fatto.

Nel mese trascorso dal lancio della versione 6.0 al lancio end-to-end, i proprietari delle nostre auto sono effettivamente entrati di più nel negozio e anche le vendite sono aumentate. La percentuale degli ordini dei nostri utenti per AD MAX è aumentata dal 37% di maggio al 49%. Per il modello L9, il 75% degli ordini riguardava AD MAX. Penso che questa sia la cosa più convincente quando gli utenti pagano effettivamente per il tuo prodotto.

Per quanto riguarda noi internamente, abbiamo avuto una riflessione anche in occasione della riunione strategica di marzo di quest'anno, ovvero non dovremmo guardare troppo alla concorrenza. Perché nella prima metà di quest'anno tutti si lamentavano della qualità media della nostra prima versione senza immagini. In realtà il problema allora era che guardavamo troppo alla concorrenza. A quel tempo consideravamo Huawei un'ottima azienda benchmark competitivo, e il suo tasso di acquisizione e gli indicatori di prodotto sono diventati i nostri In effetti, guardando solo questi indicatori, la nostra versione non è male, ma l'esperienza dell'utente non è buona, quindi alla fine l'abbiamo cambiata in esperienza dell'utente e valutazione invece di limitarci a guardare gli indicatori, ma gli indicatori sono un riferimento.

Domanda: Dopo che Tesla FSD sarà stata lanciata e avrà risolto alcuni problemi sulle condizioni stradali della Cina, alcune importanti case automobilistiche potrebbero trovarsi sulla stessa linea di partenza. Su cosa lavoreranno tutti in quel momento?

Lang Xianpeng: Ciò è legato anche ad alcuni dei nostri piani successivi. Partendo dall'inizio alla fine, tutti utilizzeranno davvero l'intelligenza artificiale per la guida autonoma. Credo che prima o poi i principali attori lo faranno sicuramente. Una volta entrato in questa direzione, il divario tra tutti aumenterà sicuramente. Invece di essere un autista ausiliario come adesso, pensi che qualcuno con 7.000 yuan possa farlo, giusto? Puoi farlo con 1 Orin, puoi farlo con 2 Orin, puoi farlo con 4 Orin, ma se davvero raggiungi l'era dell'intelligenza artificiale, in realtà tutti faranno due cose.

Il primo è se hai abbastanza dati di alta qualità, e il secondo è se hai un cluster con sufficiente potenza di calcolo per eguagliarli. Quindi, alla fine, tutti devono lottare per la potenza di calcolo e i dati, ma la soglia per questi due cose sono molto alte. Se le riserve di capitale della tua azienda non sono sufficienti a sostenere le tue spese di formazione annuali, non sarai in grado di riprodurre le successive L3 o L4. Se la tua azienda automobilistica non ha molte di queste auto, i tuoi dati in realtà non possono supportare le tue esigenze formative.

Inizialmente abbiamo stimato che l'attuale investimento annuale ideale nei costi di formazione è di 1 miliardo di yuan. Stimiamo che il costo futuro sarà di 1 miliardo di dollari USA all'anno. Si tratta solo della potenza di calcolo della formazione e non include altro personale Quindi, se non puoi spendere 1 miliardo di dollari all'anno per la formazione, potresti essere eliminato nella futura competizione di guida autonoma.

Domanda: Un miliardo di dollari all'anno, come dedurlo?

Lang Xianpeng:È più diretto dal punto di vista dei parametri del modello. Prendendo Tesla come esempio, FSD V12.3-12.5 espande il modello di 5 volte e anche la potenza di calcolo viene ampliata di 5 volte ha da 300 a 400 milioni di parametri, quindi VLM Sono 2,2 miliardi. Con la generazione Thor, la sua potenza di calcolo è stata notevolmente migliorata. Il modello non può rimanere invariato Per aumentare il limite superiore per L3 e L4, naturalmente anche la potenza di calcolo della formazione deve essere raddoppiata. Penso che questa sia la logica.

D: I produttori nazionali sono ora sulla stessa linea di partenza nel percorso end-to-end?

Lang Xianpeng: I produttori nazionali sono sulla stessa linea di partenza dall'inizio alla fine, ma penso che se si guarda al modello One, Ideal potrebbe essere in vantaggio.Sulla base di One Model, abbiamo rilasciato per la prima volta la nostra versione di Bird Egg, ed è stato un rilascio e una distribuzione relativamente grandi su una scala di migliaia di persone, e tutti hanno effettivamente sperimentato questo end-to-end e il miglioramento delle prestazioni e l'esperienza derivante da una cosa del genere non è stata mostrata prima. Il mio giudizio per ora si basa su questa base.

Domanda: Per quanto riguarda le questioni relative alla potenza di calcolo e all'acquisto della carta, l'azienda lo supporta?

Lang Xianpeng: Anche la nostra azienda è di grande aiuto. Ora Li Xiang viene di tanto in tanto per chiedere, Lang Bo, la tua carta è ancora sufficiente? Se non ne hai abbastanza, chiedi a qualcuno di aiutarti a risolverlo, ti dirò di sì e ti ringrazierò. Anche se stiamo andando molto bene in tutti gli aspetti delle nostre operazioni, penso che Li Xiang abbia una conoscenza relativamente approfondita dell’intelligenza artificiale. Quindi non siamo particolarmente preoccupati per la potenza di calcolo, ecc. Quando vorrò approvare il bilancio, penso che prenderà in considerazione questi aspetti.

Domanda: Hai detto che non tutte le case automobilistiche possono effettuare la guida autonoma. In termini di potenza di calcolo, quanta riserva è necessaria per soddisfare lo standard del biglietto d'ingresso?

Lang Xianpeng: Ora che abbiamo realizzato i nostri ideali, dobbiamo avere una spesa in termini di potenza di calcolo pari a 1 miliardo di yuan all’anno. Se non ne hai uno, la velocità di iterazione sarà lenta o il tuo prodotto non sarà abbastanza competitivo. In futuro pensiamo che per un simile investimento in termini di potenza di calcolo potrebbe essere necessario un miliardo di dollari USA. Probabilmente lo abbiamo stimato noi stessi. Ora abbiamo circa 15.000 carte, il che è già abbastanza teso giorno, ma col passare del tempo penso che l'aumento del numero di parametri del modello sia almeno 3-4 volte (input), il che sembra più ragionevole. Poiché la potenza di calcolo stessa è migliorata molto, anche la larghezza di banda e l'archiviazione sono migliorate molto, penso che corrisponda sostanzialmente alla sensazione di un piccolo A100 da 100.000, che potrebbero essere circa 3 miliardi di Flop di potenza di calcolo.

Domanda: Questo tipo di investimento è infinito, o ci sarà un limite massimo, o potrebbe stabilizzarsi ad un certo punto. Come garantire l'equilibrio della commercializzazione?

Jia Peng: Negli ultimi due anni, i parametri del modello sono aumentati da decine di miliardi a trilioni, o addirittura 10 trilioni di parametri. Questa è una curva molto ripida, ma recentemente tutti hanno riflettuto di nuovo su una cosa, se più grande è meglio, e ora sta iniziando a restringersi un po'. Forse realizzare alcuni modelli di grandi dimensioni in campi professionali non richiede così tanti parametri, a patto che sia lungo poiché la qualità dei dati è sufficiente Ok, potrebbe non essere necessario che il numero dei parametri del mio modello sia così grande. Questa è una curva HYPE Potrebbe scendere di nuovo dopo un po', ma penso che alla fine raggiungerà uno stato stabile è il numero di parametri del modello o potenza di calcolo, lo farà. All'inizio tutti saliranno rapidamente in salita, quindi alla fine potrebbero tornare un po 'e quindi raggiungere la vera praticità.

D: Nella prima metà della competizione elettrica, Tesla,BYDOra che i concorrenti rimasti indietro sono rimasti molto indietro, come sarà la competizione di guida intelligente nella seconda metà?

Lang Xianpeng:La prima metà riguarda l'elettrificazione e la seconda metà riguarda sicuramente l'intelligenza. Successivamente, vedrai sicuramente che alcuni dei nostri investimenti e le nostre prestazioni nell'intelligenza end-to-end sono solo l'inizio.

notizia

Dirigente di Li Auto: Se in futuro non investiremo 1 miliardo di dollari ogni anno in potenza di calcolo, verremo eliminati

Tutti sono "ciechi e toccano l'elefante" e Ideal ha consegnato il piano migliore

Il significato più grande dell'end-to-end è che cambia essenzialmente l'intero processo di ricerca e sviluppo.

Coloro che non potranno investire 1 miliardo di dollari in potenza di calcolo ogni anno verranno eliminati.

introduzione

le mie informazioni di contatto