notizia

Li Auto Lang Xianpeng: Senza un profitto di 1 miliardo di dollari in futuro, non possiamo permetterci la guida autonoma |

2024-08-06

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Intervista|Li Qin e Li Anqi

Testo |.Li Anqi

Editore |. Li Qin

All'inizio di giugno, il giorno prima del suo discorso al Forum automobilistico di Chongqing, Li Xiang, amministratore delegato di Li Auto, ha temporaneamente cambiato il copione del discorso. Inizialmente il team aveva preparato per lui un argomento sull'intelligenza artificiale, ma ciò di cui Li voleva parlare era la guida autonoma.

Li Xiang ha affermato durante l'incontro che la guida autonoma in futuro sarà come quella umana, con la capacità di reagire rapidamente e la capacità di gestire eventi complessi con ragionamento logico. La risposta ideale è: modello di linguaggio visivo end-to-end + VLM: questo è anche l'argomento più caldo al momento nel settore della guida intelligente.

Un mese dopo, il team di guida intelligente di Li Auto ha rilasciato una soluzione dettagliata “end-to-end + VLM” Diversamente dalla “segmentata end-to-end” dei concorrenti nazionali, la soluzione di Li Auto è più vicina a Tesla e si chiama “One”. Model”, una grande rete.

Nell'impressione del mondo esterno, l'auto intelligente ideale è sempre stata un inseguitore. Durante la feroce guerra Kaicheng nel settore lo scorso anno, per tenere il passo con il ritmo del settore, Ideal ha iniziato a cambiare frequentemente il suo percorso: dall'affidarsi su mappe ad alta precisione alle mappe luminose (reti di funzionalità NPN), per poi rimuovere mappe ad alta precisione.

Lang Xianpeng, vicepresidente della ricerca e sviluppo sulla guida intelligente di Li Auto, e Jia Peng, responsabile della ricerca e sviluppo sulla tecnologia di guida intelligente, hanno recentemente accettato un'intervista con 36Kr. Guardando indietro a questo viaggio di ricerca, Lang Xianpeng ha concluso: “Il nucleo Il principio è se riusciamo a trovare l’essenza del problema e poi prendere una decisione per correggerlo rapidamente”.

Anche la scelta del percorso tecnico "end-to-end" è una continuazione di questo principio. Lang Xianpeng ha affermato che nelle soluzioni di guida intelligenti del passato, siano esse basate sulla mappa o senza mappa, l'architettura tecnica sottostante era "basata su mappe" e funzionava secondo il "processo di percezione-controllo" esistente le informazioni sono state danneggiate e la regolamentazione e il controllo a valle sono stati limitati. "Ciò richiede molta manodopera e risorse" per correggere costantemente le vulnerabilità.

Naturalmente, l’investimento in risorse è ancora una questione secondaria. Il problema principale è che “l’esperienza di guida intelligente basata su regole ha un limite superiore e non può mai essere antropomorfica”.

"End-to-end + VLM + modello mondiale" è il paradigma ideale di implementazione dell'intelligenza artificiale.

Per dirla semplicemente, la soluzione end-to-end ideale elimina i molteplici moduli indipendenti del sistema di guida intelligente originale come percezione, previsione e controllo della pianificazione che si basano su regole artificiali, e li fonde in una grande rete neurale. "Dati del sensore di input e traiettoria pianificata di output" ha concluso Lang Xianpeng.

Il modello del linguaggio visivo VLM fornisce un plug-in end-to-end simile a ChatGPT. La domanda end-to-end è "che tipo di dati gli fornisci, che tipo di comportamento avrà". Il modello del linguaggio visivo VLM ha la capacità di comprendere il mondo e il ragionamento logico. In scenari complessi, gli utenti end-to-end possono porre domande al VLM in tempo reale e quest'ultimo fornirà suggerimenti di guida pertinenti.

Il modello mondiale è un enorme libro di prova sbagliato, che può generare dati di simulazione attraverso la ricostruzione + produzione, oltre a casi reali accumulati prima dell'Ideale, formando "domande di prova reali + domande di prova simulate" per testare il modello end-to-end. Solo dopo che il modello supera il test e ottiene punteggi elevati può essere promosso agli utenti.

Internamente, questi tre modelli sono chiamati rispettivamente Sistema 1, Sistema 2 e Sistema 3. Il sistema 1 corrisponde alla modalità di pensiero in tempo reale nel cervello umano, il sistema 2 corrisponde al pensiero logico nel cervello umano e il sistema 3 è un modello di esame responsabile dell'accettazione dei risultati della formazione e dell'apprendimento del sistema 1 e del sistema 2.

La tecnologia di guida intelligente end-to-end è stata avviata da Tesla. Nell'agosto 2023, Musk ha dimostrato le funzionalità end-to-end della versione FSD v12 in una trasmissione dal vivo. Attualmente, FSD è stato ripetuto alla versione v12.5. Ma a differenza di Tesla, oltre al modello end-to-end e mondiale, Ideal introduce anche funzionalità di modello linguistico di grandi dimensioni VLM.

Jia Peng ha spiegato a 36Kr di aver trascorso una settimana sulla costa orientale e occidentale degli Stati Uniti testando l'FSD di Tesla e scoprendo che anche "end-to-end" ha un limite superiore. Sulla costa orientale degli Stati Uniti, dove le condizioni stradali sono complesse, come New York e Boston, il tasso di accettazione di Tesla è aumentato in modo significativo "Il numero di parametri del modello end-to-end che possono essere eseguiti su HW3.0 no essere particolarmente grande e anche la capacità del modello ha un limite superiore naturale."

Il ruolo idealmente progettato di VLM è quello di aumentare il limite superiore dell'"end-to-end". Può conoscere strade buche, scuole, essere responsabile di costruzioni, rotatorie e altri eventi e fornire il processo decisionale end-to. -fine del sistema nei momenti critici.

Sia Lang Xianpeng che Jia Peng credono che il VLM sia la variabile più grande nel sistema di guida intelligente ideale. Poiché i parametri di VLM hanno raggiunto 2,2 miliardi e il tempo di risposta è di 300 millisecondi, se esistesse un chip con maggiore potenza di calcolo, il numero di parametri che possono essere distribuiti da VLM raggiungerà decine di miliardi, che è il percorso migliore per avanzare guida autonoma L3/L4.

"La stessa VLM sta seguendo lo sviluppo di una tecnologia di modelli linguistici di grandi dimensioni. Nessuno può dire quanto sarà grande il numero di parametri alla fine", ha detto Jia Peng.

Non è difficile scoprire che caratteristiche come i modelli basati sui dati e il linguaggio visivo di grandi dimensioni determinano che l’industria della guida intelligente ha partecipato al gioco della potenza di calcolo avviato da aziende come OpenAI, Microsoft e Tesla.

Lang Xianpeng non usa mezzi termini Quando si arriva a questo punto, ciò che tutti confrontano è la quantità e la qualità dei dati, nonché la riserva di potenza di calcolo. I dati di alta qualità si basano su una scala di dati assoluta; supportare l'addestramento del modello L4 richiede circa dozzine di EFLOPS di potenza di calcolo.

"Nessuna azienda senza un utile netto di 1 miliardo di dollari potrà permettersi la guida autonoma in futuro", ha affermato senza mezzi termini Lang Xianpeng.

Al momento, la potenza del cloud computing di Li Auto è di 4,5EFLOPS, il che ha rapidamente ridotto il divario con l’azienda leader Huawei. Secondo 36Kr Auto, Ideal ha recentemente acquistato un gran numero di chip cloud NVIDIA e "praticamente ha acquistato tutte le carte nelle mani dei rivenditori del canale".

Anche lo stesso CEO Li Xiang ha un'idea della tendenza di questa competizione: utilizzare risorse e leva tecnologica intelligente per sbarazzarsi dei colleghi. Spesso prende l'iniziativa di chiedere a Lang Xianpeng: "Ci sono abbastanza risorse informatiche? Se non sono sufficienti, lasciamo che Xie Yan (CTO ideale) ne ottenga di più".

"Abbiamo anche macchine e più soldi degli altri, quindi abbiamo una grande possibilità di ampliare il divario con i nostri avversari su questa strada", voleva dire Li. Il rapporto finanziario mostra che nel primo trimestre di quest’anno le riserve di liquidità di Li Auto erano vicine ai 99 miliardi di yuan.

Ideal può vedere dai dati interni che il ciclo chiuso del business della guida intelligente ha iniziato a mostrare segnali. All'inizio di luglio, Ideal ha iniziato a consegnare la versione 6.0 Smart Driving che può essere guidata a livello nazionale agli utenti della versione Max di Smart Driving. Lang Xianpeng ha riscontrato che la percentuale del modello Lideal Max ha rapidamente superato il 50%. più del 10% ogni mese. Se il 2%-3% può essere inteso come jitter normale, ma più del 10% è una crescita effettiva.

Lang Xianpeng sa anche che, sebbene la visione della guida autonoma L4 stia cominciando a diventare chiara, il suo percorso di attuazione non è cambiato. "Dobbiamo aiutare rapidamente l'azienda a vendere auto. Solo vendendo le auto potremo avere soldi per comprare carte per allenarci in modo intelligente guida."

Se la guida intelligente è il vincitore nel futuro campo di battaglia automobilistico, è ovviamente un gioco di risorse più crudele. Ideal ha effettuato preparativi avanzati dalla strategia di alto livello alla preparazione tecnica e all'investimento in risorse. E gli altri?

Quella che segue è una conversazione tra 36Kr Automobile e Lang Xianpeng, vicepresidente della ricerca e sviluppo di Ideal Intelligent Driving Technology, e Jia Peng, responsabile della ricerca e sviluppo di Ideal Intelligent Driving Technology.

Parliamo del limite superiore della guida intelligente: che ci sia o meno un'immagine, si tratta di un'architettura omogenea

36Kr Auto: c'è stata una revisione interna? Come si passa dal restare indietro nella guida intelligente a raggiungere rapidamente un livello paragonabile a quello di Huawei?

Lang Xianpeng: In effetti, rispetto a Xiaopeng, NIO e Huawei, non intendiamo dire che abbiamo più teste, e forse non abbiamo nemmeno tante famiglie come gli altri, ma pretendiamo di essere realisti. A volte ho la sensazione che le persone non cerchino l'essenza del problema, quando incontrano difficoltà, pensano solo se ciò che stanno facendo ora può essere modificato e ripetuto.

Ad esempio, dall'avere immagini al non averle, il problema più grande è l'immagine stessa. Ho già lavorato molto sulla mappa e vorrei faticare ancora un po'. In effetti, voglio investire rapidamente nella prossima fase di ricerca e sviluppo. Dipende se riusciamo a individuare il problema essenziale e a decidere di correggerlo rapidamente.

Automobile 36Kr: L'ideale è ottenere una guida intelligente senza mappe a livello nazionale. Esistono molte versioni Come correggere la deviazione?

Lang Xianpeng: L'anno scorso allo Shanghai Auto Show, tutti hanno iniziato a fare NOA urbana. Ogni azienda ha idee simili. Per le autostrade vengono utilizzate mappe ad alta precisione, quindi il primo passo è vedere se il piano autostradale può essere utilizzato nelle città. Devi chiedere al rivenditore di mappe che AutoNavi ha detto per città, ma solo circa 20 città. Abbiamo detto di provarlo prima.

Tuttavia, l’aggiornamento iterativo del piano e della mappa è vincolato. A quel tempo, stavamo lavorando a Wangjing, stavamo costruendo strade, modificando percorsi e persino cambiando semafori. Abbiamo dovuto aspettare che AutoNavi eseguisse l'iterazione dei disegni prima di poter continuare a lavorare. Verso giugno dello scorso anno, abbiamo deciso di non rifare la mappa e di passare alla soluzione NPN (una rete neurale a priori). È equivalente alla mappatura locale, che utilizza le informazioni preliminari NPN negli incroci principali, nelle rotatorie, ecc. e la nostra auto aggiorna le funzionalità.

Ma nelle grandi città come Pechino, Shanghai, Guangzhou e Shenzhen, ci sono molte auto. Ma nelle piccole città, ci sono poche auto. Lo fai sempre in una grande città? Gli utenti non pagheranno per questo. A quel tempo, la squadra era ancora titubante e Pechino, Shanghai e Guangzhou stavano andando bene. Ci sono anche voci interne che dicono che invece di costruire un centinaio di città, dovremmo costruire alcune città di primo livello. Comunque, Huawei sarà presente solo in 50 città all’inizio, quindi non dobbiamo essere il primo o il secondo.

Ho detto che non è possibile e devo ancora farlo rapidamente. Voglio ancora sapere se è davvero fatto su scala più ampia, il metodo NPN è ok? Questo è il problema. Le mappe hanno sempre avuto restrizioni e ci sono anche critiche sul fatto che alcune città possano aprire solo due strade. Quindi, dopo aver imparato dall'esperienza, abbiamo iniziato a elaborare i piani dopo la consegna delle 100 città nel dicembre dello scorso anno.

36Kr Auto: quali sono le necessità per sviluppare una NOA priva di grafici da un capo all'altro?

Lang Xianpeng: C'è ancora un problema senza un'immagine. Si scopre che la mappa può fornire alcune informazioni relativamente accurate. Dopo aver rimosso le informazioni precedenti della mappa, i requisiti per la percezione a monte diventano particolarmente elevati. Nell’area della regolamentazione e del controllo a valle, prima l’immissione di informazioni era molto regolare, ma ora si percepisce che ci sono alcuni problemi ed errori di jitter, ed è anche una grande sfida.

Continuare a farlo richiederà molta manodopera. Ad esempio, se c’è un problema con la percezione, è necessario aggiungere molte regole al modello dell’ambiente intermedio. Se c’è qualche impatto sulla regolamentazione successiva, è possibile aggiungere regole per compensarlo. Ciò rappresenta un’enorme sfida in termini di risorse umane per il team. È così che è nato Wutu di Huawei (vantaggio di manodopera). Inizialmente volevamo assumere più persone nella seconda metà dello scorso anno.

Ma il limite superiore di questa cosa è abbastanza ovvio. Principalmente, tutte le regole sono create da persone e progettate da ingegneri. Soprattutto nell'ultimo periodo di gennaio e febbraio di quest'anno, abbiamo spesso cambiato una regola. Se questo caso funziona bene, altri casi non funzioneranno. Il coinvolgimento reciproco è troppo grande e infinito.

Naturalmente, investire risorse è secondario. La cosa più importante è che l’esperienza basata sulle regole ha un limite superiore e non può mai essere antropomorfica. Quindi abbiamo ripetuto l'attuale end-to-end e VLM. End-to-end, è la prima volta che si utilizza l’intelligenza artificiale per la guida intelligente.

36Kr Auto: quando è il momento ideale per iniziare a investire nell'end-to-end?

Lang Xianpeng:Abbiamo sempre due linee di lavoro, una linea aperta è per la produzione e la consegna di massa, l'immagine luminosa NPN dell'anno scorso fino a nessuna immagine è una linea aperta e l'end-to-end è una linea scura, che è la nostra linea di pre-ricerca .

Il fatto è che la Yanqi Lake Strategy Conference lo ha chiarito l’anno scorso. Durante l’incontro strategico, Li Xiang ha affermato che la guida autonoma è la nostra strategia principale e che la RD (ricerca e sviluppo tecnologico) deve raggiungere traguardi importanti. L’idea end-to-end esiste da molto tempo, ma c’è sempre stata la pressione per realizzarla e nessuna risorsa da esplorare.

36Kr Auto: Wutu potrebbe dover funzionare end-to-end subito dopo il lancio. Come viene considerato questo ritmo?

Lang Xianpeng: All'inizio dell'anno, ho detto a Li Xiang questo: anche se vogliamo farlo dall'inizio alla fine, dobbiamo comunque farlo senza un'immagine. Poiché senza grafico è un supporto end-to-end Senza grafico, da dove verrebbero i dati e l'esperienza per supportare end-to-end?

E deve essere caricato senza foto prima che l'auto possa essere venduta facilmente. Altrimenti come può competere con Huawei? Ora che siamo su Wutu, stiamo cercando di guadagnare tempo dall'inizio alla fine e allo stesso tempo di migliorare le nostre capacità di prodotto per aiutare a vendere automobili.

36Kr Auto: Nel frattempo hai negato i tuoi piani. C'è qualche pressione dal punto di vista della gestione al rialzo?

Lang Xianpeng:No. In primo luogo, la mia responsabilità è portare tutti a realizzare la guida autonoma; in secondo luogo, un'organizzazione ideale ha una propria metodologia o processo, ad esempio fare cose corrette ma non facili. Sembra una sciocchezza, ma è fondamentale.

Li Xiang non avrebbe mai detto perché Lang Bo ha negato ciò che aveva fatto prima. Gli abbiamo spiegato chiaramente il motivo per cui lo stavamo facendo, che volevamo vincere nella strategia di intelligenza artificiale, e abbiamo trovato un paradigma a doppio sistema, che ha capito immediatamente. Direbbe solo che l'end-to-end è fantastico e deve essere fatto rapidamente.

Ciò di cui l’intelligenza artificiale ha bisogno è potenza di calcolo e dati. Li Xiang viene spesso e mi chiede, Lang Bo, sei abbastanza potente? Se non ti basta, chiedi a Xie Yan di procurartene dell'altro.

Li voleva dire che anche noi abbiamo auto e più soldi degli altri, quindi abbiamo una grande possibilità di ampliare il divario con gli altri su questa strada. Quindi non fare questi armeggi e sbrigati a occuparti dell'intelligenza artificiale dietro di esso.

Parlando del futuro della guida intelligente: End-to-end + VLM è il miglior paradigma per l'intelligenza artificiale

36Kr: Alcune aziende non hanno mai fatto la no-map e pensano che l'end-to-end sia un'opportunità per cambiare corsia e sorpassare. È vero?

Lang Xianpeng: È giusto a metà. È infatti possibile cambiare corsia end-to-end Indipendentemente dal fatto che esista un grafico, NPN o nessun grafico, il nucleo della soluzione è omogeneo. Rimuovi la mappa, migliora la percezione, impila piccoli moduli in diversi modelli di grandi dimensioni e utilizza lo stesso piano per evolvere poco a poco.

Ma end-to-end è diverso. Per la prima volta utilizza l’intelligenza artificiale per la guida autonoma. Dopo aver utilizzato un modello per eseguire operazioni end-to-end, l'input sono solo dati, l'output è la traiettoria e i moduli intermedi sono integrati in un unico modello.

L’intero sistema del processo di ricerca e sviluppo è completamente diverso. Nel modello tradizionale di sviluppo del prodotto, la forza trainante proviene dalla progettazione della domanda o dal feedback del problema. Non funziona in questo scenario. Dopo che si è verificato un bug, sono necessarie alcune iterazioni e verifiche manuali della progettazione.

L'end-to-end è una scatola nera e le sue capacità dipendono interamente dal tipo di dati che gli vengono forniti. Ciò che stiamo filtrando ora sono i dati dei conducenti esperti. Se i dati non sono buoni, il modello prodotto non sarà buono. Ciò che entra è spazzatura e ciò che esce è spazzatura. È un processo di formazione del flusso di dati. In passato era un processo di ricerca e sviluppo delle funzioni del prodotto, ma ora è un processo di miglioramento delle capacità.

Quindi non ci sono problemi a cambiare corsia end-to-end, ma se vuoi sorpassare devi avere potenza di calcolo di dati e allenamento. Se non ci sono questi due prerequisiti, a dire il vero, ognuno ha il modello, e il modello in sé non sarà troppo diverso. Non importa quanto sia valido il modello, senza dati e potenza di calcolo, è solo un mucchio di parametri.

36Kr: L'ideale è accumulare molti dati, ma He Xiaopeng ha recentemente avanzato l'idea che avere più dati non significa che si possa ottenere la guida autonoma. Cosa ne pensi?

Lang Xianpeng:I nostri dati di addestramento sono clip, che includono dati completi del conducente che guida per decine di secondi, inclusi sensori visivi, informazioni sullo stato del veicolo in quel momento e dati operativi come acceleratore e freno.

Ma i dati devono essere di alta qualità per essere utili. Cos'è l'alta qualità? Insieme al nostro team di valutazione delle prestazioni soggettive dei prodotti e dei veicoli, abbiamo definito congiuntamente uno standard chiamato "Conducente umano di alta qualità". Alcuni conducenti guidano ogni giorno e sono molto abili Se accelerano e decelerano sempre all'improvviso, utilizzano l'AEB o girano il volante all'improvviso, potrebbe non funzionare.

Secondo questi standard, solo il 3% dei nostri 800.000 proprietari di auto sono "guidatori umani di alta qualità". Insieme ai dati di alta qualità accumulati in precedenza, alla fine sono stati formati milioni di clip, che sono tutti i migliori. He Xiaopeng ha ragione, sono effettivamente necessari dati di alta qualità, ma la qualità dei dati si basa sulla scala assoluta dei dati.

36Kr Auto: dopo l'end-to-end, è necessario aggiornare il sistema dello strumento dati?

Lang Xianpeng: La catena degli strumenti è cambiata molto. In precedenza, si trattava di un processo di sviluppo delle funzioni del prodotto, come l'acquisizione da parte dell'utente, la trasmissione dei dati, l'analisi manuale dei problemi e quindi la modifica del codice, la valutazione effettiva del veicolo e il rilascio online. Questo processo di dati a circuito chiuso è già molto efficiente. Ma ci vorranno anche diversi giorni e sarà coinvolta molta manodopera. Più test ci saranno, più problemi ci saranno e più persone dovranno apportare modifiche.

Il processo attuale prevede che se il proprietario di un'auto subentra, una volta restituiti i dati, scene simili verranno generate automaticamente utilizzando il modello mondiale e trasformate in una banca di domande sbagliate. Controlla anche se ci sono dati simili nel database delle domande sbagliate. In caso contrario, analizza il database esistente e conduci una formazione congiunta.

Dopo aver addestrato un nuovo modello, il modello ritorna nel sistema di esame del modello mondiale e viene testato due volte. La prima volta è per vedere se hai risposto correttamente alle domande sbagliate, e la seconda volta è una serie di domande reali per testare le tue abilità. Se non ci sono problemi entrambe le volte, il modello è fuori uso. All’estremo limite, non c’è nessuno nel mezzo ed è un processo a circuito chiuso molto automatizzato.

36Kr Auto: Il processo di formazione end-to-end è una scatola nera e occorre aggiungere molto codice per scoprire i dettagli. Puoi giudicare quanto lavoro è coinvolto?

Lang Xianpeng:Pochissimi. Il nostro volume di codice per la versione con grafica è di circa 2 milioni di righe e per la versione senza grafica è di 1,2 milioni. Il totale end-to-end è di solo 200.000, ovvero solo il 10% dell'originale.

Esistono infatti alcune regole nascoste per controllarlo. Poiché i dati dei sensori vengono immessi end-to-end e la traiettoria pianificata viene effettivamente emessa, potrebbero esserci problemi, quindi avremo alcune regole violente per evitare alcuni comportamenti di controllo anomali, come girare il volante di 180 gradi.

36Kr Auto: Musk ha detto che sono state cancellate 300.000 righe di codice. Sembri essere più aggressivo Se ci sono sempre più problemi dopo il push, il codice verrà aggiunto nuovamente?

Lang Xianpeng: Non penso che cambierà molto. La cosa principale è che abbiamo la capacità di iterare costantemente noi stessi.

36Kr Auto: Ideal ha sempre avuto due linee interne: produzione di massa e pre-ricerca. Qual è la transizione end-to-end dalla pre-ricerca alla produzione di massa?

Lang Xianpeng: L4. Ciò risale alla nostra comprensione dell’intelligenza artificiale. Abbiamo scoperto che se vogliamo ottenere una vera guida autonoma, l’approccio attuale è molto diverso.

End-to-end, che tipo di dati gli vengono forniti, che tipo di comportamento avrà. Qualora non vengano conferiti dati simili, gli stessi non verranno trattati. Ma le persone no. Ad esempio, se guido a Pechino, posso guidare anche negli Stati Uniti. Se vogliamo davvero realizzare la guida autonoma, il sistema deve comprendere le cose come fanno gli esseri umani e avere la capacità di ragionare.

Abbiamo studiato come funziona e pensa il cervello umano. Nell'agosto e nel settembre dello scorso anno, Jia Peng e Zhan Kun hanno visto la teoria del doppio sistema, che è un'ottima struttura per il pensiero umano. Supponiamo che l'intelligenza artificiale sia un sistema duale. Il sistema 1 ha la capacità di rispondere rapidamente e il sistema 2 ha la capacità di pensare in modo logico e può gestire bene cose sconosciute.

Queste cose fanno tutte parte del Tao, a livello teorico. Quando si parla di guida autonoma, il modello end-to-end è il Sistema 1, mentre il Sistema 2 è il modello del linguaggio visivo VLM. Questa è la soluzione migliore per realizzare l'intelligenza artificiale nel mondo fisico.

Quindi come si misurano le capacità del Sistema 1 e del Sistema 2? Abbiamo anche un modello mondiale, che in realtà internamente è chiamato Sistema 3. Il nostro utilizzo del modello mondiale è molto chiaro. Viene utilizzato per testare il Sistema 1 e il Sistema 2. È un esaminatore.

Abbiamo una vera banca di test, che contiene dati reali sulle persone che guidano normalmente. Il modello mondiale è un modello generativo che può generare altre domande traendo inferenze dai dati esistenti. Dopo che un modello è stato addestrato, esegui le domande reali una volta, quindi esegui alcune serie di domande simulate per vedere quanto ottieni. Ogni modello avrà un punteggio e più alto è il punteggio più potente sarà il modello.

36Kr Auto: in quali circostanze verrà attivato il sistema 2?

Lang Xianpeng: Il sistema 1 e il sistema 2 funzionano sempre. Se alcuni sistemi sono più complessi, il Sistema 1 potrebbe non essere facile da identificare, come cavalcavia, pozzanghere e pavimenti in cemento di nuova costruzione. Il Sistema 2 funzionerà in tali scenari, ma la sua frequenza operativa sarà inferiore, ad esempio 3-4 Hz ., il sistema 1 potrebbe funzionare ad una frequenza elevata superiore a dieci Hz. Similmente a GPT, il Sistema 1 porrà sempre domande al Sistema 2 su cosa fare quando si verifica questo scenario.

36Kr Auto: il VLM del sistema 2 stesso ha limiti di capacità?

Lang Xianpeng: Puoi considerarlo come un grande modello linguistico. Alcuni modelli linguistici di grandi dimensioni possono essere bravi in ​​matematica, altri possono essere bravi in ​​codifica e avere capacità diverse. Ci concentriamo nel fornire leggi relative alla guida, video didattici e libri di testo per le materie 1-4. Il nostro VLM è in realtà un ampio modello linguistico incentrato sulla guida.

A breve termine non ha ancora una certa conoscenza, ma man mano che il circuito chiuso gira sempre più velocemente, il limite superiore delle sue capacità diventerà sempre più alto. Gli attuali parametri end-to-end superano solo i 300 milioni e i parametri del sistema VLM sono 2,2 miliardi.

36Kr Auto: Quindi la variabile più importante nel futuro della guida intelligente è il Sistema 2?

Lang Xianpeng:Il supporto di base è il Sistema 1, ma quando andremo oltre, compreso il raggiungimento del livello di guida autonoma L3L4, dovremo avere capacità molto forti del Sistema 2. Gli attuali 2,2 miliardi di parametri potrebbero non essere sufficienti e sarà necessario aggiungerne altri.

Jia Peng: Il sistema 2 si concentra principalmente su scene complesse. Il tempo di risposta di 2,2 miliardi di parametri è di 300 mm. Nelle scene difficili, questo tempo di inferenza è OK. Ma il sistema 1 sicuramente non basta, ci vogliono circa decine di millisecondi.

36Kr Auto: esiste un limite massimo per i parametri del modello? Tipo 8 miliardi? Quali sono i requisiti approssimativi per la potenza di calcolo dei chip?

Jia Peng:Proprio come il modello linguistico di grandi dimensioni, nessuno può dire quanti parametri abbia.

Lang Xianpeng:Ora disponiamo sia di conoscenze che di competenze. Il Sistema 1 più il Sistema 2 è un buon paradigma di intelligenza artificiale, ma come implementarlo in modo specifico richiede di esplorarlo lentamente.

36Kr Auto: Se vogliamo che il modello segmentato end-to-end si evolva in un modello unico, dobbiamo reinventare la ruota?

Jia Peng: La sfida è piuttosto grande. Il nostro modello senza grafico è equivalente al modello segmentato, con solo due modelli. Ma prima, la sfida tecnica è relativamente grande, perché quelle tradizionali sono tutte scomparse. Come addestrare il modello per ottenere buoni risultati? La seconda è la sfida umana. Come possono due gruppi di persone con background diversi nella percezione e nel controllo lavorare insieme per costruire un modello?

Anche la nostra squadra fatica e si lancia. Quando si tratta di end-to-end, i ruoli di molte persone potrebbero essere cambiati. Le persone che facevano ingegneria potrebbero definire dati e scenari. Cambiare il tuo ruolo è una vera sfida.

Parlando di business a circuito chiuso: non puoi permetterti la guida autonoma senza 1 miliardo di dollari

36Kr Auto: Sembra che i fondi stiano bruciando Quanto pensi di investire nell'end-to-end?

Lang Xianpeng: Certamente, attualmente si tratta di 1 miliardo di RMB. In futuro, la formazione di modelli di guida autonoma potrebbe richiedere 1 miliardo di dollari, escludendo altre cose come acquisti con carta, bollette elettriche e talento. Nessuna azienda senza un utile netto di 1 miliardo di dollari può permetterselo.

36Kr Auto: L'end-to-end può rappresentare una tecnologia spartiacque nel settore automobilistico Da una prospettiva commerciale a circuito chiuso, qual è la performance commerciale della guida intelligente?

Lang Xianpeng: A partire dalla versione 6.0, negli ultimi 1-2 mesi, la nostra proporzione AD Max ha superato il 50%, con una crescita di oltre il 10% ogni mese. Se il 2%-3% può essere inteso come jitter normale, ma superiore a 10 % è la crescita effettiva. A Pechino, Shanghai, Guangzhou e Shenzhen, la percentuale dei nostri modelli di guida intelligenti ha raggiunto il 70%. L'ordine AD MAX per il modello L9 è 75%, L8 è 55% e L7 è 65%.

Jia Peng: Anche L6 ha il 22%. La guida intelligente è già un fattore molto importante per l’acquisto di automobili da parte dei giovani. Dopo aver utilizzato la guida intelligente, è difficile tornare allo stato originale.

Lang Xianpeng: Al giorno d’oggi, la NOA ad alta velocità è ben riconosciuta da tutti, mentre la NOA urbana è ancora in una fase molto iniziale. In larga misura, le capacità dei prodotti urbani non sono abbastanza buone. Anche senza immagini, hanno raggiunto il limite. Rispetto al livello di comfort della guida umana, non sono particolarmente buone. Dopo l'end-to-end, tutto cambierà e alcune prestazioni saranno abbastanza vicine a quelle umane.

Con l’aggiunta di dati e potenza di calcolo, è probabile che la guida urbana intelligente derivata dall’architettura end-to-end ottenga un’esperienza di guida ad alta velocità. In questa fase è molto utile per gli utenti acquistare automobili.

36Kr Auto: Il valore commerciale della guida intelligente sta diventando sempre più evidente, ma la funzione ideale di guida intelligente è sempre stata gratuita. La strategia verrà ridiscussa per rendere più prominente il valore commerciale?

Lang Xianpeng: Molte persone acquistano Ideal per frigoriferi, TV a colori e grandi divani, ma in futuro potrebbero acquistare anche Ideal per la guida intelligente, il che è sufficiente per dimostrare il valore commerciale della guida intelligente. La differenza tra le versioni Max e Pro è in realtà di 30.000 yuan.

Per quanto riguarda la ricarica del software, se raggiunge il livello L4, sarà davvero fantastico. Immagina di poter aiutare gli utenti a ritirare i propri figli all'ingresso della scuola. Sei disposto a pagare per questo servizio? Man mano che le capacità migliorano, emergeranno alcuni modelli di business aggiuntivi, ma la premessa deve essere che le capacità di guida intelligente siano notevolmente migliorate.

36Kr Auto: Xiaopeng ha detto che realizzerà un'esperienza simile a Waymo di Google nei prossimi 18 mesi. Avete un calendario del genere?

Lang Xianpeng: Va bene se i dati e il business possono supportare gli obiettivi. Abbiamo fatto alcuni calcoli interni. Non parliamo di L3L4. Se vogliamo supportare VLM e la formazione end-to-end, avremo bisogno di circa dozzine di potenza di cloud computing EFLOPS.

Quello di Xpeng è 2,51 EFLOPS e l'ideale è 4,5 EFLOPS. Per raggiungerlo sono necessari almeno 10 EFLOPS di potenza di calcolo, ovvero circa 1 miliardo di dollari USA e 6 miliardi di yuan all'anno. Se te lo puoi permettere ogni anno, puoi giocare.

36Kr Auto: Oltre alla potenza di calcolo, sulla base dell'attuale architettura tecnica, di quanti investimenti avrà bisogno in media ogni anno il team di guida intelligente?

Lang Xianpeng: La maggior parte delle spese riguardano l'addestramento dei chip, l'archiviazione dei dati e il traffico, che costano almeno da 1 a 2 miliardi di dollari all'anno. Ma andando oltre, in particolare il modello mondiale, l’obiettivo finale è ripristinare l’intero mondo fisico reale. Anche questo richiede formazione e richiede molte risorse informatiche.

Per quanto riguarda quale sia il limite superiore, non riesco a immaginarlo in questo momento. Sono almeno più di 10 EFLOPS. Musk ha detto che sarebbero centinaia di EFLOPS. Non pensiamo che sia una sciocchezza.

36Kr Auto: Le aziende automobilistiche si basano ancora sul modello di profitto dell'industria manifatturiera. Quest'anno ci sarà una guerra dei prezzi e i profitti ne risentiranno. È più appropriato che le aziende automobilistiche facciano ciò che fanno le aziende tecnologiche?

Lang Xianpeng: Chiunque riesca a ottenere dati di alta qualità e disponga di sufficiente potenza di calcolo per l'addestramento può costruire un modello di grandi dimensioni. Potrebbero non esserci così tanti talenti, ma i talenti corrispondenti devono esserci. Chi altro può averli tutti e tre oltre a Ideal, Huawei e Tesla? Non riesco a capirlo.

La nostra idea attuale è quella di aiutare rapidamente l'azienda a vendere auto. Solo vendendo le auto potremo avere i soldi per acquistare una carta per allenare la guida intelligente.

Più progrediremo nella guida intelligente, più ampio sarà il divario. Prima non c'erano foto, ma tutti stavano realizzando qualcosa da cui si poteva vedere il soffitto. Per fare passi avanti in futuro, sarà necessario aggiungere l’intelligenza artificiale e ciò per cui tutti competono sono i dati e la potenza di calcolo. Se non può essere risolto, possiamo solo tornare alla dimensione precedente e passare a quella successiva per raccogliere i dividendi dei dati.

36Kr Auto: La tecnologia di guida intelligente cambia così rapidamente e gli investimenti sono così grandi. Come può Li Xiang mantenere la sua consapevolezza sulla guida intelligente?

Lang Xianpeng: Parlerebbe con me e l'insegnante Jia in qualsiasi momento. Da settembre dello scorso anno organizziamo un incontro settimanale sull'intelligenza artificiale, che riunisce tutte le persone legate all'intelligenza artificiale in azienda, comprese le persone che lavorano negli spazi intelligenti, nelle infrastrutture e nelle piattaforme di formazione. La comprensione di Li Xiang dell’intelligenza artificiale è ancora molto buona.

Ha anche altre risorse e conosce molte persone. Ha chiacchierato con Lu Qi, il CEO di Kimi Yang Zhilin, Horizon Yu Kai e altri. Non solo comprende l'essenza fondamentale e la tecnologia essenziale dell'intelligenza artificiale, ma può anche esprimerla in termini popolari.

36Kr Auto: quanta manodopera è necessaria per la progettazione del modello end-to-end? Quante persone sarà la dimensione media di un futuro team di guida intelligente?

Jia Peng: Potresti non averne bisogno di troppi. Tesla in realtà ha pochissimi modellisti veramente d'élite e il team visivo ha solo 20 persone in totale. Questo può essere effettivamente dedotto. Ad esempio, con il chip OrinX, il modello stesso funziona a 12-15 Hz, il che determina sostanzialmente il numero di parametri del modello e il tipo di struttura del modello da utilizzare per l'addestramento. Forse alcune persone possono definirlo approssimativamente Esso.

Lang Xianpeng: Tesla è più estrema, con un team di algoritmi software composto da oltre 200 persone, ma produce solo un chip e pochi modelli. Non possiamo essere perfetti come lui adesso, ma saremo comunque molte volte migliori di lui. Poiché le nostre piattaforme di chip sono diverse e abbiamo molti modelli, anche se non diamo lavoro a un numero particolarmente elevato di persone, ce ne sono comunque alcune in ogni luogo.

36Kr Auto: La potenza del cloud computing sarà un grande investimento in futuro Hai pensato di sostituirlo con chip domestici? Sarà difficile cambiare?

Jia Peng: J3 e J5 di Horizon furono utilizzati per la prima volta nella parte finale dell'auto. Cloud sta provando alcuni prodotti domestici, ma la difficoltà maggiore al momento è che la loro ecologia non è così buona. L'ecosistema CUDA di NVIDIA è così invincibile che sarebbe molto problematico adattarsi a un altro ecosistema. Adesso voglio ancora mettere l’efficienza al primo posto e prestare attenzione al progresso interno. Gli scambi e le sperimentazioni sono già iniziati.

36Kr Auto: Dopo il rilascio del chip di guida intelligente sviluppato internamente, quale sarà l'effetto dell'integrazione end-to-end?

Jia Peng: La combinazione di software e hardware darà sicuramente risultati migliori e Tesla ha già prodotto un prototipo. I chip sono più economici, la potenza di calcolo è maggiore e il supporto per AD è migliore. Volevano espandere i parametri di 5 volte su FSD V12.5 e l'hanno ampliato. Ciò presenta grandi vantaggi.

Lang Xianpeng:Il prerequisito è che siano determinati gli algoritmi L3 e L4.

36Kr Auto: ci sarà un momento temporale per la guida autonoma L4?

Lang Xianpeng: Solo 3-5 anni. Abbiamo passato prima L3, che è il trampolino di lancio verso L4. Innanzitutto, ci consente di avere una comprensione più chiara della potenza di calcolo e dei requisiti di dati di L4, comprese le capacità di base del sistema di esame e del circuito chiuso dei dati.

In secondo luogo, sul fronte dei prodotti, occorre instaurare un rapporto di fiducia reciproca con le persone. Poiché l’end-to-end stesso è ancora una scatola nera, le persone continuano a non fidarsi del sistema. Quindi attraverso i prodotti L3 puoi costruire un buon rapporto di fiducia con le persone.

36Kr Auto: L'origine di molte tecnologie di intelligenza artificiale è nella Silicon Valley. Seguivo Tesla e ora anche Ideal sta facendo esplorazioni all'avanguardia su come garantire che il giudizio o il senso della tecnologia sia accurato e acuto, invece di scegliere albero tecnologico sbagliato?

Lang Xianpeng:Abbiamo già un sistema completo. Ci vorranno ancora dai 3 ai 5 anni, ma se commettiamo un errore, lo faremo presto e c'è ancora una possibilità.

C'è davvero una divisione nell'intelligenza artificiale tra Cina e Stati Uniti. In realtà ci sono molti talenti in Cina. Facciamo del nostro meglio per trovare i giovani migliori. Ad esempio, quest'anno abbiamo reclutato più di 240 studenti di 240 scuole, tutte tra le prime 100 di QS (le 100 migliori università del mondo).

Parlando di Tesla: impara da Tesla e supera Tesla

36Kr Auto: Alcuni dicono che il divario tra la guida domestica e quella intelligente Tesla è di 2 anni. Cosa ne pensi?

Lang Xianpeng: Certamente no. Non commenteremo le soluzioni tecniche perché Tesla non ha detto molto sulle sue soluzioni tecniche negli ultimi due anni. In termini di esperienza del prodotto, siamo sostanzialmente al livello in cui Tesla ha appena rilasciato la versione end-to-end l’anno scorso. C'è un intervallo di circa sei mesi.

36Kr Auto: Anche Tesla ha riscontrato alcuni problemi. Musk ha affermato che ci sono meno dati e meno feedback. Come evitarlo?

Lang Xianpeng:Queste sono fasi diverse. Quando le incontriamo, significa che siamo entrati nella fase successiva.

Jia Peng: Il problema più grande di Tesla ora è la verifica. Puoi vedere che la v12.4 (numero di versione di Tesla FSD) non funziona bene, e quindi è stata rilasciata la v12.5, con il numero di parametri ampliato di 5 volte. Immagino che la fase di verifica non sia stata eseguita particolarmente bene. Quando è uscito il modello non sapevo come avrebbe funzionato quando fosse stato effettivamente utilizzato dagli utenti.

Questo è il motivo per cui diamo importanza ai modelli mondiali. Abbiamo imparato queste lezioni e dobbiamo completare la verifica in anticipo. Altrimenti, come si può verificare il modello per tutte le strade del paese, comprese le comunità dei parchi?

Se guardi all'AI Day di Tesla nel 2022, è ancora una simulazione molto tradizionale. La scalabilità (scalabilità) è troppo scarsa per supportare la sua piena apertura in Nord America. A questo punto, ci sono effettivamente alcune lezioni che abbiamo imparato da Tesla. Ecco perché ci impegniamo così tanto a creare modelli mondiali.

36Kr Auto: C'è qualcosa che trovi difficile nel processo di creazione della soluzione end-to-end? Come una catena di strumenti dati?

Jia Peng: Il set di dati è stato creato dal 2019 e almeno è il migliore in Cina. Dati e formazione sono in realtà routine e ci sono paradigmi da seguire. Al momento, la verifica è la sfida più grande.

Un altro è lo stesso VLM, che sta gradualmente assumendo un ruolo sempre più importante. All'inizio potrebbe essere utilizzato solo nel 5% dei casi, ma in seguito potrebbe incontrare un limite massimo end-to-end e la restante esperienza del prodotto si baserà su VLM per l'iterazione. Questa sarà una sfida in futuro.

Anche questo è diverso da Tesla. Abbiamo realizzato VLM e il modello mondiale perché abbiamo visto i problemi di Tesla. Si è verificato un problema con la verifica della versione 12.4. L'abbiamo già guidato due volte in Nord America, ogni volta per circa una settimana, sia sulla costa occidentale che su quella orientale. A quanto pare va bene sulla costa occidentale e male su quella orientale. Boston e New York non sono così buone, perché queste due città sono molto più complicate della costa occidentale.

Sulla costa orientale, il tasso medio di acquisizione di Tesla è piuttosto elevato, e forse alcuni dei limiti massimi end-to-end sono proprio qui. Quindi, quando realizziamo VLM, vogliamo abbattere questo limite. Il limite superiore del VLM è molto alto ed è possibile superarlo (Tesla) attraverso questo insieme di percorsi.