notizia

Wei Xiaoli end-to-end: forme diverse, ma le gioie e i dolori si intrecciano

2024-08-19

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


Su Internet cinese, Musk viene spesso ridicolizzato come il "Dio Originale" da deridere "TeslaSenza open source, la Cina non sarà in grado di costruire un’auto elettrica pura”, afferma il partito che odia il paese.

Tuttavia, nel campo della guida intelligente, Tesla ha effettivamente svolto per lungo tempo un ruolo guida nella direzione delle prospettive del settore organizzando l'AI Day per condividere dettagli tecnici (nota: potrebbero esserci più di un faro).

Ma a partire dall’anno scorso Tesla ha cancellato l’AI Day e ha annunciato solo il progresso tecnologico e non ha più parlato di implementazione tecnologica. Ciò che è stato lasciato al mondo esterno è stata la frequente buona notizia dell’utilizzo di soluzioni tecniche end-to-end da parte di FSD. Quest'anno, varie aziende di guida intelligente hanno aperto gli esercizi end-to-end forniti da Tesla e improvvisamente hanno trovato una riga di piccole parole nella colonna delle risposte: Risolvi il problemaIl processo viene omesso.

Come eseguire l'end-to-end senza risposte di riferimento? La ricerca e lo sviluppo della guida intelligente end-to-end sono supportati da un modello di business ragionevole?

La domanda è stata rivolta innanzitutto a Wei Xiaoli, il rappresentante delle nuove forze produttrici di automobili.


01 

Apri la scatola nera



Dall'anno scorso alla prima metà di quest'anno, il tema principale della competizione tra i giocatori nazionali di guida intelligente è stato quello di competere per la velocità di apertura della città con un mare di tattiche di persone nell'ambito della tradizionale architettura tecnologica modulare.

Durante questo processo, il team di guida intelligente di Wei Xiaoli si è espanso fino a raggiungere un migliaio di persone (o più), addestrando, testando e verificando giorno e notte per conquistare il Corner Case.

Tesla FSD ha verificato l’effetto end-to-end, dando a tutti la possibilità di liberarsi dalla duplicazione del lavoro.Ma il prezzo è che ogni modulo del tradizionale stack tecnologico di guida intelligente può essere testato e verificato, mentre il sistema di guida intelligente end-to-end è una scatola nera che conosce solo i risultati ma non il processo.Wei Xiaoli si sta muovendo verso l'end-to-end e i problemi comuni che devono affrontare sono:

In una funzione con forti requisiti di sicurezza come la guida intelligente, una scatola nera completa è inaccettabile. È necessario trovare un modo per aprire questa scatola nera e capire "perché il sistema vuole fare questo", o almeno produrre il suo output in modo relativo. controllabile.

XiaopengLa scelta è un percorso progressivo end-to-end segmentato e la sua soluzione tecnica è la rete neurale percettiva XNet + rete neurale di pianificazione XPlanner + modello di linguaggio visivo XBrain che si concentra sulla comprensione della scena.

Xpeng segmentato end-to-end


Nella catena tecnologica end-to-end, l’end-to-end segmentato è attualmente a valle.

I radicali credono che la segmentazione end-to-end non si allontani dall’ambito delle soluzioni tradizionali. Sebbene sia la percezione che la pianificazione abbiano implementato le reti neurali, un punto chiave non è cambiato: l’interfaccia che collega le due reti neurali è ancora un’interfaccia umana. interfaccia definita. Ciò significa perdita di informazioni e una grande quantità di annotazioni manuali. L'intero processo non favorisce l'ottimizzazione e l'automazione globali.

Ma i vantaggi della segmentazione end-to-end stanno anche qui: ci sono interfacce definite dall'uomo, il che significa che verranno emessi risultati intermedi comprensibili agli esseri umani, il che è utile per controllare e localizzare i problemi e non influirà sull'intero corpo , ad esempio problemi di rilevamento. Non è necessario riqualificare l'intera rete. L'addestramento di due modelli più piccoli insieme è meno difficile e consuma meno risorse di elaborazione rispetto all'addestramento di un modello end-to-end di grandi dimensioni.

Ancora più importante, questo metodo è teoricamente più semplice per mantenere il limite inferiore delle prestazioni di guida intelligente.

Il 30 luglio, dopo il lancio della guida intelligente XNGP di Xpeng, che è stata completamente aperta a livello nazionale, He Xiaopeng ha dichiarato: “Gli edifici devono essere costruiti strato dopo strato. Potrebbe essere possibile svilupparsi a passi da gigante, ma il rischio sarà estremamente alto."

Questa frase è stata interpretata come un ammonimento agli uomini d'affari amichevoli.

All'inizio di luglio, Lili ha presentato alla sua conferenza estiva una soluzione end-to-end a una fase in fase di sviluppo: 4D One Model end-to-end. In una fase end-to-end, la percezione e la pianificazione sono racchiuse in una rete neurale con centinaia di milioni di parametri e i video di guida di conducenti esperti diventano i dati di formazione più importanti. Questa soluzione supporta la trasmissione di informazioni senza perdite e presenta un grado di automazione più elevato nel flusso di dati. È più radicale rispetto alle soluzioni end-to-end di Xiaopeng e Huawei.

Tuttavia, questa soluzione end-to-end presenta problemi come generalizzazione debole, scarsa interpretabilità e limiti inferiori instabili. Per questo motivo Ideal ha collegato all'end-un VLM (Vision-Language Model) con una scala di 2,2 miliardi di parametri. modello di fascia alta. Questo modello ha una comprensione più approfondita delle scene di traffico complesse e dei segnali stradali e può fornire un riferimento per le decisioni di guida nel modello end-to-end, migliorando le prestazioni del sistema di guida intelligente.

idealeEnd-to-end+VLMSoluzione di guida intelligente con sistema veloce e lento

Ad agosto, la soluzione di guida intelligente end-to-end + VLM a doppio sistema veloce e lenta ha avviato un test interno su migliaia di persone per utenti professionali. I funzionari prevedono di lanciarla agli utenti ordinari entro la fine di quest'anno o l'inizio del prossimo anno .

Prima di questo, Ideal non era leader nella percezione degli utenti di Zhijia, il che ha avuto un impatto negativo sulle vendite (soprattutto controChiedi al mondoora). End-to-end + VLM è idealmente definito come una battaglia chiave per la capacità di guida intelligente di sorpassare in curva e diventare il primo scaglione.

Al contrario,NIOAdotta un atteggiamento conservatore e radicale nei confronti dell’end-to-end.

NIO è conservatore in quanto il suo attuale utilizzo end-to-end è molto limitato e non viene utilizzato per le NoA urbane, ma solo per funzioni di sicurezza attiva. L’11 luglio, NIO ha iniziato a spingere AEB utilizzando una soluzione end-to-end per risolvere il problema dell’insufficiente copertura degli scenari AEB nelle soluzioni tradizionali.

Il lato radicale di NIO è che la guida intelligente che sarà lanciata entro la fine dell’anno sembra essere pronta a saltare l’attuale tendenza popolare dell’onboarding end-to-end e passare direttamente alla fase successiva: l’onboarding del modello mondiale.

Il modello mondiale è la metodologia più recente trovata nel settore della guida intelligente. Al CVPR, la principale conferenza sull'intelligenza artificiale del 2023, Tesla ha dimostrato i risultati di ricerca e sviluppo del modello mondiale Wayve.ai, una start-up nota nel settore per il suo modello mondiale di guida autonoma GAIA-1, ha raccolto 1 miliardo di dollari. Maggio quest'anno.

Apprendendo enormi quantità di video di scene di guida reali, il modello mondiale può prevedere e generare video di scene di guida entro un certo tempo futuro per prendere decisioni di guida corrette. La sua essenza è la deduzione dello spazio-tempo. Questo è simile al comportamento di guida umano. I guidatori esperti prevedono e deducono mentalmente il comportamento degli altri partecipanti al traffico e i cambiamenti nel flusso del traffico e pianificano le operazioni di guida su questa base.

Ciò che va oltre l’attuale modello mondiale end-to-end è che il suo compito principale non è solo fornire un percorso pianificato, ma anche “prevedere i cambiamenti dei pixel nella scena di guida”. Questo compito estremamente difficile costringerà il modello non solo ad apprendere il comportamento di conducenti eccellenti, ma anche ad apprendere una vasta conoscenza della fisica e del traffico.

Quello che Weilai ha proposto al NIO IN è un "modello mondiale PLUS" ancora più difficile. È più complesso e ha più dimensioni di output, il che significa che è possibile formare più segnali di supervisione confrontandolo con il valore reale, accelerando la formazione neurale reti e anche ridurre il livello di scatola nera del funzionamento del sistema. Ma il prezzo è una maggiore difficoltà di sviluppo.

Modello mondiale NIO,Ce ne sono moltiL'output dell'attività di previsione di


Per riferimento, per addestrare il modello mondiale GAIA-1, che viene utilizzato solo per demo e produce solo percorsi e video pianificati, Wayve.ai ha utilizzato 4700 ore di dati video e si è allenato per 15 giorni con 160 blocchi di A100. Il modello mondiale che NIO vuole formare richiede dati e risorse informatiche che sono più di un ordine di grandezza superiori.

Una volta completata la formazione, come comprimere e inserire un modello mondiale complesso ed enorme in Orin-X, che ha una potenza di calcolo e una larghezza di banda molto limitate, garantendo allo stesso tempo precisione e velocità di esecuzione, è un altro problema complesso.

Allo stato attuale, Wei Xiaoli, che sta provando l'end-to-end per la prima volta (anche se adottato con cautela), avverte l'effetto di "alzare il limite superiore e abbassare il limite inferiore" dell'end-to-end vari gradi.

Ad esempio, l’ultima versione di Xpeng, XNGP, ha acquisito capacità di inversione a U senza precedenti, ma il feedback ha dimostrato che le sue prestazioni di guida intelligente alle alte velocità sono regredite.

La soluzione end-to-end + VLM di Ideal, che è in fase di test interno, ha un limite superiore elevato e un limite inferiore fluttuante.

L'AEB end-to-end promosso da NIO non solo ha la capacità di evitare estremamente le sonde fantasma in scenari non standard come gli angoli ciechi nelle curve, ma è stato anche criticato dagli utenti per un aumento delle false frenate.


02 

Ricerca e sviluppo L4, prospettive L2?



Quando il limite inferiore è difficile da comprendere, le aziende automobilistiche si rivolgono invariabilmente all’end-to-end, soprattutto perché il limite superiore dell’end-to-end porterà miglioramenti sufficienti all’esperienza dell’utente e corrispondenti opportunità di business.

Ma man mano che le aziende automobilistiche sono sempre più coinvolte nell’end-to-end, una domanda aleggia nelle loro menti: è possibile calcolare il rapporto input-output della guida intelligente?

Per vendere più FSD, Tesla ha abbassato il prezzo di abbonamento da $ 199 al mese a $ 99 al mese (il prezzo di buyout è sceso da $ 12.000 a $ 8.000) nel marzo di quest'anno. Tuttavia, nel maggio di quest'anno, un'agenzia di consulenza dati straniera ha analizzato le informazioni di pagamento delle carte di credito di 3.500 utenti e ha ritenuto che il tasso di conversione di FSD fosse solo del 2%, il che ha portato Musk a confutare la voce su X secondo cui "il tasso di conversione è molto lontano più del 2%, per favore."


Ma molto più del 2% non è sufficiente. Tesla sta costruendo un cluster di supercalcolo nella sua fabbrica in Texas che dovrebbe raggiungere le 100.000 schede H100/H200. Ad un prezzo preferenziale di 25.000 dollari per H100, la spesa in conto capitale per l'acquisto delle sole schede informatiche supererà i 2,5 miliardi di dollari (espandendolo). di costruirlo come data center e continuare a gestirlo è più alto) e vale la penaCanone di abbonamento FSD per 2,08 milioni di veicoli Tesla per un anno intero

Il modello di business della guida intelligente delle case automobilistiche nazionali è ancora meno ottimista.

Le spese di ricerca e sviluppo di Xiaopeng per l'intelligenza artificiale quest'anno ammontano a 3,5 miliardi di yuan. Questo mese, Ideal ha fissato la soglia di finanziamento per la guida intelligente a 1 miliardo di dollari. Tuttavia, sia XNGP di Xpeng che NOA di Ideal vengono forniti di serie con modelli di fascia alta acquistare. NIO non ha adottato una strategia gratuita. La funzione di guida intelligente di fascia alta NOP+ ha un prezzo di 380 yuan al mese. Ha generato entrate per un breve periodo, ma ora le nuove auto hanno un periodo di utilizzo gratuito di NOP+ di 1-2 anni.

Inclusa Tesla, la guida intelligente di fascia alta in patria e all'estero è ancora nella fase di perdere denaro e guadagnare denaro.

La contraddizione è che, dopo essere entrate nella competizione urbana della NOA e essere passate al paradigma end-to-end, l’intensità della ricerca e sviluppo sulla guida intelligente di queste aziende si è effettivamente orientata verso la guida autonoma L3 e persino L4. Tuttavia, il mercato mainstream continua a vederli valore come "non vale il costo aggiuntivo per il software." Guida assistita L2 a pagamento".

Per risolvere questo “divario tra valore atteso e valore effettivo”, sembra che il modo più promettente sia entrare nel più grande mercato della guida autonoma L4, Robotaxi.

Nel 2018, Morgan Stanley ha valutato il Robotaxi di Waymo a 80 miliardi di dollari. Il più grande fan di Musk, Mu Jie di Ark Investment, ha previsto nel giugno di quest’anno che le entrate di Tesla Robotaxi raggiungeranno “conservativamente” i 603 miliardi di dollari nel 2029, aumentando il valore di mercato di Tesla fino a raggiungere i 7 trilioni di dollari.

Prima di ciò, Musk aveva annunciato su Twitter che avrebbe lanciato un modello di Robotaxi ad agosto (giàrinviato al 10 ottobre).


03

I rendimenti aziendali non sono stati ancora miracolosi


Se fare o meno Robotaxi è diventata una questione scottante prima di Wei Xiaoli quest'anno.

Per Xpeng, che è la più vicina a Tesla, la risposta è SÌ. A luglio, He Xiaopeng ha rivelato pubblicamente che Xpeng Motors lancerà Robotaxi nel 2026.

He Xiaopeng ritiene che i requisiti hardware di Robotaxi siano molto più complessi di quanto si immagini, ma la combinazione di algoritmi software end-to-end + modello di grandi dimensioni che può crescere rapidamente è sufficiente per risolvere la guida autonoma L4. L’obiettivo di He Xiaopeng per il team è che, nella seconda metà del 2025, l’esperienza XNGP si confronti con il Robotaxi di Google Waymo.

Tuttavia, la stessa produzione automobilistica è già un’attività ricca di risorse, poiché costruisce un gran numero di Robotaxi e gestisce unUna piattaforma di taxi-hailing a guida autonoma allungherà all’infinito la catena aziendale e il ciclo di rendimento degli investimenti.Google ha investito 5 miliardi di dollari in Waymo quest’anno ed è impossibile che Xpeng sia così ricco.

Da giugno a luglio, He Xiaopeng ha fatto visita al CEO di Didi, Cheng Wei, e al CEO di Uber, Dara Khosrowshahi. Ha detto che Xpeng non vuole gestire Robotaxi, ma spera di esportare modelli e tecnologia di guida autonoma verso partner globali.

Il Robotaxi di Uber, ora collabora con Hyundai


L’approccio delle case automobilistiche al Robotaxi end-to-end ha attirato la reazione di molti professionisti della guida autonoma L4, tra cui l’ex CEO di TuSimple Hou Xiaodi, il CTO di Pony.ai Lou Tiancheng e il presidente di Qingzhou Zhihang Hou Cong. Alcuni di loro hanno criticato con rabbia la mitologia end-to-end delle case automobilistiche, e alcuni hanno affermato che i relativi sistemi di capacità delle case automobilistiche non sono validi, ma gli argomenti principali rimangono gli stessi:

Sebbene la guida intelligente di fascia alta delle case automobilistiche abbia fatto rapidi progressi, è essenzialmente progettata nell’ambito della guida assistita. Gli obiettivi principali di interesse sono l’usabilità e i costi, e la cosa più importante per Robotaxi è l’affidabilità e la sicurezza. I diversi obiettivi rendono difficile per i due utilizzare lo stesso software e hardware, ed è difficile per le case automobilistiche passare senza problemi dalla guida intelligente di fascia alta al Robotaxi [1] [2] [3].

Questo gioca nel cuore di Li Bin. In un'intervista del 27 luglio,Ha chiarito che "non pensa che Robotaxi sia un risultato entusiasmante o un modello di business" e ha affermato con rabbia:

"Il valore della guida intelligente non è quello di eliminare il duro lavoro degli autisti e dei tassisti oggi."

Un altro motivo per cui non è ottimista riguardo ai robotaxi è perchéA causa delle risorse stradali limitate e delle normative governative, i robotaxi non possono essere lanciati senza limiti, il che rende difficile avere un modello di business con rendimenti marginali elevati come i servizi cloud software.

Li Bin ha sempre insistito sul fatto che le persone vorranno possedere un'auto propria, quindi l'obiettivo di NIO Smart Driving è aiutare i conducenti a liberare energia e ridurre gli incidenti. La parola chiave del percorso commerciale è effetto scala: vendere più auto agli utenti ordinari e agli utenti con canoni di abbonamento sufficienti verranno addebitati canoni di abbonamento per la guida intelligente di fascia alta, diluendo i costi e guadagnando entrate.

Tuttavia, a fronte dei costi elevati della guida intelligente, il numero complessivo di utenti di NIO inferiore a 600.000 non è ancora sufficiente e l’esportazione delle capacità di guida intelligente è diventata un’opzione. Ren Shaoqing, responsabile della guida intelligente di NIO, ha recentemente espresso per la prima volta la volontà di NIO di aprire le sue soluzioni di guida intelligente ad altre case automobilistiche, proprio come l’apertura di NIO allo scambio di batterie.

Al contrario, "il giudizio tecnico di Li Xiang è radicale e la strategia aziendale è conservativa" per Zhijia.

Li Xiang ha stabilito quest'anno al Chongqing Automobile Forum che la combinazione end-to-end + VLM raggiungerà la guida autonoma di livello L4 entro tre anni. Ma la differenza è che Ideal non ha mai pensato al business dei Robotaxi. Anche finora, Ideal non ha mostrato alcun interesse nel far pagare il software di guida intelligente. Il logo sul suo sito ufficiale è ancora "guida intelligente per tutti gli scenari, zero canoni di abbonamento a vita".

Ciò è legato alla situazione competitiva ideale. Nell'ultimo anno, gli ideali si sono confrontatiHongmeng Zhixing, le vendite sono state sottoposte a notevoli pressioni. La lancia più affilata di Hongmeng Zhixing sono le capacità di guida intelligente ADS di Huawei.

In un momento in cui Hongmeng Zhixing sta crescendo con Huawei ADS 3.0 (il prezzo di acquisto è di circa 10.000 yuan) da tutti i ceti sociali, esercitando ulteriore pressione su Ideal, lo smart drive AD MAX di Ideal, che è più facile da usare di prima ma gratuito, può aiutare prendi di più Ordini multipli. A differenza di Xpeng e NIO, il KPI ideale per la guida intelligente non è ottenere un reddito operativo, ma servire le vendite.

Tuttavia, mentre l'industria automobilistica nazionale entra nella fase a eliminazione diretta, l'attività di guida intelligente di Wei Xiaoli non può rimanere a lungo in uno stato di amicizia.

Il costo di una tessera di formazione parte da 100.000 yuan e il costo del lavoro di un team di mille persone parte da 1 miliardo all'anno Essendo una delle attività più costose di Wei Xiaoli, Zhijia ha intrapreso una strada che consuma più risorse per ottenere grandi risultati. successo, ma è ancora pieno di incertezza se potrà anche raccogliere i frutti di sforzi miracolosi.

Riferimenti:

[1] Hou Xiaodi, l'uomo cauto e coraggioso, Jiazi Guangnian

[2] Parlando con Lou Tiancheng di Robotaxi: "Più potente è L2, più lontano è da L4", Tencent Auto

[3] Tesla rende Robotaxi semplice |. Conversazione con Hou Cong, co-fondatore di Qingzhou Zhihang, Yunjian Insight