le mie informazioni di contatto
posta[email protected]
2024-09-25
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
la guida autonoma può davvero concretizzarsi?
l’umanità ha speso innumerevoli tempo e denaro nello sviluppo della guida autonoma. oggi, gli incidenti frequenti, lo spreco di denaro senza fine e il lento progresso hanno causato molte confusioni e domande: la guida senza conducente è una truffa o addirittura il settore è morto?
questo settore è davvero uno dei più divisi che abbia mai visto. ogni fazione ha punti di vista diversi, si guarda dall'alto in basso e si incolpa a vicenda. dopo che gli dei combattono, ognuno va per la propria strada, calpesta le proprie trappole. e si sconfiggono a vicenda. ognuno spende i propri soldi.
il risultato è che la guida senza conducente entrerà nel freddo inverno prima del 2024.
ma in questo freddo inverno, mentre musk afferma di aver ricostruito la fsd di tesla “attraverso la tecnologia ai end-to-end” e annuncia che entrerà nel settore dei taxi autonomi (robaxi), sembra esserci una nuova vitalità e speranza.
l’approccio end-to-end può condurci verso una vera guida senza conducente? l2 e l4 definiti nella guida autonoma sono davvero distanti? dove si è sviluppata oggi la tecnologia senza conducente? la battaglia tra visione pura e multimodalità è davvero infinita?
per esplorare come si sta sviluppando il settore della guida autonoma, abbiamo trascorso tre mesi intervistando le aziende di guida autonoma più all’avanguardia nel mercato globale, tra cui ex dipendenti principali di waymo e cruise, ex ingegneri di tesla fsd e investitori del mercato primario e secondario. sono ben dieci i professionisti nel settore della guida autonoma.
abbiamo scoperto che il settore è ancora frammentato e non c’è consenso su molti percorsi tecnici.
in questa serie di articoli esploreremo lo stato d'avanguardia della tecnologia di guida autonoma odierna da molteplici punti di vista come percezione, algoritmi, prodotti, operazioni, economia e diritto.
in questo articolo parleremo prima di tecnologia in modo esaustivo, nel prossimo numero la analizzeremo dal punto di vista operativo ed economico.
1. cos’è la guida autonoma?
facciamo innanzitutto una distinzione concettuale: qual è la differenza tra guida senza conducente e guida autonoma?
a seconda del grado di intelligenza, la guida autonoma si divide in 6 livelli da l0 a l5:
l0 significa nessuna automazione, l1 significa assistenza alla guida, l2 significa guida automatica parziale, l3 significa guida automatica condizionale, l4 significa guida altamente automatica e l5 significa guida completamente automatica, ovvero vera guida senza conducente.
waymo e cruise, di cui abbiamo parlato più avanti, e i camion senza pilota costruiti da hou xiaodi appartengono tutti al livello l4. tesla fsd appartiene al livello l2, ma il tesla robotaxi che musk afferma è l4.
pertanto, attualmente in questo settore, quando si parla di guida autonoma, si fa generalmente riferimento alle aziende l4, perché nessuno può ancora raggiungere la l5; e in generale, la guida autonoma comprende tutti i livelli ed è una chiamata più generale.
diamo un’occhiata a come è nata l’industria della guida autonoma.
sebbene gli esseri umani abbiano iniziato a esplorare la guida autonoma già 100 anni fa, è riconosciuto che la guida autonoma moderna ha avuto origine ufficialmente dalla darpa challenge dell’esercito americano nel 2004.
dopo diversi anni di sviluppo si è formato un collegamento operativo percezione-pianificazione-controllo. il modulo di percezione include percezione e previsione.
lo strato di percezione deve ottenere le condizioni stradali davanti a sé attraverso sensori come radar e telecamere, prevedere le traiettorie di movimento degli oggetti e generare una mappa dell'ambiente circostante in tempo reale, che è la comune visione a volo d'uccello che vediamo sulle auto e sui veicoli. macchine, quindi trasmette queste informazioni al livello di pianificazione. il sistema determina la velocità e la direzione in base all'algoritmo e viene infine trasferito al livello di controllo dell'esecuzione per controllare l'acceleratore, il freno e lo sterzo corrispondenti.
successivamente, con l'avvento dell'intelligenza artificiale, le persone hanno iniziato a lasciare che la macchina imparasse a guidare da sola. in primo luogo, si lascia che l'algoritmo guidi nel mondo digitale simulato. dopo che l'addestramento alla simulazione ha raggiunto un certo livello, può iniziare a testare su strada .
negli ultimi due anni, quando tesla ha applicato la soluzione “end-to-end” alla versione fsd v12, anche il collegamento operativo di percezione-pianificazione-controllo ha iniziato a cambiare.
successivamente, ci concentreremo sul parlare dei due percorsi tecnici dell'industria della guida autonoma a livello di percezione: la scuola visiva pura e la scuola di fusione multimodale. queste due fazioni si combattono da molti anni e ciascuna ha la propria meriti. parliamo delle loro lamentele e dei loro odi.
2. percezione: visione pura e fusione multimodale
attualmente esistono due soluzioni di percezione tradizionali per le automobili.
la prima è una soluzione di rilevamento della fusione multimodale adottata da molte aziende, che aggrega e fonde le informazioni raccolte da sensori come lidar, radar a onde millimetriche, sensori a ultrasuoni, telecamere e unità di misurazione inerziali per determinare l'ambiente circostante.
tornando alla darpa challenge di cui abbiamo parlato nel capitolo precedente, nella prima sessione del 2004, sebbene nessun veicolo finisse la gara, un concorrente di nome david hall si rese conto dell'importanza del lidar durante la competizione. dopo la competizione, velodyne, la società lui fondata, iniziò a passare dall'audio al lidar.
a quel tempo, il lidar scansionava con una singola linea e poteva misurare la distanza solo in una direzione. tuttavia, david hall inventò un lidar rotante meccanico a 64 linee in grado di scansionare l'ambiente a 360 gradi.
successivamente, ha preso questo lidar rotante per partecipare alla seconda darpa challenge nel 2005. alla fine, un'auto con 5 lidar in testa ha concluso la gara e ha vinto il campionato.
ma questa non era l'auto di david hall... la sua macchina si è ritirata a metà strada a causa di un guasto meccanico, ma la sua prestazione ha fatto capire a tutti che il lidar è un "plug-in".
nella terza darpa challenge del 2007, cinque delle sei squadre che hanno terminato la competizione hanno utilizzato il lidar di velodyne. a questo punto, il lidar ha iniziato a diventare popolare nel settore della guida autonoma e velodyne è diventata anche l’azienda leader nel lidar automobilistico.
zhang hang (direttore scientifico senior presso cruise):
ora, che si tratti di cruise o waymo, alcune soluzioni basate su l4 si basano principalmente su lidar, che può ottenere direttamente informazioni sulla posizione. in questo caso, i requisiti per l'algoritmo stesso saranno relativamente bassi, e quindi ci sono molte informazioni 3d possono essere ottenuti direttamente tramite sensori, il che migliorerà la robustezza e la sicurezza del sistema e renderà più semplici alcuni problemi a coda lunga.
un'altra fazione tecnica è la soluzione puramente visiva rappresentata da tesla, che si affida solo alle telecamere per raccogliere informazioni ambientali, quindi utilizza le reti neurali per convertire video 2d in mappe 3d, che includono ostacoli e previsioni dell'ambiente circostante, velocità e altro informazioni.
rispetto alla soluzione lidar che genera direttamente mappe 3d, pure vision ha un processo aggiuntivo di conversione da 2d a 3d. secondo zhang hang, fare affidamento esclusivamente su dati di addestramento “video” privi di informazioni 3d comporterà alcune sfide alla sicurezza.
zhang hang (direttore scientifico senior presso cruise):
richiede una grande quantità di dati di addestramento per apprendere la mancanza di informazioni 3d. in questo caso, manca la supervisione poiché non esiste un oggetto di riferimento, è difficile ottenere una verità fondamentale (dati di valore reale). se avviene completamente attraverso questa semi-supervisione, penso che sia più difficile raggiungere la sicurezza del sistema basata sul metodo di apprendimento. penso che lo scopo principale di tesla sia quello di controllare i costi, inclusa la modifica di alcuni meccanismi di cambio marcia, il tutto per risparmiare sui costi di alcune parti.
ma secondo yu zhenhua, ex ingegnere ai di tesla, scegliere la visione pura non significa solo risparmiare sui costi.
1. più è uguale al caos?
yu zhenhua (ex ingegnere ai di tesla):
in effetti, il sistema di pilota automatico originale di tesla aveva un radar a onde millimetriche. la fusione dei sensori è in realtà un algoritmo molto complesso, ma non è necessariamente valido quando viene implementato.
all'epoca avevo un'auto che era una delle ultime ad avere un radar a onde millimetriche. nel 2023, la mia auto è stata sottoposta a manutenzione e il tecnico dell'assistenza ha rimosso automaticamente il mio radar. qual è la conclusione di questa questione? la rimozione del radar a onde millimetriche non è una questione di costi, perché la mia macchina è già dotata di un radar a onde millimetriche. la ragione principale è che la visione pura ha superato il radar a onde millimetriche. quindi tesla sta facendo sottrazione, rimuovendo alcune cose ridondanti che ritiene non necessarie o ingombranti.
yu zhenhua crede che,se l’algoritmo di fusione non viene eseguito correttamente o se la visione pura riesce a ottenere risultati sufficientemente buoni, più sensori diventeranno un peso.
molti professionisti l4 che abbiamo intervistato concordano anche sul fatto che più informazioni non sono migliori. al contrario, troppe informazioni aggiuntive non valide raccolte dai sensori aumenteranno il carico sull’algoritmo.
è quindi possibile fare affidamento esclusivamente sul sensore della fotocamera che musk ha sempre sostenuto?
2. meno è di più?
musk ha affermato che poiché gli esseri umani possono guidare solo con due occhi, le auto possono anche ottenere una guida autonoma basandosi solo sulle immagini. tuttavia, la preoccupazione dell'industria per la pura visualizzazione è sempre stata l'inganno visivo, che in passato ha effettivamente causato meno incidenti.
ad esempio, tesla identifica un camion bianco come il cielo e la luna come una luce gialla, oppure ideal identifica il contenuto di un cartellone pubblicitario come un'auto, provocando incidenti come frenate improvvise e tamponamenti ad alta velocità.
questi casi significano che le soluzioni puramente visive senza informazioni approfondite presentano carenze intrinseche?
yu zhenhua (ex ingegnere ai di tesla):
più flussi di informazioni possono effettivamente fornire più informazioni, ma devi rispondere a una domanda: la fotocamera stessa non ha abbastanza informazioni? oppure la capacità dell’algoritmo di estrarre informazioni è insufficiente?
ad esempio, quando si frena improvvisamente o ci si sente frustrati durante la guida su strade urbane, la causa principale è in realtà la stima insufficiente della velocità e dell'angolo degli oggetti circostanti. se questo è il motivo, allora il lidar è davvero molto meglio delle telecamere perché può fornire se fornisci informazioni più dirette, la fotocamera stessa ti fornisce effettivamente le informazioni, ma il nostro algoritmo non è abbastanza buono per estrarre tali informazioni.
yu zhenhua non crede che la causa principale dell'inganno visivo siano le informazioni insufficienti provenienti dalla fotocamera, ma che l'algoritmo sia insufficiente per elaborare o estrarre le informazioni fornite dalla fotocamera. egli ritiene che, soprattutto dopo il lancio dell'algoritmo fsd v12 di tesla, sia stato dimostrato che quando l'algoritmo è stato notevolmente ottimizzato, l'estrazione e l'elaborazione delle informazioni della fotocamera sono state notevolmente migliorate.
yu zhenhua (ex ingegnere ai di tesla):
l'fsd v12 di oggi non è perfetto e presenta molti problemi, ma finora non ho trovato quale problema sia dovuto a sensori insufficienti. naturalmente, prima del v12, molti problemi erano dovuti a sensori insufficienti, ma il v12 di oggi non presenta questo problema.
tuttavia, i professionisti della l4 hanno una prospettiva diversa. credono che le fotocamere abbiano degli svantaggi naturali.
zhang hang (direttore scientifico senior presso cruise):
personalmente penso che sia difficile e non penso che sia necessariamente un problema con l’algoritmo stesso.
prima di tutto, la fotocamera in sé non è complicata come l'occhio umano. ogni fotocamera ha alcuni parametri e i suoi limiti.
poi c’è l’algoritmo stesso. le persone non hanno bisogno di sapere dove si muovono tutte le auto nel raggio di 200 metri, mi basta sapere quali auto e quali pedoni possono influenzare il comportamento della mia macchina i punti sono sufficienti e non ho bisogno di molta potenza di calcolo. potrebbe non essere possibile raggiungere questa altezza tramite algoritmi a breve termine. penso che lidar sia un metodo supplementare.
zhang hang, impegnato nella ricerca l4, ritiene che le fotocamere non possano eguagliare l'occhio umano. la ragione principale è che la lunghezza focale e i pixel della fotocamera sono fissi, mentre l'occhio umano ha una precisione molto elevata e può zoomare automaticamente. allo stesso tempo, la modalità di pensiero saltante degli esseri umani non può essere applicata ai computer a breve termine, quindi il lidar può essere utilizzato per integrare le carenze delle fotocamere.
tuttavia sul mercato esistono altre opinioni secondo le quali oltre alle informazioni visive altri sensori forniranno anche informazioni sulle interferenze.
ad esempio, il lidar ha anche i suoi difetti poiché utilizza la portata laser, quando si trova di fronte ad alcuni oggetti riflettenti, pioggia o neve o laser emessi da altre auto, interferirà con il lidar e alla fine causerà effetti illusori.
liu bingyan (responsabile del software kargo):
sono una persona visiva pura e ferma. le strade in questo mondo sono progettate per le persone e la visione. vale a dire, a parte la visione, puoi pensare alle informazioni che raccogli come un'interferenza l'informazione fornisce interferenza, e il valore reale che fornisce, che tipo di distribuzione è? penso che man mano che la grafica migliora sempre di più, potrebbe essere l'esatto contrario.
se fosse possibile sviluppare un algoritmo di fusione multisensore per consentire la verifica reciproca delle informazioni lidar e dell’immagine, la sicurezza del sistema potrebbe essere ulteriormente migliorata.
hou xiaodi ha proposto una vivida metafora:quando due studenti dello stesso livello sostengono l'esame, quello che usa la calcolatrice alla fine avrà vita più facile. è solo la base economica che determina se può permettersi una calcolatrice.
il dibattito tra la visione pura e le soluzioni di fusione multimodale basate su lidar va avanti da diversi anni e sembra che non ci sarà alcuna risposta a breve termine. oper alcune startup il percorso non è affatto importante, ma i costi e i conti economici sono i più importanti.
hou xiaodi (ex fondatore e ceo di tusimple, fondatore di bot.auto):
ero considerata una persona visiva perché all'epoca il lidar non era disponibile, quindi siamo stati costretti a trovare soluzioni più visive.
nemmeno io sono contrario al lidar;quando il lidar è diventato economico? sono stato il primo a fare la fila.lidar adesso costa davvero poco, quindi faccio anche la fila per comprarlo. per me è un bravo gatto che acchiappa il topo. finché il costo di questo dispositivo è sufficientemente basso e finché questo dispositivo può fornirci informazioni sufficientemente preziose dal punto di vista della teoria dell’informazione, dovremmo usarlo.
david (conduttore di "big horses talking about technology"):
il circolo cinese di guida autonoma ha rapidamente reso disponibili questi hardware, come il lidar e il radar a onde millimetriche, a un prezzo speciale. in questo stato, dovremmo ancora praticare la visione pura come tesla? in effetti, molte aziende ora esitano: dovrei acquistare un lidar a stato solido per più di 1.000 yuan o dovrei usare la visione pura, ma ciò causerebbe molti sprechi in termini di potenza di calcolo.
yu zhenhua (ex ingegnere ai di tesla):
penso che 1.000 yuan siano troppo costosi e tesla non è nemmeno disposta a utilizzare un sensore pioggia.
wang chensheng (ex direttore degli appalti tesla):
ma penso che con l’aumento delle dimensioni della catena di fornitura e la riduzione significativa dei costi, quando il lidar può raggiungere un prezzo simile a quello delle telecamere, soprattutto in uno scenario applicativo end-to-end, la visione pura è ancora un percorso unico?
3. pentirsi?
è interessante notare che, poiché il prezzo del lidar è sceso in modo significativo, l’industria ha iniziato a non essere d’accordo sul fatto che il prossimo taxi a guida autonoma di tesla utilizzerà il lidar.
ad esempio, zhang hang ritiene che, poiché robotaxi non richiede l'intervento umano e, se qualcosa va storto, l'azienda deve essere responsabile, tesla potrebbe scegliere una strada più conservativa e utilizzare il lidar, che una volta disprezzava.
zhang hang (direttore scientifico senior presso cruise):
soprattutto quando deve essere responsabile di incidenti aziendali, deve essere più prudente e penso che potrebbe essere necessario un sensore aggiuntivo. da questo punto di vista, tesla potrebbe adottare alcune tecnologie che in precedenza disprezzava.finché questa cosa sarà utile e potrà raggiungere il suo scopo l4, la adotterà gradualmente.
recentemente abbiamo anche scoperto che tesla sta considerando anche alcuni aspetti di l4 e l5, e sta anche parlando di cooperazione con alcuni produttori di questo lidar, quindi è possibile che tutti raggiungano lo stesso obiettivo per strade diverse.
quest’anno il produttore di lidar luminar ha pubblicato il suo rapporto finanziario del primo trimestre, mostrando che gli ordini di tesla hanno raggiunto il 10%, rendendolo il suo più grande cliente. ma yu zhenhua non era d'accordo, pensando che non fosse una novità.
yu zhenhua (ex ingegnere ai di tesla):
prima di tutto, non è sicuramente per l'uso del lidar nelle future auto prodotte in serie, perché il fatturato totale di luminar nel primo trimestre sembra essere di 20 milioni di dollari usa, e il 10% è di 2 milioni, il che non è sufficiente per installarne diversi lidar. in effetti, non è un segreto che i veicoli di ingegneria e i veicoli di prova di tesla siano dotati di lidar. il lidar viene utilizzato per raccogliere dati di base (dati di valore reale) per l'addestramento delle reti neurali, perché gli esseri umani non possono determinare a quanti metri si trova un oggetto da te. per la marcatura è necessario utilizzare sensori speciali.
ma perché lumina lo ha rivelato nel primo trimestre, in realtà sono molto confuso, perché anche musk ha risposto in quel momento, dicendo che dopo aver raggiunto la v12, non avremo bisogno di dati di valore reale perché sono end-to-end e occupano la rete si tratta dell'era v11. potrei pensare che ci siano alcuni malintesi qui, cioè dai rapporti finanziari o dalle regole finanziarie.
anche se al momento non è chiaro se il prossimo robotaxi di tesla sarà dotato di lidar, una cosa è certa è che con l'attuale configurazione di rilevamento di tesla, la sicurezza non è sufficiente per raggiungere l4 o per azionare un robotaxi.
liu bingyan (responsabile del software kargo):
sono molto sicuro che i modelli tesla esistenti abbiano punti ciechi molto chiari, che sono punti ciechi che non sono visivamente accessibili, e questo punto cieco causerà se vuole raggiungere il massimo, che si tratti di guida autonoma l4 o l5, il suo prossimo l'auto deve risolvere questo problema dell'angolo cieco.
smantelleremo in dettaglio l’ultimo aggiornamento tecnologico end-to-end di tesla nei capitoli 3 e 4, oltre a speculazioni sui dettagli di robotaxi che saranno annunciati a ottobre. successivamente, discutiamo prima di un’altra importante tecnologia nella percezione: le mappe ad alta precisione.
4. senza tempo?
oltre al lidar, anche le mappe ad alta precisione rappresentano una delle principali fonti di costo nel settore dei sensori della guida autonoma.
le mappe ad alta precisione raccolgono informazioni stradali in anticipo, riducono la pressione sul modulo di percezione per disegnare mappe 3d e migliorano la precisione.
casualmente, il primo a promuovere le mappe ad alta precisione è stato sebastian thrun, il vincitore della seconda darpa challenge nel 2005, il proprietario dell'auto con cinque lidar in testa.
durante la darpa challenge del 2004, google stava preparando il progetto "street view". il fondatore di google larry page si è recato personalmente sul sito del concorso per identificare i talenti. dopo il concorso nel 2005, page si è rivolto a sebastian thrun e lo ha invitato a unirsi a google gli fu dato il disegno della mappa.
nel frattempo, thrun e page si resero improvvisamente conto:se esistesse una mappa in grado di registrare con precisione tutte le corsie, i segnali stradali, i semafori e altre informazioni stradali, sarebbe di grande aiuto per la guida autonoma., che stabilisce anche l'importante posizione delle mappe ad alta precisione nei progetti di guida autonoma.
tuttavia, la produzione di mappe ad alta precisione è molto costosa. il costo medio per le società di guida autonoma per la raccolta di mappe ad alta precisione è di circa 5.000 dollari al chilometro se vogliono coprire 6,6 milioni di chilometri di strade negli stati uniti, solo il costo della raccolta raggiungerà i 3,3 miliardi di dollari.
se a ciò si aggiungono i frequenti costi di manutenzione della mappa, il consumo finale sarà inimmaginabilmente astronomico.
molte case automobilistiche stanno ora promuovendo soluzioni mapless che abbandonano le mappe ad alta precisione e utilizzano invece i veicoli per costruire mappe ambientali a livello locale.
un ingegnere di guida autonoma che abbiamo intervistato in forma anonima ha affermato che questi confronti e promozioni sono più dovuti a considerazioni sul modello di business. per le aziende che operano nel settore dei robotaxi, l’utilizzo di mappe ad alta precisione può aumentare la sicurezza.per le aziende automobilistiche, rinunciare alle mappe ad alta precisione può effettivamente ridurre i costi, quindi non significa che rinunciare alle mappe ad alta precisione porterà a un livello tecnico più elevato.
rispondente anonimo (ingegnere l4):
anche huawei ha un'idea ideale. la loro soluzione è un'auto prodotta in serie. i clienti possono provenire da diverse città e tu vuoi poterla guidare in qualsiasi città.
la soglia principale per la mappa tradizionale ad alta precisione è che richiede un processo di raccolta delle mappe. questo processo di raccolta delle mappe è in realtà relativamente dispendioso in termini di tempo e manodopera e richiede anche competenze professionali per questo dispositivo di raccolta delle mappe.
quindi, se ti occupi di produzione di automobili in serie, non puoi dire che ho un'auto dedicata alla raccolta di mappe e che ho viaggiato in tutta la cina per te. questo non è realistico.
le aziende l2 come tesla, huawei e ideal hanno abbandonato le mappe ad alta precisione perché non potevano coprire ogni strada e vicolo.
mentre waymo e cruise hanno fatto questo, la società l4 di robotaxi ha scelto di continuare a utilizzare mappe ad alta precisione perché ha scoperto chedobbiamo coprire solo alcune città chiave per conquistare un numero sufficiente di mercati.
pertanto, diventa se utilizzare mappe ad alta precisioneil problema della contabilità finanziaria di robotaxi non è un problema tecnico.
minfa wang (ex ingegnere senior di machine learning di waymo):
se guardi solo al modello di business di robotaxi e dividi la domanda di robotaxi negli stati uniti, scoprirai che le prime cinque città rappresentano già la metà del volume commerciale negli stati uniti ovunque negli stati uniti, in effetti, hai già un mercato abbastanza ampio.
allo stesso modo, un altro ospite da noi intervistato che lavora sui camion a guida autonoma l4 ha condiviso che se vogliono espandere i loro percorsi operativi, cioè espandere la copertura di mappe ad alta precisione, devono prima misurare se questo percorso è redditizio, altrimenti farà solo una perdita in perdita.
dopo un simile giro di chiacchiere, non esiste una visione unificata nel settore dal punto di vista della percezione. proprio come ha detto hou xiaodi, un gatto è un buon gatto se cattura i topi.
successivamente, concentriamoci sui recenti progressi negli algoritmi di guida autonoma a cui tutti stanno prestando molta attenzione di recente, in particolare la tecnologia “end-to-end” che tesla ha recentemente promosso. di che tecnologia si tratta? cambierà davvero la direzione del settore della guida autonoma?
3. algoritmo: il futuro della guida autonoma è end-to-end?
1. cos'è la tradizione?
il tradizionale collegamento operativo della guida autonoma consiste innanzitutto nel percepire, prevedere, quindi pianificare e infine controllare.
il modulo di percezione deve prima identificare la strada attraverso sensori come telecamere e radar, tradurre queste informazioni in un linguaggio visibile alla macchina e trasmetterle al modulo di previsione.
il modello di previsione giudicherà le traiettorie di guida di altri veicoli e pedoni, quindi trasmetterà queste informazioni al modulo di pianificazione per trovare il percorso con il rischio più basso e infine trasmetterà il segnale di controllo al sistema di controllo.
l'algoritmo in questo momento è guidato principalmente dalla "rule base". gli ingegneri devono scrivere continuamente varie regole, come rallentare quando si incontrano pedoni, fermarsi al semaforo rosso, ecc. per tenere conto delle varie situazioni, la rule base. devi coprire ogni possibilità il più possibile e, di conseguenza, il codice è molto, molto lungo.
quali sono le difficoltà con un simile algoritmo?
il problema più grande è che il sistema è diviso in diversi moduli, ma la trasmissione delle informazioni tra i moduli andrà persa se il downstream non riesce a ottenere informazioni complete, la difficoltà di previsione e pianificazione aumenterà.
per fare un esempio semplice e di facile comprensione, tutti hanno sentito parlare del gioco di teletrasporto multigiocatore, giusto? 10 persone pronunciano una frase dall'inizio alla fine, ma spesso i dettagli vengono persi o manomessi durante il processo di pronuncia da parte di più persone, tanto che il significato è completamente diverso quando arriva all'ultima persona.
allo stesso modo, nel tradizionale modello basato su regole, se il modulo del livello superiore non funziona abbastanza bene, ciò influenzerà le prestazioni del livello successivo.
un altro svantaggio è che le regole sono tutte progettate e definite dagli esseri umani, ma regole limitate non possono coprire infinite possibili situazioni della vita reale. per alcuni problemi non comuni e facilmente trascurati, è difficile per le macchine trovare soluzioni corrispondenti. il "caso a coda lunga" è anche chiamato "caso d'angolo", che comporterà costi molto elevati per l'implementazione su larga scala.
yu zhenhua (ex ingegnere ai di tesla):
un'altra cosa è che quando è divisa in due moduli, penso che questa tecnologia sia difficile da scalare. perché? ogni volta che aggiungi una nuova attività a una scena realistica e complessa, devi aggiungere alcune nuove interfacce e devi cambiare la percezione e la pianificazione del controllo.
prendiamo tesla, ad esempio. alcuni anni fa, la nhtsa (u.s. transportation safety administration) ha richiesto a tesla di rilevare i veicoli di emergenza, come i camion dei pompieri e le ambulanze. in termini di percezione, è necessario rilevarli e quindi controllarli anche con la pianificazione deve farlo. questo è solo un compito. potrebbero esserci centinaia o migliaia di compiti simili. quindi sai che ci sono migliaia di ingegneri in huawei? circa 6.000 ingegneri, perché più complesso è l’ambiente, più compiti non penso che questo sia un modello scalabile.
david (conduttore di "big horses talking about technology"):
questo metodo è ancora relativamente antiquato anche se sembra essere una metodologia relativamente intelligente per l’industria dei robotaxi, in futuro non potrà soddisfare le esigenze delle autovetture e di milioni di veicoli che circoleranno sulle strade di tutto il mondo.
quali sono allora le soluzioni a questi problemi? in questo momento dobbiamo parlare di "end to end".
2. nuove superstar
nel campo della guida autonoma, l’attuale definizione tradizionale di “end-to-end” è:le informazioni raccolte dal sensore vengono trasmesse al modello di grandi dimensioni basato sulla rete neurale senza alcuna elaborazione e i risultati del controllo vengono emessi direttamente.
in altre parole, non è necessario scrivere manualmente varie regole e lasciare che l’algoritmo impari a guidare seguendo i dati che gli vengono forniti.
yu zhenhua (ex ingegnere ai di tesla):
perché quando noi umani guidiamo, non giudichiamo mentalmente la velocità e l'angolo di una determinata macchina. prendi le tue decisioni inconsciamente attraverso un ambiente complesso.
la logica di pensiero di "rendere gli algoritmi più simili agli esseri umani, perché è così che funzionano gli esseri umani" è esattamente la direzione di musk per guidare tesla. non c'è da meravigliarsi perché la tecnologia "end-to-end" non è nuova nella guida autonoma. ma è stata creata per la prima volta da tesla.
sebbene tesla lancerà per la prima volta l’fsd v12 utilizzando il metodo “end-to-end” alla fine del 2023, il “end-to-end” non è una novità nel mondo della guida autonoma. infatti, già nel 2016, nvidia aveva pubblicato un documento in cui proponeva la soluzione "end-to-end".
ora, anche l'"end-to-end" è diviso in due tipi. uno è la sostituzione di alcuni moduli con reti neurali. questo "end-to-end" di sottomoduli è solo una forma eccessiva, non completa, perché ciascun modulo per trasferire informazioni tra loro, è ancora necessario definire diverse interfacce, causando la perdita di dati.
nella visione tradizionale, solo quando più moduli sono integrati in un tutto e le definizioni di livello di percezione, livello di previsione e livello di pianificazione vengono rimosse, può essere considerato puro "end-to-end".
nel 2023, il miglior articolo del cvpr "guida autonoma orientata alla pianificazione" ha proposto che il passato "end-to-end" funzionasse solo su alcuni moduli o richiedesse l'inserimento di alcuni componenti nel sistema.
questo articolo propone l'architettura del modello uniad, che rappresenta la prima volta in cui tutti i moduli di rilevamento, previsione e pianificazione sono integrati in una struttura di rete end-to-end basata su transformer.
rispetto al tradizionale collegamento di esecuzione basato su regole (guidato da regole), "end-to-end" non richiede più che gli ingegneri dell'algoritmo migliorino ripetutamente la base di regole, quindi quando musk ha rilasciato fsd v12, ha affermato che "il suo codice è cresciuto da 300.000 righe sono state ridotte a 2.000 righe."
sebbene la tecnologia “end-to-end” nella guida autonoma non sia stata inventata da tesla, tesla è stata infatti la prima azienda a sviluppare la tecnologia “end-to-end” delle reti neurali e a portarla sul mercato mainstream.
3. vantaggi “end-to-end”.
nel novembre 2023, tesla ha rilasciato la prima versione di prova di fsd v12, ma era aperta solo a dipendenti selezionati. entro l’inizio del 2024, tesla inizierà ad aprire la versione fsd v12 a tutti i proprietari di tesla negli stati uniti e ciascun proprietario avrà a disposizione una prova gratuita di un mese.
dopo il lancio dell'fsd v12, per un po' ha suscitato scalpore dall'esperienza dell'utente, vediamo che la maggior parte dell'opinione pubblica ritiene che la funzione dell'fsd di tesla sia molto migliorata rispetto a quella precedente. molte persone pensano addirittura che sia così "primi nel mondo della guida autonoma". chatgpt moment”.
david (conduttore di "big horses talking about technology"):
ciò che mi fa davvero pensare che il progresso sia la pianificazione. ad esempio, quando si tratta di rotatorie, è abbastanza difficile attraversarle nella direzione di pianificazione tradizionale, perché l'auto davanti a te deve rimanere bloccata e tu devi rimanere bloccato. fuori dalla rotonda. come impostare il centro questo tipo di priorità?
anche se imposti la priorità, quanto dovresti tenerti dall'auto che precede e da quella accanto a te prima di poter scendere. questa è in realtà una logica molto complicata, ma le sue prestazioni sulla nuova versione di fsd sono davvero eccezionali? mi sento benissimo. questo mi dà una grande sorpresa.
molte persone che hanno sperimentato fsd v12 hanno affermato che questo sistema, che impara dai dati di guida umani, ha uno stile di guida molto simile a quello umano e non presenta più la frustrazione causata dagli algoritmi meccanici.
ma allo stesso tempo, alcuni ospiti hanno pensato dopo averlo sperimentato,fsd v12 non è così buono da dover essere utilizzato, e c'è ancora un certo divario tra esso e l4.
justin mok (direttore degli investimenti di un family office):
ma non è buono come gpt4, e non è così buono che devo usarlo, o che lo userò immediatamente, e può essere adatto per l'uso in molti dei miei scenari.
minfa wang (ex ingegnere senior di machine learning di waymo):
le sue prestazioni sono relativamente buone in autostrada, ma su strada ritengo che fondamentalmente debba essere rilevato manualmente ogni 5 miglia circa.
soprattutto in quella che chiamiamo svolta a sinistra non protetta, è relativamente facile da fare, il che mi fa pensare che non sia un comportamento molto sicuro. se il tuo mpi (chilometraggio di acquisizione) è solo 5, allora è ovviamente lontano dalla guida autonoma è ancora un po' lontano.
ho sperimentato personalmente anche la versione fsd 12.4.4. rispetto ai veicoli l4 come waymo, l'attuale tesla fsd in certi momenti mi spaventa ancora o talvolta mostra un comportamento inspiegabile.
ad esempio, quando svoltavo a destra, poiché il suo raggio di sterzata era troppo ampio, quasi colpiva l'auto in arrivo, quindi dovevo intervenire manualmente.
dal punto di vista delle prestazioni, l'fsd v12 "end-to-end" ha ancora margini di miglioramento. dal punto di vista ingegneristico, operativo e gestionale, i vantaggi "end-to-end" hanno tre punti:
in primo luogo, può rendere il sistema complessivo più semplice.dopo aver rimosso la base di regole, è sufficiente aggiungere continuamente casi di formazione per migliorare ulteriormente le prestazioni del modello e anche i costi di manutenzione e aggiornamento saranno significativamente ridotti.
in secondo luogo, risparmiare sui costi di manodopera.poiché il "end-to-end" non si basa più su una base di regole complessa, non è necessario impiegare un grande team di sviluppo o affidarsi ad esperti.
in terzo luogo, può ottenere una promozione più ampia.puoi vedere che attualmente le aziende l4 possono operare solo in aree limitate, indipendentemente dalle restrizioni normative e di licenza, perché non è una soluzione "end-to-end" e deve essere ottimizzata per regioni specifiche, e "end-to-end" " può gestire tutte le condizioni stradali. , più come un conducente "universale", che è uno dei motivi per cui tesla fsd v12 è paragonato a chatgpt.
dato che il sistema "end-to-end" presenta così tanti vantaggi, sarà in grado di risolvere i problemi tecnici attualmente affrontati dalla guida autonoma?
4. modello a scatola nera
molti ospiti che abbiamo intervistato credevano che,in questa fase, l’ulteriore sviluppo del percorso end-to-end è una tendenza riconosciuta nel campo della guida autonoma, ma ci sono ancora molti problemi.
zhang hang (direttore scientifico senior presso cruise):
penso che questa direzione sia la giusta direzione. è impossibile per noi realizzare una soluzione l4 su larga scala applicando continuamente patch. ma al momento penso che sia impossibile ottenere rapidamente una soluzione l4 completamente attraverso una soluzione finale. soluzione completa, quindi ora è un momento contraddittorio.
il motivo per cui l'attuale end-to-end è ancora molto indietro l4 inizia con la sua incertezza.
l’end-to-end è come una scatola nera, che porterà maggiori incertezze.
ad esempio, gli ingegneri non possono verificare se i casi dei dati di input sono stati appresi dal modello o, quando riscontrano un bug, non possono individuare quale collegamento ha causato il problema o se i dati appena aggiunti causeranno la dimenticanza o la sovrascrittura della conoscenza appresa; , questa situazione è chiamata dimenticanza catastrofica.
ad esempio, la versione di tesla fsd 12.4.2 è stata prodotta internamente molto tempo fa, ma ci è voluto molto tempo per diffonderla su larga scala, perché i dati forniti contenevano molti video che venivano ripresi manualmente , è stato difficile il livello del modello è regredito.
poiché l'essenza dell'end-to-end è l'imitazione, se la situazione incontrata presenta casi simili nei dati di addestramento, funzionerà molto bene, ma se supera i casi di riferimento esistenti, la prestazione sarà peggiore, ovvero diciamo, l'end-to-end ha requisiti molto elevati sulla quantità di dati di addestramento e sulla ricchezza dei casi.
zhang hang (direttore scientifico senior presso cruise):
quando c'è un semaforo rosso a un incrocio, non devi passare con il semaforo rosso. è una regola così semplice. se è basata sull'euristica (algoritmo euristico), possiamo semplicemente usare un if else per ottenere un tale effetto.
ma se si tratta di un modello completamente end-to-end, si basa interamente sull'apprendimento. alla fine, in realtà è molto difficile per lui imparare in questo modo. quindi penso che ci sia ancora un grande divario tra l4 end-to-end in un breve periodo di tempo. penso che questo algoritmo sia immaturo.
liu bingyan (responsabile del software kargo):
non hai regole rigide e veloci, ma può provare a fare tutte le cose che imposti e che non possono essere fatte. quindi ci saranno molte collisioni frontali nella simulazione.
allo stesso tempo, anche l’inspiegabilità causata dall’end-to-end è motivo di preoccupazione per alcune persone.
la cosiddetta inspiegabilità significa che la modifica di qualsiasi peso, nodo o numero di strati nel modello dell'algoritmo avrà un impatto imprevedibile sulle prestazioni del modello. anche i progettisti e i formatori del modello non possono conoscere il processo di ragionamento intermedio.
l'opposto è l'interpretabilità. ad esempio, nella modalità basata su regole, gli ingegneri hanno scritto la regola secondo cui "puoi continuare a guidare quando viene rilevato un sacchetto di plastica che passa", quindi non dobbiamo preoccuparci di cambiamenti improvvisi in questa situazione. avanti, frena forte.
liu bingyan (responsabile del software kargo):
puoi vedere che nella v12 la visualizzazione sullo schermo è molto migliore, ma da dove viene questo cosiddetto display end-to-end? se questa visualizzazione proviene dal modello originale, uno dei problemi coinvolti è che abbiamo effettivamente aggiunto uno strato di interfacce definite artificialmente a questo modello in modo da poter estrarre queste informazioni da una determinata posizione nel modello.
un'altra cosa che penso sia ancora più spaventosa è che questa visualizzazione prende un percorso completamente diverso. ciò significa anche che l'auto mostra che c'è un camion davanti. non significa che il modello controllato pensi davvero che ci sia un camion davanti se questo fosse, sarebbe molto, molto spaventoso vedere un'auto davanti ma non sei sicuro che non la colpirà.
in realtà ho qualche dubbio sul fatto che sia veramente end-to-end, oppure potrei non dubitarne, ma potrebbero esserci altri pericoli qui.
wang chensheng (ex direttore degli appalti tesla):
quindi, per settori come la guida autonoma, che hanno requisiti di sicurezza così elevati, l’inspiegabilità causata dal modello end-to-end è l’altro lato della medaglia?
poiché tesla non ha ancora annunciato la tecnologia fsd v12, non sappiamo se fsd adotti una strategia multi-modulo, ma abbiamo riscontrato chealcuni proprietari di auto hanno riscontrato casi in cui la visualizzazione sullo schermo non corrisponde al comportamento reale.
ad esempio, la vista aerea costruita dal veicolo ha mostrato che c'era qualcuno davanti, ma non ha mostrato alcun segno di frenata, ma ha continuato a passare. per fortuna si è trattato solo di un rilevamento errato da parte del sensore e non si è verificato alcun incidente .
sebbene in questo caso si possa vedere che con l’algoritmo end-to-end, gli errori del livello superiore non influiranno sui vantaggi del processo decisionale del livello inferiore, mostra anche che il livello di pianificazione occasionalmente non riconosce i risultati del livello di percezione , confermando le preoccupazioni di liu bingyan.
l’inspiegabilità diventerà un grave problema che ostacola lo sviluppo end-to-end? poi arriva il terzo conflitto che vediamo.
yu zhenhua (ex ingegnere ai di tesla):
credo di si,un problema molto serio con l’intelligenza artificiale è che la sua natura teorica resta molto indietro.
l’intelligenza artificiale non ti dice se funzionerà sicuramente o no. pertanto, è un argomento sperimentale, non è considerato scientifico e richiede molte verifiche.
v12 schiaccia completamente v11, quindi è una questione di risultati. allora pensi che se c'è una tale inspiegabilità da un capo all'altro, allora perché è completamente schiacciato, è molto senza cervello e dovresti andare giù.
yu zhenhua ritiene che l'intelligenza artificiale sia un argomento sperimentale. finché i risultati soddisfano le aspettative, ciò dimostra che la direzione è corretta e dovrebbe continuare ad avanzare. hou xiaodi ha affermato che le prestazioni del v12 sono significativamente superiori a quelle del v11, semplicemente perché le fondamenta del v11 sono troppo povere e le sue prestazioni sono ancora lontane dalla vera guida senza conducente.
wang chensheng (ex direttore degli appalti tesla):
se è veramente full self driving ed è limitato dalla l5, deve superare le autorità di regolamentazione e queste devono essere spiegabili o prevedibili.
inoltre, ci sono così tante città nel mondo e negli stati uniti ogni città può avere leggi e regolamenti diversi. se questa vettura debba adattarsi alle leggi e ai regolamenti locali in termini di hardware e software è diventata una grande questione se possa essere ampliata.
dal punto di vista end-to-end non è possibile mettere a punto il modello attraverso regole definite artificialmente, quindi se può adattarsi a normative diverse è diventata una sfida per la scala end-to-end.
un altro fattore che influisce sulla scala è che l’end-to-end è più sensibile al volume dei dati e ai sensori.
5. il futuro è incerto
liu bingyan (responsabile del software kargo):
c'è un problema molto grave end-to-end, che èsarà più sensibile al sensore, vale a dire, quando cambi il sensore o la distribuzione del sensore, il tuo modello può essere completamente riqualificato.
da un altro punto di vista, è inaccettabile dal punto di vista ingegneristico, altrimenti non possiamo immaginare che in futuro la stessa vettura sarà sulle strade di tutto il mondo.
una volta modificata la distribuzione dei sensori, il modello non sarà più valido e sarà necessario riavviare l'addestramento. per l'addestramento sarà necessario raccogliere una grande quantità di dati, il che comporterà inevitabilmente costi enormi.
i media finanziari americani cnbc hanno riferito che entro l’inizio del 2023,per addestrare la fsd, tesla ha utilizzato più di 10 milioni di video di guida dei proprietari di tesla.
inoltre, questi oltre 10 milioni di dati di formazione non vengono utilizzati casualmente. devono essere conducenti umani con capacità di guida relativamente elevate, altrimenti il livello del modello non potrà che peggiorare.
pertanto, l’addestramento del modello end-to-end non solo richiede molti dati, ma richiede anche uno screening complesso, che consuma molta manodopera. potrebbe non essere un problema per tesla, che vende molte automobili, ma per altre società le fonti di dati sono diventate un grosso problema.
david (conduttore di "big horses talking about technology"):
molti oem sono stati ingannati perché hanno perseguito ciecamente la metodologia tesla, ma questo insieme di cose non è in realtà adatto al 90% degli oem.
ciò significa che altri produttori non possono davvero entrare nel campo end-to-end?
sebbene nvidia e tesla guidino entrambe le operazioni degli algoritmi end-to-end attraverso la pura visione, l'end-to-end può effettivamente accettare input multimodali.
i sensori attualmente comunemente utilizzati come il radar a onde millimetriche, il lidar e il radar a ultrasuoni hanno posizioni relativamente fisse sul veicolo, in particolare il lidar, che si trova fondamentalmente sul tetto del veicolo. pertanto, è possibile utilizzare l'accesso multimodale end-to-end a i dati raccolti da diversi modelli vengono utilizzati per addestrare il modello e lo spazio di progettazione lasciato all'oem sarà più ampio.
dopo un altro giro di chiacchiere, ogni algoritmo ha i suoi meriti e non è ancora chiaro quale metodo possa portarci verso un futuro completamente senza conducente.
zhang hang (direttore scientifico senior presso cruise):
non penso che attualmente esista un algoritmo che possa essere semplice e su larga scala e quindi soddisfare lo standard l4. penso che l'algoritmo stesso non esista. questo campo è un campo che tutti dovrebbero promuovere insieme. sono molto ottimista sul fatto che tutti raggiungeranno la stessa destinazione per percorsi diversi, anche se ognuno avrà deviazioni leggermente diverse.
6. non si può fare nulla
non importa quale algoritmo venga utilizzato, alla fine dovrà affrontare il problema della coda lunga.
secondo il modello tradizionale basato su regole (rule-driven), scrivere una base di regole richiede che un team enorme spenda molte energie ed è difficile coprire tutto, così come il problema della coda lunga essere risolto?
minfa wang (ex ingegnere senior di machine learning di waymo):
ha risolto i casi convenzionali, ma penso che il problema della coda lunga esisterà ancora.
minfa ritiene che il tasso di tolleranza agli errori del sistema di guida autonoma sia molto basso se si vuole utilizzare un sistema a scatola nera su l4, è necessario introdurre altri meccanismi di sicurezza, ma questo ritorna alla questione dei costi nella modalità basata su regole.
l'algoritmo di guida autonoma verrà prima messo in pratica nel sistema di simulazione. l'addestramento alla simulazione può risolvere alcuni problemi a coda lunga?
zhang hang (direttore scientifico senior presso cruise):
al momento, non esiste una buona soluzione che possa davvero aiutare le nostre prestazioni stradali nella vita reale attraverso i dati di simulazione generati.
minfa wang (ex ingegnere senior di machine learning di waymo):
nel campo della guida autonoma o della robotica, l'ambiente è molto, molto complesso. se vuoi simulare, non stai solo simulando te stesso, ma anche il modo in cui l'auto si muoverà in futuro. la difficoltà principale è quando la tua traiettoria la tua auto cambia. a volte, influenzerai il comportamento di tutte le auto e delle persone intorno a te per cambiare.
come simulare bene senza causare uno spostamento della distribuzione (spostamento della distribuzione), penso che sia ancora un argomento aperto.
poiché le scene virtuali non possono simulare completamente le possibilità della realtà, significa che attualmente non esiste un modo per risolvere il problema della coda lunga nel settore e si può fare affidamento solo sull’accumulo di esperienze a lungo termine?
rispondente anonimo (ingegnere l4):
in una certa misura sì, ma non devi essere perfetto, giusto? gli esseri umani non sono perfetti, devi solo fare meglio degli altri. anche le persone hanno i loro tassi di incidenti, finché fai meglio di così, è sufficiente.
hou xiaodi (ex fondatore e ceo di tusimple, fondatore di bot.auto):
penso che la questione della coda lunga sia in realtà una proposizione falsa. sono felice che tu l’abbia sollevata.
secondo me esiste un problema della coda lunga. ad esempio, cosa devo fare se vedo un coccodrillo? cosa devo fare se vedo un elefante? vedo un aereo ad ala fissa parcheggiato in autostrada, cosa devo fare?
in effetti, per molti problemi a coda lunga, li includiamo in un'ampia categoria di problemi. come trattare oggetti che non ho mai visto prima? è abbastanza trattabile se lo avvolgi in un tipo di problema più generale.
ad esempio, una volta abbiamo visto un aereo ad ala fissa parcheggiato in autostrada, quindi la nostra soluzione è stata molto semplice: fermati, giusto?
il problema della coda lunga è una proposizione falsa o è un problema che deve essere risolto? ognuno può avere la propria risposta a questo argomento. il problema della coda lunga corrisponde a quando l4 o anche l5 possono essere implementati su larga scala, quindi diamo ora un’occhiata al feroce conflitto tra l2 e l4.
4. può tesla robotaxi avere successo: il conflitto tra l2 e l4
1. “non si può fare”
abbiamo chiesto agli ospiti la loro opinione prima che musk annunciasse il rinvio di robotaxi. tutti hanno avuto un parere unanime al riguardo, ovvero che è impossibile che il taxi autonomo di tesla venga lanciato quest'anno.
il motivo principale per cui tutti hanno una visione così unitaria è che i modelli esistenti di tesla non possono soddisfare lo standard l4 per i taxi a guida autonoma.
liu bingyan (responsabile del software kargo):
sono molto sicuro che i modelli tesla esistenti abbiano punti ciechi molto chiari se vuole raggiungere il massimo, sia che si tratti di guida autonoma l4 o l5, la sua prossima macchina dovrà risolvere questo problema. per risolvere questo problema dell'angolo cieco, torniamo a quanto abbiamo appena detto è necessario regolare la posizione del sensore della fotocamera il risultato immediato della regolazione di queste posizioni è che il modello precedente fallirà completamente.
dal punto di vista dell'architettura della telecamera, è impossibile per le auto esistenti raggiungere la fsd senza alcuna sorveglianza. da questo punto di vista, deve avere un nuovo hardware.
zhang hang (direttore scientifico senior presso cruise):
dal punto di vista del sensore, è necessario introdurre una certa ridondanza, che prima potrebbe non essere necessaria in l2.
anche se gli addetti ai lavori del settore non sono ottimisti, cosa rende musk così fiducioso nel lanciare robotaxi?
yu zhenhua (ex ingegnere ai di tesla):
penso che il motivo principale siano le numerose innovazioni tecniche di questo fsd v12. essendo il personaggio di musk, quando ha visto l'fsd v12 oggi, nel suo piano, ha ritenuto che robotaxi dovesse essere messo all'ordine del giorno.
quindi, fsd v12 può consentire a tesla di passare a l4 e assumere l’importante compito di robotaxi? quanto è grande il divario rispetto agli attuali waymo o cruise?
intervistando hou xiaodi su questa domanda, la sua risposta ci ha permesso di vedere un altro punto di vista del settore: ovvero, il divario tra l2 e l4 è molto ampio.
2. “nemmeno vicino”
hou xiaodi (ex fondatore e ceo di tusimple, fondatore di bot.auto):
prima di tutto, ciò che sta facendo tesla non è la guida senza conducente. ciò di cui parliamo oggi è una soluzione che allontana le persone e fa sì che le società di sviluppo di software si assumano la responsabilità. questa si chiama guida senza conducente. non facciamo falsa propaganda guidare, che non è guida senza conducente, quindi quello che fai non è la stessa cosa.
attualmente, la guida assistita l2 è ampiamente utilizzata dalle case automobilistiche, come tesla, xiaomi, huawei, xpeng, ecc., mentre aziende come waymo, cruise, baidu e altri taxi a guida autonoma utilizzano la guida altamente automatizzata l4, mettendo da parte la scritta definizioni di concetti,la differenza essenziale tra i due è chi ha la responsabilità.
hou xiaodi (ex fondatore e ceo di tusimple, fondatore di bot.auto):
la soluzione che elimina le persone e attribuisce la responsabilità alle società di sviluppo software si chiama guida autonoma. lascia che ti racconti una barzelletta, cosa succederebbe se una tesla colpisse qualcuno e lo uccidesse? per elon musk, non sono affari loro.
pertanto, se tesla vuole realizzare taxi a guida autonoma, deve assumersi le proprie responsabilità. quali sono allora le differenze tecniche tra guida assistita e guida autonoma?
hou xiaodi (ex fondatore e ceo di tusimple, fondatore di bot.auto):
qual è il problema principale da risolvere con la guida autonoma l4? è sicurezza, è ridondanza, quando ogni modulo di un sistema può guastarsi, il sistema può comunque garantire la sicurezza dei profitti. questa cosa è la parte più difficile e critica di l4. deve risolvere il problema della sicurezza prima di fare soldi, ma questa questione non è affatto lo scopo del design di tesla.
un altro ricercatore sulla guida autonoma l4 ha analizzato anche le differenze tra l2 e l4 dal punto di vista dell’hardware e del software.
zhang hang (direttore scientifico senior presso cruise):
la soluzione l4, prima di tutto, è che disponiamo di sensori relativamente potenti, che potrebbero essere difficili da utilizzare negli scenari l2, almeno non lidar così ad alta precisione.
da un punto di vista algoritmico, l2 potrebbe essere più focalizzato sull’essere più efficiente e ridurre i costi molto bassi. non richiede sensori particolarmente costosi e potrebbe richiedere meno calcoli per ottenere tale effetto. questi l2 in realtà non hanno bisogno di considerare questo caso su un milione.
quindi quello che noi di l4 stiamo perseguendo è che l'assistenza remota umana debba essere introdotta solo una volta ogni milione di miglia o più. ciò che stiamo perseguendo è questo caso su un milione.
per riassumere:la soluzione l4 utilizza sensori con maggiore precisione, il chip ha una maggiore potenza di calcolo e può gestire scenari più completi.
tuttavia, nella soluzione l2, la considerazione principale è il costo, quindi il livello hardware sarà leggermente inferiore. allo stesso tempo, per adattarsi all'hardware di livello inferiore, l'algoritmo presterà maggiore attenzione all'efficienza piuttosto che alla sicurezza la frequenza di subentro di l2 sarà molto più elevata di quella di l4.
quindi, le aziende l2 come tesla possono ottenere effetti l4 migliorando hardware e software?
3. “due cose diverse”
hou xiaodi (ex fondatore e ceo di tusimple, fondatore di bot.auto):
non sostengo la lenta evoluzione di l2 in l4 e l5. penso che questa questione sia un'altra falsa proposizione con forti proprietà di estrapolazione.
nel corso del tempo, i delfini possono evolversi in civiltà? penso che sia possibile, ma dobbiamo sapere che la civiltà terrestre non può più tollerare l'evoluzione dei delfini, perché ci sono già aziende che ce l'hanno fatta. la mia azienda è qui per mettere in pratica l4 il più rapidamente possibile. non avrò più niente a che fare con te dopo che atterrerò a terra, giusto? quando l'homo sapiens raccolse il giavellotto, non c'erano delfini per creare la civiltà.
secondo hou xiaodi,le società l4 esistenti hanno già costruito barriere tecniche sotto la forte concorrenza, non daranno a l2 la possibilità di evolversi., allo stesso tempo, alcuni credono che ciò non significhi che la tecnologia l4 sia più avanzata di l2, ma che ognuno di noi si rivolga a scenari diversi.
yu zhenhua (ex ingegnere ai di tesla):
se diciamo che l4 è veramente tecnicamente superiore e più avanti di l2 come tutti immaginano, è assolutamente avanzato. quindi vorrei chiedere perché la tecnologia l4 non può essere declassata direttamente a l2?
infatti, negli ultimi anni, a causa della pressione sui ricavi, le società l4 hanno aiutato le case automobilistiche a realizzare la l2, ma non possono semplicemente declassarsi, devono sostanzialmente ri-svilupparsi.
poi sappiamo anche che negli stati uniti, gm (general motors) possiede la società cruise l4, e ford possiede argo ai, che è anche una società l4. perché gm non può utilizzare la tecnologia cruise nei suoi veicoli prodotti in serie? perché ford non può utilizzare la tecnologia l4 di argo ai sui suoi veicoli di produzione? quindi l4 non è assolutamente più avanzato di l2. in termini di difficoltà tecnica, non penso che se fai l4 sembrerai molto avanzato.
perché la tecnologia l4 non può essere declassata direttamente a l2 per l'uso? zhang hang ha spiegato che poiché l4 utilizza specifiche hardware più elevate e l’algoritmo di l2 deve adattarsi a sensori con specifiche inferiori e processori con minore potenza di calcolo, le tecnologie dei due non possono essere migrate direttamente.
proprio come un progettista architettonico a cui fu confiscato il computer e gli furono forniti solo un righello, carta e penna meno precisi, anche lui dovette adattarsi al nuovo modo di disegnare.
zhang hang (direttore scientifico senior presso cruise):
il problema che hai menzionato prima è la quantità di calcoli. è impossibile supportare la soluzione l2. mettiamo un supercomputer nel bagagliaio di un'auto.
allo stesso tempo, zhang hang ha anche mostrato una mente più aperta nel confrontare le tecnologie di l2 e l4, che hanno una copertura più ampia e devono affrontare più scenari e devono essere risolti solo i problemi di base. l4 ha una copertura limitata, ma presta maggiore attenzione a vari dettagli. quindi ci sono pro e contro tra i due.
zhang hang (direttore scientifico senior presso cruise):
la stessa l4 non può essere utilizzata come soluzione l2 semplicemente semplificando il sistema esistente ed eliminando la ridondanza, ma viceversa. se vuoi raggiungere gli standard l4 in l2, ci vuole molto tempo per affinarsi. è necessario molto tempo per raccogliere dati e quindi accumulare esperienza.
ma non penso che ciò significhi che il nostro percorso tecnico o la nostra profondità tecnica sarà superiore a l2. non penso che sia necessariamente così. l4 potrebbe avere molti algoritmi non molto all'avanguardia, ma risolti attraverso alcuni progettazione attenta. questi sono alcuni problemi a coda lunga molto dettagliati.
quale visione sosterresti? puoi lasciare un messaggio per dircelo. nelle nostre interviste, persone diverse daranno le proprie risposte a questa domanda.
yu zhenhua (ex ingegnere tesla l2):
penso che il grande pubblico, e anche alcune aziende l4, instilleranno in tutti un concetto, ovvero che la tecnologia l4 è migliore di l3 e quindi migliore di l2. penso che questo sia uno scenario che si allontana dalle sue restrizioni per fuorviare il pubblico, perché l’attuale robotaxi di l4 ha scenari molto limitati e deve trovarsi in una regione specifica. ad esempio, waymo può operare solo in una regione operativa.
shao xuhui (socio amministratore di foothill ventures):
personalmente sarò ancora ottimista riguardo alle aziende l4, perché da questa logica l4 può ridurre dimensionalità e attacco, ma se fai solo questo, non verrai promosso a l2, o sarà molto, molto difficile essere promosso.
rispondente anonimo (ingegnere l4):
in effetti, non penso che ci sia una soglia particolarmente difficile nello stack tecnologico. ad esempio, se un'azienda può affermare di essere un'azienda l2 oggi, forse aggiungerà alcune nuove tecnologie domani e potrà anche fare l4, giusto. ? dipende tutto dalla tecnologia utilizzata nella sua applicazione o dalle nuove scoperte tecnologiche di cui dispone, giusto?
hou xiaodi (ex fondatore e ceo di tusimple, fondatore di bot.auto):
guida assistita e guida senza conducente sono due cose diverse.
produttori: hong jun, chen qian, autore: wang ziqin, redattore: chen qian