notizia

Tassisti, niente panico. I programmatori nel settore della guida intelligente perderanno presto il lavoro a causa dell’intelligenza artificiale.

2024-07-17

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


Il “momento GPT” della guida intelligente è già arrivato?


Autore |. Cao Siqi
modificare|.Jingyu

Ogni nuova tecnologia attraverserà fasi diverse, dalla nascita alla promozione, e affronterà anche voci diverse. Per trovare la soluzione tecnica ottimale, gli sviluppatori potrebbero rinunciare ad anni di duro lavoro, mentre le organizzazioni commerciali sono più concentrate nel valutare i tempi di implementazione della tecnologia al fine di massimizzare i benefici al momento giusto;

Per quanto riguarda la guida intelligente, i produttori nazionali un tempo presentavano profonde differenze cognitive. I sostenitori credono che possa portare un'esperienza "molto più avanti", mentre gli oppositori hanno espresso il loro disprezzo facendo osservazioni come "puzzolente tecnica" e "la guida autonoma è una truffa".

Nel 2024, con il lancio ufficiale della versione FSD V12 del software di guida intelligente di Tesla basato su "end-to-end", l'atteggiamento delle case automobilistiche cinesi nei confronti della guida intelligente ha finalmente iniziato a convergere.

Prendendo come esempio Wei Xiaoli, un rappresentante delle nuove forze nella produzione automobilistica, diverse aziende hanno chiaramente iniziato a perseguire la tecnologia "end-to-end".

Xiaopeng ha proposto di introdurre modelli di grandi dimensioni end-to-end nei sistemi di guida intelligenti e ha dichiarato che quest'anno investirà 4,2 miliardi di yuan in dati di intelligence e formazione, con l'obiettivo di raggiungere in futuro "OTA interna una volta ogni due giorni". Si tratta di un miglioramento dell’efficienza inimmaginabile in passato, che faceva affidamento sugli esseri umani per mantenere centinaia di migliaia di righe di codice di guida intelligente.

NIO ha inoltre recentemente ristrutturato il suo reparto di ricerca e sviluppo sulla guida intelligente, unendo i tradizionali team di percezione e scala in team di modelli di grandi dimensioni. L'obiettivo principale è anche quello di promuovere iterazioni di paradigmi basate su reti neurali.

Anche l'ideale che in passato veniva ridicolizzato come "raccolta in fabbrica" ​​è stato spesso utilizzato negli ultimi tempi per creare slancio per la ricerca e lo sviluppo intelligenti. Il CEO Li Xiang ha sviluppato personalmente la piattaforma di ricerca e sviluppo "end-to-end" e ha introdotto la teoria del pensiero veloce-lento degli economisti Nobel per illustrare che il suo team ha trovato un modo per risolvere il caso della guida autonoma.

Allora, perché è così magico consentire a vari produttori di passare dal non consenso al consenso end-to-end? Come ha cambiato il paradigma del settore della guida intelligente e quali opportunità e cambiamenti porterà?

01

Il momento GPT per la guida intelligente è arrivato

Un motivo importante per cui i produttori nazionali hanno rapidamente formato un consenso è che Tesla ha preso l’iniziativa nel fornire un invidiabile foglio di risposte end-to-end.

Nel marzo di quest'anno, Tesla ha lanciato ufficialmente la versione FSD V12.3 del software di guida intelligente. Il cambiamento più grande in questa versione è trasferire la potenza dell’intero sistema di guida intelligente dal codice scritto dagli esseri umani a un modello di intelligenza artificiale di grandi dimensioni basato su reti neurali. Musk usa "Video in to Control out" per descrivere questo nuovo paradigma di lavoro, ovvero: l'intelligenza artificiale emette direttamente le operazioni di guida in base alle informazioni stradali che "vede", che nel settore vengono spesso chiamate "end-to-end". finire).

Il mese scorso, He Xiaopeng ha sperimentato la versione FSD V12.3.6 in California. Nelle sue parole, FSD "gestisce molte condizioni stradali in modo molto fluido". Questo è il più grande vantaggio delle reti neurali basate sull’intelligenza artificiale rispetto a quelle guidate dal codice: possono migliorare notevolmente le capacità di apprendimento generalizzato dei sistemi di guida intelligente in diverse città e in diverse condizioni stradali.

Tradotto in una frase pubblicitaria e di marketing più familiare ai consumatori domestici, è: può essere aperto a livello nazionale (globale).


Huawei ha lanciato lo slogan “Disponibile a livello nazionale” nel settembre dello scorso anno |

Naturalmente, questa conclusione è solo un buon augurio in questa fase. Nel processo operativo vero e proprio, è necessario anche il pieno supporto e formazione dell’infrastruttura IA come dati, algoritmi e potenza di calcolo per avvicinarsi all’obiettivo di “diventare un’intelligenza artificiale intelligente quanto un conducente umano”.

Ma per i colleghi, la versione FSD V12 significa molto. Verifica che le reti neurali possano davvero sostituire il codice scritto dall’uomo e persino farlo meglio e in modo più efficiente.

Ciò significa che non è necessario attendere N anni, il momento ChatGPT nel settore della guida intelligente è effettivamente arrivato. Pensa a ciò che disse una volta Ali Zhang Yong: vale la pena rifare tutto il software con l’intelligenza artificiale. FSD V12 ha dato ai concorrenti una nuova direzione e fiducia: tutti gli stack tecnologici di guida intelligente possono essere rifatti da cima a fondo.

Quando è stata rilasciata la versione beta di FSD V12, Musk ha affermato che questa versione comprimeva le 300.000 righe di codice della versione precedente in 2.000 righe, il che equivale a meno dell'1%.

La competizione di guida intelligente nel nuovo stack tecnologico non si evolverà in giochi anti-innovazione e involuzione più di chiunque altro. Se l’efficienza dell’intelligenza artificiale può davvero raggiungere quello che He Xiaopeng ha definito un OTA interno ogni due giorni, allora la tattica marina umana di scrivere le regole una per una e correggere i bug può essere dichiarata completamente obsoleta.

Quindi il settore della guida intelligente ha ancora bisogno di così tanti programmatori? L'autore non può dare una risposta precisa, ma quello che è certo è che anche il contenuto del lavoro dei programmatori di guida intelligente subirà una serie di cambiamenti. I programmatori che possono scrivere solo se altrimenti le regole verranno probabilmente sostituite dall’intelligenza artificiale prima dei conducenti di taxi e di ride-hailing online.

02

intrappolato nei dati

Nel "Rapporto di ricerca sull'industria della guida autonoma end-to-end" pubblicato il mese scorso dall'istituto di investimento Chentao Capital, solo il 13% degli oltre 30 intervistati nel settore della guida autonoma ha espresso un atteggiamento relativamente cauto "aspetta e vedi" verso la fine tecnologia completa, e il resto ha espresso un atteggiamento più positivo di “pre-ricerca” o addirittura di “pieno impegno”. L'end-to-end è diventato un consenso tra i professionisti del settore.

Ma in realtà attualmente non esiste alcuna azienda (inclusa Tesla) in grado di raggiungere il “fondamentalismo end-to-end”. Vale a dire, tutti gli aspetti della guida autonoma sono concentrati nello stesso modello di grandi dimensioni per ottenere veramente gli stessi “segnali visivi in ​​ingresso e operazioni del pedale e del volante in uscita” degli esseri umani.

Gli sforzi principali della maggior parte degli OEM nazionali in questa fase sono quelli di aprire i moduli di percezione e decisionali. La chiave è annullare la definizione manuale dei risultati tra i moduli e utilizzare vettori di funzionalità per trasmettere informazioni senza perdite.


Diagramma schematico dell'evoluzione dell'architettura della guida autonoma end-to-end | Fonte immagine: Chentao Capital

Prima dell’end-to-end, l’architettura tradizionale della guida autonoma traeva origine dal campo della robotica ed era divisa in diversi moduli come percezione, pianificazione e controllo. Moduli diversi vengono sviluppati da team diversi e le informazioni vengono principalmente trasferite tra i moduli attraverso interfacce definite manualmente. Per fare l'esempio più semplice, il fenomeno relativo al fatto che un veicolo stia attraversando la linea può essere rappresentato nel modulo di percezione tradizionale utilizzando il più semplice linguaggio binario del computer.

Il più grande vantaggio dell’apertura dei moduli di percezione e processo decisionale è che può coprire più “scene in scala di grigi” che non possono essere descritte accuratamente dalle regole del mondo reale. Ad esempio, quando si guida, non è necessario conoscere la velocità precisa dell'auto che precede o se sta attraversando la linea, basta prestare attenzione ai relativi cambiamenti di posizione.

Su questa base, secondo la teoria dell’intelligenza artificiale generativa, si prevede che il modello di rete neurale possa generare intelligenza anche dopo una grande quantità di input e diventare un agente dell’intelligenza artificiale.

Alla base di tutto ciò ci sono i dati, che sono il materiale formativo “in pasto” al modello. Tuttavia, a differenza dei grandi modelli linguistici basati su testo, non è facile per i modelli di guida intelligente trovare abbastanza dati video pubblici come materiale formativo.

Il già citato “Rapporto di ricerca sul settore della guida autonoma end-to-end” mostra che il più grande set di dati pubblici attualmente conta solo 1.200 ore di dati. Secondo Musk nel 2023, Tesla ha investito quasi 40.000 ore di formazione video nelle prime fasi del processo end-to-end.

Rispetto ad altre case automobilistiche, il vantaggio principale dei dati di Tesla risiede nel gran numero di automobili prodotte in serie.

Attualmente, Tesla ha consegnato più di 6 milioni di automobili in tutto il mondo. Tuttavia, tra le nuove forze cinesi che impiegano attivamente la guida intelligente, il numero di automobili prodotte in serie è solo una frazione di quello di Tesla. Insieme allo SKU minimalista e coerente e all'hardware di guida intelligente completamente preintegrato, la raccolta dei dati diventa più semplice.

La precedente pratica comune in Cina si basava solitamente sull’acquisizione manuale delle informazioni stradali. Tuttavia, per addestrare un modello end-to-end intelligente, è anche necessario coprire dati sufficienti provenienti da scenari edge (casi conner). Poiché il verificarsi delle scene marginali è molto casuale, alcuni produttori hanno affermato che solo il 2% circa dei dati limitati può essere ottenuto mediante la sola raccolta manuale dei dati.

Inoltre, rispetto a Tesla, i produttori nazionali hanno spesso SKU più complessi. Tra modelli diversi, a causa delle differenze nelle dimensioni del veicolo, nella disposizione dei sensori, ecc., è necessario riallineare anche i parametri rilevanti nel modello.

Prendendo come esempio la serie Huawei, Hongmeng Zhixing ha dimostrato forti capacità di vendita di terminali nell'ultimo anno circa. Tuttavia, per diversi marchi e modelli di servizi BU automobili Huawei, sono ancora necessari ingegneri dopo l'implementazione end-to-end lavoro di allineamento e consegna. Lo stesso vale per Weilai, che ha 2 marchi e 9 modelli. Hanno riorganizzato il team di integrazione nel team di consegna.


Dopo il rilascio di Sora, Musk ha twittato che Tesla utilizza l'intelligenza artificiale per simulare la guida nel mondo reale. Fonte immagine: screenshot X

Si ritiene che i prodotti video Wensheng rappresentati da Sora possano diventare la fonte di materiale per modelli end-to-end. Ma anche per Musk, l’addestramento dell’IA con contenuti generati dall’intelligenza artificiale non è stato ancora riconosciuto pubblicamente. Dopotutto, i dati sono troppo importanti per l'addestramento del modello. Sapete, Musk, che è sempre stato estremamente avaro riguardo al costo del lavoro, ha anche assunto un team di 1.000 persone a New York per annotare i dati video stradali di Tesla.

03

Non lasciarti “condurre nel fosso” da Musk

Sembra che il passaggio all’end-to-end sia una cosa naturale, ma eliminare 300.000 righe di codice e smantellare e riorganizzare la struttura organizzativa passata non è sicuramente una decisione facile da prendere. In effetti, anche Musk ha intrapreso questa strada per caso. L'ingegnere che per primo gli propose alla fine del 2022 di imparare ChatGPT per costruire una rete neurale di guida intelligente è stato quasi trasferito da Lao Ma per risolvere altri problemi dopo l'acquisizione di Twitter.

Dopo aver addestrato il modello end-to-end, anche il corrispondente sistema di supporto (compresa la potenza di calcolo, ecc.) deve essere sufficientemente efficiente. In un'intervista con "Tencent Deep Web", Ren Shaoqing, vicepresidente della ricerca e sviluppo sulla guida intelligente di NIO, ha affermato che forzare servizi end-to-end senza funzionalità di base equivale a usare "veleno".

Ha detto: "Se la struttura del codice originale è abbastanza chiara, il volume del test (di debug) potrebbe essere solo dell'1%. Prima ci volevano tre giorni per ripetere il test dell'1%, ma ora mi dispiace, devi ripetere il test al 100% in tre giorni. Quindi il tuo sistema di verifica dei dati deve essere abbastanza efficiente.

Ma non fatevi portare direttamente nel fosso da Tesla. L’end-to-end in questo momento dimostra solo che ha la possibilità di migliorare l’efficienza lavorativa, ma non dimostra che sia la soluzione definitiva alla guida autonoma.

Ciò è coerente con la comprensione del settore sulla possibilità che la legge di scala possa portare all’AGI (intelligenza artificiale generale) nel mondo fisico: è certo che l’intelligenza artificiale generativa può avere un’intelligenza superiore, ma se è in grado di comprendere le leggi fisiche e automaticamente per le applicazioni nella guida , robotica e altri campi, non esistono regole nella comunità accademica. Nel "Rapporto di ricerca sull'industria della guida autonoma end-to-end", più della metà dei professionisti non crede che l'end-to-end sia la soluzione definitiva per la tecnologia di guida autonoma.

Per gli OEM che sviluppano la propria guida intelligente, l’approccio più pragmatico in questa fase è quello di fare affidamento sull’implementazione end-to-end delle funzionalità di guida intelligente nel modo più rapido, semplice ed economico possibile. Per quanto riguarda l'abbonamento al software di guida intelligente, il viaggio potrebbe richiedere più tempo. Dopotutto, nel mercato cinese, l’hardware spesso si vende meglio del software e dei servizi.

Naturalmente, c’è un’alta probabilità che non molte persone vogliano diventare giocatori d’azzardo innovativi come Musk. Se si lascia un buon modello a basso costo senza ricerca e sviluppo e si fa una grande scommessa su Robotaxi, il valore di mercato diminuirà di centinaia di miliardi di dollari se il rilascio viene ritardato. I giocatori più comuni sperano solo che, dotato di un software di guida intelligente end-to-end, possa aiutare l'hardware a vendere meglio. Naturalmente, se potesse essere venduto a un prezzo più alto, sarebbe la cosa più meravigliosa.

*Fonte dell'immagine dell'intestazione: Visual China

Questo articolo è un articolo originale di Geek Park Per la ristampa, contattare Geek Jun su WeChat geekparkGO

chiese il geek

Il ruolo dei programmatori nel futuro settore della guida intelligente

Quali cambiamenti potrebbero verificarsi?

16 luglio. Lei Jun ha pubblicato: Alle 19:00 del 19 luglio, questo venerdì sera, terrò il quinto discorso annuale di Lei Jun Il tema è "Coraggio" e parlerò dei dettagli della costruzione di un'auto e degli alti e bassi di. negli ultimi tre anni.

Metti mi piace e seguiAccount video Geek Park