berita

Pengemudi taksi, jangan panik. Pemrogram di industri mengemudi cerdas akan lebih cepat kehilangan pekerjaan karena AI.

2024-07-17

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


Apakah “momen GPT” dalam berkendara cerdas sudah ada?


Penulis |.Cao Siqi
sunting|.Jingyu

Setiap teknologi baru akan melalui tahapan yang berbeda sejak lahir hingga promosi, dan juga akan menghadapi berbagai suara. Untuk menemukan solusi teknis yang optimal, pengembang mungkin mengorbankan upaya bertahun-tahun; sementara organisasi komersial lebih fokus dalam menilai waktu penerapan teknologi untuk memaksimalkan manfaat pada waktu yang tepat.

Mengenai mengemudi cerdas, produsen tuan rumah dalam negeri pernah memiliki perbedaan kognitif yang mendalam. Para pendukung percaya bahwa hal ini dapat memberikan pengalaman yang "jauh ke depan", sementara para penentangnya menyatakan kebencian mereka dengan melontarkan pernyataan seperti "ini adalah teknologi yang buruk" dan "mengemudi secara otonom adalah sebuah penipuan."

Pada tahun 2024, dengan peluncuran resmi perangkat lunak mengemudi cerdas Tesla versi FSD V12 berdasarkan "end-to-end", sikap produsen mobil Tiongkok terhadap mengemudi cerdas akhirnya mulai menyatu.

Ambil contoh Wei Xiaoli, perwakilan kekuatan baru di bidang manufaktur mobil, berbagai perusahaan jelas mulai mengejar teknologi "end-to-end".

Xiaopeng mengusulkan untuk memperkenalkan model besar end-to-end ke dalam sistem mengemudi cerdas, dan menyatakan bahwa mereka akan menginvestasikan 4,2 miliar yuan dalam data intelijen dan pelatihan tahun ini, dengan tujuan mencapai "OTA internal setiap dua hari sekali" di masa depan. Ini merupakan peningkatan efisiensi yang tidak terbayangkan di masa lalu, yang bergantung pada manusia untuk memelihara ratusan ribu baris kode mengemudi cerdas.

NIO juga baru-baru ini merestrukturisasi departemen R&D penggerak cerdasnya, menggabungkan persepsi tradisional dan tim skala menjadi tim model besar. Intinya juga untuk mempromosikan iterasi paradigma berdasarkan jaringan saraf.

Bahkan cita-cita yang dulu sering diolok-olok sebagai “pemetikan pabrik” telah sering digunakan untuk membangun momentum bagi penelitian dan pengembangan cerdas belakangan ini. CEO Li Xiang secara pribadi mengembangkan platform penelitian dan pengembangan "end-to-end" dan memperkenalkan teori berpikir cepat-lambat dari para ekonom Nobel untuk menggambarkan bahwa timnya telah menemukan cara untuk memecahkan masalah mengemudi otonom.

Jadi, mengapa begitu ajaib membiarkan berbagai produsen beralih dari non-konsensus ke konsensus secara end-to-end? Bagaimana hal ini mengubah paradigma industri mengemudi cerdas, dan peluang serta penyesuaian apa yang akan dihasilkannya?

01

Momen GPT untuk berkendara cerdas telah tiba

Alasan penting mengapa pabrikan dalam negeri dengan cepat membentuk konsensus adalah karena Tesla memimpin dalam memberikan lembar jawaban menyeluruh yang patut ditiru.

Pada bulan Maret tahun ini, Tesla secara resmi meluncurkan perangkat lunak mengemudi cerdas versi FSD V12.3. Perubahan terbesar dalam versi ini adalah mengalihkan kekuatan seluruh sistem penggerak cerdas dari kode yang ditulis oleh manusia ke model AI besar berdasarkan jaringan saraf. Musk menggunakan "Video in to Control out" untuk menggambarkan paradigma kerja baru ini, yaitu: AI secara langsung mengeluarkan operasi mengemudi berdasarkan informasi jalan yang "dilihatnya", yang sering disebut "end-to-end" di industri. untuk mengakhiri).

Bulan lalu, He Xiaopeng menguji versi FSD V12.3.6 di California. Dalam kata-katanya, FSD "menangani banyak kondisi jalan dengan sangat lancar." Ini adalah keuntungan terbesar dari jaringan saraf AI dibandingkan dengan jaringan saraf berbasis kode: jaringan ini dapat sangat meningkatkan kemampuan pembelajaran umum dari sistem mengemudi cerdas di berbagai kota dan dalam kondisi jalan yang berbeda.

Jika diterjemahkan ke dalam ungkapan periklanan dan pemasaran yang lebih akrab di telinga konsumen dalam negeri adalah: dapat dibuka secara nasional (global).


Huawei meluncurkan slogan “Tersedia secara nasional” pada bulan September tahun lalu |

Tentu saja kesimpulan ini hanyalah harapan baik pada tahap ini. Dalam proses pengoperasian sebenarnya, hal ini juga memerlukan dukungan penuh dan pelatihan infrastruktur AI seperti data, algoritme, dan daya komputasi agar dapat mendekati tujuan "AI menjadi secerdas pengemudi manusia".

Namun bagi rekan-rekan, versi FSD V12 sangat berarti. Ini memverifikasi bahwa jaringan saraf benar-benar dapat menggantikan kode yang ditulis manusia dan bahkan melakukannya dengan lebih baik dan efisien.

Artinya tidak perlu menunggu N tahun, momen ChatGPT di industri berkendara cerdas sebenarnya sudah tiba. Pikirkan tentang apa yang pernah dikatakan Ali Zhang Yong: Semua perangkat lunak layak untuk dikerjakan ulang dengan AI. FSD V12 telah memberikan arah dan kepercayaan diri baru kepada rekan-rekannya: semua rangkaian teknologi mengemudi cerdas dapat dikerjakan ulang dari ujung ke ujung.

Saat versi beta FSD V12 dirilis, Musk mengatakan bahwa versi ini memampatkan 300.000 baris kode versi sebelumnya menjadi 2.000 baris, yang setara dengan kurang dari satu persen.

Persaingan mengemudi cerdas dalam tumpukan teknologi baru tidak akan berkembang menjadi permainan anti-inovasi dan involusi dibandingkan siapa pun. Jika efisiensi AI benar-benar dapat mencapai apa yang dikatakan He Xiaopeng sebagai OTA internal setiap dua hari, maka taktik manusia dalam menulis aturan satu per satu dan memperbaiki bug dapat dinyatakan sepenuhnya usang.

Lalu apakah industri smart Driving masih membutuhkan begitu banyak programmer? Penulis belum bisa memberikan jawaban yang akurat, namun yang pasti konten karya para programmer smart Driving juga akan mengalami serangkaian perubahan. Pemrogram yang hanya bisa menulis aturan if else kemungkinan besar akan digantikan oleh AI lebih awal dibandingkan pengemudi taksi dan taksi online.

02

terjebak dalam data

Dalam "Laporan Penelitian Industri Penggerak Otonom End-to-End" yang dirilis oleh lembaga investasi Chentao Capital bulan lalu, hanya 13% dari lebih dari 30 responden di industri penggerak otonom menyatakan sikap "tunggu dan lihat" yang relatif hati-hati menjelang akhir. -to-end technology. , dan sisanya menyatakan sikap yang lebih positif yaitu “pra-penelitian” atau bahkan “komitmen penuh”. End-to-end telah menjadi konsensus di kalangan praktisi industri.

Namun faktanya, saat ini belum ada perusahaan (termasuk Tesla) yang bisa mencapai "fundamentalisme end-to-end". Artinya, semua aspek mengemudi otonom dipusatkan pada model besar yang sama untuk benar-benar mencapai "input sinyal visual dan output pedal serta pengoperasian roda kemudi" yang sama seperti manusia.

Upaya inti dari sebagian besar OEM domestik pada tahap ini adalah membuka modul persepsi dan pengambilan keputusan. Kuncinya adalah membatalkan definisi manual hasil antar modul dan menggunakan vektor fitur untuk menyampaikan informasi lossless.


Diagram skema evolusi arsitektur mengemudi otonom ujung ke ujung |. Sumber gambar: Chentao Capital

Sebelum end-to-end, arsitektur penggerak otonom tradisional berasal dari bidang robotika dan dibagi menjadi beberapa modul seperti persepsi, perencanaan, dan kontrol. Modul yang berbeda dikembangkan oleh tim yang berbeda, dan informasi terutama ditransfer antar modul melalui antarmuka yang ditentukan secara manual. Sebagai contoh paling sederhana, fenomena apakah suatu kendaraan melaju melintasi garis dapat direpresentasikan dalam modul persepsi tradisional menggunakan bahasa biner komputer yang paling sederhana.

Manfaat terbesar dari membuka modul persepsi dan pengambilan keputusan adalah dapat mencakup lebih banyak “adegan skala abu-abu” yang tidak dapat dijelaskan secara akurat oleh aturan di dunia nyata. Misalnya saat Anda sedang berkendara, Anda tidak perlu mengetahui secara tepat kecepatan mobil di depan atau apakah sedang melintasi garis. Anda hanya perlu memperhatikan perubahan posisi relatifnya.

Atas dasar tersebut, berdasarkan teori AI generatif, diharapkan model jaringan saraf juga dapat menghasilkan kecerdasan setelah masukan dalam jumlah besar dan menjadi agen AI.

Dasar dari semua ini berasal dari data, yaitu materi pelatihan yang “diumpankan” ke model. Namun, tidak seperti model bahasa berbasis teks berukuran besar, tidak mudah bagi model mengemudi cerdas untuk menemukan cukup data video publik sebagai materi pelatihan.

"Laporan Riset Industri Penggerak Otonomi End-to-End" yang disebutkan di atas menunjukkan bahwa kumpulan data publik terbesar saat ini hanya memiliki 1.200 jam data. Menurut Musk pada tahun 2023, Tesla menginvestasikan hampir 40.000 jam pelatihan video pada tahap awal end-to-end.

Dibandingkan dengan perusahaan mobil lain, keunggulan utama data Tesla terletak pada banyaknya jumlah mobil yang diproduksi secara massal.

Saat ini, Tesla telah mengirimkan lebih dari 6 juta kendaraan di seluruh dunia. Namun, di antara kekuatan baru Tiongkok yang secara aktif menerapkan mengemudi cerdas, jumlah kendaraan yang diproduksi secara massal hanya sebagian kecil dari jumlah Tesla. Ditambah dengan SKU minimalis yang konsisten dan perangkat keras mengemudi cerdas yang sudah tertanam sepenuhnya, pengumpulan data menjadi lebih mudah.

Praktik umum sebelumnya di Tiongkok biasanya mengandalkan perolehan informasi jalan secara manual. Namun, untuk melatih model end-to-end yang cerdas, perlu juga mencakup data yang cukup dari skenario edge (kasus conner). Karena kemunculan adegan tepi sangat acak, beberapa produsen menyatakan bahwa hanya sekitar 2% dari data terbatas yang dapat diperoleh melalui pengumpulan data manual saja.

Selain itu, dibandingkan Tesla, pabrikan dalam negeri seringkali memiliki SKU yang lebih kompleks. Di antara model yang berbeda, karena perbedaan ukuran kendaraan, tata letak sensor, dll., parameter yang relevan dalam model juga perlu disesuaikan.

Mengambil seri Huawei sebagai contoh, Hongmeng Zhixing telah menunjukkan kemampuan penjualan terminal yang kuat selama sekitar satu tahun terakhir. Namun, untuk berbagai merek dan model layanan BU mobil Huawei, insinyur masih dibutuhkan setelah implementasi end-to-end pekerjaan penyelarasan dan pengiriman. Hal yang sama berlaku untuk Weilai, yang memiliki 2 merek dan 9 model. Mereka telah mengatur ulang tim integrasi menjadi tim pengiriman.


Setelah Sora dirilis, Musk men-tweet bahwa Tesla menggunakan AI untuk mensimulasikan mengemudi di dunia nyata |

Ada pandangan bahwa produk video Wensheng yang diwakili oleh Sora dapat menjadi sumber materi untuk model end-to-end. Namun bahkan bagi Musk, pelatihan AI dengan konten yang dihasilkan AI belum diakui secara publik. Bagaimanapun, data data terlalu penting untuk pelatihan model. Anda tahu, Musk, yang selalu sangat pelit dalam hal biaya tenaga kerja, juga mempekerjakan tim yang terdiri dari 1.000 orang di New York untuk membuat anotasi pada data video jalan raya Tesla.

03

Jangan “digiring ke dalam parit” oleh Musk

Tampaknya berpindah ke end-to-end adalah hal yang wajar, namun menghapus 300.000 baris kode dan membongkar serta menata ulang struktur organisasi masa lalu jelas bukan keputusan yang mudah untuk diambil. Faktanya, Musk memulai jalur ini secara tidak sengaja. Insinyur yang pertama kali melamarnya pada akhir tahun 2022 untuk mempelajari ChatGPT guna membangun jaringan saraf penggerak yang cerdas hampir dipindahkan oleh Lao Ma untuk memecahkan masalah lain setelah akuisisi Twitter.

Setelah melatih model end-to-end, sistem pendukung yang sesuai (termasuk daya komputasi, dll.) juga harus cukup efisien. Dalam sebuah wawancara dengan "Tencent Deep Web", Ren Shaoqing, wakil presiden penelitian dan pengembangan penggerak cerdas NIO, mengatakan bahwa memaksakan layanan end-to-end tanpa kemampuan dasar sama saja dengan menggunakan "racun".

Dia berkata: "Jika struktur kode asli Anda cukup jelas, volume pengujian (debug) Anda mungkin hanya 1%. Biasanya Anda memerlukan waktu tiga hari untuk menguji ulang 1%, tapi sekarang maaf, Anda harus menguji ulang 100% dalam tiga hari. Jadi. Sistem verifikasi data Anda harus cukup efisien.”

Namun jangan langsung ditipu oleh Tesla. Teknologi end-to-end saat ini hanya membuktikan bahwa ia memiliki kemungkinan untuk meningkatkan efisiensi kerja, namun tidak membuktikan bahwa ini adalah solusi akhir untuk mengemudi otonom.

Hal ini konsisten dengan pemahaman industri tentang apakah Scaling Law dapat mengarah pada AGI (General Artificial Intelligence) di dunia fisik: sudah pasti bahwa kecerdasan buatan generatif dapat memiliki kecerdasan yang lebih tinggi, namun apakah ia dapat memahami hukum fisik dan secara otomatis Untuk aplikasi dalam berkendara , robotika dan bidang lainnya, tidak ada aturan dalam civitas akademika. Dalam "Laporan Penelitian Industri Penggerak Otonom End-to-End", lebih dari separuh praktisi tidak percaya bahwa end-to-end adalah solusi akhir untuk teknologi mengemudi otonom.

Bagi OEM yang mengembangkan sistem mengemudi cerdas mereka sendiri, pendekatan paling pragmatis pada tahap ini adalah mengandalkan penerapan kemampuan mengemudi cerdas secara end-to-end secepat, semudah dan seefektif mungkin. Sedangkan untuk berlangganan perangkat lunak mengemudi pintar, mungkin memerlukan perjalanan yang lebih lama. Lagi pula, di pasar Tiongkok, perangkat keras sering kali terjual lebih baik daripada perangkat lunak dan layanan.

Tentu saja, kemungkinan besar tidak banyak orang yang ingin menjadi penjudi inovatif seperti Musk. Jika Anda meninggalkan model berbiaya rendah yang bagus tanpa penelitian dan pengembangan dan bertaruh besar pada Robotaxi, nilai pasar akan turun ratusan miliar dolar jika peluncurannya ditunda. Lebih banyak pemain awam hanya berharap bahwa dilengkapi dengan perangkat lunak mengemudi cerdas yang end-to-end, dapat membantu penjualan perangkat keras lebih baik. Tentu saja, jika bisa dijual lebih mahal, itu akan menjadi hal yang paling indah.

*Sumber gambar header: Visual China

Artikel ini adalah artikel asli oleh Geek Park. Untuk pencetakan ulang, silakan hubungi Geek Jun di WeChat geekparkGO

Geek bertanya

Peran programmer dalam industri mengemudi cerdas di masa depan,

Perubahan apa saja yang mungkin terjadi?

16 Juli. Lei Jun memposting: Pada jam 7 malam tanggal 19 Juli, Jumat malam ini, saya akan mengadakan pidato tahunan Lei Jun ke-5. Temanya adalah "Keberanian" dan saya akan berbicara tentang seluk beluk pembuatan mobil serta suka dan duka. tiga tahun terakhir.

Sukai dan ikutiAkun Video Geek Park