berita

bisakah end-to-end menghadirkan musim semi baru? menyelami lebih dalam industri kendaraan otonom yang terfragmentasi

2024-09-25

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

bisakah mengemudi otonom benar-benar membuahkan hasil?

kemanusiaan telah menghabiskan banyak waktu dan uang dalam mengembangkan kendaraan otonom. saat ini, seringnya terjadi kecelakaan, penghamburan uang tanpa henti, dan lambatnya kemajuan telah menimbulkan banyak kebingungan dan pertanyaan: apakah mengemudi tanpa pengemudi merupakan penipuan, atau bahkan, apakah industri ini sudah mati?

industri ini benar-benar salah satu industri yang paling terpecah yang pernah saya lihat. setiap faksi memiliki pandangan berbeda, memandang rendah satu sama lain, dan saling menyalahkan. setelah para dewa bertarung, mereka semua menempuh jalannya sendiri, menginjak jebakannya sendiri, dan mengalahkan satu sama lain.

dampaknya, berkendara tanpa pengemudi akan memasuki musim dingin sebelum tahun 2024.

namun di musim dingin ini, ketika musk mengklaim telah merekonstruksi fsd tesla "melalui teknologi ai end-to-end" dan mengumumkan bahwa ia akan memasuki industri taksi otonom (robaxi), tampaknya ada vitalitas dan harapan baru.

bisakah end-to-end membawa kita menuju berkendara tanpa pengemudi yang sesungguhnya? apakah l2 dan l4 yang didefinisikan dalam mengemudi otonom benar-benar berjauhan? di manakah perkembangan teknologi tanpa pengemudi saat ini? apakah pertarungan antara visi murni dan multimodalitas benar-benar tiada habisnya?

untuk mengetahui perkembangan industri kendaraan otonom, kami menghabiskan waktu tiga bulan untuk mewawancarai perusahaan kendaraan otonom paling mutakhir di pasar global, termasuk mantan karyawan inti waymo dan cruise, mantan insinyur tesla fsd, serta investor pasar primer dan sekunder. . ada sebanyak sepuluh profesional di industri mengemudi otonom.

kami menemukan bahwa industri ini masih terfragmentasi, dan tidak ada konsensus dalam industri mengenai banyak jalur teknis.

dalam rangkaian artikel ini, kita akan mengeksplorasi status mutakhir teknologi penggerak otonom saat ini dari berbagai perspektif seperti persepsi, algoritme, produk, operasi, ekonomi, dan hukum.

pada artikel kali ini, pertama-tama kita akan membahas teknologi secara komprehensif, dan pada edisi berikutnya kita akan menganalisisnya dari sudut pandang operasional dan ekonomi.

1. apa yang dimaksud dengan mengemudi otonom?

pertama-tama mari kita buat perbedaan konseptual: apa perbedaan antara mengemudi tanpa pengemudi dan mengemudi tanpa pengemudi?

menurut tingkat kecerdasannya, mengemudi otonom dibagi menjadi 6 level dari l0 hingga l5:

l0 berarti tidak ada otomatisasi, l1 berarti bantuan mengemudi, l2 berarti mengemudi otomatis parsial, l3 berarti mengemudi otomatis bersyarat, l4 berarti mengemudi sangat otomatis, dan l5 berarti mengemudi sepenuhnya otomatis, yaitu mengemudi tanpa pengemudi sejati.

waymo dan cruise, yang kami sebutkan nanti, dan truk tak berawak yang dibuat oleh hou xiaodi semuanya termasuk dalam level l4. tesla fsd termasuk dalam level l2, tetapi tesla robotaxi yang diklaim musk adalah l4.

oleh karena itu, saat ini di industri ini, ketika orang berbicara tentang mengemudi otonom, mereka umumnya mengacu pada perusahaan l4, karena belum ada yang bisa mencapai l5; dan secara umum, mengemudi otonom mencakup semua tingkatan dan merupakan panggilan yang lebih umum.

mari kita lihat bagaimana industri kendaraan otonom dimulai.

meskipun manusia mulai mengeksplorasi kendaraan otonom sejak 100 tahun yang lalu, diketahui bahwa kendaraan otonom modern secara resmi berasal dari tantangan darpa militer as pada tahun 2004.

setelah beberapa tahun pengembangan, hubungan operasional persepsi-perencanaan-pengendalian terbentuk. modul persepsi meliputi persepsi dan prediksi.

lapisan persepsi perlu memperoleh kondisi jalan di depan melalui sensor seperti radar dan kamera, memprediksi lintasan pergerakan objek, dan menghasilkan peta lingkungan sekitar secara real time, yang merupakan pandangan luas yang biasa kita lihat di mobil dan mobil. mesin, dan kemudian meneruskan informasi ini ke lapisan perencanaan. sistem menentukan kecepatan dan arah berdasarkan algoritme, dan akhirnya ditransfer ke lapisan kontrol eksekusi untuk mengontrol throttle, rem, dan perangkat kemudi yang sesuai.

belakangan, dengan munculnya ai, orang-orang mulai membiarkan mesin belajar mengemudi sendiri. pertama, biarkan algoritme mengemudi di dunia digital yang disimulasikan, setelah pelatihan simulasi mencapai tingkat tertentu, ia dapat mulai menguji di jalan raya .

dalam dua tahun terakhir, ketika tesla menerapkan solusi "end-to-end" pada versi fsd v12, hubungan operasional antara persepsi-perencanaan-kontrol juga mulai berubah.

selanjutnya, kita akan fokus membicarakan dua jalur teknis industri penggerak otonom pada tingkat persepsi: sekolah visual murni dan sekolah fusi multi-modal. kedua faksi ini telah berjuang selama bertahun-tahun, dan masing-masing memiliki faksinya sendiri mari kita bicara tentang keluhan dan kebencian mereka.

2. persepsi: visi murni vs. penggabungan multimodal

saat ini, ada dua solusi persepsi arus utama untuk mobil.

yang pertama adalah solusi penginderaan fusi multi-modal yang diadopsi oleh banyak perusahaan, yang mengumpulkan dan menggabungkan informasi yang dikumpulkan oleh sensor seperti lidar, radar gelombang milimeter, sensor ultrasonik, kamera, dan unit pengukuran inersia untuk menentukan lingkungan sekitar.

kembali ke tantangan darpa yang kami sebutkan di bab sebelumnya, pada sesi pertama tahun 2004, meskipun tidak ada kendaraan yang menyelesaikan perlombaan, seorang kontestan bernama david hall menyadari pentingnya lidar selama kompetisi, velodyne, perusahaan dia didirikan, mulai beralih dari audio ke lidar.

saat itu, lidar memindai dengan satu garis dan hanya dapat mengukur jarak dalam satu arah. david hall menemukan lidar berputar mekanis 64 garis yang dapat memindai lingkungan 360 derajat.

kemudian, ia mengambil lidar bergilir ini untuk mengikuti darpa challenge kedua pada tahun 2005. akhirnya sebuah mobil dengan 5 lidar di kepalanya menyelesaikan balapan dan menjadi juara.

tapi ini bukan mobil david hall... mobilnya berhenti di tengah jalan karena kerusakan mekanis, tapi performanya membuat semua orang menyadari bahwa lidar adalah sebuah "plug-in".

pada tantangan darpa ketiga tahun 2007, lima dari enam tim yang menyelesaikan kompetisi menggunakan lidar velodyne. saat ini, lidar mulai populer di industri penggerak otonom, dan velodyne juga menjadi perusahaan terkemuka di bidang lidar otomotif.

zhang hang (ilmuwan direktur senior di cruise):

sekarang, apakah itu cruise atau waymo, beberapa solusi berbasis l4 sebagian besar didasarkan pada lidar, yang dapat langsung memperoleh informasi lokasi. dalam hal ini, persyaratan untuk algoritme itu sendiri akan relatif rendah, dan terdapat banyak informasi 3d ini dapat diperoleh secara langsung melalui sensor, yang akan meningkatkan ketahanan dan keamanan sistem, dan mempermudah beberapa masalah jangka panjang.

faksi teknis lainnya adalah solusi visual murni yang diwakili oleh tesla, yang hanya mengandalkan kamera untuk mengumpulkan informasi lingkungan, dan kemudian menggunakan jaringan saraf untuk mengubah video 2d menjadi peta 3d, yang mencakup rintangan dan prediksi lintasan lingkungan sekitar, kecepatan, dan lainnya informasi.

dibandingkan dengan solusi lidar yang secara langsung menghasilkan peta 3d, penglihatan murni memiliki proses tambahan untuk mengubah 2d menjadi 3d. dalam pandangan zhang hang, hanya mengandalkan data pelatihan "video" yang tidak memiliki informasi 3d akan membawa tantangan tertentu terhadap keamanan.

zhang hang (ilmuwan direktur senior di cruise):

diperlukan data latih dalam jumlah besar untuk mempelajari kekurangan informasi 3d. dalam hal ini kurangnya pengawasan karena tidak adanya objek acuan maka sulit untuk memperoleh kebenaran dasar (data nilai sebenarnya) pada kenyataannya. jika sepenuhnya melalui semi pengawasan ini menurut saya lebih sulit mencapai keamanan sistem berdasarkan metode pembelajaran. saya pikir tujuan utama tesla adalah untuk mengendalikan biaya, termasuk memodifikasi beberapa mekanisme perpindahan gigi, semuanya untuk menghemat biaya pada beberapa bagian.

namun menurut yu zhenhua, mantan insinyur ai di tesla, memilih visi murni bukan hanya soal menghemat biaya.

1. lebih banyak sama dengan kekacauan?

yu zhenhua (mantan insinyur tesla ai):

faktanya, sistem autopilot asli tesla memiliki radar gelombang milimeter. sensor fusion sebenarnya merupakan algoritma yang sangat kompleks, namun belum tentu bagus jika dibuat.

saya memiliki mobil pada saat itu yang merupakan salah satu mobil terakhir yang memiliki radar gelombang milimeter. pada tahun 2023, mobil saya menjalani perawatan, dan teknisi servis secara otomatis menghilangkan radar saya. apa kesimpulan dari masalah ini? menghapus radar gelombang milimeter bukan karena alasan biaya, karena mobil saya sudah memiliki radar gelombang milimeter di sana. alasan utamanya adalah penglihatan murni telah melampaui radar gelombang milimeter. jadi tesla melakukan pengurangan, menghilangkan beberapa hal yang berlebihan yang menurutnya tidak perlu, atau hal-hal yang merepotkan.

yu zhenhua percaya bahwa,jika algoritma fusi tidak dilakukan dengan baik, atau jika penglihatan murni dapat mencapai hasil yang cukup baik, maka lebih banyak sensor akan menjadi beban.

banyak praktisi l4 yang kami wawancarai juga setuju bahwa lebih banyak informasi tidak lebih baik. sebaliknya, terlalu banyak informasi tambahan yang tidak valid yang dikumpulkan oleh sensor akan menambah beban pada algoritma.

jadi mungkinkah hanya mengandalkan sensor kamera yang selalu dianjurkan musk?

2. lebih sedikit lebih banyak?

musk mengatakan bahwa karena manusia hanya dapat mengemudi dengan dua mata, mobil juga dapat mencapai pengemudian otonom hanya berdasarkan informasi gambar. namun, kekhawatiran industri terhadap visual murni selalu berupa penipuan visual, yang memang membawa lebih sedikit masalah di masa lalu.

misalnya, tesla mengenali truk putih sebagai langit dan bulan sebagai lampu kuning, atau ideal mengenali konten di papan reklame sebagai mobil, sehingga menyebabkan kecelakaan seperti pengereman mendadak dan tabrakan dari belakang dengan kecepatan tinggi.

apakah kasus-kasus ini berarti bahwa solusi visual murni tanpa informasi mendalam memiliki kekurangan yang melekat?

yu zhenhua (mantan insinyur tesla ai):

berbagai aliran informasi memang dapat memberikan lebih banyak informasi, namun anda harus menjawab pertanyaan, bukankah kamera itu sendiri memiliki informasi yang cukup? atau apakah kemampuan algoritma untuk menggali informasi tidak mencukupi?

misalnya saat mengerem mendadak atau merasa frustasi saat berkendara di jalanan perkotaan, akar permasalahannya sebenarnya adalah kurangnya estimasi kecepatan benda di sekitarnya dan sudutnya. jika ini alasannya, maka lidar memang jauh lebih baik daripada kamera karena bisa memberikan jika anda memberikan lebih banyak informasi langsung, kamera itu sendiri sebenarnya memberi anda informasi, namun algoritma kami tidak cukup baik untuk menggali informasi tersebut.

yu zhenhua tidak percaya bahwa akar penyebab penipuan visual adalah kurangnya informasi dari kamera, namun algoritmanya tidak cukup untuk memproses atau menggali informasi yang diberikan oleh kamera. ia percaya bahwa, terutama setelah peluncuran algoritma fsd v12 tesla, telah terbukti bahwa ketika algoritma tersebut telah dioptimalkan secara signifikan, penambangan dan pemrosesan informasi kamera telah meningkat secara signifikan.

yu zhenhua (mantan insinyur tesla ai):

fsd v12 saat ini belum sempurna, banyak masalah, namun sejauh ini saya belum menemukan masalah mana yang disebabkan oleh sensor yang kurang. tentu saja, sebelum v12, banyak masalah disebabkan oleh kurangnya sensor, tetapi v12 saat ini tidak memiliki masalah ini.

namun, praktisi l4 memiliki perspektif berbeda. mereka percaya bahwa kamera memiliki kelemahan alami.

zhang hang (ilmuwan direktur senior di cruise):

menurut saya pribadi itu sulit, dan menurut saya itu belum tentu merupakan masalah pada algoritma itu sendiri.

pertama-tama, kamera itu sendiri tidak serumit mata manusia. setiap kamera memiliki beberapa parameter dan keterbatasannya.

lalu ada algoritmanya sendiri. orang tidak perlu tahu di mana semua mobil berada dalam jarak 200 meter. saya hanya perlu tahu mobil dan pejalan kaki mana yang dapat mempengaruhi perilaku mobil saya beberapa poin sudah cukup, dan saya tidak memerlukan banyak daya komputasi. mungkin tidak mungkin mencapai ketinggian ini melalui algoritma dalam jangka pendek.

zhang hang, yang terlibat dalam penelitian l4, percaya bahwa kamera tidak dapat menandingi mata manusia. alasan utamanya adalah panjang fokus dan piksel kamera tetap, sedangkan mata manusia memiliki presisi yang sangat tinggi dan dapat melakukan zoom secara otomatis. pada saat yang sama, cara berpikir manusia yang melompat-lompat tidak dapat diterapkan pada komputer dalam jangka pendek, sehingga lidar dapat digunakan untuk melengkapi kekurangan kamera.

namun ada pendapat lain di pasaran yang meyakini bahwa selain informasi visual, sensor lain juga akan membawa informasi interferensi.

misalnya lidar juga memiliki kekurangannya sendiri, karena menggunakan jangkauan laser, jika dihadapkan pada beberapa objek reflektif, hujan atau salju, atau laser yang dipancarkan oleh mobil lain, maka akan mengganggu lidar dan pada akhirnya menimbulkan efek ilusi.

liu bingyan (kepala perangkat lunak kargo):

saya adalah orang yang sangat murni visual. jalan-jalan di dunia ini dirancang untuk manusia dan penglihatan. artinya, selain penglihatan, anda dapat menganggap informasi yang anda kumpulkan sebagai gangguan informasi memberikan gangguan, dan nilai sebenarnya yang diberikannya, distribusinya seperti apa? saya pikir ketika visual menjadi lebih baik dan lebih baik, mungkin yang terjadi justru sebaliknya.

jika algoritme fusi multi-sensor dapat dikembangkan untuk memungkinkan informasi lidar dan gambar diverifikasi satu sama lain, keamanan sistem dapat lebih ditingkatkan.

hou xiaodi mengajukan metafora yang jelas:ketika dua siswa dengan tingkat yang sama mengikuti ujian, orang yang menggunakan kalkulator pada akhirnya akan lebih mudah. ​​hanya landasan ekonomi yang menentukan apakah dia mampu membeli kalkulator.

perdebatan antara visi murni dan solusi fusi multimodal berbasis lidar telah berlangsung selama beberapa tahun, dan tampaknya tidak akan ada jawaban dalam jangka pendek. ataubagi beberapa startup, rute tidak terlalu penting sama sekali, namun pertimbangan biaya dan ekonomi adalah yang paling penting.

hou xiaodi (mantan pendiri dan ceo tusimple, pendiri bot.auto):

saya dulu dianggap sebagai orang visual karena lidar tidak tersedia pada saat itu, sehingga kami terpaksa mencari solusi yang lebih visual.

saya juga tidak menentang lidar;kapan lidar menjadi murah?lidar sekarang murah banget, jadi saya juga antri beli lidar. bagi saya, kucing yang baiklah yang menangkap tikus. selama biaya perangkat ini cukup rendah dan selama perangkat ini dapat memberi kita informasi yang cukup berharga dari sudut pandang teori informasi, kita harus menggunakannya.

david (pembawa acara "kuda besar berbicara tentang teknologi"):

lingkaran pengemudi otonom tiongkok dengan cepat membuat perangkat keras ini, seperti lidar dan radar gelombang milimeter, tersedia dengan harga terjangkau. dalam keadaan ini, haruskah kita tetap melakukan penglihatan murni seperti tesla? faktanya, banyak perusahaan sekarang yang ragu-ragu. haruskah saya membeli lidar solid-state dengan harga lebih dari 1.000 yuan, atau haruskah saya menggunakan visi murni, tetapi hal itu akan menyebabkan banyak pemborosan daya komputasi.

yu zhenhua (mantan insinyur tesla ai):

menurut saya 1.000 yuan terlalu mahal, dan tesla bahkan tidak mau menggunakan sensor hujan.

wang chensheng (mantan direktur pengadaan tesla):

namun menurut saya seiring dengan meningkatnya skala rantai pasokan dan penurunan biaya secara signifikan, ketika lidar dapat mencapai harga yang serupa dengan kamera, terutama dalam skenario aplikasi end-to-end, apakah penglihatan murni masih merupakan jalur yang unik?

3. bertobat?

menariknya, karena harga lidar telah turun secara signifikan, industri mulai tidak setuju apakah taksi self-driving tesla yang akan datang akan menggunakan lidar.

misalnya, zhang hang percaya bahwa karena robotaxi tidak memerlukan campur tangan manusia, dan jika terjadi kesalahan, perusahaan harus bertanggung jawab, tesla mungkin memilih rute yang lebih konservatif dan menggunakan lidar, yang pernah dianggap remeh.

zhang hang (ilmuwan direktur senior di cruise):

apalagi jika harus bertanggung jawab atas kecelakaan perusahaan, harus lebih konservatif, dan menurut saya sensor tambahan mungkin diperlukan. dari perspektif ini, tesla mungkin mengadopsi beberapa teknologi yang sebelumnya dibencinya.selama hal ini bermanfaat dan dapat mencapai tujuan l4, maka secara bertahap akan mengadopsinya.

baru-baru ini, kami juga menemukan bahwa tesla juga sedang mempertimbangkan beberapa aspek l4 dan l5, dan juga membicarakan kerja sama dengan beberapa produsen lidar ini, sehingga mungkin setiap orang mencapai tujuan yang sama melalui jalur yang berbeda.

tahun ini produsen lidar, luminar, merilis laporan keuangan kuartal pertamanya, menunjukkan bahwa pesanan tesla mencapai 10%, menjadikannya pelanggan terbesarnya. namun yu zhenhua tidak setuju, karena menganggap ini bukanlah hal baru.

yu zhenhua (mantan insinyur tesla ai):

pertama-tama, ini jelas bukan untuk penggunaan lidar pada mobil produksi massal di masa depan, karena total pendapatan luminar pada kuartal pertama tampaknya sebesar 20 juta dolar as, dan 10% adalah 2 juta, yang tidak cukup untuk memasang beberapa lidar. faktanya, bukan rahasia lagi bahwa kendaraan rekayasa dan kendaraan uji tesla dilengkapi dengan lidar. lidar digunakan untuk mengumpulkan kebenaran dasar (data nilai sebenarnya) untuk melatih jaringan saraf, karena manusia tidak dapat menandai berapa meter jarak suatu objek dari anda. . sensor khusus harus digunakan untuk menandai.

tapi kenapa lumina membeberkan hal ini di kuartal pertama, saya sebenarnya sangat bingung, karena musk juga merespon saat itu dengan mengatakan bahwa setelah kita mencapai v12, kita tidak memerlukan data nilai sebenarnya karena bersifat end-to-end dan memakan jaringan. ini soal era v11, mungkin menurut saya ada beberapa kesalahpahaman di sini, baik dari laporan keuangan atau aturan keuangan.

meskipun saat ini belum ada kepastian apakah robotaxi tesla yang akan datang akan dilengkapi dengan lidar, satu hal yang pasti adalah dengan konfigurasi penginderaan tesla saat ini, keselamatan tidak cukup untuk mencapai l4 atau mengoperasikan robotaxi.

liu bingyan (kepala perangkat lunak kargo):

saya sangat yakin model tesla yang ada memiliki titik buta yang sangat jelas, yaitu titik buta yang tidak dapat diakses secara visual, dan titik buta ini akan menyebabkan jika dia ingin mencapai yang terbaik, apakah itu mengemudi otonom l4 atau l5, berikutnya mobil harus mengatasi masalah titik buta ini.

kami akan membongkar pembaruan teknologi end-to-end terbaru tesla secara detail di bab 3 dan 4, serta spekulasi detail robotaxi yang akan diumumkan pada bulan oktober. selanjutnya, pertama-tama mari kita bahas teknologi penting lainnya dalam persepsi: peta presisi tinggi.

4. abadi?

selain lidar, peta presisi tinggi juga merupakan sumber biaya utama dalam penginderaan mengemudi otonom.

peta presisi tinggi mengumpulkan informasi jalan terlebih dahulu, mengurangi tekanan pada modul persepsi untuk menggambar peta 3d, dan meningkatkan akurasi.

secara kebetulan, orang pertama yang mempromosikan peta presisi tinggi adalah sebastian thrun, juara darpa challenge kedua tahun 2005, pemilik mobil dengan lima lidar di kepalanya.

selama tantangan darpa tahun 2004, google sedang mempersiapkan proyek "street view". pendiri google larry page secara pribadi mengunjungi situs kompetisi untuk mengidentifikasi bakat. setelah kompetisi pada tahun 2005, page mendekati sebastian thrun dan mengundangnya untuk bergabung dengan google menggambar peta diberikan kepadanya.

dalam prosesnya, thrun dan page tiba-tiba menyadari,jika ada peta yang dapat mencatat secara akurat semua garis jalur, rambu jalan, lampu lalu lintas, dan informasi jalan lainnya, maka akan sangat membantu dalam berkendara otonom., yang juga menetapkan posisi penting peta presisi tinggi dalam proyek mengemudi otonom.

namun, memproduksi peta berpresisi tinggi sangatlah mahal. biaya rata-rata bagi perusahaan pengemudi otonom untuk mengumpulkan peta berpresisi tinggi adalah sekitar us$5.000 per kilometer. jika mereka ingin mencakup 6,6 juta kilometer jalan di amerika serikat, biaya pengumpulannya saja akan mencapai us$3,3 miliar.

ditambah dengan biaya pemeliharaan peta yang sering terjadi, konsumsi akhir akan sangat besar.

banyak perusahaan mobil kini mempromosikan solusi tanpa peta yang mengabaikan peta presisi tinggi dan malah menggunakan kendaraan untuk membuat peta lingkungan secara lokal.

seorang insinyur mengemudi otonom yang kami wawancarai secara anonim mengatakan bahwa perbandingan dan publisitas ini lebih disebabkan oleh pertimbangan model bisnis. bagi perusahaan yang menjalankan bisnis robotaxi, penggunaan peta presisi tinggi dapat meningkatkan keselamatan.bagi perusahaan mobil, mengabaikan peta berpresisi tinggi dapat secara efektif mengurangi biaya, jadi tidak berarti mengabaikan peta berpresisi tinggi akan menghasilkan tingkat teknis yang lebih tinggi.

responden anonim (insinyur l4):

huawei juga punya cita-cita. solusi mereka adalah mobil yang diproduksi secara massal. pelanggan bisa datang dari berbagai kota, dan anda ingin bisa mengendarainya di kota mana pun.

ambang batas utama untuk peta presisi tinggi arus utama adalah memerlukan proses pengumpulan peta. proses pengumpulan peta ini sebenarnya relatif memakan waktu dan tenaga, serta memerlukan keahlian profesional.

jadi jika anda berkecimpung dalam bisnis produksi mobil secara massal, anda tidak dapat mengatakan bahwa saya memiliki mobil pengumpul peta khusus dan saya telah melakukan perjalanan ke seluruh tiongkok untuk anda.

perusahaan l2 seperti tesla, huawei, dan ideal meninggalkan peta berpresisi tinggi karena mereka tidak dapat mencakup setiap jalan dan gang.

sementara waymo dan cruise melakukan ini, perusahaan l4 robotaxi memilih untuk terus menggunakan peta presisi tinggi karena mereka menemukan bahwakita hanya perlu mencakup beberapa kota utama untuk menangkap pasar yang cukup.

oleh karena itu, apakah akan menggunakan peta presisi tinggi menjadi masalahmasalah akuntansi keuangan robotaxi bukanlah masalah teknis.

minfa wang (mantan insinyur pembelajaran mesin senior waymo):

jika anda melihat model bisnis robotaxi saja dan membagi permintaan robotaxi di amerika serikat, anda akan menemukan bahwa lima kota teratas sudah menyumbang setengah dari volume komersial di amerika serikat di mana pun di amerika serikat. faktanya, anda sudah memiliki pasar yang cukup besar.

demikian pula, tamu lain yang kami wawancarai yang bekerja di truk swakemudi l4 juga menyampaikan bahwa jika mereka ingin memperluas rute operasinya, yaitu memperluas cakupan peta presisi tinggi, mereka harus terlebih dahulu mengukur apakah rute ini menguntungkan, jika tidak maka mereka akan melakukan hal yang sama. hanya akan menghasilkan uang dengan kerugian.

setelah mengobrol seperti itu, tidak ada pandangan terpadu dalam industri mengenai sisi persepsi. seperti yang dikatakan hou xiaodi, kucing adalah kucing yang baik jika ia menangkap tikus.

selanjutnya, mari kita fokus pada kemajuan terkini dalam algoritme mengemudi otonom yang akhir-akhir ini menjadi perhatian semua orang, terutama teknologi “end-to-end” yang baru-baru ini dipromosikan oleh tesla. akankah hal ini benar-benar mengubah arah industri kendaraan otonom?

3. algoritma: apakah pengemudian otonom merupakan masa depan yang end-to-end?

1. apa yang dimaksud dengan tradisi?

tautan operasi tradisional dari mengemudi otonom pertama-tama adalah merasakan, memprediksi, kemudian merencanakan, dan akhirnya mengendalikan.

modul persepsi pertama-tama harus mengidentifikasi jalan melalui sensor seperti kamera dan radar, menerjemahkan informasi ini ke dalam bahasa yang dapat dilihat mesin, dan meneruskannya ke modul prediksi.

model prediksi akan menilai lintasan mengemudi kendaraan lain dan pejalan kaki, kemudian meneruskan informasi ini ke modul perencanaan untuk menemukan jalur dengan risiko terendah, dan terakhir meneruskan sinyal kendali ke sistem kendali.

algoritme saat ini terutama didorong oleh "dasar aturan". insinyur perlu terus menulis berbagai aturan, seperti memperlambat saat bertemu pejalan kaki, berhenti di lampu merah, dll. untuk memperhitungkan berbagai situasi, basis aturan anda harus mencakup setiap kemungkinan sebanyak mungkin, dan karenanya, kodenya sangat, sangat panjang.

apa kesulitan dari algoritma seperti itu?

masalah terbesarnya adalah sistem dibagi menjadi beberapa modul yang berbeda, namun transmisi informasi antar modul akan hilang. jika hilir tidak dapat memperoleh informasi yang komprehensif, maka kesulitan dalam prediksi dan perencanaan akan semakin meningkat.

sebagai contoh sederhana dan mudah dipahami, semua orang pernah mendengar tentang game teleportasi multi-pemain, bukan? 10 orang menyampaikan sebuah kalimat dari awal hingga akhir, namun seringkali detailnya hilang atau diubah selama proses penyampaian oleh banyak orang, sehingga maknanya menjadi sangat berbeda ketika sampai ke orang terakhir.

demikian pula, dalam model berbasis aturan tradisional, jika modul lapisan atas tidak berfungsi dengan baik, hal ini akan mempengaruhi kinerja lapisan berikutnya.

kerugian lainnya adalah bahwa semua aturan dirancang dan ditentukan oleh manusia, tetapi aturan yang terbatas tidak dapat mencakup kemungkinan situasi nyata yang tidak terbatas. untuk beberapa masalah yang tidak biasa dan mudah diabaikan, sulit bagi mesin untuk menghasilkan solusi yang sesuai. "kasus ekor panjang" juga disebut "kasus sudut", yang akan menimbulkan biaya yang sangat tinggi untuk implementasi skala besar.

yu zhenhua (mantan insinyur tesla ai):

hal lainnya adalah ketika dibagi menjadi dua modul, menurut saya teknologi ini sulit untuk diukur. setiap kali anda menambahkan tugas baru ke adegan kompleks yang realistis, anda harus menambahkan beberapa antarmuka baru, dan anda harus mengubah persepsi dan perencanaan kontrol.

ambil contoh tesla, beberapa tahun yang lalu, nhtsa (administrasi keselamatan transportasi as) mewajibkan tesla untuk mendeteksi kendaraan darurat, seperti truk pemadam kebakaran dan ambulans perlu melakukan hal ini. ini hanya satu tugas. mungkin ada ratusan atau ribuan tugas seperti itu. anda harus meningkatkannya. jadi tahukah anda bahwa ada ribuan insinyur di huawei? sekitar 6.000 insinyur, karena anda akan menghadapi begitu banyak tugas baru yang muncul. semakin kompleks lingkungannya, semakin banyak tugas yang menurut saya ini bukan model yang dapat diskalakan.

david (pembawa acara "kuda besar berbicara tentang teknologi"):

metode ini masih tergolong kuno. meskipun tampaknya merupakan metodologi yang lebih fleksibel untuk industri robotaxi, metode ini tidak dapat memenuhi kebutuhan mobil penumpang dan jutaan kendaraan yang melaju di jalan raya di seluruh dunia di masa depan.

lalu apa solusi dari permasalahan tersebut? saat ini, kita harus berbicara tentang "end to end".

2. superstar baru

di bidang mengemudi otonom, definisi umum saat ini tentang "end-to-end" adalah:informasi yang dikumpulkan oleh sensor diteruskan ke model besar berdasarkan jaringan saraf tanpa pemrosesan apa pun, dan hasil kontrol langsung dikeluarkan.

dengan kata lain, tidak perlu menulis berbagai aturan secara manual dan membiarkan algoritme mempelajari cara mengemudi dengan mengikuti data yang dimasukkan ke dalamnya.

yu zhenhua (mantan insinyur tesla ai):

karena ketika kita sebagai manusia mengemudi, kita tidak menilai kecepatan dan sudut mobil tertentu dalam pikiran kita. anda membuat keputusan secara tidak sadar melalui lingkungan yang kompleks.

logika berpikir "membuat algoritma lebih mirip manusia, karena begitulah cara manusia bekerja" adalah arahan musk dalam memimpin tesla. tidak heran mengapa teknologi "end-to-end" bukanlah hal baru dalam mengemudi otonom tesla.

meskipun tesla akan meluncurkan fsd v12 menggunakan "end-to-end" untuk pertama kalinya pada akhir tahun 2023, "end-to-end" bukanlah hal baru dalam dunia mengemudi otonom. faktanya, pada awal tahun 2016, nvidia memiliki makalah yang mengusulkan "end-to-end".

sekarang, "end-to-end" juga dibagi menjadi dua jenis, yang pertama adalah mengganti beberapa modul dengan jaringan saraf "end-to-end" dari sub-modul ini hanya bentuk yang berlebihan, bukan yang lengkap, karena setiap modul untuk mentransfer informasi di antara mereka, berbagai antarmuka masih perlu didefinisikan, sehingga menyebabkan kehilangan data.

dalam pandangan arus utama, hanya ketika beberapa modul diintegrasikan ke dalam satu kesatuan dan definisi lapisan persepsi, lapisan prediksi, dan lapisan perencanaan dihilangkan, barulah modul tersebut dapat dianggap murni "end-to-end".

pada tahun 2023, makalah terbaik cvpr "penggerak otonom berorientasi perencanaan" mengusulkan bahwa "end-to-end" yang lalu hanya berjalan pada beberapa modul atau memerlukan beberapa komponen untuk dimasukkan ke dalam sistem.

makalah ini mengusulkan arsitektur model uniad, yang merupakan pertama kalinya semua modul penginderaan, prediksi, dan perencanaan diintegrasikan ke dalam kerangka jaringan end-to-end berdasarkan transformer.

dibandingkan dengan tautan eksekusi berbasis aturan (rule-driven) tradisional, "end-to-end" tidak lagi memerlukan insinyur algoritma untuk berulang kali meningkatkan basis aturan, jadi ketika musk merilis fsd v12, dia mengklaim bahwa "kodenya telah berkembang dari 300.000 baris menjadi 2.000 baris."

meskipun teknologi "end-to-end" dalam mengemudi otonom tidak ditemukan oleh tesla, tesla memang merupakan perusahaan pertama yang mengembangkan teknologi jaringan saraf "end-to-end" dan membawanya ke pasar arus utama.

3. keuntungan “end-to-end”.

pada november 2023, tesla merilis versi uji pertama fsd v12, namun hanya terbuka untuk karyawan terpilih. pada awal tahun 2024, tesla akan mulai membuka versi fsd v12 untuk semua pemilik tesla di amerika serikat, dan setiap pemilik akan mendapatkan uji coba gratis selama satu bulan.

pasca peluncuran fsd v12 sempat menimbulkan heboh beberapa saat. dari pengalaman pengguna, kami melihat sebagian besar opini publik menganggap fungsi fsd tesla sangat meningkat dibandingkan sebelumnya adalah "momen chatgpt pertama di dunia".

david (pembawa acara "kuda besar berbicara tentang teknologi"):

yang benar-benar membuat saya merasa sudah mengalami kemajuan adalah perencanaannya. misalnya kalau soal bundaran, cukup sulit untuk melintasi bundaran dengan arah perencanaan tradisional, karena mobil di depan anda harus macet, dan anda. harus keluar dari bundaran. bagaimana cara mengatur prioritas seperti ini di tengah?

sekalipun anda menetapkan prioritas, seberapa jauh anda harus menjaga jarak dari mobil di depan dan mobil di sebelah anda sebelum anda bisa keluar? ini sebenarnya logika yang sangat rumit, tetapi kinerja ini pada fsd versi baru benar-benar membuat saya merasa luar biasa. ini memberi saya kejutan besar.

banyak orang yang pernah merasakan fsd v12 mengatakan bahwa sistem yang belajar dari data mengemudi manusia ini memiliki gaya mengemudi yang sangat mirip manusia dan tidak lagi mengalami rasa frustrasi akibat algoritma mekanis.

namun di saat yang sama, beberapa tamu berpikir setelah mengalaminya,fsd v12 tidak begitu bagus sehingga orang harus menggunakannya, dan masih ada jarak tertentu antara fsd dan l4.

justin mok (chief investment officer di kantor keluarga):

tapi ini tidak sebagus gpt4, dan tidak terlalu bagus sehingga saya harus menggunakan benda ini, atau saya akan segera menggunakannya, dan mungkin cocok untuk digunakan di banyak skenario saya.

minfa wang (mantan insinyur pembelajaran mesin senior waymo):

performanya relatif bagus di jalan raya, tetapi di jalanan, menurut saya pada dasarnya perlu diambil alih secara manual setiap sekitar 5 mil.

apalagi di yang kita sebut belok kiri tanpa pengaman (unprotected left turn), hal ini relatif mudah dilakukan, sehingga menurut saya itu bukan perilaku yang sangat aman. jika mpi (takeover mileage) anda hanya 5, maka jelas jauh dari l4. mengemudi otonom masih jauh.

saya sendiri juga pernah mengalami fsd versi 12.4.4 dibandingkan dengan kendaraan l4 seperti waymo, tesla fsd saat ini masih membuat saya takut pada waktu-waktu tertentu, atau terkadang menunjukkan perilaku yang tidak dapat dijelaskan.

misalnya saat berbelok ke kanan, karena radius beloknya terlalu besar, hampir menabrak mobil yang melaju, sehingga harus mengambil alih secara manual.

dari sudut pandang kinerja, fsd v12 "end-to-end" masih memiliki ruang untuk perbaikan. dari sudut pandang teknik, operasi dan manajemen, keunggulan "end-to-end" memiliki tiga poin:

pertama, ini dapat membuat keseluruhan sistem menjadi lebih sederhana.setelah menghapus basis aturan, anda hanya perlu terus menambahkan kasus pelatihan untuk lebih meningkatkan kinerja model, dan biaya pemeliharaan serta peningkatan juga akan berkurang secara signifikan.

kedua, menghemat biaya tenaga kerja.karena "end-to-end" tidak lagi bergantung pada basis aturan yang kompleks, tidak perlu mengerahkan tim pengembangan yang besar atau bahkan mengandalkan para ahli.

ketiga, dapat mencapai promosi yang lebih luas.anda dapat melihat bahwa saat ini perusahaan l4 hanya dapat beroperasi di wilayah terbatas, terlepas dari batasan peraturan dan lisensi, karena ini bukan solusi "end-to-end" dan perlu dioptimalkan untuk wilayah tertentu, dan "end-to-end". " dapat menangani semua kondisi jalan. , lebih seperti driver "universal", itulah salah satu alasan mengapa tesla fsd v12 dibandingkan dengan chatgpt.

karena "end-to-end" memiliki begitu banyak keunggulan, dapatkah hal ini menyelesaikan masalah teknis yang saat ini dihadapi oleh kendaraan otonom?

4. model kotak hitam

banyak tamu yang kami wawancarai percaya bahwa,pada tahap ini, pengembangan lebih lanjut dari rute end-to-end merupakan tren yang diakui di bidang mengemudi otonom, namun masih banyak permasalahan.

zhang hang (ilmuwan direktur senior di cruise):

saya pikir arah ini adalah arah yang benar. tidak mungkin bagi kita untuk membuat solusi l4 skala besar dengan melakukan patching sepanjang waktu. namun saat ini, saya pikir tidak mungkin untuk mencapai solusi l4 dengan cepat sepenuhnya melalui solusi akhir. solusi akhir, jadi sekarang adalah titik waktu yang kontradiktif.

mengapa end-to-end saat ini masih tertinggal jauh dari l4 dimulai dari ketidakpastiannya.

end-to-end ibarat kotak hitam yang akan membawa lebih banyak ketidakpastian.

misalnya, para insinyur tidak dapat memverifikasi apakah kasus data masukan telah dipelajari oleh model; atau ketika menghadapi bug, mereka tidak dapat menemukan tautan mana yang menyebabkan masalah atau apakah data yang baru ditambahkan akan menyebabkan pengetahuan yang dipelajari dilupakan atau ditimpa. , situasi ini disebut lupa bencana.

misalnya saja versi tesla fsd 12.4.2 yang sudah lama diproduksi secara internal, namun butuh waktu lama untuk mendorongnya secara besar-besaran. musk menjelaskan hal itu karena data yang diumpankan banyak berisi video yang dilakukan secara manual diambil alih, sulit untuk tingkat model telah mengalami kemunduran.

karena inti dari end-to-end adalah imitasi, maka jika situasi yang dihadapi kebetulan terdapat kasus serupa pada data latih maka kinerjanya akan sangat baik, namun jika melebihi kasus referensi yang ada maka kinerjanya akan lebih buruk, yaitu untuk katakanlah, end-to-end memiliki persyaratan yang sangat tinggi dalam hal jumlah data pelatihan dan kekayaan kasus.

zhang hang (ilmuwan direktur senior di cruise):

ketika ada lampu merah di persimpangan lalu lintas, anda tidak boleh menerobos lampu merah. aturannya sangat sederhana. jika berbasis heuristik (algoritma heuristik), kita cukup menggunakan if else untuk mencapai efek seperti itu.

namun jika modelnya sepenuhnya end-to-end, bergantung sepenuhnya pada pembelajaran. pada akhirnya, sebenarnya sangat sulit baginya untuk belajar seperti itu. jadi menurut saya masih ada kesenjangan besar antara l4 end-to-end dalam waktu singkat.

liu bingyan (kepala perangkat lunak kargo):

anda tidak memiliki aturan yang tegas dan tegas, namun dia dapat mencoba melakukan semua hal yang anda tetapkan yang tidak dapat dilakukan. jadi akan banyak terjadi tabrakan langsung dalam simulasi.

pada saat yang sama, ketidakjelasan yang disebabkan oleh end-to-end juga menjadi kekhawatiran sebagian orang.

yang disebut tidak dapat dijelaskan berarti bahwa mengubah bobot, node, atau jumlah lapisan apa pun dalam model algoritme akan berdampak tidak terduga pada performa model. bahkan perancang dan pelatih model tidak dapat mengetahui proses penalaran perantara.

kebalikannya adalah interpretasi. misalnya, dalam mode berbasis aturan, para insinyur telah menulis aturan bahwa "anda dapat terus mengemudi ketika kantong plastik terdeteksi lewat", jadi kita tidak perlu khawatir tentang perubahan mendadak dalam situasi ini. . ayo, injak rem.

liu bingyan (kepala perangkat lunak kargo):

anda dapat melihat bahwa di v12, tampilan di layar jauh lebih baik, tetapi dari manakah tampilan end-to-end ini berasal? jika tampilan ini berasal dari model aslinya, salah satu masalah yang ada adalah kami sebenarnya telah menambahkan lapisan antarmuka yang ditentukan secara artifisial ke model ini sehingga anda dapat mengekstrak informasi ini dari lokasi tertentu dalam model.

hal lain yang menurut saya lebih menakutkan adalah tampilan ini mengambil jalur yang sama sekali berbeda, itu juga berarti mobil menunjukkan ada truk di depan .jika ini akan sangat-sangat menakutkan melihat mobil di depannya tetapi anda tidak yakin tidak akan menabraknya.

saya sebenarnya ragu apakah ini benar-benar end-to-end, atau saya mungkin tidak meragukannya, tetapi mungkin ada bahaya lain di sini.

wang chensheng (mantan direktur pengadaan tesla):

jadi untuk industri seperti kendaraan otonom, yang memiliki persyaratan keselamatan yang tinggi, apakah ketidakjelasan yang disebabkan oleh model end-to-end adalah sisi lain dari sebuah mata uang?

karena tesla belum mengumumkan teknologi fsd v12, kami tidak tahu apakah fsd mengadopsi strategi multi-modul, namun kami menemukan bahwabeberapa pemilik mobil pernah menemui kasus di mana tampilan layar tidak sesuai dengan perilaku sebenarnya.

misalnya, tampilan udara yang dibuat oleh kendaraan menunjukkan bahwa ada seseorang di depan, namun tidak menunjukkan tanda-tanda pengereman, namun terus melaju melewatinya. untungnya, itu hanya kesalahan deteksi di sisi penginderaan, dan tidak terjadi kecelakaan .

meskipun kasus ini dapat dilihat bahwa dalam algoritma end-to-end, kesalahan lapisan atas tidak akan mempengaruhi keuntungan pengambilan keputusan di lapisan bawah, hal ini juga menunjukkan bahwa lapisan perencanaan terkadang tidak mengenali hasil dari lapisan persepsi. , membenarkan kekhawatiran liu bingyan.

apakah ketidakjelasan akan menjadi masalah besar yang menghambat pembangunan end-to-end? berikutnya adalah konflik ketiga yang kita lihat.

yu zhenhua (mantan insinyur tesla ai):

saya kira demikian,masalah yang sangat serius dengan ai adalah sifat teoretisnya yang jauh tertinggal.

ai tidak memberi tahu anda bahwa ini pasti akan berhasil atau tidak. oleh karena itu, ini merupakan subjek eksperimen. ini tidak dianggap sains dan memerlukan banyak verifikasi.

v12 benar-benar menghancurkan v11, jadi ini soal hasil. lalu apakah menurut anda ada yang tidak bisa dijelaskan secara menyeluruh? karena sudah hancur total, sangat tidak punya otak, dan anda harus turun.

yu zhenhua percaya bahwa ai adalah subjek percobaan. selama hasilnya memenuhi harapan, hal itu membuktikan bahwa arahnya benar dan harus terus maju. hou xiaodi mengatakan bahwa performa v12 jauh di depan v11, hanya karena fondasi v11 terlalu buruk, dan performanya masih jauh dari berkendara tanpa pengemudi yang sebenarnya.

wang chensheng (mantan direktur pengadaan tesla):

jika ini benar-benar full self driving dan dibatasi oleh l5, maka harus melewati otoritas pengatur, dan mereka harus memiliki penjelasan atau prediktabilitas.

selain itu, terdapat begitu banyak kota di dunia, dan di amerika serikat, setiap kota mungkin memiliki undang-undang dan peraturan yang berbeda. apakah mobil ini perlu beradaptasi dengan undang-undang dan peraturan setempat dalam hal perangkat keras dan perangkat lunak telah menjadi pertanyaan besar apakah mobil ini dapat ditingkatkan skalanya.

pendekatan end-to-end tidak dapat menyempurnakan model melalui aturan yang ditetapkan secara artifisial, jadi apakah model tersebut dapat beradaptasi dengan peraturan yang berbeda telah menjadi tantangan bagi skala end-to-end.

faktor lain yang mempengaruhi skala adalah end-to-end lebih sensitif terhadap volume data dan sensor.

5. masa depan tidak pasti

liu bingyan (kepala perangkat lunak kargo):

ada masalah yang sangat parah dari ujung ke ujung, yaituini akan lebih sensitif terhadap sensor, artinya, saat anda mengubah sensor atau mendistribusikan sensor, model anda dapat dilatih ulang sepenuhnya.

dari sudut pandang lain, hal ini tidak dapat diterima dari sudut pandang teknik, atau kita tidak dapat membayangkan bahwa mobil yang sama akan ada di jalan raya di seluruh dunia di masa depan.

setelah distribusi sensor diubah, model akan menjadi tidak valid dan pelatihan harus dimulai ulang. sejumlah besar data harus dikumpulkan untuk pelatihan, yang pasti akan menimbulkan biaya yang besar.

media keuangan amerika cnbc melaporkan bahwa pada awal tahun 2023,untuk melatih fsd, tesla menggunakan lebih dari 10 juta video mengemudi pemilik tesla.

selain itu, lebih dari 10 juta data pelatihan ini tidak digunakan begitu saja, mereka harus menjadi pengemudi manusia dengan keterampilan mengemudi yang relatif tinggi, jika tidak, level model hanya akan menjadi semakin buruk.

oleh karena itu, pelatihan model end-to-end tidak hanya membutuhkan banyak data, tetapi juga memerlukan penyaringan yang rumit, yang menghabiskan banyak tenaga. ini mungkin tidak menjadi masalah bagi tesla yang banyak menjual mobilnya, namun bagi perusahaan lain, sumber data menjadi masalah besar.

david (pembawa acara "kuda besar berbicara tentang teknologi"):

banyak oem yang tertipu karena mereka mengikuti metodologi tesla secara membabi buta, namun rangkaian hal ini sebenarnya tidak cocok untuk 90% oem.

apakah itu berarti pabrikan lain benar-benar tidak bisa memasuki bidang end-to-end?

meskipun nvidia dan tesla sama-sama menjalankan operasi algoritma end-to-end melalui visi murni, end-to-end sebenarnya dapat menerima input multi-modal.

sensor yang umum digunakan saat ini seperti radar gelombang milimeter, lidar, dan radar ultrasonik relatif terpasang pada kendaraan, terutama lidar yang pada dasarnya berada di atap, sehingga dapat digunakan akses multimodal end-to-end model yang berbeda digunakan untuk melatih model tersebut, dan ruang desain yang tersisa untuk oem akan lebih besar.

setelah berdiskusi lagi, masing-masing algoritme memiliki kelebihannya masing-masing, dan masih belum jelas metode mana yang dapat membawa kita menuju masa depan yang sepenuhnya tanpa pengemudi.

zhang hang (ilmuwan direktur senior di cruise):

saya rasa saat ini tidak ada algoritme yang bisa sederhana dan berskala besar, lalu memenuhi standar l4. menurut saya, algoritme itu sendiri tidak ada. saya sangat optimis bahwa setiap orang akan mencapai tujuan yang sama dengan jalan yang berbeda-beda, walaupun setiap orang akan mempunyai penyimpangan yang sedikit berbeda.

6. tidak ada yang bisa dilakukan

apapun algoritma yang digunakan, pada akhirnya akan menghadapi masalah ekor panjang.

di bawah model tradisional berbasis aturan (rule-driven), menulis basis aturan memerlukan tim besar yang menghabiskan banyak energi, dan sulit untuk mencakup semuanya. jadi dengan end-to-end, masalah jangka panjang bisa terjadi diselesaikan?

minfa wang (mantan insinyur pembelajaran mesin senior waymo):

dia memecahkan kasus-kasus konvensional, tapi saya pikir masalah jangka panjang akan tetap ada.

minfa percaya bahwa tingkat toleransi kesalahan sistem penggerak otonom sangat rendah. jika sistem kotak hitam akan digunakan pada l4, mekanisme keselamatan lain harus diperkenalkan, tetapi ini kembali ke masalah biaya dalam mode berbasis aturan.

algoritme mengemudi otonom pertama-tama akan dipraktikkan dalam sistem simulasi. dapatkah pelatihan simulasi menyelesaikan masalah jangka panjang tertentu?

zhang hang (ilmuwan direktur senior di cruise):

saat ini, belum ada solusi bagus yang benar-benar dapat membantu kinerja jalan raya di kehidupan nyata melalui data simulasi yang dihasilkan.

minfa wang (mantan insinyur pembelajaran mesin senior waymo):

di bidang mengemudi otonom atau robotika, lingkungannya sangat-sangat kompleks. jika ingin melakukan simulasi, anda tidak hanya mensimulasikan diri sendiri, tetapi juga bagaimana mobil akan bergerak di masa depan perubahan mobil anda sendiri. terkadang, anda akan mempengaruhi perilaku semua mobil dan orang di sekitar anda untuk berubah.

bagaimana melakukan simulasi dengan baik dan menghindari pergeseran distribusi (distribution shift), menurut saya masih menjadi topik terbuka.

karena adegan virtual tidak dapat sepenuhnya mensimulasikan kemungkinan-kemungkinan dalam kenyataan, apakah itu berarti bahwa saat ini tidak ada cara untuk menyelesaikan masalah jangka panjang dalam industri ini dan hanya dapat mengandalkan akumulasi pengalaman jangka panjang?

responden anonim (insinyur l4):

sampai batas tertentu, ya, tapi anda tidak harus menjadi sempurna, bukan? manusia tidak sempurna, anda hanya perlu berbuat lebih baik dari orang lain. orang juga punya tingkat kecelakaannya masing-masing, asalkan lebih baik dari ini, itu sudah cukup.

hou xiaodi (mantan pendiri dan ceo tusimple, pendiri bot.auto):

menurut saya, isu jangka panjang ini sebenarnya adalah proposisi yang salah. saya senang anda mengemukakannya.

menurut saya, ada masalah ekor panjang, misalnya apa yang harus saya lakukan jika melihat buaya? apa yang harus saya lakukan jika saya melihat gajah? saya melihat pesawat sayap tetap diparkir di jalan raya, apa yang harus saya lakukan?

faktanya, untuk banyak masalah berekor panjang, kami membungkusnya ke dalam kategori masalah yang besar. bagaimana cara menangani objek yang belum pernah saya lihat sebelumnya? ini cukup mudah dilakukan jika anda membungkusnya menjadi jenis masalah yang lebih umum.

misalnya kita pernah melihat pesawat bersayap tetap diparkir di jalan raya, jadi solusi kita sangat sederhana, hentikan ya?

apakah masalah jangka panjang merupakan proposisi yang salah, atau merupakan masalah yang perlu dipecahkan? setiap orang mungkin mempunyai jawabannya masing-masing terhadap topik ini. masalah ekor panjang berhubungan dengan kapan l4 atau bahkan l5 bisa diluncurkan dalam skala besar, jadi selanjutnya mari kita lihat konflik sengit antara l2 dan l4.

4. bisakah tesla robotaxi berhasil: konflik antara l2 dan l4

1. “itu tidak bisa dilakukan”

kami meminta pendapat para tamu sebelum musk mengumumkan penundaan robotaxi. semua orang memiliki pandangan yang bulat mengenai hal ini, yaitu taksi otonom tesla tidak mungkin diluncurkan tahun ini.

alasan terbesar mengapa setiap orang memiliki pandangan yang seragam adalah karena model tesla yang ada tidak dapat memenuhi standar l4 untuk taksi tanpa pengemudi.

liu bingyan (kepala perangkat lunak kargo):

saya sangat yakin bahwa model tesla yang ada memiliki titik buta yang sangat jelas. jika tesla ingin mencapai yang terbaik, baik itu mengemudi otonom l4 atau l5, mobil berikutnya harus menyelesaikan pertanyaan titik buta ini. untuk mengatasi masalah titik buta ini, kita kembali ke apa yang baru saja kita katakan. ini harus menyesuaikan posisi sensor kamera. akibat langsung dari penyesuaian posisi ini adalah model sebelumnya akan gagal total.

dari perspektif arsitektur kamera visual, mustahil mobil yang ada bisa mencapai fsd tanpa pengawasan sama sekali. dari perspektif ini, ia harus memiliki perangkat keras baru.

zhang hang (ilmuwan direktur senior di cruise):

dari sudut pandang sensor, perlu diperkenalkan beberapa redundansi, yang mungkin tidak diperlukan di l2 sebelumnya.

meskipun orang dalam industri tidak optimis, apa yang membuat musk begitu percaya diri meluncurkan robotaxi?

yu zhenhua (mantan insinyur tesla ai):

menurut saya alasan utamanya adalah beberapa terobosan teknis dari fsd v12 ini. sebagai karakter musk, ketika melihat fsd v12 hari ini, dalam rencananya ia merasa robotaxi harus dimasukkan dalam agenda.

jadi, bisakah fsd v12 memungkinkan tesla pindah ke l4 dan mengemban tugas penting robotaxi? seberapa besar kesenjangannya dibandingkan dengan waymo atau cruise yang sudah ada?

saat mewawancarai hou xiaodi tentang pertanyaan ini, jawabannya memungkinkan kami melihat sudut pandang lain dalam industri ini: yaitu, kesenjangan antara l2 dan l4 sangat jauh.

2. “bahkan tidak mendekati”

hou xiaodi (mantan pendiri dan ceo tusimple, pendiri bot.auto):

pertama-tama, apa yang dilakukan tesla bukanlah mengemudi tanpa pengemudi. yang kita bicarakan hari ini adalah solusi yang menyingkirkan orang dan membuat perusahaan pengembang perangkat lunak mengambil tanggung jawab. itu disebut mengemudi tanpa pengemudi mengemudi, yang bukan mengemudi tanpa pengemudi, jadi apa yang anda lakukan bukanlah hal yang sama.

saat ini, mengemudi dengan bantuan l2 banyak digunakan oleh perusahaan mobil, seperti tesla, xiaomi, huawei, xpeng, dll., sedangkan perusahaan seperti waymo, cruise, baidu dan taksi self-driving lainnya menggunakan l4 mengemudi yang sangat otomatis, mengesampingkan tertulis definisi konsep,perbedaan mendasar antara keduanya adalah siapa yang memikul tanggung jawab.

hou xiaodi (mantan pendiri dan ceo tusimple, pendiri bot.auto):

solusi yang menyingkirkan orang dan memberikan tanggung jawab pada perusahaan pengembangan perangkat lunak disebut self-driving. izinkan saya menceritakan sebuah lelucon, bagaimana jika tesla membunuh seseorang? bagi elon musk, itu bukan urusan mereka.

oleh karena itu, jika tesla ingin membuat taksi self-driving, maka harus mengambil tanggung jawab sendiri. jadi apa perbedaan teknis antara mengemudi dengan bantuan dan mengemudi secara otonom?

hou xiaodi (mantan pendiri dan ceo tusimple, pendiri bot.auto):

apa masalah inti yang harus diselesaikan dengan mengemudi otonom l4? ini keamanan, ini redundansi, ketika setiap modul sistem mungkin gagal, sistem masih dapat menjamin keamanan intinya. hal ini adalah bagian tersulit dan paling kritis dari l4. itu harus menyelesaikan masalah keamanan sebelum menghasilkan uang, tapi masalah ini sama sekali bukan tujuan desain tesla.

peneliti mengemudi otonom l4 lainnya juga menganalisis perbedaan antara l2 dan l4 dari sudut pandang perangkat keras dan perangkat lunak.

zhang hang (ilmuwan direktur senior di cruise):

solusi l4, pertama-tama, adalah kami memiliki sensor yang relatif kuat, yang mungkin sulit digunakan dalam skenario l2, setidaknya bukan lidar berpresisi tinggi.

dari sudut pandang algoritmik, l2 mungkin lebih fokus untuk menjadi lebih efisien dan mengurangi biaya dengan sangat rendah. l2 tidak memerlukan sensor yang mahal, dan mungkin memerlukan lebih sedikit perhitungan untuk mencapai efek tersebut. l2 ini sebenarnya tidak perlu mempertimbangkan kasus satu dari sejuta ini.

lalu apa yang kami kejar di l4 adalah bahwa bantuan jarak jauh manusia hanya perlu diberikan satu kali per satu juta mil atau lebih.

untuk meringkas:solusi l4 menggunakan sensor dengan akurasi lebih tinggi, chip memiliki daya komputasi lebih besar, dan dapat menangani skenario yang lebih komprehensif.

namun, dalam solusi l2, pertimbangan utama adalah biaya, sehingga tingkat perangkat keras akan sedikit lebih rendah, pada saat yang sama, untuk beradaptasi dengan perangkat keras tingkat yang lebih rendah, algoritma akan lebih memperhatikan efisiensi daripada keamanan frekuensi pengambilalihan l2 akan jauh lebih tinggi dibandingkan l4.

jadi, bisakah perusahaan l2 seperti tesla mencapai efek l4 dengan meningkatkan perangkat keras dan perangkat lunak?

3. “dua hal yang berbeda”

hou xiaodi (mantan pendiri dan ceo tusimple, pendiri bot.auto):

saya tidak mendukung evolusi lambat dari l2 ke l4 dan l5. saya pikir masalah ini adalah proposisi palsu lainnya dengan sifat ekstrapolasi yang kuat.

seiring berjalannya waktu, bisakah lumba-lumba berevolusi menjadi peradaban? saya kira bisa saja, tapi kita harus tahu bahwa peradaban bumi sudah tidak bisa lagi mentolerir evolusi lumba-lumba, karena sudah ada perusahaan yang berhasil. perusahaan saya hadir untuk mempraktekkan l4 secepat mungkin. aku tidak akan melakukan apa pun denganmu setelah aku mendarat di tanah, kan? ketika homo sapiens mengambil lembing, tidak ada lumba-lumba yang menciptakan peradaban.

dalam pandangan hou xiaodi,perusahaan l4 yang ada telah membangun hambatan teknis. di bawah persaingan yang ketat, mereka tidak akan memberikan kesempatan kepada l2 untuk berkembang., pada saat yang sama, beberapa orang percaya bahwa ini tidak berarti bahwa teknologi l4 lebih maju daripada l2, tetapi setiap orang menargetkan skenario yang berbeda.

yu zhenhua (mantan insinyur tesla ai):

jika kita mengatakan bahwa l4 benar-benar maju secara teknis dan lebih maju dari l2 seperti yang dibayangkan semua orang. jadi saya ingin bertanya mengapa teknologi l4 tidak bisa langsung diturunkan ke l2?

faktanya, dalam beberapa tahun terakhir, karena tekanan pendapatan, perusahaan l4 telah membantu produsen mobil untuk membuat l2, namun mereka tidak bisa begitu saja menurunkan peringkatnya, mereka pada dasarnya harus melakukan pengembangan kembali.

lalu kita juga tahu kalau di amerika, gm (general motors) memiliki perusahaan cruise l4, dan ford memiliki argo ai yang juga merupakan perusahaan l4. mengapa gm tidak bisa menggunakan teknologi cruise pada kendaraan produksi massalnya? mengapa ford tidak dapat menggunakan teknologi l4 argo ai pada kendaraan produksinya? jadi l4 tidak sepenuhnya lebih maju dari l2. dari segi kesulitan teknis, menurut saya jika anda melakukan l4, anda akan terlihat sangat mahir.

mengapa teknologi l4 tidak bisa langsung diturunkan ke l2 untuk digunakan? zhang hang menjelaskan bahwa karena l4 menggunakan spesifikasi perangkat keras yang lebih tinggi, dan algoritma l2 harus beradaptasi dengan sensor dengan spesifikasi lebih rendah dan prosesor dengan daya komputasi lebih kecil, teknologi keduanya tidak dapat dimigrasikan secara langsung.

layaknya seorang desainer arsitektur yang komputernya disita dan hanya diberi penggaris, pena, dan kertas dengan akurasi yang buruk, ia juga harus beradaptasi dengan cara menggambar yang baru.

zhang hang (ilmuwan direktur senior di cruise):

apa yang anda sebutkan sebelumnya adalah masalah perhitungan jumlah. tidak mungkin mendukung solusi l2. kami menempatkan superkomputer di bagasi mobil.

pada saat yang sama, zhang hang juga menunjukkan pikiran yang lebih terbuka ketika membandingkan teknologi l2 dan l4. l2 memiliki cakupan yang lebih luas dan perlu menghadapi lebih banyak skenario, dan hanya masalah dasar yang perlu diselesaikan. l4 memiliki cakupan terbatas, namun lebih memperhatikan berbagai detail. jadi ada pro dan kontra di antara keduanya.

zhang hang (ilmuwan direktur senior di cruise):

l4 sendiri tidak bisa dijadikan solusi l2 hanya dengan menyederhanakan sistem yang ada dan menghilangkan redundansi, namun sebaliknya. jika ingin mencapai standar l2 dari l4, perlu waktu lama untuk mengasahnya.

tapi menurut saya itu tidak berarti bahwa rute teknis atau kedalaman teknis kita akan lebih tinggi dari l2. saya rasa hal ini belum tentu terjadi. l4 mungkin memiliki banyak algoritme yang tidak terlalu mutakhir, tetapi dapat diselesaikan beberapa desain yang cermat. ini adalah beberapa masalah jangka panjang yang sangat rinci.

pandangan manakah yang akan anda dukung? anda dapat meninggalkan pesan untuk memberitahu kami. dalam wawancara kami, orang yang berbeda akan memiliki jawaban mereka sendiri terhadap pertanyaan ini.

yu zhenhua (mantan insinyur tesla l2):

saya rasa masyarakat umum, bahkan beberapa perusahaan l4, akan menanamkan konsep pada setiap orang, yaitu teknologi l4 lebih baik dari l3, dan kemudian lebih baik dari l2. menurut saya ini adalah skenario yang melepaskan diri dari batasannya untuk menyesatkan masyarakat, karena robotaxi l4 saat ini memiliki skenario yang sangat terbatas dan harus berada di wilayah tertentu, misalnya waymo hanya dapat beroperasi di satu wilayah operasi.

shao xuhui (investor mitra pengelola foothill ventures):

saya pribadi akan tetap optimis dengan perusahaan l4, karena dari logika ini l4 bisa mereduksi dimensi dan serangan, namun jika hanya melakukan ini maka anda tidak akan bisa dipromosikan ke l2, atau akan sangat-sangat sulit untuk dipromosikan.

responden anonim (insinyur l4):

faktanya, menurut saya tidak ada batasan yang sulit dalam tumpukan teknologi. misalnya, jika suatu perusahaan dapat mengklaim sebagai perusahaan l2 hari ini, maka mungkin besok akan menambahkan beberapa teknologi baru dan juga dapat melakukan l4, bukan. ? itu semua tergantung teknologi apa yang digunakan dalam penerapannya, atau terobosan teknologi baru apa yang dimilikinya, bukan?

hou xiaodi (mantan pendiri dan ceo tusimple, pendiri bot.auto):

mengemudi dengan bantuan dan mengemudi tanpa pengemudi adalah dua hal yang berbeda.

produser: hong jun, chen qian, penulis: wang ziqin, editor: chen qian