berita

Li Auto Lang Xianpeng: Tanpa keuntungan sebesar US$1 miliar di masa depan, kita tidak dapat mampu mengemudi secara otonom |. Wawancara Eksklusif 36Kr

2024-08-06

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Wawancara|Li Qin dan Li Anqi

Teks |.Li Anqi

Penyunting |.Li Qin

Pada awal Juni, sehari sebelum pidatonya di Chongqing Automobile Forum, Li Xiang, CEO Li Auto, mengubah naskah pidatonya untuk sementara. Tim awalnya menyiapkan topik untuknya tentang kecerdasan buatan, tetapi yang ingin dibicarakan Li adalah mengemudi secara otonom.

Li Xiang mengatakan pada pertemuan tersebut bahwa mengemudi otonom di masa depan akan seperti manusia, dengan kemampuan bereaksi cepat dan kemampuan menangani kejadian kompleks dengan penalaran yang logis. Jawaban idealnya adalah: model bahasa visual end-to-end + VLM - ini juga merupakan topik terhangat di industri mengemudi cerdas saat ini.

Sebulan kemudian, tim pengemudi cerdas Li Auto merilis solusi “end-to-end + VLM” yang terperinci, berbeda dari solusi “end-to-end tersegmentasi” pada perusahaan sejenis di dalam negeri, solusi Li Auto lebih mirip dengan Tesla dan disebut “Satu”. Model”, jaring besar.

Dalam kesan dunia luar, mobil pintar idaman selalu menjadi pengejar. Selama perang Kaicheng yang sengit di industri tahun lalu, untuk mengejar laju industri, Ideal mulai sering mengubah rutenya: dari mengandalkan peta presisi tinggi ke peta ringan (jaringan fitur NPN), dan kemudian menghapus peta presisi tinggi.

Lang Xianpeng, wakil presiden penelitian dan pengembangan mengemudi cerdas di Li Auto, dan Jia Peng, kepala penelitian dan pengembangan teknologi mengemudi cerdas, baru-baru ini menerima wawancara dengan 36Kr. Melihat kembali perjalanan pencarian ini, Lang Xianpeng menyimpulkan, “Intinya Prinsipnya adalah apakah kita dapat menemukan inti masalahnya, dan kemudian mengambil keputusan.

Pemilihan jalur teknis “end-to-end” juga merupakan kelanjutan dari prinsip ini. Lang Xianpeng mengatakan bahwa di masa lalu solusi mengemudi cerdas, apakah itu peta-ringan atau tanpa peta, arsitektur teknis yang mendasarinya adalah "berbasis peta" dan bekerja sesuai dengan "proses persepsi-ke-kontrol" yang ada informasi rusak, dan regulasi serta kontrol di hilir menjadi terbatas. "Hal ini memerlukan banyak tenaga kerja dan sumber daya" untuk terus-menerus memperbaiki kerentanan.

Tentu saja, investasi sumber daya masih menjadi isu sekunder. Masalah intinya adalah bahwa "pengalaman berkendara cerdas berbasis aturan memiliki batas atas dan tidak akan pernah bersifat antropomorfik."

"Model dunia end-to-end + VLM +" adalah paradigma implementasi kecerdasan buatan yang ideal.

Sederhananya, solusi end-to-end yang ideal menghilangkan beberapa modul independen dari sistem penggerak cerdas asli seperti persepsi, prediksi, dan kontrol perencanaan yang bergantung pada aturan buatan, dan menggabungkannya ke dalam jaringan saraf yang besar. "Masukan data sensor dan keluaran lintasan yang direncanakan." Lang Xianpeng menyimpulkan.

Model bahasa visual VLM menyediakan plug-in ujung ke ujung yang mirip dengan ChatGPT. Pertanyaan end-to-end adalah "jenis data apa yang Anda berikan, perilaku seperti apa yang akan dimilikinya." Model bahasa visual VLM memiliki kemampuan untuk memahami dunia dan penalaran logis. Dalam skenario yang kompleks, pengguna ujung ke ujung dapat mengajukan pertanyaan VLM secara real time, dan VLM akan memberikan saran mengemudi yang relevan.

Model dunia adalah buku tes salah yang sangat besar, yang dapat menghasilkan data simulasi melalui rekonstruksi + produksi, ditambah kasus nyata yang terakumulasi sebelum Ideal, membentuk "pertanyaan tes nyata + pertanyaan tes simulasi" untuk menguji model ujung ke ujung. Hanya setelah model lulus pengujian dan memperoleh skor tinggi barulah model tersebut dapat dipromosikan ke pengguna.

Secara internal, ketiga model ini masing-masing disebut Sistem 1, Sistem 2, dan Sistem 3. Sistem 1 berhubungan dengan mode berpikir real-time di otak manusia, Sistem 2 berhubungan dengan berpikir logis di otak manusia, dan Sistem 3 adalah model ujian yang bertanggung jawab untuk menerima hasil pelatihan dan pembelajaran Sistem 1 dan Sistem 2.

Teknologi berkendara cerdas end-to-end diprakarsai oleh Tesla. Pada Agustus 2023, Musk mendemonstrasikan kemampuan versi FSD v12 end-to-end dalam siaran langsung. Saat ini, FSD telah diiterasi ke versi v12.5. Namun tidak seperti Tesla, selain model end-to-end dan dunia, Ideal juga memperkenalkan kemampuan model bahasa VLM yang besar.

Jia Peng menjelaskan kepada 36Kr bahwa dia menghabiskan seminggu di Pantai Timur dan Pantai Barat Amerika Serikat untuk menguji FSD Tesla dan menemukan bahwa "end-to-end" pun memiliki batas atas. Di pantai timur Amerika Serikat, di mana kondisi jalan raya sangat kompleks, seperti New York dan Boston, tingkat penerimaan Tesla telah meningkat secara signifikan. “Jumlah parameter model end-to-end yang dapat dijalankan pada HW3.0 tidak akan meningkat menjadi sangat besar, dan kapasitas model juga memiliki batas atas alami."

Peran VLM yang dirancang secara ideal adalah untuk meningkatkan batas atas "end-to-end". Ia dapat mempelajari tentang jalan berlubang, sekolah, bertanggung jawab atas konstruksi, bundaran, dan acara lainnya, dan memberikan pengambilan keputusan untuk tujuan akhir. -sistem akhir pada saat-saat kritis.

Lang Xianpeng dan Jia Peng percaya bahwa VLM adalah variabel terbesar dalam sistem berkendara cerdas yang ideal. Karena parameter VLM sudah mencapai 2,2 miliar dan waktu respons 300 milidetik, maka jika ada chip dengan daya komputasi lebih besar, jumlah parameter yang dapat diterapkan VLM akan mencapai puluhan miliar, yang merupakan jalur terbaik menuju tingkat lanjut. mengemudi otonom L3/L4.

"VLM sendiri juga mengikuti perkembangan teknologi model bahasa yang besar. Tidak ada yang bisa menjawab seberapa besar jumlah parameter pada akhirnya."

Tidak sulit untuk menemukan bahwa karakteristik seperti model bahasa visual berbasis data dan besar menentukan bahwa industri penggerak cerdas telah berpartisipasi dalam permainan kekuatan komputasi yang diprakarsai oleh perusahaan seperti OpenAI, Microsoft, dan Tesla.

Lang Xianpeng tidak berbasa-basi. Ketika sampai pada hal ini, yang dibandingkan adalah kuantitas dan kualitas data, serta cadangan daya komputasi. Data berkualitas tinggi didasarkan pada skala data absolut; mendukung pelatihan model L4 memerlukan sekitar lusinan daya komputasi EFLOPS.

"Tidak ada perusahaan tanpa laba bersih sebesar US$1 miliar yang mampu melakukan mengemudi otonom di masa depan," kata Lang Xianpeng terus terang.

Saat ini, kekuatan komputasi awan Li Auto adalah 4,5EFLOPS, yang dengan cepat mempersempit kesenjangan dengan perusahaan terkemuka Huawei. Menurut 36Kr Auto, Ideal baru-baru ini membeli sejumlah besar chip cloud NVIDIA, dan "pada dasarnya membeli semua kartu di tangan dealer saluran."

CEO Li Xiang sendiri juga memiliki wawasan tentang tren kompetisi ini: menggunakan sumber daya dan pengaruh teknologi cerdas untuk menyingkirkan rekan-rekannya. Ia sering berinisiatif bertanya kepada Lang Xianpeng, "Apakah sumber daya komputasinya cukup? Jika tidak cukup, biarkan Xie Yan (CTO ideal) mendapatkan lebih banyak."

“Kami juga memiliki mobil dan lebih banyak uang daripada yang lain, jadi kami memiliki peluang besar untuk memperlebar jarak dengan lawan kami di jalan ini.” Laporan keuangan menunjukkan bahwa pada kuartal pertama tahun ini, cadangan kas Li Auto mendekati 99 miliar yuan.

Ideal dapat dilihat dari data internal bahwa loop tertutup bisnis smartdriving sudah mulai menunjukkan tanda-tanda. Pada awal Juli, Ideal mulai menghadirkan versi 6.0 Smart Driving yang dapat digunakan secara nasional kepada pengguna Smart Driving versi Max. Lang Xianpeng menemukan bahwa proporsi model Lideal Max dengan cepat melampaui 50%. lebih dari 10% setiap bulan. Jika 2%-3% dapat dipahami sebagai jitter normal, tetapi lebih dari 10% adalah pertumbuhan efektif.”

Lang Xianpeng juga mengetahui bahwa meskipun visi mengemudi otonom L4 mulai menjadi jelas, jalur implementasinya tidak berubah. "Kita harus segera membantu perusahaan menjual mobil. Hanya dengan menjual mobil kita dapat memiliki uang untuk membeli kartu untuk berlatih cerdas menyetir."

Jika mengemudi dengan cerdas adalah pemenang dalam medan perang otomotif di masa depan, ini jelas merupakan permainan sumber daya yang lebih kejam. Ideal telah melakukan persiapan awal mulai dari strategi tingkat atas hingga persiapan teknis dan investasi sumber daya.

Berikut percakapan antara 36Kr Automobile dan Lang Xianpeng, Wakil Presiden Litbang Teknologi Mengemudi Cerdas Ideal, dan Jia Peng, Kepala Litbang Teknologi Mengemudi Cerdas Ideal Diedit:

Berbicara tentang batas atas mengemudi cerdas: ada gambarnya atau tidak, itu adalah arsitektur yang homogen

36Kr Auto: Apakah sudah ada review internal? Bagaimana Anda beralih dari ketertinggalan dalam berkendara cerdas hingga dengan cepat mencapai tingkat yang sebanding dengan Huawei?

Lang Xianpeng: Faktanya, dibandingkan dengan Xiaopeng, NIO, dan Huawei, kami tidak bermaksud bahwa kami memiliki banyak kepala, dan kami bahkan mungkin tidak memiliki keluarga sebanyak yang lain, tetapi kami harus realistis. Terkadang saya merasa orang mungkin tidak mencari inti permasalahannya. Saat menghadapi kesulitan, mereka hanya memikirkan apakah yang mereka lakukan saat ini dapat dimodifikasi dan diulangi.

Misalnya dari ada gambar sampai tidak ada gambar, masalah terbesarnya adalah gambar itu sendiri. Saya telah melakukan banyak pekerjaan pada peta sebelumnya, dan saya ingin berjuang lebih keras lagi. Bahkan, saya ingin segera berinvestasi pada tahap penelitian dan pengembangan berikutnya. Hal ini bergantung pada apakah kita dapat menemukan masalah yang mendasar dan memutuskan untuk memperbaikinya dengan cepat.

36Kr Automobile: Cita-citanya adalah mencapai smart riding nasional tanpa peta. Ada banyak versi.

Lang Xianpeng: Tahun lalu di Shanghai Auto Show, semua orang mulai melakukan urban NOA. Setiap perusahaan memiliki ide serupa. Peta berpresisi tinggi digunakan untuk jalan raya, jadi langkah pertama adalah melihat apakah rencana jalan raya dapat digunakan di kota. Anda harus bertanya kepada dealer peta kota, namun hanya sekitar 20 kota. Kami bilang coba dulu.

Namun, pembaruan berulang dari rencana dan peta bersifat terikat. Saat itu, kami sedang bekerja di Wangjing, kami sedang membangun jalan, mengubah rute, dan bahkan mengganti lampu lalu lintas. Kami harus menunggu AutoNavi mengulangi gambarnya sebelum kami dapat melanjutkan pekerjaan. Sekitar bulan Juni tahun lalu, kami memutuskan untuk tidak mengulang peta dan beralih ke solusi NPN (jaringan neural sebelumnya). Ini setara dengan pemetaan lokal, menggunakan informasi awal NPN di persimpangan utama, bundaran, dll., dan mobil kami memperbarui fitur-fiturnya.

Tapi di kota besar seperti Beijing, Shanghai, Guangzhou dan Shenzhen, terdapat banyak mobil. Namun di kota kecil, hanya ada sedikit mobil. Selalu melakukannya di kota besar? Pengguna tidak akan membayarnya. Saat itu, tim masih ragu-ragu dan kondisi Beijing, Shanghai, dan Guangzhou baik-baik saja. Ada juga suara internal yang mengatakan bahwa daripada membangun seratus kota, kita harus membangun beberapa kota tingkat pertama. Bagaimanapun, Huawei hanya akan berada di 50 kota pada awalnya, jadi kita tidak harus menjadi yang pertama atau kedua.

Saya bilang itu tidak mungkin, dan saya masih harus melakukannya dengan cepat. Saya masih ingin tahu, apakah benar-benar dilakukan dalam skala yang lebih besar, apakah cara NPN-nya oke? Itulah masalahnya. Peta selalu mempunyai batasan, dan ada juga kritik bahwa beberapa kota hanya dapat membuka dua jalan. Jadi setelah belajar dari pengalaman, kami mulai membuat rencana setelah mengirimkan 100 kota pada bulan Desember tahun lalu.

36Kr Auto: Apa perlunya mengembangkan NOA bebas grafik dari ujung ke ujung?

Lang Xianpeng: Masih ada masalah tanpa gambar. Ternyata peta tersebut dapat memberikan beberapa informasi yang relatif akurat. Setelah menghilangkan informasi sebelumnya dari peta tersebut, persyaratan untuk persepsi hulu menjadi sangat tinggi. Di bidang regulasi dan pengendalian hilir, masukan informasi sangat teratur sebelumnya, namun kini dirasakan ada beberapa masalah jitter dan kesalahan, dan ini juga merupakan tantangan besar.

Melanjutkannya akan membutuhkan banyak tenaga. Misalnya, jika ada masalah persepsi, banyak aturan yang harus ditambahkan ke model lingkungan perantara. Jika ada dampak pada regulasi selanjutnya, aturan bisa ditambahkan untuk mengimbanginya. Hal ini menimbulkan tantangan sumber daya manusia yang besar bagi tim. Ini adalah bagaimana Wutu Huawei muncul (keunggulan tenaga kerja). Awalnya kami ingin mempekerjakan lebih banyak orang pada paruh kedua tahun lalu.

Namun batas atas dari hal ini cukup jelas, pada dasarnya semua peraturan dibuat oleh manusia dan dirancang oleh para insinyur. Apalagi di akhir bulan Januari dan Februari tahun ini, kita sering mengubah aturan. Kalau kasus ini berjalan baik, kasus lain tidak akan berhasil. Keterlibatan timbal balik terlalu besar dan tidak ada habisnya.

Tentu saja, menginvestasikan sumber daya adalah hal kedua. Yang paling penting adalah bahwa pengalaman berbasis aturan memiliki batas atas dan tidak pernah bersifat antropomorfik. Jadi kami beralih ke end-to-end dan VLM saat ini. Secara end-to-end, ini adalah pertama kalinya penggunaan kecerdasan buatan untuk berkendara cerdas.

36Kr Auto: Kapan waktu ideal untuk mulai berinvestasi secara end-to-end?

Lang Xianpeng:Kami selalu memiliki dua jalur pekerjaan, jalur terbuka untuk produksi dan pengiriman massal, gambar terang NPN tahun lalu tanpa gambar adalah jalur terbuka, dan ujung ke ujung adalah garis gelap, yang merupakan jalur pra-penelitian kami .

Hanya saja Konferensi Strategi Danau Yanqi telah memperjelasnya tahun lalu. Pada pertemuan strategi, Li Xiang menyebutkan bahwa mengemudi otonom adalah strategi inti kami dan RD (penelitian dan pengembangan teknologi) harus mencapai tonggak penting. Ide end-to-end telah ada sejak lama, namun selalu ada tekanan untuk mewujudkannya dan tidak ada sumber daya untuk dieksplorasi.

36Kr Otomatis: Wutu mungkin harus dilakukan secara end-to-end segera setelah diluncurkan.

Lang Xianpeng: Di awal tahun, saya memberi tahu Li Xiang ini: Meskipun kami ingin melakukannya secara end-to-end, kami tetap harus melakukannya tanpa gambar. Karena bebas grafik adalah dukungan menyeluruh. Tanpa tanpa grafik, dari mana data dan pengalaman akan diperoleh untuk mendukung ujung ke ujung?

Dan harus diunggah tanpa gambar agar mobil bisa dijual dengan mudah. ​​Kalau tidak, bagaimana bisa bersaing dengan Huawei? Sekarang kami berada di Wutu, kami mencoba mengulur waktu dari ujung ke ujung, dan pada saat yang sama meningkatkan kemampuan produk kami untuk membantu menjual mobil.

36Kr Auto: Selama ini Anda selalu menyangkal rencana Anda. Apakah ada tekanan dari sudut pandang manajemen ke atas?

Lang Xianpeng:Pertama, tanggung jawab saya adalah memimpin semua orang untuk mewujudkan mengemudi otonom; kedua, organisasi yang ideal memiliki metodologi atau prosesnya sendiri, seperti melakukan hal-hal yang benar tetapi tidak mudah.

Li Xiang tidak akan pernah mengatakan mengapa Lang Bo menyangkal perbuatannya sebelumnya. Kami menjelaskan kepadanya mengapa kami melakukan ini, bahwa kami ingin menang dalam strategi AI, dan menemukan paradigma sistem ganda, yang langsung dia pahami. Dia hanya akan mengatakan bahwa end-to-end itu bagus dan harus dilakukan dengan cepat.

Yang dibutuhkan oleh kecerdasan buatan adalah daya komputasi dan data. Li Xiang sering datang dan bertanya padaku, Lang Bo, apakah kamu cukup kuat? Jika itu tidak cukup, mintalah Xie Yan untuk membelikanmu lagi.

Li ingin mengatakan bahwa kami juga punya mobil dan lebih banyak uang dibandingkan yang lain, jadi kami punya peluang besar untuk memperlebar kesenjangan dengan orang lain di jalan ini. Jadi jangan lakukan hal yang mengutak-atik ini, dan segera lakukan AI dibelakangnya.

Berbicara tentang masa depan berkendara cerdas: End-to-end + VLM adalah paradigma terbaik untuk kecerdasan buatan

36Kr: Beberapa perusahaan tidak pernah melakukan no-map dan menganggap end-to-end adalah peluang untuk berpindah jalur dan menyalip.

Lang Xianpeng: Itu setengah benar. Memang dimungkinkan untuk berpindah jalur dari ujung ke ujung, terlepas dari apakah ada grafik, NPN, atau tidak ada grafik, inti solusinya adalah homogen. Hapus peta, tingkatkan persepsi, susun modul kecil menjadi beberapa model besar, dan gunakan rencana yang sama untuk berkembang sedikit demi sedikit.

Tapi ujung ke ujung berbeda. Untuk pertama kalinya, ia menggunakan kecerdasan buatan untuk mengemudi secara otonom. Setelah menggunakan One Model untuk melakukan end-to-end, inputnya hanya berupa data, outputnya berupa lintasan, dan modul perantara diintegrasikan ke dalam satu model.

Keseluruhan sistem proses R&D benar-benar berbeda. Dalam model pengembangan produk tradisional, kekuatan pendorong berasal dari desain permintaan atau umpan balik masalah. Ini tidak berfungsi dalam skenario ini. Setelah ada bug, diperlukan beberapa iterasi dan verifikasi desain manual.

End-to-end adalah kotak hitam, dan kemampuannya bergantung sepenuhnya pada jenis data yang diberikan padanya. Yang kita filter sekarang adalah data driver berpengalaman. Jika datanya kurang bagus maka model yang dihasilkan juga tidak bagus. Yang masuk adalah sampah, dan yang keluar adalah sampah. Ini adalah proses pelatihan aliran data. Dulunya merupakan proses penelitian dan pengembangan fungsi produk, namun kini menjadi proses peningkatan kapabilitas.

Jadi tidak ada masalah dalam berpindah jalur secara end-to-end, namun jika ingin menyalip harus memiliki data dan daya komputasi yang latih. Kalau kedua prasyarat tersebut tidak ada, sejujurnya setiap orang punya modelnya, dan modelnya sendiri tidak akan terlalu berbeda. Tidak peduli seberapa bagus modelnya, tanpa data dan daya komputasi, itu hanyalah sekumpulan parameter.

36Kr: Yang ideal adalah mengumpulkan banyak data, tetapi He Xiaopeng baru-baru ini mengemukakan gagasan bahwa memiliki lebih banyak data tidak berarti mengemudi secara otonom dapat dicapai.

Lang Xianpeng:Data pelatihan kami berupa klip, yang mencakup data lengkap pengemudi mengemudi selama puluhan detik, termasuk sensor visual, informasi status kendaraan saat itu, dan data operasional seperti akselerator dan rem.

Namun datanya harus berkualitas tinggi agar berguna. Apa yang berkualitas tinggi? Bersama dengan tim evaluasi kinerja subjektif produk dan kendaraan, kami bersama-sama telah menetapkan standar yang disebut "Pengemudi Manusia Berkualitas Tinggi". Beberapa pengemudi mengemudi setiap hari dan sangat terampil. Jika mereka selalu berakselerasi dan melambat secara tiba-tiba, menggunakan AEB atau memutar setir secara tiba-tiba, mungkin tidak akan berhasil.

Menurut standar ini, hanya 3% dari 800.000 pemilik mobil kami yang merupakan "pengemudi manusia berkualitas tinggi". Bersama dengan data berkualitas tinggi yang dikumpulkan sebelumnya, jutaan klip akhirnya terbentuk, yang semuanya merupakan yang terbaik. He Xiaopeng benar, data berkualitas tinggi memang dibutuhkan, tetapi kualitas data didasarkan pada skala absolut dari data tersebut.

36Kr Otomatis: Setelah end-to-end, apakah sistem alat data perlu ditingkatkan?

Lang Xianpeng: Rantai alat telah banyak berubah. Sebelumnya, ini adalah proses pengembangan fungsi produk, seperti pengambilalihan pengguna, transmisi data, analisis masalah secara manual, dan kemudian modifikasi kode, evaluasi kendaraan aktual, dan rilis online ini sudah sangat efisien. Tapi itu juga akan memakan waktu beberapa hari, dan banyak tenaga yang terlibat. Semakin banyak tes yang dilakukan, semakin banyak masalah yang muncul, dan semakin banyak orang yang perlu melakukan modifikasi.

Proses saat ini adalah jika pemilik mobil mengambil alih, setelah datanya kembali, adegan serupa akan secara otomatis dibuat menggunakan model dunia dan diubah menjadi bank soal yang salah. Periksa juga apakah ada data serupa di database pertanyaan yang salah. Jika tidak, gali database yang ada dan lakukan pelatihan bersama.

Setelah melatih model baru, model tersebut kembali ke sistem ujian model dunia dan diuji dua kali. Pertama kali adalah untuk melihat apakah Anda telah mengerjakan soal yang salah dengan benar, dan kedua kalinya adalah serangkaian pertanyaan nyata untuk menguji kemampuan Anda. Jika tidak ada masalah pada kedua kali, modelnya keluar. Pada ujung ekstremnya, tidak ada seorang pun di tengah, dan ini merupakan proses loop tertutup yang sangat otomatis.

36Kr Otomatis: Proses pelatihan ujung ke ujung adalah kotak hitam, dan banyak kode perlu ditambahkan untuk mengetahui detailnya.

Lang Xianpeng:Sangat sedikit. Volume kode kami untuk versi dengan grafis sekitar 2 juta baris, dan untuk versi tanpa grafis adalah 1,2 juta total end-to-end hanya 200.000, yang hanya 10% dari aslinya.

Memang ada beberapa aturan tersembunyi untuk mengendalikan hal ini. Karena data sensor dimasukkan secara end-to-end dan lintasan yang direncanakan sebenarnya dikeluarkan, mungkin ada masalah, jadi kita akan menerapkan beberapa aturan ketat untuk menghindari beberapa perilaku kontrol yang tidak normal, seperti memutar roda kemudi 180 derajat.

36Kr Otomatis: Musk mengatakan bahwa 300.000 baris kode telah dihapus. Tampaknya Anda menjadi lebih agresif. Jika ada lebih banyak masalah setelah push, apakah kode tersebut akan ditambahkan kembali?

Lang Xianpeng: Saya rasa hal itu tidak akan banyak berubah. Hal utama adalah kita memiliki kemampuan untuk terus mengulangi diri kita sendiri.

36Kr Otomatis: Ideal selalu memiliki dua lini secara internal: produksi massal dan pra-penelitian Transisi ujung ke ujung dari pra-penelitian ke produksi massal adalah apa yang dimaksud dengan pra-penelitian sekarang?

Lang Xianpeng: L4. Ini kembali ke pemahaman kita tentang kecerdasan buatan. Kami menemukan bahwa jika kami ingin mencapai pengemudian otonom sesungguhnya, pendekatan yang kami gunakan saat ini sangatlah berbeda.

End-to-end, jenis data apa yang diberikan, perilaku seperti apa yang akan dilakukan. Jika data serupa tidak diberikan, maka tidak akan ditangani. Tapi orang-orangnya tidak. Misalnya, jika saya mengemudi di Beijing, saya juga bisa mengemudi di Amerika Serikat. Jika kita benar-benar ingin mencapai pengemudian otonom, sistem harus memahami hal-hal seperti yang dilakukan manusia dan memiliki kemampuan berpikir.

Kami mempelajari cara kerja dan berpikir otak manusia. Pada bulan Agustus dan September tahun lalu, Jia Peng dan Zhan Kun melihat teori sistem ganda, yang merupakan kerangka kerja yang sangat baik untuk pemikiran manusia. Asumsikan kecerdasan buatan merupakan sistem ganda, Sistem 1 memiliki kemampuan merespon dengan cepat, dan sistem 2 memiliki kemampuan berpikir logis dan dapat menangani hal-hal yang tidak diketahui dengan baik.

Ini semua adalah bagian dari Tao, hal-hal pada tingkat teoritis. Dalam hal mengemudi otonom, model end-to-end adalah Sistem 1, dan Sistem 2 adalah model bahasa visual VLM. Inilah solusi terbaik untuk mewujudkan kecerdasan buatan di dunia fisik.

Lalu bagaimana mengukur kemampuan Sistem 1 dan Sistem 2? Kami juga memiliki model dunia, yang sebenarnya disebut Sistem 3 secara internal. Penggunaan model dunia kami sangat jelas. Model ini digunakan untuk menguji Sistem 1 dan Sistem 2. Ini adalah penguji.

Kami memiliki bank tes nyata, yang merupakan data nyata tentang orang-orang yang mengemudi secara normal. Model dunia merupakan model generatif yang dapat menghasilkan pertanyaan-pertanyaan lain dengan menarik kesimpulan dari data yang ada. Setelah model dilatih, kerjakan pertanyaan sebenarnya satu kali, lalu kerjakan beberapa rangkaian pertanyaan simulasi untuk melihat seberapa besar skor Anda. Setiap model akan memiliki skor, dan semakin tinggi skornya, semakin kuat model tersebut.

36Kr Otomatis: Dalam keadaan apa Sistem 2 akan dipicu?

Lang Xianpeng: Sistem 1 dan Sistem 2 selalu berfungsi. Jika beberapa sistem lebih kompleks, Sistem 1 mungkin tidak mudah diidentifikasi, seperti jalan layang, genangan air, dan lantai semen yang baru dibangun. Sistem 2 akan bekerja dalam skenario seperti itu, namun frekuensi pengoperasiannya akan lebih rendah, misalnya 3-4 Hz , Sistem 1 mungkin berjalan pada frekuensi tinggi lebih dari sepuluh Hz. Mirip dengan GPT, Sistem 1 akan selalu menanyakan pertanyaan kepada Sistem 2 tentang apa yang harus dilakukan ketika menghadapi skenario ini.

36Kr Otomatis: Apakah Sistem 2 VLM itu sendiri memiliki batasan kemampuan?

Lang Xianpeng: Anda dapat menganggapnya sebagai model bahasa besar. Beberapa model bahasa besar mungkin pandai matematika, beberapa mungkin pandai coding, dan memiliki kemampuan berbeda. Kami fokus untuk menyediakan undang-undang terkait mengemudi, video pengajaran, dan buku teks untuk mata pelajaran 1-4. VLM kami sebenarnya adalah model bahasa besar yang berfokus pada mengemudi.

Dalam jangka pendek, ia belum memiliki pengetahuan, tetapi seiring dengan semakin cepatnya putaran tertutup, batas atas kemampuannya akan menjadi semakin tinggi. Parameter end-to-end saat ini hanya lebih dari 300 juta, dan parameter sistem VLM adalah 2,2 miliar.

36Kr Otomatis: Jadi variabel yang lebih besar di masa depan mengemudi cerdas adalah Sistem 2?

Lang Xianpeng:Dukungan yang mendasarinya adalah Sistem 1, namun untuk melangkah lebih jauh, termasuk mencapai tingkat mengemudi otonom L3L4, kita harus memiliki kemampuan Sistem 2 yang sangat kuat. 2,2 miliar parameter saat ini mungkin tidak cukup, dan masih banyak lagi yang harus ditambahkan.

Jia Peng: Sistem 2 terutama berfokus pada pemandangan yang kompleks. Waktu respons 2,2 miliar parameter adalah 300mm. Namun sistem 1 jelas tidak cukup, dibutuhkan sekitar puluhan milidetik.

36Kr Otomatis: Apakah ada batas atas untuk parameter model? Seperti 8 miliar? Berapa perkiraan persyaratan daya komputasi chip?

Jia Peng:Sama seperti model bahasa besar, tidak ada yang bisa menjawab berapa banyak parameter yang dimilikinya.

Lang Xianpeng:Kita sekarang memiliki pengetahuan dan keterampilan. Sistem 1 ditambah Sistem 2 adalah paradigma kecerdasan buatan yang baik, namun cara menerapkannya secara spesifik mengharuskan kita untuk mengeksplorasinya secara perlahan.

36Kr Otomatis: Jika model end-to-end yang tersegmentasi ingin berkembang menjadi Satu Model, apakah kita perlu menemukan kembali rodanya?

Jia Peng: Tantangannya cukup besar. Model graphless kami setara dengan model tersegmentasi, dengan hanya dua model. Namun pertama-tama, tantangan teknisnya relatif besar, karena yang tradisional sudah tidak ada lagi. Bagaimana cara melatih model untuk mencapai hasil yang baik? Yang kedua adalah tantangan kemanusiaan. Bagaimana dua kelompok orang dengan latar belakang persepsi dan kontrol yang berbeda dapat bekerja sama untuk membangun sebuah model?

Tim kami juga sedang berjuang dan terombang-ambing. Kalau bicara end-to-end, peran banyak orang mungkin sudah berubah. Orang yang biasa melakukan rekayasa mungkin menentukan data dan skenario. Mengubah peran Anda merupakan sebuah tantangan.

Berbicara tentang bisnis loop tertutup: Anda tidak dapat membeli kendaraan otonom tanpa $1 miliar

36Kr Otomatis: Sepertinya dana habis. Berapa banyak yang Anda rencanakan untuk diinvestasikan secara end-to-end?

Lang Xianpeng: Tentu saja, saat ini biayanya 1 miliar RMB. Di masa depan, pelatihan model mengemudi otonom mungkin membutuhkan 1 miliar dolar AS, belum termasuk hal-hal lain seperti pembelian kartu, tagihan listrik, dan bakat. Tidak ada perusahaan yang tidak mempunyai laba bersih sebesar US$1 miliar yang mampu menanggungnya.

36Kr Auto: Teknologi end-to-end mungkin merupakan teknologi penting dalam industri otomotif. Dari perspektif loop tertutup komersial, apa kinerja komersial dari berkendara cerdas?

Lang Xianpeng: Mulai dari versi 6.0, dalam 1-2 bulan terakhir, proporsi AD Max kami telah melampaui 50%, dengan pertumbuhan lebih dari 10% setiap bulan. Jika 2%-3% dapat dipahami sebagai jitter normal, tetapi Lebih dari 10 % adalah pertumbuhan efektif. Di Beijing, Shanghai, Guangzhou dan Shenzhen, proporsi model mengemudi cerdas kami telah mencapai 70%. Urutan AD MAX untuk model L9 adalah 75%, L8 adalah 55%, dan L7 adalah 65%.

Jia Peng: L6 juga memiliki 22%. Smart Driving sudah menjadi faktor yang sangat penting bagi generasi muda dalam membeli mobil. Setelah menggunakan smart Driving, sulit untuk kembali ke keadaan semula.

Lang Xianpeng: Saat ini, NOA berkecepatan tinggi sudah dikenal oleh semua orang, sedangkan NOA perkotaan masih dalam tahap awal. Secara umum, kemampuan produk perkotaan tidak cukup baik. Bahkan tanpa gambar, mereka sudah mencapai puncaknya. Dibandingkan dengan tingkat kenyamanan berkendara manusia, mereka tidak terlalu baik. Setelah end-to-end, semuanya akan berubah, dan beberapa pertunjukan cukup mirip dengan manusia.

Dengan tambahan data dan daya komputasi, berkendara cerdas di perkotaan yang berasal dari arsitektur end-to-end kemungkinan besar akan mencapai pengalaman berkendara berkecepatan tinggi. Pada tahap ini, sangat membantu pengguna untuk membeli mobil.

36Kr Otomatis: Nilai komersial dari mengemudi cerdas menjadi semakin jelas, tetapi fungsi mengemudi cerdas yang ideal selalu gratis. Akankah strategi tersebut dibahas kembali untuk menjadikan nilai komersial lebih menonjol?

Lang Xianpeng: Banyak orang membeli Ideal untuk lemari es, TV berwarna, dan sofa besar, namun di masa depan mereka juga dapat membeli Ideal untuk mengemudi cerdas, yang cukup untuk menunjukkan nilai komersial dari mengemudi cerdas. Perbedaan antara versi Max dan Pro sebenarnya 30.000 yuan.

Kalau untuk software charge kalau sudah mencapai level L4 pasti luar biasa, bayangkan bisa membantu pengguna menjemput anaknya di gerbang sekolah. Seiring dengan peningkatan kemampuan, beberapa model bisnis tambahan akan bermunculan, namun premisnya adalah kemampuan mengemudi yang cerdas juga meningkat secara signifikan.

36Kr Otomatis: Xiaopeng menyebutkan bahwa ia akan mencapai pengalaman serupa dengan Google Waymo dalam 18 bulan ke depan.

Lang Xianpeng: Boleh saja jika data dan bisnisnya bisa mendukung tujuan tersebut. Kami telah membuat beberapa perhitungan internal. Jangan bicara tentang L3L4. Jika kami ingin mendukung VLM dan pelatihan end-to-end, kami memerlukan sekitar lusinan daya komputasi awan EFLOPS.

Xpeng adalah 2,51 EFLOPS, dan idealnya adalah 4,5 EFLOPS. Diperlukan setidaknya 10 EFLOPS daya komputasi untuk mencapainya, yaitu sekitar 1 miliar dolar AS dan 6 miliar yuan per tahun. Jika Anda mampu membelinya setiap tahun, Anda bisa bermain.

36Kr Otomatis: Selain daya komputasi, berdasarkan arsitektur teknis saat ini, berapa banyak investasi rata-rata yang dibutuhkan tim mengemudi cerdas per tahun?

Lang Xianpeng: Sebagian besar pengeluarannya adalah chip pelatihan, penyimpanan data, dan lalu lintas, yang menelan biaya setidaknya 1 hingga 2 miliar dolar AS per tahun. Namun lebih jauh lagi, khususnya model dunia, tujuan utamanya adalah memulihkan seluruh dunia fisik yang sebenarnya. Hal ini sendiri juga memerlukan pelatihan dan membutuhkan sumber daya komputasi yang besar.

Mengenai batas atasnya, saya tidak bisa membayangkannya saat ini. Setidaknya lebih dari 10 EFLOPS. Musk bilang itu akan menjadi ratusan EFLOPS.

36Kr Auto: Perusahaan mobil masih mengandalkan model keuntungan industri manufaktur. Akan ada perang harga tahun ini, dan keuntungan akan terpengaruh.

Lang Xianpeng: Siapa pun yang bisa mendapatkan data berkualitas tinggi dan memiliki daya komputasi pelatihan yang cukup dapat membangun model yang besar. Talentanya mungkin tidak banyak, tapi talenta yang sesuai harus ada. Siapa lagi yang bisa memiliki ketiganya selain Ideal, Huawei, dan Tesla? Saya tidak dapat memahaminya.

Ide kami saat ini adalah membantu perusahaan menjual mobil dengan cepat. Hanya dengan menjual mobil kami dapat memiliki uang untuk membeli kartu guna melatih mengemudi yang cerdas.

Semakin maju kemajuan kita dalam berkendara cerdas, kesenjangannya akan semakin lebar. Sebelumnya, tidak ada gambar, tetapi semua orang membuat sesuatu yang membuat langit-langitnya terlihat. Untuk membuat terobosan di masa depan, AI harus ditambahkan, dan yang diperebutkan semua orang adalah data dan kekuatan komputasi. Jika tidak dapat diselesaikan, kita hanya dapat melanjutkan ke dimensi sebelumnya, dan kita akan berpindah ke dimensi berikutnya untuk mendapatkan keuntungan data.

36Kr Otomatis: Teknologi mengemudi cerdas berubah begitu cepat dan investasi begitu besar. Bagaimana Li Xiang dapat mempertahankan kesadarannya akan mengemudi cerdas?

Lang Xianpeng: Dia akan berbicara dengan Guru Jia dan saya kapan saja. Sejak September tahun lalu, kami mengadakan pertemuan mingguan tentang kecerdasan buatan, yang mempertemukan semua orang yang terkait dengan AI di perusahaan, termasuk orang-orang di ruang pintar, infrastruktur, dan platform pelatihan. Pemahaman Li Xiang tentang kecerdasan buatan masih sangat baik.

Dia juga memiliki beberapa sumber lain dan mengenal banyak orang. Dia telah mengobrol dengan Lu Qi, CEO Kimi Yang Zhilin, Horizon Yu Kai, dan lainnya. Dia tidak hanya memahami esensi inti dan teknologi penting AI, tetapi dia juga dapat mengungkapkannya dalam beberapa istilah populer.

36Kr Otomatis: Berapa banyak tenaga kerja yang dibutuhkan untuk desain model ujung ke ujung? Berapa jumlah rata-rata jumlah anggota tim pengemudi cerdas di masa depan?

Jia Peng: Anda mungkin tidak membutuhkan terlalu banyak. Tesla sebenarnya memiliki sangat sedikit pembuat model elit, dan tim visual hanya memiliki total 20 orang. Hal ini sebenarnya dapat disimpulkan. Misalnya, dengan chip OrinX, model itu sendiri berjalan pada 12-15 Hz, yang pada dasarnya menentukan jumlah parameter model dan jenis struktur model yang akan digunakan untuk pelatihan dia.

Lang Xianpeng: Tesla lebih ekstrim, dengan tim algoritma perangkat lunak lebih dari 200 orang, tetapi hanya membuat satu chip dan beberapa model. Kami tidak bisa sesempurna dia sekarang, tapi kami masih akan beberapa kali lebih baik darinya. Karena platform chip kami berbeda dan kami memiliki banyak model, meskipun kami tidak mempekerjakan banyak orang, masih ada beberapa orang di setiap tempat.

36Kr Otomatis: Kekuatan komputasi awan akan menjadi investasi besar di masa depan. Sudahkah Anda mempertimbangkan untuk menggantinya dengan chip dalam negeri? Apakah akan sulit untuk beralih?

Jia Peng: J3 dan J5 Horizon pertama kali digunakan di sektor mobil. Cloud sedang mencoba beberapa produk dalam negeri, namun kesulitan terbesar saat ini adalah ekologinya kurang baik. Ekosistem CUDA NVIDIA sangat tidak terkalahkan sehingga akan sangat sulit untuk beradaptasi dengan ekosistem lain. Sekarang saya tetap ingin mengutamakan efisiensi dan memperhatikan kemajuan dalam negeri dan uji coba sudah dimulai.

36Kr Otomatis: Setelah chip mengemudi cerdas yang dikembangkan sendiri dirilis, apa efek dari integrasi ujung ke ujung?

Jia Peng: Menggabungkan perangkat lunak dan perangkat keras pasti akan memberikan hasil yang lebih baik, dan Tesla telah menghasilkan prototipe. Chipnya lebih murah, daya komputasinya lebih tinggi, dan dukungan untuk AD lebih baik. Mereka ingin memperluas parameter sebanyak 5 kali pada FSD V12.5 dan mereka memperluasnya. Hal ini memang mempunyai keuntungan yang besar.

Lang Xianpeng:Prasyaratnya adalah algoritma L3 dan L4 harus ditentukan.

36Kr Otomatis: Apakah akan ada titik waktu untuk mengemudi otonom L4?

Lang Xianpeng: Hanya 3-5 tahun. Kita serahkan dulu L3 yang merupakan batu loncatan menuju L4. Pertama, hal ini memungkinkan kita untuk memiliki pemahaman yang lebih jelas tentang daya komputasi dan kebutuhan data L4, termasuk kemampuan dasar sistem pemeriksaan dan data loop tertutup.

Kedua, dalam hal produk, kita perlu membangun hubungan saling percaya dengan masyarakat. Karena end-to-end sendiri masih berupa kotak hitam, masyarakat masih belum mempercayai sistemnya. Kemudian melalui produk L3, Anda dapat membangun hubungan kepercayaan yang baik dengan masyarakat.

36Kr Auto: Asal mula banyak teknologi AI ada di Silicon Valley. Saya dulu mengikuti Tesla, dan Ideal sekarang juga melakukan eksplorasi mutakhir bagaimana memastikan bahwa penilaian atau pengertian teknologi itu akurat dan tajam, alih-alih memilih pohon teknologi yang salah?

Lang Xianpeng:Kita sudah punya sistem yang lengkap. L4 masih 3 sampai 5 tahun lagi, tapi kita sudah mulai menyentuhnya. Kalau kita melakukan kesalahan, kita akan melakukan kesalahan lebih awal, dan masih ada peluang.

Memang ada kesenjangan dalam kecerdasan buatan antara Tiongkok dan Amerika Serikat. Sebenarnya ada cukup banyak talenta di Tiongkok. Kami berusaha semaksimal mungkin untuk mencari generasi muda terbaik dari 240 sekolah, semuanya masuk dalam 100 besar QS (100 universitas terbaik dunia).

Berbicara tentang Tesla: Belajar dari Tesla dan melampaui Tesla

36Kr Auto: Beberapa orang mengatakan bahwa kesenjangan antara mengemudi pintar domestik dan Tesla adalah 2 tahun.

Lang Xianpeng: Tentu tidak. Kami tidak akan mengomentari solusi teknisnya karena Tesla tidak banyak bicara tentang solusi teknisnya dalam dua tahun terakhir. Dalam hal pengalaman produk, kami pada dasarnya berada pada level di mana Tesla baru saja merilis versi end-to-end tahun lalu. Ada jeda sekitar setengah tahun.

36Kr Auto: Tesla juga mengalami beberapa masalah. Musk mengatakan bahwa datanya lebih sedikit dan umpan baliknya lebih sedikit.

Lang Xianpeng:Ini adalah tahapan yang berbeda. Jika kita menemuinya, berarti kita telah memasuki tahapan berikutnya.

Jia Peng: Masalah terbesar Tesla sekarang adalah verifikasi. Anda dapat melihat bahwa v12.4 (nomor versi Tesla FSD) tidak berfungsi dengan baik, dan kemudian v12.5 dirilis, dengan jumlah parameter bertambah 5 kali lipat. Saya kira langkah verifikasi tidak dilakukan dengan baik. Ketika modelnya keluar, saya tidak tahu bagaimana cara kerjanya ketika benar-benar digunakan oleh pengguna.

Inilah sebabnya kami menekankan model dunia. Kami telah mempelajari pelajaran ini dan harus menyelesaikan verifikasi terlebih dahulu. Jika tidak, bagaimana model tersebut dapat diverifikasi untuk semua jalan di seluruh negeri, termasuk di dalam kawasan taman nasional?

Jika melihat Hari AI Tesla pada tahun 2022, ini masih merupakan simulasi yang sangat tradisional. Skalabilitas (skalabilitas) terlalu buruk untuk mendukung pembukaan penuhnya di Amerika Utara. Pada titik ini, memang ada beberapa pelajaran yang dapat kita petik dari Tesla. Itu sebabnya kami berupaya keras membuat model dunia.

36Kr Auto: Apakah ada hal yang menurut Anda sulit dalam proses membangun solusi end-to-end? Seperti rantai alat data?

Jia Peng: Kumpulan data tersebut telah dibangun sejak tahun 2019, dan setidaknya merupakan yang terbaik di Tiongkok. Data dan pelatihan sebenarnya merupakan rutinitas, dan ada paradigma yang harus diikuti. Saat ini, verifikasi adalah tantangan terbesar.

Yang lainnya adalah VLM itu sendiri, yang secara bertahap mengambil peran yang lebih besar. Ini mungkin hanya digunakan dalam 5% kasus di awal, tetapi nantinya mungkin menghadapi batas atas end-to-end, dan pengalaman produk lainnya akan bergantung pada VLM untuk melakukan iterasi. Ini akan menjadi tantangan di masa depan.

Ini juga berbeda dengan Tesla. Kami melakukan VLM dan model dunia karena kami melihat masalah Tesla. Ada masalah dengan verifikasi v12.4. Kami telah mengendarainya di Amerika Utara dua kali sebelumnya, setiap kali selama sekitar satu minggu, di pantai barat dan pantai timur. Rupanya di pantai barat itu baik dan buruk di pantai timur. Boston dan New York tidak begitu bagus, karena kedua kota ini jauh lebih rumit dibandingkan Pantai Barat.

Di Pantai Timur, rata-rata tingkat pengambilalihan Tesla cukup tinggi, dan mungkin beberapa batas atas end-to-end ada di sini. Jadi ketika kami melakukan VLM, kami ingin mendobrak batasan ini. Batas atas VLM sangat tinggi, dan dimungkinkan untuk melampauinya (Tesla) melalui rangkaian jalur ini.