Eksekutif Li Auto: Jika kita tidak menginvestasikan US$1 miliar pada daya komputasi setiap tahun di masa depan, kita akan tersingkir

2024-08-08

Catatan Editor: Departemen Editorial Otomotif Tencent menyebut gelombang elektrifikasi dalam dekade terakhir sebagai "era yang penuh gejolak" dalam industri otomotif Tiongkok. Kini, di tahun 2024, sebuah titik sejarah yang dikenal sebagai "Tahun Mengemudi Cerdas", kami tidak dapat membantu tapi bertanya-tanya. T: Jalur teknis apa yang akan dipatuhi oleh para pemain utama di industri ini? Bagaimana membangun hambatan persaingan masing-masing? Tencent Auto secara khusus meluncurkan serangkaian perencanaan berkendara yang cerdas. Melalui wawancara, tes aktual, tinjauan horizontal, ulasan, dan metode lainnya, Tencent Auto berupaya untuk berdiri di awal mula sejarah dan mendapatkan wawasan lebih jauh tentang perubahan besar yang mungkin terjadi di industri otomotif. dalam sepuluh tahun ke depan, sehingga memberikan lebih banyak informasi kepada pembaca dan industri. Panduan konten yang komprehensif dapat meninggalkan catatan sejarah yang berharga bagi industri.

Berita Tencent "Sinar Tinggi"

Penulis Ao Dun

Editor Shi Ding

Solusi "End-to-End" (E2E) kini diakui sebagai solusi terbaik untuk berkendara cerdas di industri. Namun, ketika orang mencoba menghilangkan kabut dan mencari kebenaran, tampaknya ada sepuluh ribu solusi "end-to-end". -end" solusi di mata 10.000 perusahaan mobil. end-to-end”.

Desember yang lalu,TeslaSetelah meluncurkan FSD V12 dan mengusulkan solusi end-to-end, istilah end-to-end diangkat tinggi dalam lingkaran mengemudi cerdas dalam semalam;Xiaopeng,cakrawala,TIDAKPerusahaan lain telah mengusulkan solusi end-to-end. Pada akhir Juli, He Xiaopeng, ketua dan CEO Xpeng Motors, mengatakan bahwa Xpeng Motors adalah satu-satunya perusahaan mobil di dunia yang telah mencapai produksi massal end-to-end. model besar.

5 Juli,mobil ideal Arsitektur teknologi penggerak otonom baru berdasarkan model ujung ke ujung, model bahasa visual VLM, dan model dunia telah dirilis. Versi pertama telah diluncurkan ke ribuan pengguna uji pada akhir Juli. Li Xiang mengumumkan pada bulan Juni tahun ini bahwa rencana tersebut akan dilaksanakan sepenuhnya paling cepat pada paruh pertama tahun ini dan paling cepat pada paruh pertama tahun depan.

Menurut Lang Xianpeng, Wakil Presiden Litbang Mengemudi Cerdas Li Auto, desain arsitektur tersebut di atas terinspirasi oleh teori sistem cepat-lambat yang disebutkan oleh pemenang Hadiah Nobel Daniel Kahneman dalam "Berpikir, Cepat dan Lambat" dan mensimulasikan pemikiran manusia dan berpikir di bidang mengemudi otonom.

Sistem cepat yaitu Sistem 1 diimplementasikan dengan model end-to-end, menerima input sensor, dan langsung mengeluarkan lintasan berkendara untuk pengendalian kendaraan. Sistem lambat, yaitu Sistem 2, diimplementasikan oleh model bahasa visual VLM. Setelah menerima masukan sensor, ia mengeluarkan informasi pengambilan keputusan ke Sistem 1 setelah berpikir logis menggunakan model dunia di cloud.

Dibandingkan secara horizontal dengan rekan-rekan industri, Lang Xianpeng menekankan bahwa model end-to-end Li Auto adalah model end-to-end One Model pertama, yang sangat berbeda dari model tersegmentasi lainnya secara langsung. Tidak ada aturan atau model lain di tengahnya, dan persyaratan end-to-end lainnya mungkin perlu diikat bersama dengan beberapa aturan."

Dilihat dari informasi publik, industri meyakini Xpeng Motors dan Huawei tersegmentasi secara end-to-end. Model skala besar end-to-end yang digunakan oleh Xpeng Motors dalam produksi massal terdiri dari jaringan saraf XNet + model kontrol skala besar XPlanner + model bahasa skala besar XBrain; sistem akhir menggunakan GOD (Deteksi Objek Umum, pengenalan hambatan umum) persepsi besar Bagian jaringan, pengambilan keputusan dan perencanaan menggunakan jaringan PDP (Prediction-DecisionPlanning, pra-keputusan dan perencanaan) untuk mewujudkan pra-keputusan dan perencanaan jaringan.

Di masa lalu, sistem mengemudi cerdas dapat dibagi menjadi beberapa modul utama: Persepsi, Prediksi, Perencanaan, dan Kontrol. Beberapa modul bertanggung jawab atas tugas yang berbeda. Ini juga disebut era aturan mengemudi otonom. Tepatnya, model end-to-end yang populer saat ini adalah model AI besar yang dapat menggunakan teknologi pembelajaran mendalam untuk secara langsung menghasilkan hasil keluaran dari data masukan asli hasil output dan akselerasi, Perilaku berkendara seperti memperlambat dan mengerem.

Dalam praktiknya, gagasan di atas tidak dapat dicapai dalam satu langkah saja. Di sisi teknis saja, serangkaian masalah kompleks seperti arsitektur model, data, dan verifikasi teknik harus diselesaikan. Dari perspektif pengalaman pengguna, tujuan akhir dari solusi end-to-end adalah untuk menjadi sangat dekat dengan "pengemudi berpengalaman" manusia, dan bahkan melampaui pengemudi veteran dengan terus mengeksplorasi batas atas kemampuan tidak ada kesimpulan di industri kapan tujuan ini dapat dicapai.

Dalam pandangan Jia Peng, kepala penelitian dan pengembangan teknologi mengemudi cerdas di Li Auto, kita sekarang berada di dunia mengemudi cerdas yang tidak berpenghuni. "Tidak ada orang lain yang mengatakan bagaimana hal ini dilakukan secara end-to-end, dan semua orang 'buta dan mencoba mencari tahu gajah itu.'" Namun, ia percaya bahwa arti end-to-end tidak berarti satu model dan dua model. Makna terbesarnya adalah mengubah keseluruhan proses penelitian dan pengembangan sistemnya benar-benar mirip manusia.”

Meskipun end-to-end dianggap sebagai solusi optimal untuk berkendara cerdas, hal ini masih dalam tahap awal dan belum ada definisi atau standar evaluasi yang jelas di industri. Lang Xianpeng yakin pabrikan mobil dalam negeri saat ini berada pada garis start yang sama secara end-to-end, namun jika melihat One Model, Ideal mungkin lebih unggul. Dalam pandangannya, solusi end-to-end Li Auto saat ini merupakan solusi terbaik untuk menerapkan kecerdasan buatan di dunia fisik, “karena solusi tersebut mensimulasikan kognisi dan mekanisme berpikir manusia dengan sangat baik, dan benar-benar memungkinkan sistem tersebut memiliki kemampuan berpikir manusia. dan berpikir. Kemampuan untuk memahami dunia adalah keuntungan dari sistem ganda."

Dalam jangka panjang, end-to-end mungkin merupakan persaingan dan persaingan kekuatan finansial. Lang Xianpeng percaya bahwa cepat atau lambat, para pemain terkemuka pasti akan bergerak ke arah end-to-end, dan kesenjangan pasti akan semakin lebar pada saat itu. Di era kecerdasan buatan, setiap orang akan berjuang untuk dua hal: 1. Apakah cukup produk berkualitas tinggi? 2. Apakah terdapat kelompok daya komputasi pelatihan yang memadai untuk menandinginya?

“Apa yang dilakukan semua orang pada akhirnya adalah bersaing untuk mendapatkan daya komputasi dan data, tetapi ambang batas untuk kedua hal ini sangat tinggi. Jika cadangan keuangan tidak cukup untuk mendukung biaya pelatihan tahunan, Anda tidak akan bisa memainkannya nanti. L3 atau L4. Jika Anda berbicara tentang mobil, Jika jumlah perusahaan tidak besar, data tidak akan mampu mendukung permintaan pelatihan. "Lang Xianpeng mengatakan bahwa menurut perkiraan awal, investasi tahunan ideal dalam pelatihan adalah 1 miliar yuan, dan diperkirakan biayanya akan mencapai 1 miliar dolar AS per tahun di masa depan." Itu hanya biaya pelatihan daya komputasi, belum termasuk biaya personel lainnya, jadi jika Anda tidak dapat menghabiskan 1 miliar dolar AS per tahun untuk pelatihan, Anda mungkin tersingkir dalam kompetisi mengemudi otonom di masa depan.”

Berikut cuplikan (edit) percakapan antara Tencent News "High Beam" dan media lain serta Lang Xianpeng dan Jia Peng:

Setiap orang "buta dan menyentuh gajah", dan Ideal telah memberikan rencana terbaik

T: Apa saja peluang untuk beralih dari teknologi berkendara cerdas tradisional ke teknologi end-to-end? Apa kelebihan dan kekurangan solusi teknis yang diajukan Lili dibandingkan Tesla, Huawei, dan Xpeng?

Lang Xianpeng: Mengenai kelebihan dari solusi arsitektur sistem ini, kita harus mulai dari pemikiran kita tentang mengemudi otonom pada bulan Agustus dan September tahun lalu. Tahun lalu, kami melakukan penelitian dan pengembangan teknologi selama tiga generasi, dimulai dengan pengembangan kecepatan tinggi dan kemudian beralih ke mengemudi otonom di perkotaan, pertama-tama kami menggunakan NPN (Neural PriorNet, jaringan neural prior), sebuah solusi dengan skenario, lalu Konversikan ke solusi tanpa grafik saat ini, lalu lakukan iterasi ke solusi end-to-end saat ini.

Selama proses ini, kami menemukan bahwa solusi ini masih memiliki kelemahan atau masalah yang sangat besar untuk pengemudian otonom tingkat L3 dan L4 nanti. Masalahnya adalah kita sebagai manusia dapat memahami pemandangan dan tempat-tempat yang belum pernah kita kunjungi, dan mereka yang mengemudi secara normal mungkin akan sedikit terbiasa dengannya. Namun apakah itu solusi end-to-end saat ini atau solusi tanpa gambar, pada dasarnya pemandangan yang telah dilihat atau data yang telah dilatihlah yang dapat bekerja lebih baik. Jika ada adegan baru, dia mungkin tidak bisa menanganinya dengan benar, tapi jika kita ingin menyerahkan mobil sepenuhnya ke sistem untuk dikendarai, bukan manusia, maka sistem kita harus memiliki kemampuan untuk menangani adegan yang tidak diketahui seperti manusia. .

Sebagai contoh sederhana, lampu lalu lintas kami berbeda dengan lampu lalu lintas di tempat lain.Lampu lalu lintas di Tianjin adalah lampu lalu lintas tipe bilah kemajuan, tetapi di tempat lain kami memiliki bola lampu atau hitung mundur memahami. Tapi saya yakin jika seseorang dengan akal sehat pergi ke Tianjin dan melihat benda seperti itu didirikan di persimpangan, Anda akan mengira itu adalah lampu lalu lintas dan berhenti dan mulai secara normal sesuai dengan petunjuk lampu lalu lintas. Jadi kita perlu membuat sistem juga memiliki pemahaman adegan seperti ini, atau kemampuan untuk menalar secara logis pengetahuan semacam ini. Bagaimana cara memperoleh kemampuan ini? Saat ini kita melihat teori sistem ganda, yang merupakan penjelasan yang baik tentang mekanisme kognisi manusia. Sistem cepat membuat respons pemrosesan tepat waktu, dan sistem lambat berhubungan dengan pemikiran kompleks dan penilaian logis. Sistem ganda Bersama-sama membentuk mekanisme kognisi dan pemikiran manusia, jadi kami ingin memikirkan bagaimana teori sistem ini dapat diterapkan pada mengemudi otonom.

Jadi apa sebenarnya yang digunakan Sistem 1 untuk mencapai sistematisasi? Kami akhirnya memilih untuk mengimplementasikan sistem dengan menerapkan model ujung ke ujung, dan sistem 2 diimplementasikan menggunakan model bahasa visual besar VLM. Ini adalah dua metode implementasi khusus kami. Setelah pra-penelitian dan pengembangan, kami kini telah menerapkan kedua sistem ini pada kendaraan produksi massal kami yang sebenarnya.Kami percaya saat ini merupakan solusi terbaik untuk menerapkan kecerdasan buatan di dunia fisik, karena ini mensimulasikan kognisi dan mekanisme berpikir manusia dengan sangat baik, dan benar-benar memungkinkan sistem memiliki kemampuan untuk berpikir dan memahami dunia seperti manusia sistem.Keuntungan.

Sistem ganda kami memiliki beberapa fitur unik. Pertama, model end-to-end kami adalah model end-to-end One Model yang pertama, yang sangat berbeda dari model tersegmentasi lainnya. Kedua, model VLM kami adalah model pertama yang dapat diterapkan pada mobil dan diproduksi secara massal. Model lain mungkin dilatih dan diuji pada kelompok pelatihan mereka sendiri, tetapi sebenarnya penggunaan mobil yang diproduksi secara massal seperti Orin X Kami adalah. yang pertama mengoptimalkan chip dan menerapkannya pada mobil, dan model ini cukup besar, dengan 2,2 miliar parameter. Ini sudah merupakan model besar dalam arti praktis. Sistem ganda kami juga merupakan yang pertama kami usulkan dan terapkan. Dari arsitektur sistem hingga implementasi sistem, kami memiliki beberapa keunggulan dan karakteristik kami sendiri.

T: Dengan model ucapan visual end-to-end, apakah solusi ini dapat mendukung pengembangan L3 dan L4?

Lang Xianpeng:Setidaknya dari sudut pandang saat ini, menurut saya hal itu seharusnya mungkin dilakukan dalam hal metode, tetapi apakah itu dua model end-to-end plus VLM, atau dua model dalam satu, atau model dengan parameter lebih besar, atau struktur lainnya, Saya pikir ini bisa dilakukan secara perlahan, tapi menurut saya ide keseluruhannya akan baik-baik saja.

Pertanyaan: Bagaimana pembagian Sistem 1 dan Sistem 2?

Jia Peng: Kami memiliki dua model, dua Orin, karena mobil perlu dikendalikan secara real time. Meskipun VLM memiliki banyak parameter, VLM tidak dapat dikontrol setiap satu atau dua detik. Sekarang kami telah mengoptimalkannya ke tingkat kuasi-real-time sekitar 3,4 Hz, dengan penundaan sekitar tiga ratus milidetik. Itu membuat keputusan setiap saat dan menghasilkan dua keputusan, seperti yang pertama untuk memperlambat atau menyerah, dan yang kedua akan memberikan lintasan referensi, seperti apakah saya menuju ke jalur ini atau ke jalur itu langsung dimasukkan ke dalam model, dan kemudian hasilnya akan dihasilkan pada saat yang sama. Ini kira-kira merupakan struktur. Sistem 1 tidak sepenuhnya mengadopsi pendapat sistem 2. Sistem 2 meningkatkan pengambilan keputusan sistem 1.

Sistem 1 memainkan peran utama, dan Sistem 2 hanyalah referensi atau konsultasi untuk situasi khusus. Ketika mencapai L4, Sistem 2 akan memainkan peran yang lebih penting, bukan berarti Sistem 2 yang mengendalikan mobil sepanjang waktu Ini benar-benar berperan. Ini memainkan peran yang sangat penting dalam pengambilan keputusan dan penilaian. Dalam beberapa skenario yang tidak diketahui, kemampuan Sistem 2 menentukan apakah Anda dapat mencapai L4, tetapi kemampuan dasar Sistem 1 adalah jaminan yang diperlukan untuk L3.

T: Apakah kedua sistem akan bergabung menjadi satu di masa depan?

Jia Peng: Ini adalah langkah selanjutnya dalam pra-penelitian kami. Faktanya, ide saat ini adalah memproduksi dua model secara massal. Saat ini, Wutu 6.0 tersedia secara nasional. Kami pikir set end-to-end + VLM bisa lebih baik di seluruh negeri Sekarang, ke depan, bagaimana cara membuat L4 yang diproduksi secara massal? Ide kami mungkin adalah membuat model lebih besar dalam ukuran dan kapasitas, dan pada saat yang sama meningkatkan frame rate-nya, atau ada kemungkinan bukan keduanya. model dapat digabungkan menjadi satu. Biarkan model memutuskan sendiri apakah akan menggunakan Sistem 1 atau Sistem 2. Jadi, jika ada chip dengan daya komputasi yang lebih besar dan platform yang lebih baik di masa depan, hal ini dapat memainkan peran yang besar.

Pertanyaan: Mengapa VLM tidak bisa disebut end-to-end?

Jia Peng: Jika daya komputasi di masa depan cukup besar, VLM sendiri dapat berjalan secara real-time, misalnya lebih dari sepuluh Hz atau bahkan 20 Hz. Mungkin juga dapat mencapai respon cepat end-to-end, tetapi saat ini VLM adalah sebenarnya beberapa putaran tanya jawab. Saya ingin bertanya Bagaimana saya bisa mengendarainya dalam kondisi kerja seperti itu? Kenapa dibuka seperti ini, dan apa hasil setelah dibuka?

Lang Xianpeng: Faktanya, dari sudut pandang kami, selama model tersebut murni berbasis data, maka model tersebut bersifat end-to-end. Inputnya adalah data dan outputnya adalah hasilnya. Namun, hasilnya adalah lintasan dalam sistem , dan hasil dalam sistem kedua adalah Pengambilan Keputusan, izinkan saya menekankan lagi, ada perbedaan besar antara beberapa model end-to-end dan end-to-end, atau satu model dan end-to-end.KarenaSeperti One Model yang idealnya kami buat di sini, keluaran data sensor langsung dikeluarkan dari lintasan, tanpa ada aturan atau model lain di antaranya.

Pertanyaan: Berapa batas atas kemampuan sistem saat ini?

Lang Xianpeng: Sekarang VLM harus berdiri di perbatasan tanah tak bertuan. Kedepannya, setiap perusahaan termasuk kami harus melakukannya secara end-to-end, tapi saya yakin kami adalah perusahaan pertama yang melakukannya proses. Kami akan melakukan eksplorasi sendiri. Saat kami melakukannya, kami akan menemukan peningkatan kinerja yang disebabkan oleh skala data. Kami masih menjajaki batasan antara peningkatan data dan peningkatan kinerja, dan kami belum mencapainya.

Kami memiliki analisis. Kekuatan komputasi chip terbatas, sehingga skala parameter memiliki keterbatasan. Sekarang kami memiliki skala parameter end-to-end sekitar 300 juta. Berapa banyak volume pelatihan data yang dapat berskala parameter sekitar 300 juta mengkonsumsinya? Faktanya, ada batas atas. Tidak mungkin untuk menuangkannya ke dalam dirinya tanpa batas waktu.

Jia Peng: Meskipun daya komputasi telah meningkat, untuk model besar, hambatan yang lebih serius pada chip sisi mobil saat ini adalah bandwidth memori. Kami benar-benar telah mencapai tempat yang relatif tidak berpenghuni. Tidak ada orang lain yang mengetahui bagaimana hal ini dilakukan secara menyeluruh, dan semua orang "buta dan mencoba mencari tahu apa yang dimaksud dengan gajah".

Model end-to-end kami mencapai lintasan, dan beberapa kantong pengaman ditambahkan setelah lintasan, karena sebelum model mencapai batas atas, masih ada beberapa hal yang harus dihadapi, seperti memutar setir dengan keras, dan membiarkannya singkirkan itu. Ini yang kami rencanakan.

Arti penting dari end-to-end adalah bahwa hal ini pada dasarnya mengubah keseluruhan proses penelitian dan pengembangan.

Pertanyaan: Bagaimana mendefinisikan bahwa model terintegrasi lebih kuat dan maju daripada model tersegmentasi? Apa batas akhir pengembangan end-to-end? Apakah akan ada model yang lebih kuat di masa depan?

Lang Xianpeng:Pertama-tama, menurut saya tidak ada baik atau buruk, cocok atau tidak. Jika Anda ingin melakukan berkendara otonom L3, 4 dan level yang lebih tinggi, menurut saya model end-to-end yang terintegrasi ini adalah yang terbaik. model yang harus Anda pilih, karena tidak Tetapi memilih model ini sendiri lebih tentang Anda memilih proses dan metode iteratif atau penelitian dan pengembangan yang lebih maju, tersegmentasi dan beberapa mode sebelumnya.Mereka juga sangat cocok untuk mengemudi dengan bantuan level L2.

Dari ujung ke ujung, perubahannya tidak sesederhana satu model dan dua model, tetapi seluruh pemikirannya, proses dan cara melakukan sesuatu, telah mengalami perubahan yang luar biasa memberikan data berkualitas tinggi, ditambah pelatihan untuk meningkatkan kemampuan model, sehingga dapat membuat perencanaan dan keputusan yang lebih baik.

Kemudian saya perlu melakukan iterasi yang masuk akal pada kerangka model. Cara yang paling penting adalah menemukan data dengan kualitas yang lebih baik. Data ini harus memiliki kuantitas yang cukup besar dan kualitas yang cukup baik. Kami pada dasarnya telah mencapai level 3 juta parameter sekarang, dan pemilihan data kami sangat khusus. Pertama-tama, kami mengemudi dengan tim produk dan tim evaluasi subjektif kami. Semua orang ini adalah pengemudi berpengalaman, dan pengalaman berkendara mereka sangat baik.

Mereka bekerja bersama kami untuk mengembangkan seperangkat standar untuk pengemudi berpengalaman, seperti kondisi mengemudi yang aman dan gaya mengemudi mereka setelah iterasi selesai dalam beberapa dimensi, kami menggunakan aturan ini untuk membandingkannya dengan 80 pemilik mobil Wan yang telah melakukan a. pemutaran, dan kami ingin yang memiliki skor 90 atau lebih. Klip ini perlu diputar.Karena kita memiliki basis ini, kita dapat menyaring 1 juta atau 10 juta fragmen berkualitas tinggi. Di permukaan, mungkin hanya tampak 10 juta, namun kenyataannya disaring dari 1,2 miliar kilometer data bahwa beberapa ini adalah salah satu data dari puluhan juta kilometer.

Saat kami menyaring data, kami memiliki rantai alat tersendiri di baliknya. Ini bukan hanya tentang memilih, namun kami juga memiliki beberapa rasio dan resep data kami sendiri, yang juga sangat penting.

Pertanyaan: Beberapa perusahaan mengatakan bahwa banyak data sebelumnya tidak dapat digunakan di era end-to-end. Mereka sekarang mengalami hal yang paling menyakitkan. Mereka merobohkan jembatan sebelumnya, membangun jembatan baru, dan membangun sistem keamanan yang dapat menguji mereka. , apa pendapat Anda tentang pernyataan ini?

Lang Xianpeng: Menurut saya, pernyataannya tidak konsisten. Maksudnya data tidak begitu penting, namun pernyataannya juga menunjukkan bahwa data itu penting. Padahal, untuk cita-cita, kita sudah lama menyadari hal ini. Apa hal terpenting dalam berkendara otonom? Apakah itu pendanaan bakat? Saya pikir ini adalah data. Tanpa data, tidak akan ada dasar untuk pelatihan dan verifikasi algoritma di masa depan.

Kami telah mengumpulkan data dan membangun platform data kami sejak kendaraan pertama dikirimkan pada tahun 2019.dariIdealnya L9 Pada awalnya, kita semua adalah boneka matryoshka. Boneka Matryoshka sangat bermanfaat untuk mengemudi secara otonom. Semua spesifikasi kamera dan lokasi pemasangannya sama. Meskipun ada sedikit perbedaan dalam panjangnya, kami dapat menggunakan kembali data ini sepenuhnya. Namun beberapa pabrikan mungkin memiliki mobil atau SUV, dan sensornya mungkin berbeda, jadi ini mungkin menjadi tantangan bagi mereka.

T: Beberapa orang mengatakan bahwa end-to-end akan menyederhanakan proses pengembangan penggerak cerdas dan mengurangi biaya tenaga kerja.

Lang Xianpeng:Jika kita menggunakan solusi ini, kita tidak akan membutuhkan banyak orang. Seluruh proses penelitian dan pengembangan end-to-end berarti memilih data, model pelatihan, mengevaluasi model, dan model dunia. Model dunia secara internal disebut Sistem 3. Itu adalah sistem pemeriksaan. Kemampuan Sistem 1 dan Sistem 2 dievaluasi dan disertifikasi oleh Sistem 3 kami. Namun sebelumnya, evaluasi dan pengujian kami terhadap sistem penggerak otonom ini dilakukan oleh manusia, baik saat menjalankan uji jalan besar atau menjalankan uji jalan besar. mobil.Ujian tempat tersebut dievaluasi oleh orang-orang, tetapi orang-orang tidak dapat mengevaluasinya.

Ada jutaan kilometer jalan di seluruh negeri yang berubah sepanjang tahun. Tidak mungkin orang melewatinya. Jalan tol yang Anda dapatkan di Beijing tidak jauh berbeda dengan jalan tol di Guangdong, tapi di lingkungan perkotaan sangat sulit untuk mencakupnya. Jadi kami memiliki Sistem 3, yang akan membantu kami menguji kemampuan Sistem 1 dan Sistem 2. Setelah pengujian, jika kami lulus iterasi dan online, babak berikutnya akan dimulai.

Dalam proses ini, selain kebutuhan manusia dalam proses pengembangan platform sistem ini, sebenarnya tidak banyak orang yang terlibat dalam pekerjaan sebenarnya, yang akan sangat mengurangi penggunaan manusia. Untuk optimalisasi manajemen dalam organisasi kita penggunaan orang juga akan memiliki banyak manfaat. Oleh karena itu, beberapa penyesuaian kami selanjutnya sebenarnya didasarkan pada perubahan dalam bisnis ini, bukan penyesuaian demi penyesuaian seperti yang dibayangkan semua orang.

Pertanyaan: Dari sudut pandang konsumen dan pengguna, ketika teknologi end-to-end diterapkan, peningkatan seperti apa yang akan terlihat pada pengalaman tersebut?

Lang Xianpeng:Dari sudut pandang pengguna, apakah Anda menggunakan teknologi end-to-end atau lainnya, itu tidak bergantung pada solusi dan rute teknis Anda. Pengguna hanya perlu merasakannya, jadi ketika kami mendorong produk end-to-end plus VLM ke semua pengguna di masa depan, kami berharap akan sangat bagus untuk memberi pengguna perasaan sebagai pengemudi yang sangat berpengalaman dalam mengemudi untuk saya.

Pengguna tidak perlu mengetahui teknologi apa itu, namun jika tertarik, kami mungkin punya banyak referensi.Kami tidak akan terlalu menekankan jenis solusi teknis yang kami gunakan untuk pengguna. Kami hanya berkomunikasi dengan pengguna tentang pengalaman produk seperti apa yang mereka miliki.

T: Jika end-to-end secara resmi akan diterapkan langsung kepada pengguna, menurut Anda standar apa yang baik? Kapan bisa resmi diluncurkan?

Jia Peng: Menurut saya standarnya adalah pengalaman pengguna. Mengapa kita perlu memiliki 1.000 pengguna awal daripada menetapkan sendiri beberapa sasaran pengambilalihan? Jika ada 1.000 pengguna dan 10.000 pengguna, pengalaman mereka sangat bagus, menurut saya bisa dipromosikan, atau bisa melampaui pengalaman tidak? -versi gambar. Di antara mereka yang saat ini berpartisipasi dalam uji coba awal, kami telah melakukan beberapa evaluasi dan menemukan bahwa pengalaman, stabilitas, dan keamanannya semuanya memenuhi standar.

T: Dengan rencana progresif ini, apakah akan beralih ke Satu Model? Apakah Satu Model merupakan satu-satunya arah yang benar?

Jia Peng: Dari sudut pandang kami, One Model itu end-to-end, yang lain bilang tidak end-to-end, tapi kalau ada yang mau menambahkan seperti ini, sebenarnya kami melakukannya di segmen tanpa sebuah gambar. Saat itu kami menyebutnya model persepsi dan model perencanaan prediktif.

Arti end-to-end tidak berarti satu model dan dua model. Makna terbesarnya adalah bahwa hal ini pada dasarnya mengubah keseluruhan proses penelitian dan pengembangan. Dengan proses AI yang membuat zaman, Anda dapat benar-benar membuat sistem Anda Memiliki kemampuan mengemudi seperti manusia.

Dulu hanya disebut fungsi, saya memiliki fungsi melewati jalan landai dan melewati pintu tol, namun sekarang saya memiliki kemampuan mengemudi sebagai pengemudi berpengalaman, Anda mungkin bisa merasakan pengalaman end-to-end kami nanti. Tentu saja, saya sudah sering mengendarai mobil ini, bisa dikatakan kami memulai mengendarai versi pertama dengan canggung, dan sekarang kami mengendarainya dengan sangat baik. Kami sering terkejut dengan beberapa performa dan kemampuan model ini.

Kalau dikasih 800.000 data nggak bakal bisa lewati bundaran, tapi kalau dikasih 1 juta, tiba-tiba suatu saat bisa melintasi bundaran itu. Padahal, kita tidak sengaja mendapatkan data bundaran itu, kita hanya menyimpannya saja memberinya makan. Hanya data. Ini seperti mengajar seorang anak. Kelas apa yang akan dia ambil hari ini dan kelas apa yang akan dia ambil besok? Tiba-tiba suatu hari dia akan datang dan mengajari Anda beberapa kata dalam bahasa Inggris.

End-to-end berbeda dengan R&D sebelumnya. Pada R&D produk sebelumnya, saya tahu Anda akan seperti ini di masa depan, karena itulah cara saya mendesain Anda. Model end-to-end memiliki kemampuannya sendiri untuk tumbuh dan muncul, atau Anda mungkin hanya dapat menemukan kemampuannya, tetapi Anda tidak dapat merancang kemampuannya.

T: Apakah Anda menghadapi tantangan besar dalam proses end-to-end?

Lang Xianpeng: Faktanya, ada banyak tantangan. Yang terpenting adalah kami telah melakukan beberapa pekerjaan pra-penelitian sebelumnya.

Kedua, dari cita-cita perusahaan hingga pemahaman dan kognisi tim kami tentang mengemudi cerdas, menurut saya pemahaman tentang kecerdasan buatan konsisten dan sangat mendalam. Tantangan terbesarnya adalah apakah setiap orang memiliki pemahaman dan kognisi yang sama mengenai hal ini, apakah sebagian orang menganggapnya radikal, sebagian lagi menganggapnya konservatif, atau apakah sebagian orang menganggap rencana tersebut dapat diandalkan atau tidak.

Saya sebenarnya menghabiskan waktu lama untuk menjelaskan bagaimana kami beralih dari NPN ke tanpa grafik dan ujung ke ujung langkah demi langkah. Proses ini adalah proses menemukan dan memecahkan masalah. Setelah penyelarasan kognitif, pengambilan keputusan menjadi sangat cepat, dan kemampuan eksekusi yang kuat dari Li Auto adalah apa yang telah kami latih dan kumpulkan dalam beberapa tahun terakhir.

Dalam hal organisasi dan efisiensi, pembangunan rantai alat berbasis data atau infrastruktur sistem ini selama lima tahun terakhir sangatlah penting meskipun kita sekarang memiliki manusia, daya komputasi, dan data, jika Anda tidak memilikinya selesai Anda tidak dapat mengoperasikan rantai alat yang efisien secara efisien. Saya harus menggunakan infrastruktur kemampuan loop tertutup data otomatis untuk melakukan pengumpulan data, anotasi sampel, anotasi otomatis, pelatihan otomatis, dan kemudian evaluasi otomatis dan pengembangan berulang otomatis . Iterasi terus berlanjut sejak mobil pertama pada tahun 2019, sehingga kemampuan untuk membangun infrastruktur data tertutup yang ideal benar-benar merupakan yang terbaik di industri.

Mereka yang tidak dapat menginvestasikan US$1 miliar dalam daya komputasi setiap tahunnya akan tersingkir.

T: Anda pernah menyebutkan bahwa pengalaman berkendara cerdas yang ideal tertinggal setengah tahun dari Tesla.

Lang Xianpeng: Mulai dari Tesla FSD V12.3, kami sebenarnya rutin ke Amerika untuk mengujinya. Kami sudah mencobanya di pantai barat dan timur. Ini yang kami rangkum sendiri. Faktanya, Tesla saat ini berkinerja sangat baik di Pantai Barat Amerika Serikat, karena saat ini Tesla memiliki data terbanyak di California. Namun sesampainya di Boston dan New York, performanya akan turun tajam. Apalagi setelah sampai di New York, MPI (Mileage Per Intervention) pada dasarnya sudah mencapai sekitar 10 atau 11. Bahkan, level pengambilalihan di New York. York hampir sama dengan New York. Kinerja para pemimpin dalam negeri tidak memperlebar kesenjangan generasi. Namun kondisi lalu lintas di New York pun jauh lebih mudah dibandingkan di Shanghai dan Guangzhou, Tiongkok, itulah sebabnya kami berani mengambil kesimpulan atau mengatakan hal ini.

Di sisi lain, Tesla (di Amerika Serikat) dapat memperoleh banyak informasi yang tidak tersedia di China, seperti informasi peta. Faktanya, Google telah menyediakan banyak peta struktur jalan semacam ini memberi Anda informasi ini. Tesla Sebenarnya, saya mencapai pengalaman ini berdasarkan landasan yang sangat baik.Itu sebabnya kami mengatakan bahwa jika FSD datang ke Tiongkok, maka FSD seharusnya diuji di Shanghai sekarang. Menurut saya, FSD memerlukan banyak perbaikan, termasuk peta, karena FSD tidak bisa mendapatkan begitu banyak informasi yang kaya di peta, dan itu perlu dilakukan. membuat banyak modifikasi, jadi kami membuat penilaian ini.

T: Sasaran Ideal tahun ini adalah menjadi pemimpin mutlak dalam bidang mengemudi cerdas. Dimensi apa yang digunakan untuk mendefinisikannya?

Lang Xianpeng: Saya pikir pada akhirnya semuanya tergantung pada volume. Apakah model AD Max kami memimpin pasar dalam hal volume penjualan tahun ini? Faktanya, ini adalah indikator yang paling sulit. Saya hanya melihat mobil Max, bukan totalnya. Bulan ini saya menjual 50.000 mobil, tapi kalau AD Max hanya terjual 10.000 berarti apa yang saya lakukan dengan AD Max gagal. Tapi kalau saya bilang sukses, proporsi Max akan gagal Menjadi tinggi.

Pada bulan sejak kami meluncurkan 6.0 hingga peluncuran end-to-end, pemilik mobil kami sebenarnya sudah lebih banyak memasuki toko dan penjualan juga meningkat. Proporsi pesanan pengguna kami untuk AD MAX telah meningkat dari 37% di bulan Mei menjadi 49%. Untuk model L9, 75% pesanannya adalah untuk AD MAX. Menurut saya ini adalah hal yang paling meyakinkan ketika pengguna benar-benar membayar untuk produk Anda.

Bagi kami secara internal, kami juga sudah melakukan refleksi pada rapat strategi bulan Maret tahun ini, yaitu jangan terlalu melihat persaingan. Mengapa semua orang mengeluh tentang kualitas rata-rata versi pertama kami tanpa gambar pada paruh pertama tahun ini? Faktanya, masalahnya saat itu adalah kami terlalu memandang persaingan. Saat itu, kami menganggap Huawei sangat bagus benchmark kompetitif, dan tingkat pengambilalihan serta indikator produk menjadi milik kami Faktanya, melihat indikator ini saja, versi kami tidak buruk, tetapi pengalaman pengguna tidak bagus, jadi kami akhirnya mengubahnya menjadi pengalaman pengguna dan evaluasi daripada hanya melihat indikatornya, tapi indikatornya adalah acuan.

Pertanyaan: Setelah Tesla FSD diluncurkan dan menyelesaikan beberapa masalah pada kondisi jalan raya di Tiongkok, beberapa perusahaan mobil terkemuka mungkin berada pada garis awal yang sama.

Lang Xianpeng: Hal ini juga terkait dengan beberapa rencana kami selanjutnya. Mulai dari ujung ke ujung, semua orang akan benar-benar menggunakan kecerdasan buatan untuk melakukan mengemudi otonom. Begitu Anda memasuki arah ini, kesenjangan antara semua orang pasti akan semakin lebar. Daripada menjadi pengemudi tambahan seperti sekarang, Anda mengira seseorang dengan 7.000 yuan bisa melakukannya, bukan? Anda bisa melakukannya dengan 1 Orin, Anda bisa melakukannya dengan 2 Orin, Anda bisa melakukannya dengan 4 Orin, tetapi jika Anda benar-benar mencapai era kecerdasan buatan, semua orang sebenarnya akan melakukan dua hal.

Yang pertama adalah apakah Anda memiliki cukup data berkualitas tinggi, dan yang kedua adalah apakah Anda memiliki cluster dengan daya komputasi pelatihan yang cukup untuk menandinginya dua hal yang Sangat tinggi. Jika cadangan modal perusahaan Anda tidak cukup untuk mendukung biaya pelatihan tahunan Anda, Anda tidak akan dapat memainkan L3 atau L4 nanti. Jika perusahaan mobil Anda tidak memiliki banyak mobil seperti itu, data Anda sebenarnya tidak bisa mendukung kebutuhan pelatihan Anda.

Kami awalnya memperkirakan bahwa investasi tahunan ideal dalam biaya pelatihan adalah 1 miliar yuan. Kami memperkirakan biaya di masa depan adalah 1 miliar dolar AS per tahun. Ini hanya kekuatan komputasi pelatihan, dan tidak termasuk personel lain dan lainnya biaya. Jadi jika Anda tidak dapat menghabiskan 1 miliar dolar AS setahun untuk pelatihan, Anda mungkin tersingkir dalam kompetisi mengemudi otonom di masa depan.

Pertanyaan: Satu miliar dolar AS setahun, bagaimana menyimpulkannya?

Lang Xianpeng:Ini paling langsung dari perspektif parameter model. Mengambil Tesla sebagai contoh, FSD V12.3-12.5 memperluas model sebanyak 5 kali lipat, dan daya komputasi juga meningkat sebanyak 5 kali lipat memiliki sekitar 300 hingga 400 juta parameter, dan kemudian VLM Ini adalah 2,2 miliar parameter. Pada generasi Thor, kekuatan komputasinya telah meningkat pesat. Model ini tidak dapat tetap tidak berubah. Untuk meningkatkan batas atas untuk L3 dan L4, tentu saja pelatihan daya komputasi juga harus digandakan. Saya pikir ini logikanya.

T: Apakah pabrikan dalam negeri kini berada pada garis start yang sama dalam jalur end-to-end?

Lang Xianpeng: Pabrikan dalam negeri berada pada garis start yang sama dari ujung ke ujung, tapi menurut saya jika Anda melihat One Model, Ideal mungkin lebih unggul.Berdasarkan Satu Model, kami pertama kali merilis Bird Egg versi kami sendiri, dan itu adalah rilis dan pengiriman yang relatif besar dalam skala ribuan orang, dan semua orang memang pernah mengalami hal ini secara menyeluruh dan Peningkatan kinerja dan pengalaman yang ditimbulkan oleh hal seperti itu belum pernah ditunjukkan sebelumnya. Penilaian saya saat ini didasarkan pada dasar ini.

Pertanyaan: Mengenai masalah daya komputasi dan pembelian kartu, apakah perusahaan mendukungnya?

Lang Xianpeng: Perusahaan kami juga sangat mendukung. Sekarang Li Xiang datang sesekali bertanya, Lang Bo, apakah kartumu masih cukup? Jika Anda tidak memiliki cukup, mintalah seseorang untuk membantu Anda menyelesaikannya. Saya akan menjawab ya dan terima kasih. Meskipun kami melakukannya dengan sangat baik dalam semua aspek operasi kami, saya rasa Li Xiang memiliki pemahaman yang relatif menyeluruh tentang kecerdasan buatan. Oleh karena itu, kami tidak terlalu khawatir tentang daya komputasi, dll. Ketika saya ingin menyetujui anggaran, saya rasa dia akan mempertimbangkannya.

Pertanyaan: Anda menyebutkan bahwa tidak semua perusahaan mobil bisa melakukan self-driving, dari segi daya komputasi, berapa cadangan yang dibutuhkan untuk memenuhi standar tiket masuk?

Lang Xianpeng: Sekarang kita telah menerapkan cita-cita kita, kita harus memiliki pengeluaran daya komputasi sebesar 1 miliar yuan per tahun. Jika Anda tidak memilikinya, kecepatan iterasi Anda akan lambat atau produk Anda tidak akan cukup kompetitif. Di masa depan, kami berpikir bahwa 1 miliar dolar AS per tahun mungkin diperlukan untuk investasi daya komputasi seperti itu. Kami mungkin telah memperkirakannya sendiri. Kami sekarang memiliki sekitar 15.000 kartu, yang mana sudah cukup besar. Saya mengoordinasikan alokasi kartu masing-masing hari, namun seiring berjalannya waktu menurut saya peningkatan jumlah parameter model setidaknya 3-4 kali lipat (input), yang dirasa lebih masuk akal. Karena daya komputasinya sendiri telah meningkat pesat, bandwidth dan penyimpanannya juga meningkat pesat. Saya pikir ini pada dasarnya sesuai dengan perasaan 100.000 A100 yang kecil, yang mungkin berarti daya komputasi sekitar 3 miliar Flop.

Pertanyaan: Apakah investasi semacam ini tidak ada habisnya, atau akan ada batas atasnya, atau mungkin akan mendatar pada titik tertentu? Bagaimana cara memastikan keseimbangan komersialisasi?

Jia Peng: Dalam dua tahun terakhir, parameter model telah meningkat dari puluhan miliar menjadi triliunan, atau bahkan 10 triliun parameter. Ini adalah kurva yang sangat curam, tetapi baru-baru ini semua orang merenungkan satu hal lagi, apakah lebih besar lebih baik, dan sekarang kurva tersebut mulai menyusut sedikit. Mungkin membuat beberapa model besar di bidang profesional tidak memerlukan banyak parameter, selama karena kualitas datanya cukup Oke, jumlah parameter model saya mungkin tidak perlu terlalu besar. Ini adalah kurva HYPE. Mungkin akan turun lagi setelah beberapa saat, tapi menurut saya pada akhirnya akan mencapai keadaan stabil adalah jumlah parameter model atau daya komputasi, itu akan Ada proses seperti itu. Setiap orang akan mendaki dengan cepat pada awalnya, dan pada akhirnya, mereka mungkin kembali sedikit, dan kemudian mencapai kepraktisan yang nyata.

T: Di paruh pertama kompetisi listrik, Tesla,BYDKini setelah para pesaing tertinggal jauh, seperti apa kompetisi mengemudi cerdas di paruh kedua?

Lang Xianpeng:Paruh pertama adalah tentang elektrifikasi, dan babak kedua pastinya tentang intelijen. Selanjutnya, Anda pasti akan melihat sebagian dari investasi dan kinerja kami di bidang intelijen, dari ujung ke ujung, hanyalah permulaan.

berita

Eksekutif Li Auto: Jika kita tidak menginvestasikan US$1 miliar pada daya komputasi setiap tahun di masa depan, kita akan tersingkir

Setiap orang "buta dan menyentuh gajah", dan Ideal telah memberikan rencana terbaik

Arti penting dari end-to-end adalah bahwa hal ini pada dasarnya mengubah keseluruhan proses penelitian dan pengembangan.

Mereka yang tidak dapat menginvestasikan US$1 miliar dalam daya komputasi setiap tahunnya akan tersingkir.

Perkenalan

informasi kontak saya