berita

Aktor terbaik SenseTime Wang Xiaogang: Sekalipun pendekatan end-to-end "dua tahap" diterapkan selama sepuluh tahun ke depan, pendekatan ini tidak akan menjadi "ChatGPT" untuk mengemudi yang cerdas.

2024-07-15

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


Wang Xiaogang, salah satu pendiri dan kepala ilmuwan SenseTime Technology dan presiden Jueying Intelligent Automotive Business Group

Pada WAIC 2024 yang baru saja berakhir, SenseTime merilis video one-shot.

Dalam video tersebut, kendaraan UniAD yang hanya dilengkapi 7 kamera tidak hanya dapat leluasa melintasi jalan konstruksi perkotaan, persimpangan besar, dan persimpangan lampu lalu lintas tanpa gambar, tetapi juga dapat dengan lancar menavigasi jalan pedesaan dengan kondisi lalu lintas yang kompleks. Anda dapat menghindari kendaraan diam yang diparkir di pinggir jalan dan kendaraan di jalur sempit, dan Anda juga dapat berbelok ke kanan pada tikungan besar tanpa jalur.

Rangkaian gerakan berkendara sehalus sutra ini sungguh mengesankan. Di balik hal tersebut terdapat solusi berkendara otonom end-to-end UniAD yang diusulkan oleh SenseTime Jueying, yang merupakan yang pertama di industri yang mengintegrasikan persepsi dan pengambilan keputusan.

Dalam beberapa tahun terakhir, mengemudi cerdas telah menjadi fokus perusahaan mobil, namun tingkat mengemudi sebenarnya seringkali tidak memuaskan. Setelah munculnya ChatGPT, industri penggerak cerdas juga menantikan momen perubahan kualitatif yang sama.

Pada saat ini, "end-to-end" menunjukkan suatu arah. Sejak tahun ini, industri mengemudi cerdas semakin menaruh perhatian pada end-to-end. Baik itu perusahaan mobil seperti Xpeng, Ideal, NIO, atau Great Wall, atau penyedia teknologi seperti Huawei, Yuanrong Qixing, dan Haomo Zhixing, semuanya telah beralih ke jalur end-to-end.

Pada awal tahun 2022, SenseTime Jueying mengusulkan UniAD, sebuah model umum untuk mengemudi otonom terintegrasi dalam persepsi dan pengambilan keputusan. DriveAGI juga secara iteratif didasarkan pada UniAD. Ia menggunakan model besar multi-moda untuk mendukung solusi ujung ke ujung untuk menciptakan teknologi mengemudi otonom generasi berikutnya. Sekalipun Anda bertemu ambulans di jalan, dengan kemampuan kognitif DriveAGI, kendaraan tersebut dapat mengidentifikasi dan memahami target secara akurat dan secara aktif memberi jalan.


DriveAGI tidak hanya dapat mengidentifikasi ambulans, tetapi juga secara proaktif memberikan jalan kepada ambulans yang bertugas.

Setelah dua tahun perencanaan proaktif, keunggulan SenseTime Jueying dalam hal masuknya lebih awal dan iterasi cepat secara bertahap mulai muncul. Perusahaan ini telah bekerja sama dengan lebih dari 30 perusahaan mobil dalam dan luar negeri, mencakup lebih dari 90 model, dan telah mengirimkan total 1,95 juta mobil pintar. . Selama proses kerja sama, SenseTime Jueying dan perusahaan mobil telah menemukan batasan masing-masing, memanfaatkan keunggulan masing-masing, dan bekerja sama untuk mempercepat hadirnya "momen GPT" dalam mengemudi otonom.

Kalau jalur teknisnya salah, naik bus pun akan sia-sia.”

Pada saat banyak pemain berkumpul untuk memasuki bidang end-to-end, Wang Xiaogang, salah satu pendiri, kepala ilmuwan SenseTime, dan presiden Jueying Intelligent Automotive Business Group, mengulas di TMTpost Media App mengapa dia yang pertama untuk fokus pada ujung ke ujung?

Pada tahun 2017, SenseTime dan Honda Motor Jepang mengumumkan kerja sama untuk bersama-sama mengembangkan teknologi penggerak otonom L4. SenseTime sendiri dimulai dengan teknologi AI vision. Saat itu, Honda meminta SenseTime untuk hanya menggunakan kamera dan menerapkan fungsi berkendara cerdas tanpa peta presisi tinggi. Sejak itu, tim terus bekerja secara end-to-end.

Saat ini, meskipun persaingan end-to-end sedang berjalan lancar, permasalahan yang umum terjadi adalah jalur teknis end-to-end belum membentuk praktik terbaik, dan terdapat perbedaan pada jalur teknis.

Wang Xiaogang mengatakan kepada TMTpost App bahwa sebagian besar solusi end-to-end saat ini mengadopsi solusi “dua tahap” yang lebih mudah diterapkan, yaitu terdiri dari dua model: persepsi dan pengambilan keputusan. “Bagian persepsi paragraf pertama sendiri sudah menggunakan jaringan syaraf tiruan, jadi tidak banyak perubahan. Perubahan terbesar ada pada bagian perencanaan dan pengendalian paragraf kedua. Awalnya bagian ini diwujudkan dengan penulisan aturan, namun sekarang juga berlaku. jaringan saraf. Lakukan."

Namun, menurutnya, solusi "dua tahap" adalah menghubungkan dua model kecil dan bersama-sama mengoptimalkannya secara end-to-end. Pada solusi “dua tahap”, setelah informasi disaring oleh model persepsi, banyak terjadi kerugian, hanya menyisakan beberapa label seperti orang, mobil, dan benda, sehingga model tahap kedua sebenarnya hanya sebagian kecil. model. Perbedaan inti antara rencana dua tahap dan rencana satu tahap adalah apakah ini era model kecil atau era model besar.

Wang Xiaogang dengan blak-blakan mengatakan bahwa meskipun solusi "dua tahap" diterapkan selama 10 tahun ke depan, solusi tersebut tidak akan menjadi "ChatGPT" untuk mengemudi otonom.

Justru dengan mempertimbangkan permasalahan ini, sejak awal penelitian dan pengembangan, SenseTime Jueying telah mengadopsi solusi "satu langkah" yang mengintegrasikan persepsi, pengambilan keputusan, perencanaan, dan modul lainnya ke dalam Transformer end-to-tumpukan penuh. model akhir untuk mencapai persepsi dan pengambilan keputusan yang terintegrasi. Artinya, masukan sensor digunakan untuk langsung mengeluarkan lintasan perilaku.

Dalam proses ini, mesin akan mensintesis informasi dan berpikir serta menilai seperti otak manusia, sama seperti Anda sedang membaca novel misteri. Ada berbagai karakter dan plot dalam novel, termasuk ruang rahasia dan misteri novel Benar-benar tidak jelas apa yang akan terjadi selanjutnya. Melalui berbagai karakter dan plot dalam novel, Anda dapat memprediksi beberapa kemungkinan pembunuhnya. Apa yang dilakukan otak mesin seperti novel misteri.

Namun, meskipun hanya ada satu perbedaan kata antara rencana satu tahap dan rencana dua tahap, tingkat kesulitannya sangat berbeda. Wang Xiaogang menjelaskan bahwa dengan rute satu tahap, jumlah informasi video di ujung depan sangat besar, tetapi sinyal keluarannya harus sangat akurat, sehingga memerlukan persyaratan yang lebih tinggi pada pelatihan, data, dan saluran pipa seluruh jaringan.

"Solusi 'satu tahap' memang sulit, tetapi begitu modelnya dipelajari, kemampuannya akan menjadi sangat kuat. Ini adalah momen 'ChatGPT' dalam mengemudi otonom yang sedang kami kejar."

Model mengemudi otonom menyeluruh bukanlah jawaban akhir untuk mengemudi otonom.”

Pemilihan jalur teknis merupakan langkah awal. Pada akhir tahun 2022, SenseTime dan laboratorium gabungannya mengusulkan UniAD, model universal pertama di industri untuk mengemudi otonom terintegrasi dalam persepsi dan pengambilan keputusan, dan memenangkan makalah terbaik pada Konferensi Internasional tentang Visi Komputer dan Pengenalan Pola (CVPR) tahun 2023. tahun berikutnya.

Pada Beijing Auto Show tahun ini, SenseTime Jueying mendemonstrasikan hasil kendaraan nyata UniAD di jalan raya, yang dapat melaju dengan bebas di jalan perkotaan dan jalan pedesaan. Segera setelah itu, di WAIC 2024, SenseTime menunjukkan demonstrasi kendaraan UniAD di kehidupan nyata di jalan perkotaan yang kompleks, jalan pedesaan, dll.

UniAD adalah model universal mengemudi otonom visual end-to-end. Meskipun meningkatkan kemampuan mengemudi dari sistem mengemudi cerdas, model mengemudi otonom end-to-end murni bukanlah jawaban akhir untuk mengemudi otonom. Wang Xiaogang mengatakan bahwa tanda penting mobil pintar menjadi super cerdas adalah semakin memiliki kemampuan persepsi, penalaran, pengambilan keputusan, dan interaksi di dunia terbuka. Oleh karena itu, SenseTime Jueying telah menciptakan DriveAGI, model berkendara cerdas yang besar berdasarkan model besar multimodal.

Arah evolusi DriveAGI adalah menjadikan berkendara cerdas end-to-end “dapat ditafsirkan dan interaktif”.

Yang disebut kemampuan menjelaskan berarti tidak hanya memungkinkan kendaraan untuk memahami dunia nyata yang kompleks seperti manusia, mendapatkan wawasan tentang motivasi perilaku berbagai peserta lalu lintas, dengan cepat mempelajari berbagai peraturan lalu lintas, memahami informasi jalan yang selalu berubah, tetapi juga menjelaskan cara mengemudi. keputusan kepada pengguna.

Misalnya, kendaraan yang biasa melaju di sisi kanan jalan dua jalur dilengkapi dengan DriveAGI, ketika menemukan ambulans mendekat dari belakang, ia dapat langsung mengenalinya dan menentukan ambulans tersebut sedang bertugas. Oleh karena itu, untuk pertama kalinya dinilai ada ruang untuk berpindah jalur di sisi kiri jalan, dan sisi kanan jalan diubah ke sisi kiri pada waktunya untuk memastikan ambulans dapat lewat dengan lancar dan cepat. Keseluruhan prosesnya mirip dengan otak manusia. Tidak hanya dapat melihat dengan jelas berbagai situasi yang dihadapi di jalan, tetapi juga dapat berpikir dan menilai berdasarkan peraturan lalu lintas serta membuat tindakan mengemudi yang benar.

Interoperabilitas berarti bahwa pengguna tidak hanya dapat meminta DriveAGI untuk menjelaskan proses pengambilan keputusan mereka, namun juga mengontrol perilaku mengemudi otonom melalui instruksi suara atau isyarat. Misalnya pada masa depan dalam mengemudi otonom, navigasi memerintahkan kendaraan untuk berbalik pada persimpangan berikutnya untuk mencapai tujuan, tetapi pengemudi mengetahui bahwa ada jalan pintas di depan dan dapat langsung berbelok, maka ia hanya perlu mengatakan "belok kiri langsung" ke sistem. Sistem akan menjalankan perintah ini berdasarkan kondisi jalan saat ini.

Dari operasi kotak hitam dan keluaran satu arah hingga kemampuan interpretasi dan interaktivitas, trik utamanya adalah cara melatih model.

Elemen pertama dari pelatihan model adalah sejumlah besar data dan parameter model yang besar. Musk sebelumnya telah berbicara tentang pentingnya data untuk model self-driving: 1 juta kasus video dilatih, itu tidak cukup; 2 juta, yang sedikit lebih baik; sulit dipercaya.

Wang Xiaogang juga mengatakan bahwa struktur jaringan saat ini bukanlah rahasia inti, dan struktur jaringan setiap orang relatif sama. Kuncinya adalah bagaimana mencapai kualitas kinerja yang unggul dalam struktur jaringan serupa. Hal ini terutama bergantung pada apakah ukuran model cukup besar dan apakah jalur produksi data kuat.

Setelah terlibat secara mendalam di bidang AI selama sepuluh tahun, SenseTime telah diterapkan di banyak industri, termasuk intelijen perkotaan, perdagangan, perawatan medis, keuangan, mengemudi otonom, dan bahkan skenario industri seperti baja, pertambangan batu bara, dan tenaga listrik. dan telah mengumpulkan sejumlah besar data multimodal di berbagai industri. Pada tanggal 5 Juli, SenseTime Jueying mendemonstrasikan secara langsung di WAIC 2024 bahwa solusi penerapan ujung mobil model 8B yang dipasang pada platform 200 TOPS+ memiliki 8 miliar parameter.


Performa model multimodal 8B sisi akhir kendaraan SenseTime Jueying

Kalau kuantitasnya ada, kualitasnya juga harus terjamin. Wang Xiaogang mengatakan bahwa kita tidak bisa hanya fokus pada jumlah data dan jumlah parameter model. Jika tidak ada tugas yang sulit, meskipun jumlah data dan parameter ditingkatkan, kemampuan model hanya akan berputar di tempatnya.

Kemudian, ia memberi contoh: Lebah dapat bekerja di sarang lebah yang begitu rumit, dengan sangat akurat dan baik, namun mereka selalu hanya memiliki satu keterampilan dan hanya dapat melakukan satu hal. Otak manusia berbeda. Setelah ribuan tahun berevolusi, manusia dapat mengirimkan satelit dan roket ke angkasa. “Inilah perbedaan antara kemampuan umum dan kemampuan eksklusif. Seekor lebah hanya melakukan satu hal seumur hidupnya, dua kehidupan, atau tiga kehidupan. Sama seperti model, jika Anda hanya memberinya data tentang orang, mobil, dan benda, ia akan akankah ia hanya dapat melakukan ini selama sisa hidupnya.”

Selain data, pasokan daya komputasi yang kuat merupakan faktor yang paling langka dan kompetitif saat ini.

SenseTime Jueying adalah salah satu dari sedikit pemasok daya komputasi utama di industri ini. Mulai tahun 2018, SenseTime mulai menata infrastruktur komputasi dan membangun pusat komputasi cerdas AIDC di Lingang, Shanghai. Pusat komputasi ini memiliki 45.000 GPU untuk menyediakan pelatihan model besar dan layanan inferensi ke dunia luar, dan dapat melatih model dengan jumlah ratusan miliar atau bahkan. triliunan parameter. Mengandalkan dukungan AIDC, daya komputasi operasional SenseTime Jueying telah mencapai 12.000 P. Diperkirakan pada kuartal keempat tahun 2024, daya komputasi puncak akan mencapai 25.000 P.

Jangan mengecualikan pemberian kotak putih, hanya ketika vegetasi tumbuh subur kita dapat mencapai hasil ekologis yang saling menguntungkan.”

Sebagus apapun teknologinya, kuncinya tetap terletak pada implementasinya.

Wang Xiaogang memperkenalkan bahwa produk mengemudi cerdas SenseTime Jueying telah diluncurkan pada berbagai merek dan model seperti GAC Aion LX Plus, Hezhong Nezha S, GAC Haopin GT, dan Hongqi serta fungsi lainnya diimplementasikan. Pada saat yang sama, Jueying juga mempromosikan pengiriman lebih banyak model. Pada awal Juni, GAC dan FAW dipilih ke dalam gelombang pertama proyek percontohan L3 domestik, dan SenseTime Jueying memberi mereka algoritma persepsi berorientasi L3. Tidak hanya itu, berbagai solusi mengemudi cerdas SenseTime Jueying yang diproduksi secara massal saat ini dapat ditingkatkan ke arsitektur end-to-end di masa depan.

Mereka memiliki banyak pelanggan dan pesanan, namun penyedia solusi teknologi yang diwakili oleh SenseTime Jueying harus menghadapi masalah - penelitian mandiri yang dilakukan oleh perusahaan mobil.

Ambil contoh Tesla. Karakteristiknya adalah ia menggunakan AI dan memiliki sejumlah besar infrastruktur, seperti ribuan GPU. Ia juga memproduksi jutaan mobil setiap tahun dan menyimpan informasi dan data pengguna akhir.

Akankah perusahaan mobil lain mengikuti jejaknya? Dan apakah bisa ditiru? Wang Xiaogang mengatakan bahwa bahkan perusahaan sekuat dan kaya sumber daya manusia seperti Microsoft telah memilih untuk memutus tim AI-nya dan malah bekerja sama dengan OpenAI.

Pada saat yang sama, ia menjelaskan bahwa apa yang disebut “penelitian mandiri” tidak berarti Anda harus melakukan semuanya sendiri dari awal hingga akhir. "Selama pelanggan perusahaan mobil memahami dan memimpin dalam mengendalikan segala sesuatu yang terjadi, dan dapat menggunakan platform mereka sendiri untuk mengulangi produk, itu sudah cukup."

Oleh karena itu, dalam hal metode kerjasama, di masa lalu SenseTime Jueying cenderung mengirimkan kode sebagai kotak hitam, percaya bahwa ini adalah aset paling berharga. Namun Wang Xiaogang mengungkapkan bahwa kini SenseTime Jueying tidak menolak pengiriman white box. Karena meskipun kode tersebut diberikan, daya saing dapat dengan cepat ditingkatkan melalui iterasi dan kerja sama yang lebih dalam.

Selain itu, kerja sama juga dapat membantu perusahaan mobil menghemat uang. "Kami telah berinvestasi lebih dari 10 miliar pada model-model besar dan dalam prosesnya membangun infrastruktur kami sendiri, instalasi besar, dan layanan cloud yang menguntungkan untuk mencapai titik impas. Dengan bekerja sama dengan kami, perusahaan mobil tidak perlu menanggung beban ini. Beberapa investasi besar . Produsen mobil tidak perlu terlibat sendiri dalam bidang ini, kami akan membuka sumber daya yang relevan untuk produsen mobil.”

Namun, ia juga mengakui bahwa salah satu permasalahan yang dihadapi dalam kerja sama dengan perusahaan mobil adalah kurangnya feedback data. Biasanya umpan balik data terminal bergantung pada inisiatif yang diberikan oleh produsen mobil, yang dapat menyebabkan iterasi dan siklus data tidak efisien. Oleh karena itu, kerja sama yang mendalam dengan pelanggan perusahaan mobil sangatlah penting.

Melalui pengiriman kotak putih, SenseTime Jueying membantu mitra perusahaan mobil memahami teknologi model besar dan menguasai pengetahuan. Di sisi lain, OEM sebagai mitra dapat berbagi data dan informasi yang tidak melibatkan privasi dan kerahasiaan dengan Jueying model besar yang berasal dari kendaraan, dan kedua pihak akan bersama-sama mengembangkannya untuk mempercepat iterasi produk dan menciptakan produk model besar berbasis AI mobil pintar yang benar-benar berpusat pada pengguna.

Berdasarkan kekuatan komputasi melimpah yang terdepan di industri dan kemampuan model besar "Ririxin" yang terdepan di dunia, dan melalui model kerja sama strategis yang lebih mendalam, SenseTime Jueying akan menciptakan situasi saling menguntungkan dengan banyak mitra seperti OEM.

SenseTime Jueying telah menetapkan waktu peluncuran model besar end-to-end pada tahun 2025. Wang Xiaogang mengatakan bahwa ketika ChatGPT keluar, tidak semuanya dilakukan dengan sempurna. Misalnya, ketika GPT 3.5 sedang melakukan tugas, ada banyak hal yang tidak dapat dilakukan lakukan. bagus. Namun kuncinya adalah semua orang telah melihat arah yang benar. Tidak ada masalah dalam mengikuti jalur ini, namun perlu beberapa bulan lagi untuk mengulanginya. Hal yang sama berlaku untuk ujung ke ujung.

Pada saat yang sama, dia juga dengan percaya diri menyatakan bahwa ketika produksi massal end-to-end SenseTime Jueying dimulai tahun depan, pengguna akan melihat hal-hal yang sebelumnya tidak mungkin dilakukan dalam beberapa skenario, dan itu akan menjadi kemampuan baru yang muncul.

Wu Xinzhou, wakil presiden divisi otomotif NVIDIA, pernah secara terbuka menyatakan bahwa end-to-end adalah lagu terakhir dari trilogi mengemudi cerdas. Dalam perjalanan menuju akhir, Shangtang Jueying layak mendapatkan fokus dan ekspektasi.