berita

Pengawas Ph.D. Universitas Peking pasca tahun 90-an membuat robot humanoid, tidak belajar dari Tesla

2024-08-17

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Amerika Serikat bukanlah model bagi Tiongkok.

Teks 丨 Wang Yutong
Editor丨Cheng Manqi

Pada bulan Mei tahun ini, sekelompok pekerja baru dengan tinggi 1,72 meter datang untuk bekerja di pabrik Texas di Amerika Serikat. Mereka bertanggung jawab untuk memuat sel baterai berbentuk silinder 4680 dari meja transfer ke dalam kotak merah di depan mereka . Mereka tidak terlalu terampil, bahkan lamban dan kikuk. Tapi para pekerja ini adalah Optimus, robot humanoid yang akan dirilis Tesla pada tahun 2022, dan semuanya berbeda.

"Skenario penggunaan sempurna", "kemajuan pesat" dan "peringatan pengangguran", di bawah video robot yang dirilis oleh Tesla, komentar orang berkisar dari seru hingga khawatir.

Wang He tidak berpikir demikian. Menurutnya Optimus "masih dalam tahap penelitian (penelitian)".

Wang He, lahir pada tahun 1992, saat ini adalah asisten profesor dan supervisor doktoral di Frontier Computing Research Center Universitas Peking, ia lulus dari Departemen Elektronika Universitas Tsinghua dengan gelar sarjana dan Ph.D telah berpartisipasi dalam CVPR ICCV, konferensi teratas tentang visi komputer, robotika, dan kecerdasan buatan. Tunggu lusinan makalah untuk diterbitkan.

Setelah Mei tahun lalu, Wang He menarik lebih banyak perhatian sebagai juru mudi perusahaan robot cerdas "Galaxy General". Pada bulan Juni tahun ini, Galaxy General memecahkan rekor pembiayaan angel round 2024 dengan pembiayaan sebesar 700 juta yuan.

Sebagian besar perusahaan membuat robot humanoid lengkap. Wang He yakin bahwa kaki bukanlah solusi optimal pada tahap ini dan hanya akan meningkatkan biaya. "Bukan karena kemampuan pengoperasian robot humanoid cukup kuat, tetapi tidak memiliki kaki. Hanya saja masih banyak tugas yang tidak dapat dilakukan oleh lengan robot tradisional." Wang He menilai tangannya lebih berharga saat mendarat di tempat kejadian. dan sejumlah besar adegan sebenarnya tidak memerlukannya. Dengan kemampuan motorik yang memadai, seperti inspeksi dan patroli, robot anjing dapat melakukan hal yang sama seperti mobil.

Galbot Galaxy Universal memungut sampah. Ia tidak memiliki kaki, tetapi sasis berkaki tunggal + beroda yang dapat dilipat.

Memperoleh data yang cukup merupakan kesulitan dalam pengembangan kecerdasan yang diwujudkan. Tesla dan Google telah memilih untuk menggunakan "teleoperasi" untuk mengumpulkan data, yaitu membiarkan orang sungguhan memakai beberapa peralatan pengumpulan untuk menyelesaikan tindakan yang perlu dipelajari robot. Wang He merasa ini bukan hal yang bagus: "Google membutuhkan lebih dari sepuluh bulan dan puluhan juta dolar untuk menghasilkan ratusan ribu data." Galaxy Universal memilih semuanya dalam "Sim2Real (migrasi dari simulasi ke mesin nyata )", yaitu, terutama mengandalkan data simulasi sintetik.

Perusahaan robot humanoid di Amerika Serikat memiliki banyak uang dan berani. Salah satu pengamatan Wang He adalah bahwa hal ini menghalangi mereka untuk secara ketat mencari PMF (Product Market Fit, product and market fit). punya uang, mereka hanya mengumpulkan semuanya sekaligus. Semuanya selesai”. Namun, masalah industri seperti kurangnya data nyata dan perangkat keras yang tidak stabil harus diselesaikan sesuai skenario, sehingga ia yakin komersialisasi harus dipertimbangkan sejak hari pertama.

“Kita tidak boleh menganggap apa yang dilakukan Tesla sebagai standar.” Wang He mengatakan bahwa startup Tiongkok “jika mereka masih menceritakan kisah orang lain tanpa modal yang melimpah di Amerika Serikat, itu hanya akan menjadi jalan buntu.”

Wang He tidak setuju dengan Tesla, dan banyak orang di industri ini tidak setuju dengan Galaxy GM. Mengambil Sim2Real, yang diminati Wang He, sebagai contoh, banyak praktisi percaya bahwa ada perbedaan alami antara data sintetis simulasi dan dunia nyata, yang akan mempengaruhi efek pelatihan. Setelah robot pertama Galaxy Universal, Gabot, dirilis, beberapa penentang mengatakan mereka merasa "lega": "Ada kesenjangan besar antara demo dan aplikasi sebenarnya", "Saya menulis banyak makalah tentang meraih, dan yang terakhir adalah isap cangkir. "

Pertanyaan yang lebih besar adalah sekarang bukan saatnya memulai bisnis pembuatan robot humanoid. Beberapa investor percaya bahwa perusahaan-perusahaan ini akan menjadi martir karena banyak teknologi seperti perangkat keras, material, dan energi yang belum matang. Kaifu Lee berbicara tentang kecerdasan yang diwujudkan dan berkata, "Kami pasti tidak dapat berinvestasi sekarang pada sesuatu yang akan terjadi 10 tahun kemudian." Dai Yusen, mitra Zhenge, mengatakan bahwa perwujudan tersebut masih dalam era BlackBerry dan tidak dapat berinvestasi pada iPhone .

Robot humanoid dan kecerdasan yang diwujudkan masih dalam tahap awal, dan ini adalah industri dengan rantai panjang dan tumpukan teknologi yang kompleks, termasuk AI, material, energi, kontrol mekanis, manufaktur, manajemen rantai pasokan, pengembangan pelanggan, dan pada akhirnya perusahaan yang bertahan Tidak boleh ada kekurangan.

Masih terlalu dini untuk menentukan pemenangnya, namun wawancara ini mencatat apa yang dilihat oleh seorang ilmuwan muda setahun setelah berangkat. Dia sekarang percaya bahwa meskipun perusahaan besar memiliki lebih banyak sumber daya, mereka belum tentu benar. Ini adalah peluangnya.

Kecerdasan yang diwujudkan dan masyarakat manusiapembagi persekutuan terbesar dari

"Nanti": Anda telah mempelajari kecerdasan yang diwujudkan saat ini sejak 2016 - menggabungkan model visual, model bahasa alami, dan model operasi robot. Apa yang Anda lihat dari penelitian dan pengembangan selama bertahun-tahun?

Wang He: Saya sedang mengerjakan kecerdasan yang diwujudkan ketika saya sedang belajar untuk PhD. Pada saat itu, hal itu tidak disebut "kecerdasan yang diwujudkan". Awalnya, saya menggabungkan tiga model kecil yang terpisah ini untuk mencapai estimasi pose objek tingkat kategori (pose: an objek Posisi dan postur dalam ruang tiga dimensi; estimasi posisi: menemukan postur suatu objek) sebenarnya merupakan operasi bimanual.

Setelah kembali ke Tiongkok dan sebelum mendirikan di sini, saya memasang lengan di belakang robot anjing Yushu dan mencoba membuatnya melakukan serangkaian operasi. Namun, kami menemukan bahwa banyak aspek komputasi, sumber daya, dan bahkan keseluruhan sistem tidak dapat memenuhi kebutuhan kami.

Pada saat itu, saya merasa jika kami tidak membuat perangkat keras, kami harus bergantung sepenuhnya pada pihak lain, dan iterasi pengembangan sistem akan terbatas. Ketika industri robot belum ada, sulit untuk hanya melakukan intelijen.

"Nanti": Perubahan apa yang terjadi kemudian? Mengapa Anda memutuskan untuk memulai bisnis pada tahun 2023?

Wang He: Kewirausahaan cerdas yang diwujudkan mulai berkembang di Tiongkok lebih awal dibandingkan di Amerika Serikat. Alasan utamanya adalah kematangan perangkat keras dan ontologi.

Industri manufaktur di Amerika Serikat tidak memungkinkan produksi demo lengkap dari intelijen yang diwujudkan secara cepat. Pasokan suku cadang di Amerika Serikat tidak lengkap, banyak barang harus diimpor, dan terdapat kekurangan insinyur perangkat keras. Produksi perangkat keras Tiongkok dapat mencapai biaya terendah dan keandalan tertinggi. Misalnya, robot humanoid Yushu dapat dibuat oleh beberapa orang dalam waktu setengah tahun.

Namun ontologi hanyalah mainan besar. Langkah selanjutnya adalah bagaimana bersaing dalam hal kecerdasan. Pada tahun 2023, model multimodal besar seperti PaLM-E telah muncul di seluruh dunia, dan percikan antara persepsi multimodal dan operasi yang diwujudkan telah tersulut. Saya memutuskan untuk memulai bisnis saat ini.

"Nanti": Mengapa Anda memilih untuk memulai robot humanoid? Pembawa kecerdasan yang diwujudkan belum tentu bersifat humanoid.

Wang He: Bentuknya memang bermacam-macam, antara lain anjing, pesawat terbang, dan mobil. Namun di antara semua bentuk, kesamaan terbesar antara kecerdasan yang terkandung dan masyarakat manusia hanyalah “bentuk manusia”.

Karena seluruh produksi dan lingkungan hidup dirancang untuk manusia, humanoid dapat melakukan operasi paling banyak, akan memiliki jumlah terbesar di masa depan, dan akan memiliki nilai keluaran ekonomi terbesar. Dari sudut pandang penglihatan, kecerdasan yang diwujudkan dan robot humanoid dapat disamakan.

"Terlambat": Banyak orang percaya bahwa peluang kewirausahaan untuk mewujudkan kecerdasan belum tiba. Sekarang perusahaan-perusahaan ini akan menjadi martir, dan banyak teknologi seperti perangkat keras, material, dan energi belum matang. Misalnya, ketika Kai-fu Lee berbicara tentang kecerdasan yang diwujudkan, dia berkata, "Kami pasti tidak bisa berinvestasi pada sesuatu yang akan terjadi 10 tahun kemudian." Dai Yusen, mitra di Zhenge, mengatakan bahwa perwujudan masih dalam era BlackBerry dan tidak dapat berinvestasi di iPhone.

Wang He: Ketika saya bertemu dengan Tuan Kaifu Li pada tahun 2019, dia berkata bahwa itu akan memakan waktu 50 tahun lagi. Sekarang usianya telah meningkat dari 50 tahun menjadi 10 tahun.

Kita tidak bisa menggunakan ponsel sebagai analogi dengan kecerdasan yang diwujudkan. Dari telepon fungsional hingga ponsel pintar, teknologi telah banyak berubah, dan sekarang arah teknis dari kecerdasan yang diwujudkan telah jelas: ontologi diintegrasikan dengan model besar untuk menjadi robot universal. .

Saat ini, semakin awal permainan berakhir, semakin banyak teknologi dan data yang terkumpul, yang akan memperlebar kesenjangan di tahap selanjutnya. Setelah robot memasuki lokasi, data dari lokasi sebenarnya akan menambah kecerdasannya. Sangat sulit bagi pendatang baru untuk mengungguli perusahaan yang telah memiliki puluhan ribu robot, terus-menerus mengalirkan data nyata, dan telah mengalami kesulitan dalam dunia robot.

Ini danMengemudi otonomDemikian pula, hanya dengan menjual mobil dalam jumlah yang cukup maka akan terdapat cukup data, dan data tersebut dapat digunakan untuk meningkatkan algoritme dengan lebih cepat. Dalam pertarungan antara Google dan Tesla, Tesla menang karena memiliki cukup mobil.

Kecerdasan yang diwujudkan memiliki potensi untuk tumbuh menjadi pasar yang sebanding dengan mobil. Ini memiliki karakteristik yang sama dengan perubahan teknologi sebelumnya: lambat pada awalnya dan secara bertahap menggantikan robot tujuan khusus; tetapi ketika mencapai skala 10.000 unit, hal ini akan mempercepat penggantian industri tradisional.

“Terlambat”: Salah satu faktanya adalah ledakan kewirausahaan intelijen yang diwujudkan terjadi pada tahun 2017 ObrolanGPT dan kegilaan model besar. Namun faktanya, model berukuran besar hanya dapat memecahkan sebagian kecil dari masalah kecerdasan yang terkandung, sehingga sebagian orang menganggapnya masih terlalu dini.

Wang He: Kecerdasan yang diwujudkan adalah produk integrasi perangkat lunak, perangkat keras, dan algoritme. Pada tahap ini titik integrasinya dengan model besar adalah: persepsi umum dan komunikasi bahasa, yaitu pemecahan masalah interaksi. Misalnya, seseorang datang ke toko obat dan bertanya pada robot obat apa yang harus diminum saat merasa tidak nyaman? Hanya robot yang mengetahui nama dan lokasi obat yang dapat berbicara dengan manusia.

Kombinasi lainnya adalah saat melakukan operasi tertentu seperti mengambil dan menempatkan objek, robot juga telah merealisasikan end-to-end berdasarkan model besar (lintasan robot langsung dikeluarkan setelah memasukkan informasi sensorik). model besar akan berperan dalam keseluruhan perencanaan global.

Secara keseluruhan, model besar kini bersifat tambahan, namun kombinasi model besar dan model kecil dapat menghasilkan robot universal.

"Terlambat": Rute Galaxy adalah model visual tiga dimensi kecil + model dasar yang besar.

Wang He: Sama seperti kita manusia yang memiliki Sistem 1 dan Sistem 2, berpikir cepat dan berpikir lambat adalah kemampuan otak kecil, sedangkan pada robot adalah keterampilan seperti kontrol interaktif dan pengoperasian yang cekatan, yang dapat ditangani dengan model kecil. ; yang terakhir adalah Kemampuan otak adalah kognisi, pemahaman, perencanaan, dan pemecahan masalah dengan model besar.

Ini adalah sistem tiga lapisan: lapisan bawah adalah perangkat keras, lapisan tengah adalah model kecil yang dapat melakukan berbagai keterampilan, dan lapisan atas adalah model dasar besar yang bertanggung jawab untuk perencanaan tugas. Setelah robot menerima instruksi, model besar bertanggung jawab memanggil model kecil di lapisan tengah. Setelah model kecil dieksekusi, model besar akan mempelajari langkah selanjutnya berdasarkan hasilnya.

Kaki tidak begitu penting;Tangan adalah kuncinya

"Nanti": Semuanya humanoid. Sebagian besar perusahaan di industri memiliki robot berkaki. Robot pertama Anda, Galbot, memiliki sasis beroda + tangan.

Wang He: Pertanyaan paling penting adalah, nilai apa yang dapat dihasilkan produk Anda? Biped hanya menyelesaikan masalah lalu lintas dan tidak memiliki kemampuan operasional, sehingga hanya dapat melakukan patroli, inspeksi dan adegan lainnya. Ini bukan perubahan kualitatif dari penggunaan mobil dan anjing di masa lalu.

Namun tangan dapat melakukan produksi fleksibel yang tidak dapat dilakukan oleh robot tradisional. Pekerjaan ini sebagian besar merupakan pekerjaan kasar di industri padat karya dan lebih mudah untuk digeneralisasikan. Ada banyak ruang dan skenario yang imajinatif, sehingga tubuh bagian atas lebih penting daripada tubuh bagian bawah.

"Terlambat Nanti": Mana yang lebih sulit, kemampuan mengoperasikan tangan atau kemampuan melakukan gerakan kaki yang rumit? Bentuk akhir yang diimpikan semua orang adalah bentuk manusia seutuhnya. Akankah perusahaan yang pertama kali didirikan tidak mampu mengimbanginya ketika ingin menambah kemampuan atletiknya?

Wang He: Saat ini, sebagian besar operasi dilakukan dengan kedua tangan, jadi pertama-tama kami menggunakan "tangan" untuk memasuki lokasi, dan menggunakan sasis beroda serba guna yang dapat diganti dan berbiaya rendah untuk kaki-kakinya.

Permasalahan yang dihadapi dengan produk dua kaki adalah tidak dapat diimplementasikan dalam skenario nyata, sehingga perusahaan yang membuat produk dua kaki harus mengupayakan kemampuan pembiayaan yang berkelanjutan, dan akan terjadi gelombang besar dalam tiga tahun ke depan. Tentu saja, seiring dengan membaiknya performa kaki-kaki dan harga yang pas, kami juga akan mengganti kaki-kaki tersebut.

"Nanti": Mengapa tidak ada pilihan untuk melakukannya bersama-sama?

Wang He: Karena kemampuan pengoperasian robot humanoid kurang kuat, namun kakinya hilang. Masih banyak pekerjaan yang tidak bisa ditangani oleh lengan robot tradisional.

Mengingat penggunaan sebenarnya, biaya dan stabilitas robot beroda jauh lebih baik dibandingkan robot bipedal. Pada ketinggian yang sama, BOM (biaya bahan baku) berkaki dua sepuluh kali lebih mahal dibandingkan sasis beroda. Apalagi kakinya mudah terjatuh, dan jika robot terjatuh maka akan rusak total.

Kesulitan teknis pada kaki saat ini masih perlu diatasi, dan mereka jauh tertinggal dalam dunia dua tangan. Misalnya, jika sesuatu jatuh dari rak ke lantai, tidak ada robot humanoid berkaki di dunia yang dapat membungkuk untuk mengambilnya.

"Nanti": Jongkok cukup mudah bagi manusia, mengapa robot tidak bisa?

Wang He: Hal tersulit adalah menjaga keseimbangan tubuh selama seluruh proses. Kemampuan keseimbangan kaki memiliki beberapa tahapan: langkah pertama berjalan, dan langkah kedua menaiki tangga. Hal ini telah membuat bingung sejumlah perusahaan. Langkah ketiga adalah membungkuk. Kesulitannya adalah pusat gravitasinya akan keluar. Lalu ada squat dan split squat, yang saat ini tidak mungkin dilakukan di laboratorium.

Perkembangan kaki tertinggal dibandingkan tangan, begitu pula halnya dengan manusia. Ketika bayi baru bisa merangkak, tangannya sudah bisa menjelajah kemana-mana, namun butuh waktu lama untuk berdiri dan berjalan dengan stabil enam atau tujuh tahun.

Faktanya, demo berjalan dengan dua kaki telah dilakukan 20 tahun yang lalu. Saat ini, hanya segelintir orang yang benar-benar dapat berjalan di tanah selama sepuluh menit tanpa masalah. Stabilitas banyak robot bipedal tidak memenuhi harapan semua orang. Dalam bidang kecerdasan yang diwujudkan, perkembangan otak berada di depan lengan dan tangan, dan lengan serta tangan berada di depan kaki.

"Terlambat": Robot humanoid Tesla, Optimus, memiliki kedua tangan dan kaki, dan sekarang dapat bekerja di pabrik.

Wang He: Adegan kerja Optimus saat ini tidak ada hubungannya dengan kaki, Menangkap baterai di pabrik dan melakukan inspeksi bolak-balik di tempat parkir tidak memerlukan peningkatan kemampuan kaki.

Dan sulit untuk menghitungnya: harga robot ini ratusan ribu hingga dua ratus ribu dolar, tetapi tugasnya adalah memasukkan baterai yang persis sama ke dalam kotak berukuran lima kali enam dengan total tiga puluh grid, yaitu untuk masukkan baterai standar ke dalam keranjang standar, posisi keranjang tetap. Mengapa hal seperti ini memerlukan kecerdasan yang diwujudkan? Mengapa tidak menggunakan yang tradisionalOtomasi industri

"Terlambat": Jenderal Galbot Galbot menyortir obat-obatan di apotek Meituan. Ini juga bisa dilakukan dengan lengan robot, tapi Anda juga menggunakan tubuh bagian atas berbentuk humanoid.

Wang He: Kami menciptakan adegan ini untuk menunjukkan kemampuan yang kami miliki. Jika ada sesuatu yang terlalu sulit dan teknologinya belum berkembang hingga tahap ini, pertama-tama kami harus mencari sesuatu yang bisa dilakukan. Adegan Tesla awalnya diwujudkan dengan lengan robot, bahkan tidak menggantikan manusia. Pekerjaan yang dilakukan di apotek dilakukan oleh manusia, dan tingkat kesulitannya sendiri lebih tinggi daripada Tesla. Kedua, hal ini tidak dapat dicapai hanya dengan menggunakan otomasi industri, karena obat yang berbeda bukanlah produk standar, dan pesanan yang berbeda bukanlah persyaratan standar.

Jangan menganggap Tesla sebagai model,Pengoperasian jarak jauh tidak dapat menyelesaikan masalah data

"Terlambat": Kurangnya data adalah salah satu kesulitan dari kecerdasan yang diwujudkan saat ini: data teks sekarang 15T, gambar 6B, dan video 2,6B, tetapi data robot hanya 2,4M. Tesla dan Google sama-sama mengumpulkan data melalui "teleoperasi", yaitu membiarkan orang sungguhan memakai peralatan pengumpulan untuk menyelesaikan tindakan yang perlu dipelajari robot, sedangkan Galaxy General menggunakan "semua dalam Sim2Real", yaitu data sintetis yang disimulasikan. Mengapa kamu berbeda dari mereka?

Wang He: Remote control bukanlah sesuatu yang mampu dilakukan oleh perusahaan startup. Pengoperasian jarak jauh memerlukan mempekerjakan banyak orang untuk melakukan berbagai operasi berulang kali. Untuk mendapatkan data yang valid, dibutuhkan robot dan seseorang untuk menghabiskan waktu bersama selama 30 detik atau satu menit.

Di sinilah robot humanoid sangat berbeda dengan kendaraan otonom. Mengemudi otonom Tesla memungkinkan satu juta pemilik mobil mengeluarkan uang untuk membeli mobil dan mengendarainya selama ratusan juta jam tanpa harus mengeluarkan uang tambahan untuk data. Dan mengemudi hanyalah satu hal, tetapi ada banyak jenis pekerjaan di pabrik - mereka yang merekatkan, mereka yang memasang baterai, mereka yang mengencangkan sekrup... Korelasi antara tugas-tugas yang berbeda bisa kuat atau lemah.

Tesla menemukan lusinan orang untuk melakukan operasi jarak jauh di lokasi penempatan baterai, tetapi kemudian ada lebih banyak adegan operasi seperti penggulungan dan perakitan, dan itu belum semuanya. Tesla punya banyak uang dan pabrik sendiri untuk membeli robotnya sendiri. Tesla bisa melakukan ini, tapi startup tidak bisa.

Sama seperti mobil tanpa pengemudi yang kini memiliki monitor jarak jauh, teleoperasi juga dapat berperan sebagai pengambilalihan jarak jauh. Jika terjadi kesalahan saat robot sedang bekerja di tempat kejadian, dan tidak ada orang di lokasi, kendali jarak jauh dapat digunakan untuk melakukan intervensi.

"Nanti": Jadi remote control adalah game yang diproduksi oleh perusahaan besar?

Wang He: Inilah kisah yang diceritakan Musk. Jangan menganggap apa yang dilakukan Tesla sebagai standar.

Saat Google sedang mengerjakan RT (robot transformator, algoritma kendali robot), terdapat tim "Robot Sehari-hari" yang berjumlah lebih dari 200 orang. Setelah RT-1 selesai, departemen ini dibubarkan karena model bisnisnya tidak ada.

Saat ini, di antara perusahaan intelijen yang ada di Tiongkok, hanya perusahaan yang tidak memiliki jalur sendiri yang dapat meniru Tesla dan Google di Amerika Serikat. Jika sebuah perusahaan Amerika tidak mempunyai modal yang baik dan masih menceritakan kisah orang lain, maka itu akan menjadi jalan buntu.

"Nanti": Apakah ini juga bergantung pada jumlah data yang dibutuhkan untuk membuat robot universal? Jika ukurannya kurang dari urutan besarnya, perusahaan besar yang kaya atau startup yang dapat mengumpulkan uang mungkin juga dapat menjalankan remote? jalur operasi?

Wang He: Eksperimen kami menemukan bahwa, misalnya, dalam tugas perayapan, ketika ada satu miliar perayapan data, tingkat keberhasilan robot bisa mencapai 87%. Jika jumlah data dikurangi menjadi sepersepuluh ribu , yaitu 100.000 Saat crawling pertama kali, tingkat keberhasilannya hanya 58%. Hal ini menunjukkan bahwa kecerdasan yang diwujudkan juga memiliki hukum penskalaan yang jelas, dan mereka lebih haus akan data.

Di dunia nyata, sulit mendapatkan miliaran data. Google membutuhkan lebih dari sepuluh bulan dan puluhan juta dolar untuk mengumpulkan ratusan ribu data.

"Terlambat": Seberapa besar simulasi dapat mengurangi biaya?

Wang He: Melalui sintesis simulasi, keenam puluh gambar dapat dirender dalam satu detik. Dibandingkan dengan pengumpulan data dunia nyata, data sintetis hampir gratis. Kurva kedua kami adalah memperoleh data dari dunia nyata.

Dalam simulator, kami mensintesis gerakan setiap objek menjadi 200 video, lalu mensimulasikan dan mensintesis satu objek ke dalam satu kelas objek. Hal ini menghasilkan data dalam jumlah besar, yang kami gunakan untuk melatih kemampuan menggenggam robot.

"Terlambat": Banyak orang percaya bahwa data sintetik yang diperoleh menggunakan emulator (sistem yang menyediakan lingkungan virtual simulasi) secara alami berbeda dari data dunia nyata, yang akan memengaruhi efek pelatihan. Bagaimana cara mengatasinya?

Wang He: Simulator tidak akan pernah benar-benar nyata, tetapi rute Sim2Real tidak memerlukan simulator untuk disimulasikan sepenuhnya. Ini adalah proses optimalisasi bersama perangkat keras, algoritme, dan simulasi.

Pada tahap ini, simulator adalah alat verifikasi, dan model fisik matematis yang dinyatakan dalam suatu algoritma adalah inti untuk memperoleh kualifikasi perayapan.

Simulator memang memiliki beberapa keterbatasan. Misalnya, ketika tangan kita menyentuh botol air mineral, yaitu ketika tangan yang fleksibel dan dapat berubah bentuk menyentuh benda yang tampaknya kaku namun sebenarnya dapat berubah bentuk, proses ini bukanlah kontak titik, melainkan gesekan dimodelkan secara fisik dengan sempurna.

Saat ini, algoritme kami perlu memiliki kemampuan adaptif yang kuat, seperti menambahkan kontrol sentuh dan gaya, mempelajari "bentuk", dan kemudian mengontrolnya setelah memahaminya. Premis lainnya adalah perangkat keras harus cukup kuat (Robust, artinya sistem dapat berjalan relatif stabil bahkan dalam keadaan tidak normal).

"Terlambat": Bagaimana simulator dan algoritma seperti model matematika dan fisik bekerja sama?

Wang He: Kami mengusulkan serangkaian model matematika dan fisik untuk menangkap penelusuran yang efisien, dan kemudian menggunakan simulator untuk memverifikasi apakah penangkapan tersebut layak dilakukan.

Perbedaan antara pembelajaran penguatan dan pembelajaran yang diawasi juga disinggung di sini. Jika itu adalah pembelajaran penguatan, itu berarti berinteraksi dengan simulator berkali-kali, mencoba-coba, dan mencari solusi. Ini akan memiliki banyak persyaratan pada keaslian simulator. Berjalan kaki sepenuhnya bergantung pada pembelajaran penguatan simulator Sim2Real. Tapi ini sudah dicoba dan efisiensinya relatif rendah.

Jika Anda dapat memberi tahu robot cara memahami, robot dapat diubah menjadi pembelajaran yang diawasi, dan efisiensi pembelajaran akan lebih tinggi. Kami menggunakan pembelajaran yang diawasi untuk mempelajari genggaman dua jari dan lima jari.

Anggap saja sejak hari pertamakomersialisasi

"Nanti": Sebagian besar perusahaan China yang membuat humanoid juga membuat produk lain. Misalnya, Zhiyuan memiliki robot pembersih komersial, Zhuji dan Yushu sama-sama membuat robot anjing, sedangkan Amerika Serikat sebagian besar meluncurkan robot humanoid secara langsung. Mengapa ada perbedaan ini?

Wang He: Kelimpahan modal di Tiongkok dan Amerika Serikat berbeda. Di Amerika, karena mereka punya uang, mereka melakukan semuanya sekaligus. Perusahaan seperti Figure AI dan Tesla semuanya menggunakan model humanoid. Namun, valuasi Figure AI saat ini adalah US$2,5 miliar, dan operasi yang ditampilkan dalam demo tidak ada hubungannya dengan kemampuan atletik. Gelembung di Amerika Serikat menghalangi mereka untuk berpikir dalam kerangka PMF (product market fit) yang sangat ketat.

Pada bulan Agustus tahun ini, FigureAI merilis robot baru, Gambar 02, yang sudah dapat melakukan beberapa demo perakitan di pabrik mobil BMW.

"Nanti": Apakah menurut Anda cara yang lebih tepat adalah memikirkan penerapan produk dari awal? Apakah ini terlalu mengkhawatirkan di bidang mutakhir seperti robot humanoid?

Wang He: Di satu sisi, ini masih masalah data. Kecerdasan yang diwujudkan terikat pada perangkat keras, jadi jika robot tidak dikerahkan di tempat kejadian, akan sulit memperoleh data dalam jumlah besar. Namun tidak bisa dibagikan dalam jumlah banyak secara gratis karena biaya pembuatan badan induknya terlalu mahal. Model besar tidak perlu dikomersialkan untuk mendapatkan data karena biaya mempopulerkannya masih jauh lebih rendah dibandingkan robot.

Pada saat yang sama, robot juga perlu dipoles. Tanpa pengamatan jangka panjang terhadap robot di tempat kejadian, mustahil untuk melakukan iterasi robot ke kondisi yang dapat bekerja dengan stabil. Ini juga alasan mengapa tidak ada perusahaan PPT di jalur robotika.

"Nanti": Implementasi produk seperti apa yang pernah Anda lihat?

Wang He: Langkah pertama adalah melakukan satu operasi pada beberapa objek dalam satu lingkungan, seperti memindahkan benda berbeda di pabrik yang sama atau jalur produksi yang sama. Inilah yang dilakukan Google RT-1 dan Tesla Optimus sekarang, namun Optimus menangani lebih sedikit objek. Kedua hal ini belum benar-benar digeneralisasikan, yakni universal, dan belum bisa benar-benar menghasilkan uang.

Langkah selanjutnya adalah robot melakukan operasi yang sama pada objek berbeda dalam skenario berbeda di industri yang sama. Misalnya, dalam industri manufaktur, telah berkembang dari kemampuan mendapatkan suku cadang di pabrik mobil menjadi kemampuan mendapatkan semua suku cadang di pabrik mana pun; dalam industri ritel, telah berkembang dari kemampuan untuk menyimpan barang di supermarket kecil menjadi bisa menyimpan barang di Wal-Mart. Satu sesi pelatihan untuk menguraikan skenario berbeda dalam industri yang sama sangatlah bermanfaat.

Langkah selanjutnya adalah memiliki lebih banyak tugas, lebih banyak skenario, menangani seluruh industri, dan terus menjadi universal.

"Nanti": Seluruh industri sekarang mengambil langkah pertama saat ini.

Wang He: Dalam industri apa pun, selama produksinya fleksibel tetapi tidak sepenuhnya otomatis, robot cerdas kemungkinan besar akan diterapkan. Secara khusus, ada beberapa operasi yang tidak mencolok di industri manufaktur. Permintaannya mungkin kuat dan teknologi yang dibutuhkan mungkin tidak rumit.

Kita harus melakukannya satu per satu dari yang mudah ke yang sulit, dari biaya tenaga kerja yang tinggi ke biaya tenaga kerja yang rendah, dari permintaan yang tinggi ke permintaan yang rendah.

"Nanti": Apakah pembelian obat di apotek sesuai dengan logika yang Anda sebutkan? Atau apakah Anda melakukan adegan ini karena Meituan memilih Anda?

Wang He: Kami ingin menjadi yang pertama memanfaatkan skenario dengan keuntungan tinggi dan bernilai tinggi yang dapat diubah menjadi keserbagunaan yang lebih kuat. Tujuan masa depan kami adalah memasuki rumah.

B to C lebih cocok untuk digunakan di rumah dibandingkan murni untuk B, jadi kami menyiapkan suasana B to C di ritel untuk berinteraksi dengan orang-orang.

"Nanti": Kapan robot pertama Anda dirilis?

Wang He: Kami akan menerima pesanan dalam jumlah kecil di Q4 tahun ini, dengan harga 500.000.

"Nanti": Apakah terlalu mahal untuk mendapatkan obat di apotek?

Wang He: Kami sekarang memiliki dua arah penjualan utama, skenario penelitian ilmiah dan skenario komersial seperti Meituan. Harga dan konfigurasi skenario ini berbeda.

Apa yang kami jual ke skenario penelitian ilmiah adalah versi yang dapat dikembangkan dengan daya komputasi yang memadai. Produk yang kami jual untuk skenario komersial tidak mendukung pengembangan, dan akan menambah beberapa fungsi serta mengurangi fungsi dan daya komputasi lain yang tidak perlu. Misalnya, robot sekarang dilengkapi dengan kartu OrinX, tetapi dalam skenario komersial, komputasi dapat ditempatkan di cloud .

Saat ini terdapat lusinan reservasi untuk adegan penelitian ilmiah. Dalam skenario bisnis, mulai dari mesin hingga layanan, tim kami akan bertanggung jawab atas keseluruhan proses.

"Nanti": Anda pernah mengatakan bahwa Galaxy diperkirakan akan mengendalikan biaya satu set robot hingga 50.000 yuan.

Wang He: Kami tidak bisa melakukannya tahun ini, tapi ketika kami mencapai 1.000 atau 10.000 unit, kami akan terus mendekati tujuan ini.

"Kemudian": Ada lelucon bahwa penjualan robot humanoid di Tiongkok didukung oleh perusahaan rintisan, laboratorium universitas, dan rekan-rekan lainnya.

Wang He: Batasan untuk penelitian ilmiah memang rendah, tetapi penelitian ilmiah adalah langkah pertama. Tidak mungkin sebuah perusahaan berumur satu tahun menjual seribu robot, kecuali itu mainan.

"Nanti": Kita telah membicarakan banyak hal tentang non-konsensus yang terjadi saat ini dalam industri intelijen. Menurut Anda, apa yang dimaksud dengan konsensus saat ini?

Wang He: Sejauh ini, belum ada skenario intelijen yang dapat menghasilkan manfaat ekonomi skala besar. Tidak ada konsensus mengenai cara menghasilkan uang, sehingga tidak ada konsensus mengenai bentuk produk, teknologi, industri, dan skenario yang harus ditunda.

Tidak ada konsensus adalah hal yang baik. Artinya, jika semua orang mencapai konsensus, maka pertarungan terakhir adalah biaya, sumber daya, dan koneksi. Faktor-faktor ini bukanlah hal yang baik bagi wirausahawan dan merugikan kewirausahaan.

Tapi membayangkan masa depan, akhir dari teknologi, memasuki rumah + humanoid lengkap + model besar, saya khawatir semua orang bisa setuju dengan ini.

"Nanti": Bagaimana Anda menggambarkan banyaknya perusahaan baru yang kini mengejar Embodied? BERSIH Perjalanannya?

Wang He: Ini adalah proses dimana manusia memainkan peran sebagai pencipta lagi. Industri otomotif juga merupakan industri yang sepenuhnya diciptakan oleh manusia, dan hal yang sama juga berlaku untuk robot serba guna di masa depan. Juga akan ada perusahaan mobil terkemuka seperti Tesla di antara kita.