berita

Yang pertama di dunia!Mensurvei hampir 400 dokumen, Laboratorium Pengcheng

2024-07-26

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Kolom AIxiv adalah kolom tempat Machine Heart menerbitkan konten akademis dan teknis. Dalam beberapa tahun terakhir, kolom Heart of the Machine AIxiv telah menerima lebih dari 2.000 laporan, mencakup laboratorium terkemuka dari universitas dan perusahaan besar di seluruh dunia, yang secara efektif mendorong pertukaran dan diseminasi akademis. Jika Anda memiliki karya luar biasa yang ingin Anda bagikan, silakan berkontribusi atau hubungi kami untuk pelaporan. Email pengiriman: [email protected]; [email protected]

Kecerdasan yang diwujudkan adalah satu-satunya cara untuk mencapai kecerdasan buatan umum. Intinya adalah menyelesaikan tugas-tugas kompleks melalui interaksi agen cerdas dengan ruang digital dan dunia fisik. Dalam beberapa tahun terakhir, model multi-modal besar dan teknologi robotika telah mencapai kemajuan besar, dan kecerdasan yang diwujudkan telah menjadi fokus baru dalam teknologi global dan persaingan industri. Namun, saat ini masih kurangnya kajian yang dapat menganalisis secara komprehensif status perkembangan kecerdasan yang diwujudkan saat ini. Karena itu,Institut Multi-Agen dan Kecerdasan Terwujud di Laboratorium Pengcheng berkolaborasi dengan peneliti dari Laboratorium HCP Universitas Sun Yat-sen, analisis komprehensif tentang perkembangan terkini dalam kecerdasan yang diwujudkan,Meluncurkan tinjauan pertama di dunia mengenai kecerdasan yang diwujudkan di era model besar multi-modal.

Tinjauan ini mensurvei hampir 400 dokumen dan melakukan analisis komprehensif terhadap penelitian tentang kecerdasan yang diwujudkan dari berbagai dimensi.Ulasan ini pertama kali memperkenalkan beberapa perwakilanRobot Terwujud dan Platform Simulasi Terwujud , memberikan analisis mendalam tentang fokus dan keterbatasan penelitiannya. Kemudian, empat isi penelitian utama dianalisis secara menyeluruh: 1)persepsi yang diwujudkan,2)interaksi yang diwujudkan,3)kecerdasan yang diwujudkandan 4)Migrasi virtual ke realitas , konten penelitian ini mencakup metode mutakhir, paradigma dasar, dan kumpulan data komprehensif. Selain itu, tinjauan ini mengeksplorasi tantangan yang dihadapi oleh agen dalam ruang digital dan dunia fisik, dengan menekankan pentingnya interaksi aktif dalam lingkungan digital dan fisik yang dinamis. Terakhir, tinjauan ini merangkum tantangan dan keterbatasan dari kecerdasan yang diwujudkan dan membahas potensi arah masa depan. Tinjauan ini diharapkan dapat memberikan referensi dasar untuk penelitian intelijen yang diwujudkan dan mendorong inovasi teknologi terkait. Selain itu, ulasan ini juga telah merilis daftar makalah intelijen yang terkandung di Github. Makalah terkait dan repositori kode akan terus diperbarui, jadi harap diperhatikan.



Alamat makalah: https://arxiv.org/pdf/2407.06886

Daftar Makalah Intelijen yang Terwujud: https://github.com/HCPLab-SYSU/Embodied_AI_Paper_List

1. Kehidupan masa lalu dan masa kini dari kecerdasan yang terkandung

Konsep kecerdasan yang diwujudkan pertama kali dikemukakan oleh Alan Turing dalam Embodied Turing Test yang didirikan pada tahun 1950 untuk mengetahui apakah suatu agen dapat menunjukkan kecerdasan (intelligence) yang tidak terbatas pada penyelesaian masalah-masalah abstrak dalam lingkungan virtual (ruang digital). dasar dari kecerdasan yang diwujudkan, yang ada baik di ruang digital maupun dunia fisik, dan diwujudkan dalam bentuk berbagai entitas, termasuk tidak hanya robot tetapi juga perangkat lain, dan mampu mengatasi kompleksitas dan ketidakmampuan memahami dunia fisik. Oleh karena itu, pengembangan kecerdasan yang tertanam dianggap sebagai cara dasar untuk mencapai kecerdasan buatan secara umum. Sangatlah penting untuk menyelidiki kompleksitas kecerdasan yang terkandung di dalamnya, menilai status perkembangannya saat ini, dan mempertimbangkan arah masa depan.Saat ini, kecerdasan yang diwujudkan mencakup banyak teknologi utama seperti visi komputer, pemrosesan bahasa alami, dan robotika, yang paling mewakili adalahPersepsi yang diwujudkan, interaksi yang diwujudkan, kecerdasan yang diwujudkan, dan transfer virtual-ke-realitas . Dalam tugas yang diwujudkan, agen yang diwujudkan harus sepenuhnya memahami maksud manusia dalam instruksi bahasa, secara proaktif mengeksplorasi lingkungan sekitar, secara komprehensif memahami elemen multi-modal dari lingkungan virtual dan fisik, dan melakukan operasi yang sesuai untuk menyelesaikan tugas yang kompleks. Kemajuan pesat model multimodal menunjukkan keragaman, fleksibilitas, dan kemampuan generalisasi yang lebih besar dibandingkan metode pembelajaran penguatan mendalam tradisional di lingkungan yang kompleks. Representasi visual yang dilatih sebelumnya oleh pembuat enkode visual canggih memberikan perkiraan kategori, pose, dan geometri objek yang tepat, memungkinkan model yang diwujudkan untuk memahami lingkungan yang kompleks dan dinamis secara komprehensif. Model bahasa besar yang kuat memungkinkan robot untuk lebih memahami instruksi bahasa manusia dan menyediakan cara yang layak untuk menyelaraskan representasi visual dan linguistik untuk robot yang diwujudkan. Model dunia menunjukkan kemampuan simulasi yang signifikan dan pemahaman yang baik tentang hukum fisika, memungkinkan model yang diwujudkan untuk sepenuhnya memahami fisika dan lingkungan nyata. Kemajuan-kemajuan ini memungkinkan kecerdasan yang terkandung dalam memahami lingkungan kompleks secara komprehensif, berinteraksi secara alami dengan manusia, dan melakukan tugas dengan andal. Gambar di bawah menunjukkan arsitektur khas agen yang diwujudkan.



Kerangka Intelijen yang Terwujud

Dalam tinjauan ini, kami memberikan gambaran komprehensif tentang kemajuan terkini dalam kecerdasan yang diwujudkan, termasuk: (1)robot yang diwujudkan——Solusi perangkat keras untuk mewujudkan kecerdasan di dunia fisik; (2)Platform Simulasi Terwujud——Ruang digital untuk melatih agen secara efisien dan aman; (3)persepsi yang diwujudkan—— Secara aktif memahami ruang 3D dan mengintegrasikan berbagai modalitas sensorik;interaksi yang diwujudkan——Berinteraksi dengan lingkungan secara efektif dan wajar dan bahkan mengubah lingkungan untuk menyelesaikan tugas yang ditentukan;kecerdasan yang diwujudkan——Gunakan model besar multi-modal untuk memahami instruksi abstrak dan membaginya menjadi serangkaian subtugas dan kemudian menyelesaikannya langkah demi langkah;Migrasi virtual ke realitas ——Mentransfer dan menggeneralisasi keterampilan yang dipelajari di ruang digital ke dunia fisik. Gambar di bawah menunjukkan kerangka sistem kecerdasan yang diwujudkan dari ruang digital hingga dunia fisik. Tinjauan ini bertujuan untuk memberikan latar belakang pengetahuan yang komprehensif, tren penelitian, dan wawasan teknis tentang kecerdasan yang diwujudkan.



Struktur keseluruhan ulasan ini

2. Robot yang Diwujudkan

Kecerdasan yang diwujudkan secara aktif berinteraksi dengan lingkungan fisik dan mencakup berbagai bentuk yang diwujudkan, termasuk robot, peralatan rumah pintar, kacamata pintar, dan kendaraan otonom. Diantaranya, robot, sebagai salah satu wujud perwujudan yang paling menonjol, telah menarik banyak perhatian. Menurut skenario aplikasi yang berbeda, robot dirancang dalam berbagai bentuk untuk memanfaatkan sepenuhnya fitur perangkat kerasnya untuk menyelesaikan tugas tertentu. Seperti terlihat pada gambar di bawah, robot yang diwujudkan secara umum dapat dibagi menjadi: (1) robot dengan basis tetap, seperti lengan robot, yang sering digunakan dalam sintesis otomasi laboratorium, pendidikan, industri dan bidang lainnya; sangat efisien Terkenal karena mobilitasnya, banyak digunakan dalam logistik, pergudangan dan inspeksi keamanan; (3) Robot perayap, dengan kemampuan dan mobilitas off-road yang kuat, telah menunjukkan potensi di bidang pertanian, konstruksi dan respons terhadap bencana; Hewan berkaki empat Robot, yang terkenal dengan stabilitas dan kemampuan beradaptasinya, sangat ideal untuk deteksi di medan yang kompleks, misi penyelamatan, dan aplikasi militer. (5) Robot humanoid, dengan tangan tangkas sebagai kuncinya, banyak digunakan dalam industri jasa, perawatan kesehatan, dan lingkungan kolaboratif. (6) Robot bionik melakukan tugas di lingkungan yang kompleks dan dinamis dengan mensimulasikan gerakan efektif dan fungsi organisme alami.



Berbagai bentuk robot yang diwujudkan

3. Platform simulasi cerdas yang diwujudkan

Platform simulasi intelijen yang diwujudkan sangat penting untuk mewujudkan intelijen karena platform tersebut menyediakan sarana eksperimen yang hemat biaya, kemampuan untuk memastikan keselamatan dengan mensimulasikan skenario yang berpotensi berbahaya, skalabilitas untuk menguji di lingkungan yang beragam, dan kemampuan untuk dengan cepat membuat prototipe Kemampuan desain yang memfasilitasi lebih luas komunitas riset, menyediakan lingkungan terkendali untuk penelitian yang tepat, menghasilkan data untuk pelatihan dan evaluasi, dan menyediakan tolok ukur standar untuk perbandingan algoritme. Agar agen dapat berinteraksi dengan lingkungan, lingkungan simulasi yang realistis harus dibangun. Hal ini perlu memperhatikan ciri-ciri fisik lingkungan, sifat-sifat benda, dan interaksinya. Seperti yang ditunjukkan pada gambar di bawah, tinjauan ini akan menganalisis dua platform simulasi: platform umum berdasarkan simulasi yang mendasarinya dan platform simulasi berdasarkan skenario nyata.



Platform simulasi universal



Platform simulasi berdasarkan skenario nyata

4. Persepsi yang terkandung

“Bintang Utara” persepsi visual masa depan adalah penalaran visual dan kecerdasan sosial yang berpusat pada perwujudan. Seperti yang ditunjukkan pada gambar di bawah, alih-alih hanya mengenali objek dalam gambar, agen dengan persepsi yang terkandung harus bergerak di dunia fisik dan berinteraksi dengan lingkungan, yang memerlukan pemahaman lebih menyeluruh tentang ruang tiga dimensi dan lingkungan dinamis. Persepsi yang diwujudkan memerlukan persepsi visual dan kemampuan penalaran, memahami hubungan tiga dimensi dalam sebuah adegan, dan memprediksi serta melakukan tugas kompleks berdasarkan informasi visual. Ulasan ini memperkenalkan persepsi visual aktif, lokalisasi visual 3D, navigasi bahasa visual, persepsi non-visual (sensor taktil), dll.



Kerangka persepsi visual aktif

5. Interaksi yang diwujudkan

Interaksi yang diwujudkan mengacu pada skenario di mana agen berinteraksi dengan manusia dan lingkungan dalam ruang fisik atau simulasi. Tugas interaksi yang diwujudkan biasanya mencakup menjawab pertanyaan yang diwujudkan dan menggenggam yang diwujudkan. Seperti yang ditunjukkan pada gambar di bawah, dalam tugas tanya jawab yang diwujudkan, agen perlu menjelajahi lingkungan dari sudut pandang orang pertama untuk mengumpulkan informasi yang diperlukan untuk menjawab pertanyaan. Agen dengan kemampuan eksplorasi dan pengambilan keputusan otonom tidak hanya harus mempertimbangkan tindakan mana yang harus diambil untuk mengeksplorasi lingkungan, namun juga memutuskan kapan harus berhenti melakukan eksplorasi untuk menjawab pertanyaan, seperti yang ditunjukkan pada gambar di bawah.



Kerangka Tanya Jawab yang Terwujud

Selain interaksi tanya jawab dengan manusia, interaksi yang diwujudkan juga melibatkan pelaksanaan operasi berdasarkan instruksi manusia, seperti mengambil dan menempatkan objek, sehingga melengkapi interaksi antara agen, manusia, dan objek. Seperti yang ditunjukkan, pemahaman yang diwujudkan memerlukan pemahaman semantik yang komprehensif, kesadaran adegan, pengambilan keputusan, dan perencanaan kontrol yang kuat. Metode genggaman yang diwujudkan menggabungkan genggaman kinematik robot tradisional dengan model skala besar (seperti model bahasa besar dan model dasar bahasa visual), memungkinkan agen untuk melakukan tugas genggaman dalam persepsi multi-sensorik, termasuk persepsi aktif visual, pemahaman bahasa, dan penalaran.



Kerangka kerja perayapan interaktif dengan panduan bahasa

6. Kecerdasan yang Terwujud

Agen didefinisikan sebagai entitas otonom yang mampu merasakan lingkungan dan mengambil tindakan untuk mencapai tujuan tertentu. Kemajuan terbaru dalam model multimoda besar telah memperluas penerapan agen dalam skenario dunia nyata. Ketika agen berbasis model multimodal besar ini diwujudkan menjadi entitas fisik, mereka dapat secara efektif mentransfer kemampuan mereka dari ruang virtual ke dunia fisik, sehingga menjadi agen yang diwujudkan. Agar agen yang diwujudkan dapat beroperasi di dunia nyata yang kaya informasi dan kompleks, mereka telah dikembangkan dengan kemampuan persepsi, interaksi, dan perencanaan multi-modal yang kuat. Seperti yang ditunjukkan pada gambar di bawah, untuk menyelesaikan suatu tugas, agen yang diwujudkan biasanya melibatkan proses berikut:

(1) Menguraikan tugas-tugas abstrak dan kompleks menjadi sub-tugas tertentu, yaitu perencanaan tugas tingkat tinggi.

(2) Implementasikan sub-tugas ini secara bertahap dengan memanfaatkan model persepsi dan interaksi yang terkandung secara efektif, atau memanfaatkan fungsi strategis dari model dasar, yang disebut perencanaan tindakan yang diwujudkan tingkat rendah.

Perlu dicatat bahwa perencanaan misi melibatkan pemikiran sebelum bertindak dan oleh karena itu sering kali dipertimbangkan dalam ruang digital. Sebaliknya, perencanaan tindakan harus mempertimbangkan interaksi efektif dengan lingkungan dan memberikan informasi ini kembali kepada perencana misi untuk menyesuaikan perencanaan misi. Oleh karena itu, sangat penting bagi agen untuk menyelaraskan dan menggeneralisasikan kemampuan mereka dari ruang digital ke dunia fisik.



Kerangka kerja agen yang diwujudkan berdasarkan model besar multi-modal

7. Migrasi dari dunia maya ke dunia nyata

Adaptasi Sim-to-Real dalam kecerdasan yang diwujudkan mengacu pada proses mentransfer kemampuan atau perilaku yang dipelajari dalam lingkungan simulasi (ruang digital) ke dunia nyata (dunia fisik). Prosesnya mencakup validasi dan peningkatan efektivitas algoritme, model, dan strategi kontrol yang dikembangkan dalam simulasi untuk memastikan kinerjanya stabil dan andal di lingkungan fisik. Untuk mencapai adaptasi dari simulasi ke kenyataan, model dunia yang diwujudkan, metode pengumpulan dan pelatihan data, serta algoritma kontrol yang diwujudkan adalah tiga elemen kunci. Gambar di bawah menunjukkan lima paradigma Sim-to-Real yang berbeda.



Lima opsi migrasi virtual-ke-realitas

8. Tantangan dan arah pembangunan ke depan

Meskipun kecerdasan yang diwujudkan berkembang pesat, kecerdasan ini menghadapi beberapa tantangan dan menghadirkan arah masa depan yang menarik:

(1)Kumpulan data robot berkualitas tinggi . Mendapatkan data robotik dunia nyata yang memadai masih merupakan tantangan yang signifikan. Mengumpulkan data ini memakan waktu dan sumber daya yang intensif. Mengandalkan data simulasi saja akan memperburuk masalah kesenjangan simulasi-ke-realitas. Membuat kumpulan data robotika dunia nyata yang beragam memerlukan kolaborasi yang erat dan ekstensif antar institusi. Selain itu, mengembangkan simulator yang lebih realistis dan efisien sangat penting untuk meningkatkan kualitas data simulasi. Untuk membangun model perwujudan universal yang dapat mencapai aplikasi lintas skenario dan lintas tugas di bidang robotika, perlu untuk membangun kumpulan data berskala besar dan menggunakan data lingkungan simulasi berkualitas tinggi untuk membantu data dunia nyata.

(2)Penggunaan data demonstrasi manusia secara efektif . Pemanfaatan data demonstrasi manusia secara efisien melibatkan pemanfaatan tindakan dan perilaku yang ditunjukkan manusia untuk melatih dan meningkatkan sistem robot. Proses ini melibatkan pengumpulan, pemrosesan, dan pembelajaran dari kumpulan data berskala besar dan berkualitas tinggi, dengan manusia melakukan tugas-tugas yang perlu dipelajari oleh robot. Oleh karena itu, penting untuk memanfaatkan secara efektif sejumlah besar data demonstrasi manusia yang tidak terstruktur, multi-label, dan multi-modal yang dikombinasikan dengan data label tindakan untuk melatih model yang dapat mempelajari berbagai tugas dalam waktu yang relatif singkat. Dengan memanfaatkan data demonstrasi manusia secara efisien, sistem robotik dapat mencapai tingkat kinerja dan kemampuan beradaptasi yang lebih tinggi, menjadikannya lebih mampu melakukan tugas-tugas kompleks dalam lingkungan yang dinamis.

(3)Kognisi lingkungan yang kompleks . Kognisi lingkungan kompleks mengacu pada kemampuan agen yang diwujudkan untuk memahami, memahami, dan menavigasi lingkungan dunia nyata yang kompleks dalam lingkungan fisik atau virtual. Untuk lingkungan terbuka yang tidak terstruktur, pekerjaan saat ini biasanya bergantung pada mekanisme dekomposisi tugas dari LLM yang telah dilatih sebelumnya, menggunakan pengetahuan akal sehat yang luas untuk perencanaan tugas sederhana, namun tidak memiliki pemahaman adegan yang spesifik. Meningkatkan transfer pengetahuan dan generalisasi dalam lingkungan yang kompleks sangatlah penting. Sistem robot yang benar-benar serbaguna harus mampu memahami dan menjalankan instruksi bahasa alami dalam berbagai skenario yang berbeda dan tidak terlihat. Hal ini memerlukan pengembangan arsitektur agen yang dapat beradaptasi dan terukur.

(4)Eksekusi tugas jangka panjang . Mengeksekusi satu perintah biasanya melibatkan robot yang melakukan tugas jangka panjang, seperti perintah seperti "membersihkan dapur", yang melibatkan penataan ulang barang, menyapu lantai, mengelap meja, dan aktivitas lainnya. Keberhasilan menyelesaikan tugas-tugas ini mengharuskan robot untuk dapat merencanakan dan melaksanakan serangkaian tindakan tingkat rendah dalam jangka waktu yang lama. Meskipun perencana tugas tingkat tinggi saat ini telah menunjukkan keberhasilan awal, mereka sering kali gagal dalam berbagai skenario karena kurangnya adaptasi terhadap tugas-tugas yang ada. Untuk mengatasi tantangan ini diperlukan pengembangan perencana yang efisien dengan kemampuan persepsi yang kuat dan pengetahuan akal sehat yang luas.

(5)Penemuan kausal . Agen yang diwujudkan berdasarkan data membuat keputusan berdasarkan korelasi dalam data. Namun metode pemodelan ini tidak memungkinkan model untuk benar-benar memahami hubungan sebab akibat antara pengetahuan, perilaku dan lingkungan, sehingga menghasilkan strategi yang bias. Hal ini membuat mereka sulit untuk dioperasikan dengan cara yang dapat ditafsirkan, kuat, dan dapat diandalkan di lingkungan dunia nyata. Oleh karena itu, kecerdasan yang diwujudkan perlu didorong oleh pengetahuan dunia dan memiliki kemampuan penalaran sebab akibat yang otonom.

(6)Pembelajaran berkelanjutan . Dalam aplikasi robotika, pembelajaran berkelanjutan sangat penting untuk menerapkan strategi pembelajaran robot di lingkungan yang beragam, namun bidang ini masih belum dieksplorasi. Meskipun beberapa penelitian terbaru telah mengeksplorasi subtopik pembelajaran berkelanjutan, seperti pembelajaran bertahap, adaptasi gerakan cepat, dan pembelajaran interaksi manusia-komputer, solusi ini biasanya dirancang untuk satu tugas atau platform dan belum mempertimbangkan model yang mendasarinya. Pertanyaan penelitian terbuka dan pendekatan yang mungkin dilakukan meliputi: 1) memadukan proporsi berbeda dari distribusi data sebelumnya ketika menyempurnakan data terbaru untuk mengurangi bencana lupa, 2) mengembangkan prototipe yang efisien dari distribusi atau kursus sebelumnya untuk pembelajaran inferensi tugas baru, 3) meningkatkan kualitas stabilitas pelatihan dan efisiensi sampel algoritme pembelajaran online, 4) mengidentifikasi metode berprinsip untuk mengintegrasikan model berkapasitas besar ke dalam kerangka kontrol secara mulus, mungkin melalui pembelajaran hierarkis atau kontrol lambat-cepat, untuk mencapai penalaran waktu nyata.

(7)Tolok ukur penilaian terpadu . Meskipun ada banyak tolok ukur untuk mengevaluasi strategi pengendalian tingkat rendah, seringkali keterampilan penilaiannya berbeda secara signifikan. Selain itu, objek dan pemandangan yang disertakan dalam tolok ukur ini sering kali dibatasi oleh simulator. Untuk sepenuhnya mengevaluasi model yang diwujudkan, diperlukan tolok ukur yang mencakup berbagai keterampilan menggunakan simulator realistis. Dalam hal perencanaan tugas tingkat tinggi, banyak tolok ukur yang menilai kemampuan perencanaan melalui tugas tanya jawab. Namun, pendekatan yang lebih ideal adalah dengan mengevaluasi secara komprehensif kemampuan pelaksanaan perencana misi tingkat tinggi dan strategi pengendalian tingkat rendah, terutama dalam melaksanakan misi jangka panjang dan mengukur tingkat keberhasilan, daripada hanya mengandalkan evaluasi perencana saja. Pendekatan komprehensif ini memungkinkan penilaian yang lebih komprehensif terhadap kemampuan sistem cerdas yang ada.

Singkatnya, kecerdasan yang diwujudkan memungkinkan agen cerdas untuk memahami, mengenali, dan berinteraksi dengan berbagai objek di ruang digital dan dunia fisik, yang menunjukkan pentingnya hal ini dalam mewujudkan kecerdasan buatan secara umum. Tinjauan ini memberikan tinjauan komprehensif tentang robot yang diwujudkan, platform simulasi yang diwujudkan, persepsi yang diwujudkan, interaksi yang diwujudkan, agen yang diwujudkan, kontrol robot virtual-ke-realitas, dan arahan penelitian di masa depan, yang berharga untuk mendorong pengembangan kecerdasan yang diwujudkan.

Tentang Institut Laboratorium Multi-Agen dan Kecerdasan Terwujud Pengcheng

Institute of Multi-Agent and Embodied Intelligence, yang berafiliasi dengan Pengcheng Laboratory, menyatukan puluhan ilmuwan muda terkemuka di bidang sains cerdas dan robotika. Mengandalkan infrastruktur AI yang independen dan terkendali seperti Pengcheng Cloud Brain dan China Computing Network berkomitmen untuk membangun platform dasar Universal seperti kolaborasi multi-agen dan platform pelatihan simulasi serta model besar multi-modal yang diwujudkan secara kolaboratif berbasis cloud memberdayakan kebutuhan aplikasi utama seperti Internet industri, tata kelola sosial, dan layanan.