Informasi kontak saya
Surat[email protected]
2024-08-16
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
Laporan Jantung Mesin
Penyunting: Zhang Qian
Lebih dari 80 makalah memahami kemajuan penelitian "robotika + 3D".
Beberapa waktu lalu, berbagai media memberitakan bahwa World Labs, sebuah perusahaan rintisan yang didirikan oleh pakar AI terkenal dan profesor Universitas Stanford Li Feifei, telah menyelesaikan dua putaran pembiayaan hanya dalam tiga bulan Valuasinya telah melampaui US$1 miliar, menjadikannya unicorn baru.
Arah pengembangan World Labs berfokus pada “kecerdasan spasial”, yaitu mengembangkan model yang dapat memahami dunia fisik tiga dimensi dan mensimulasikan sifat fisik, lokasi spasial, dan fungsi objek. Li Feifei percaya bahwa "kecerdasan spasial" adalah bagian penting dari pengembangan AI. Timnya melatih komputer dan robot untuk mengambil tindakan di dunia tiga dimensi di laboratorium Universitas Stanford, seperti menggunakan model bahasa besar untuk memungkinkan a lengan robot untuk membuka pintu dan melakukan sesuatu sesuai instruksi lisan dan tugas lainnya. (Untuk detailnya, silakan lihat "Li Feifei menjelaskan arah kewirausahaan "Kecerdasan Spasial" agar AI benar-benar memahami dunia")
Untuk menjelaskan konsep “kecerdasan spasial”, Li Feifei memperlihatkan gambar seekor kucing yang menjulurkan cakarnya untuk mendorong gelas ke tepi meja. Dalam sepersekian detik, katanya, otak manusia dapat menilai "geometri kaca ini, posisinya dalam ruang tiga dimensi, hubungannya dengan meja, kucing, dan semua hal lainnya," lalu memprediksi apa yang akan terjadi dan mengambil tindakan untuk memperbaikinya.
Faktanya, selain Li Feifei, banyak tim peneliti kini memperhatikan arah robot + visi 3D. Tim-tim ini percaya bahwa banyak keterbatasan AI saat ini disebabkan oleh kurangnya pemahaman mendalam model tersebut tentang dunia 3D. Jika kita ingin menyelesaikan teka-teki ini, kita harus menginvestasikan lebih banyak energi penelitian ke arah visi 3D. Selain itu, visi 3D memberikan persepsi mendalam dan pemahaman spasial terhadap lingkungan, yang sangat penting untuk navigasi, pengoperasian, dan pengambilan keputusan robot di dunia tiga dimensi yang kompleks.
Lantas, adakah bahan penelitian sistematis yang bisa dijadikan acuan oleh para peneliti di bidang tersebut? The Heart of the Machine baru-baru ini menemukan satu:
Tautan proyek: https://github.com/zubair-irshad/Awesome-Robotics-3D
Repositori GitHub yang disebut "Awesome-Robotics-3D" telah mengumpulkan total lebih dari 80 makalah yang mengarah ke "visi 3D + robot". Sebagian besar makalah menyediakan makalah, proyek, dan tautan kode yang sesuai.
Makalah ini dapat dibagi menjadi topik-topik berikut:
Makalah ini mencakup pracetak arXiv, serta makalah dari konferensi robotika terkemuka seperti RSS, ICRA, IROS, dan CORL, serta makalah dari konferensi terkemuka di bidang visi komputer dan pembelajaran mesin seperti CVPR, ICLR, dan ICML. Mereka sangat berharga.
Daftar makalah pada masing-masing bagian adalah sebagai berikut:
1. Pembelajaran strategis
2. Pra-pelatihan
3. VLM dan LLM
4. Ekspres
5. Simulasi, Dataset dan Benchmark
Selain itu, penulis juga menyediakan dua makalah review yang dapat Anda rujuk:
Pendahuluan makalah: Makalah ini memberikan gambaran komprehensif tentang metodologi yang memungkinkan LLM memproses, memahami, dan menghasilkan data 3D, dan menyoroti keunggulan unik LLM seperti pembelajaran dalam konteks, penalaran langkah demi langkah, kemampuan kosakata terbuka, dan kemampuan kosakata yang luas. Pengetahuan dunia, keunggulan ini diharapkan dapat secara signifikan memajukan pemahaman dan interaksi spasial dalam sistem kecerdasan buatan yang diwujudkan. Penelitian ini mencakup berbagai metode representasi data 3D dari titik awan hingga Neural Radiation Fields (NeRF), dan mengkaji integrasinya dengan LLM untuk pemahaman pemandangan 3D, pembuatan deskripsi, menjawab pertanyaan dan dialog, serta agen berbasis LLM untuk tugas spasial seperti penalaran, perencanaan, dan navigasi. Selain itu, makalah ini secara singkat mengulas metode lain dalam mengintegrasikan 3D dan bahasa. Melalui meta-analisis studi-studi ini, makalah ini mengungkapkan kemajuan signifikan yang dicapai dan menyoroti perlunya mengembangkan metode baru untuk sepenuhnya memanfaatkan potensi 3D-LLM.
Untuk mendukung penyelidikan ini, penulis telah membuat halaman proyek yang mengatur dan mencantumkan makalah yang berkaitan dengan topik: https://github.com/ActiveVisionLab/Awesome-LLM-3D
Pendahuluan makalah: Artikel ini menganalisis secara komprehensif kemajuan terkini visi 3D di bidang pengendalian robot, terutama dalam meniru kecerdasan manusia dan memberikan kemampuan kerja yang lebih fleksibel pada robot. Artikel ini membahas sistem visi 2D yang biasanya diandalkan oleh kontrol robot tradisional dan keterbatasannya, serta menunjukkan tantangan yang dihadapi oleh sistem visi 3D di dunia terbuka, seperti pengenalan objek secara umum di latar belakang yang berantakan, estimasi oklusi, dan fleksibilitas mirip manusia. kontrol. Artikel ini membahas teknologi utama seperti akuisisi dan representasi data 3D, kalibrasi penglihatan robot, deteksi/pengenalan objek 3D, estimasi pose 6 derajat kebebasan, estimasi genggaman, dan perencanaan gerakan. Selain itu, beberapa kumpulan data publik, kriteria evaluasi, analisis komparatif, dan tantangan saat ini juga diperkenalkan. Terakhir, artikel ini mengeksplorasi bidang aplikasi terkait kendali robot dan mendiskusikan arah penelitian masa depan dan isu-isu terbuka.
Pembaca yang tertarik dapat mengklik link proyek untuk mulai belajar.