uutiset

Haluatko ymmärtää Li Feifein yrittäjyyden suunnan? Tässä on luettelo Robot 3D -papereista

2024-08-16

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Koneen sydänraportti

Toimittaja: Zhang Qian

Yli 80 artikkelia ymmärtää "robotiikka + 3D" -tutkimuksen edistymistä.

Jokin aika sitten useat tiedotusvälineet kertoivat, että kuuluisan tekoälytutkijan ja Stanfordin yliopiston professorin Li Feifein perustama startup-yritys oli suorittanut kaksi rahoituskierrosta vain kolmessa kuukaudessa Sen arvo on ylittänyt miljardin Yhdysvaltain dollarin, mikä tekee siitä uuden yksisarvisen.

World Labsin kehityssuunta keskittyy "tilaälyyn" eli sellaisten mallien kehittämiseen, jotka pystyvät ymmärtämään kolmiulotteisen fyysisen maailman ja simuloimaan esineiden fyysisiä ominaisuuksia, avaruudellista sijaintia ja toimintoja. Li Feifei uskoo, että "tilaäly" on keskeinen osa tekoälyn kehitystä. Hänen tiiminsä kouluttaa tietokoneita ja robotteja toimimaan kolmiulotteisessa maailmassa esimerkiksi suuren kielimallin avulla robottikäsi ovien avaamiseen ja asioiden tekemiseen suullisten ohjeiden mukaan. (Lisätietoja on kohdassa "Li Feifei selittää yrittäjyyden suunnan "Spatial Intelligence", jotta tekoäly todella ymmärtää maailmaa")



Selittääkseen "tilaälyn" käsitteen Li Feifei näytti kuvan kissasta, joka ojensi tassujaan työntääkseen lasin pöydän reunaan. Hän sanoo, että ihmisen aivot voivat arvioida sekunnin murto-osassa "tämän lasin geometrian, sen sijainnin kolmiulotteisessa avaruudessa, sen suhteen pöytään, kissaan ja kaikkiin näihin asioihin", sitten ennustaa, mitä tapahtuu ja ryhtyä toimiin sen korjaamiseksi.

Itse asiassa Li Feifein lisäksi monet tutkimusryhmät kiinnittävät nyt huomiota 3D-näön + robottien suuntaan. Nämä ryhmät uskovat, että monet nykyisen tekoälyn rajoituksista johtuvat mallin syvän ymmärryksen puutteesta 3D-maailmasta. Jos haluamme saada tämän palapelin valmiiksi, meidän on investoitava enemmän tutkimusenergiaa 3D-näön suuntaan. Lisäksi 3D-näkemys tarjoaa ympäristön syvyyshavainnon ja avaruudellisen ymmärryksen, mikä on ratkaisevan tärkeää robotin navigoinnissa, toiminnassa ja päätöksenteossa monimutkaisessa kolmiulotteisessa maailmassa.

Onko siis olemassa mitään systemaattista tutkimusmateriaalia, johon tämän suuntaiset tutkijat voivat viitata? Koneen sydän löysi äskettäin yhden:



Linkki projektiin: https://github.com/zubair-irshad/Awesome-Robotics-3D

Tämä "Awesome-Robotics-3D" -niminen GitHub-arkisto on kerännyt yhteensä yli 80 paperia "3D-näön ja robottien" suuntaan.



Nämä paperit voidaan jakaa seuraaviin aiheisiin:

  • strateginen oppiminen
  • esikoulutus
  • VLM ja LLM
  • ilmaista
  • Simulaatiot, tietojoukot ja vertailuarvot

Näihin kirjoihin kuuluu arXiv preprints sekä papereita huippurobotiikkakonferensseista, kuten RSS, ICRA, IROS ja CORL, sekä papereita huippukonferensseista tietokonenäön ja koneoppimisen alalla, kuten CVPR, ICLR ja ICML. Ne ovat erittäin arvokkaita.

Jokaisen osan papereiden luettelo on seuraava:

1. Strateginen oppiminen





2. Esikoulutus



3. VLM ja LLM





4. Express





5. Simulaatiot, tietojoukot ja vertailuarvot





Lisäksi kirjoittaja tarjoaa myös kaksi katsauspaperia, joihin voit viitata:

  • 论文 1: Kun LLM:t astuvat 3D-maailmaan: 3D-tehtävien kysely ja meta-analyysi multimodaalisten suurten kielimallien avulla
  • Paperilinkki: https://arxiv.org/pdf/2405.10255

Paperin esittely: Tämä artikkeli tarjoaa kattavan yleiskatsauksen menetelmistä, joiden avulla LLM voi käsitellä, ymmärtää ja tuottaa 3D-dataa, ja korostaa LLM:n ainutlaatuisia etuja, kuten kontekstin sisäistä oppimista, vaiheittaista päättelyä, avointa sanastoa ja laajaa sanastoa. World Knowledge, näiden etujen odotetaan edistävän merkittävästi tilan ymmärtämistä ja vuorovaikutusta ruumiillistuneissa tekoälyjärjestelmissä. Tutkimus kattaa erilaisia ​​3D-datan esitysmenetelmiä pistepilvistä hermosäteilykenttiin (Neural Radiation Fields, NeRF) ja tarkastelee niiden integrointia LLM:n kanssa 3D-kohtausten ymmärtämiseen, kuvauksen luomiseen, kysymyksiin vastaamiseen ja dialogiin sekä LLM-pohjaisia ​​agentteja tilatehtäviin, kuten esim. päättely, suunnittelu ja navigointi. Lisäksi artikkelissa tarkastellaan lyhyesti muita tapoja integroida 3D ja kieli. Näiden tutkimusten meta-analyysin avulla asiakirja paljastaa saavutetun merkittävän edistyksen ja korostaa tarvetta kehittää uusia menetelmiä 3D-LLM:n potentiaalin täysimääräiseksi hyödyntämiseksi.

Tämän tutkimuksen tueksi kirjoittajat ovat perustaneet projektisivun, joka järjestää ja listaa aiheeseen liittyviä artikkeleita: https://github.com/ActiveVisionLab/Awesome-LLM-3D



  • Paperi 2: Kattava tutkimus 3-D-näön perusteella tapahtuvasta robottimanipulaatiosta
  • Paperilinkki: https://ieeexplore.ieee.org/document/9541299

Paperin esittely: Tässä artikkelissa analysoidaan kattavasti 3D-näön viimeisintä kehitystä robotin ohjauksen alalla, erityisesti ihmisen älykkyyden jäljittelemisessä ja robottien joustavuuden lisäämisessä. Artikkelissa käsitellään 2D-näköjärjestelmää, johon perinteinen robottiohjaus yleensä luottaa, ja sen rajoituksia sekä tuodaan esiin haasteet, joita 3D-näköjärjestelmät kohtaavat avoimessa maailmassa, kuten yleinen esineiden tunnistus sekavissa taustoissa, okkluusioestimointi ja ihmismäinen joustava. ohjata. Artikkeli kattaa tärkeimmät tekniikat, kuten 3D-tiedonkeruun ja -esityksen, robottinäön kalibroinnin, 3D-objektien havaitsemisen/tunnistuksen, 6-vapausasteen asennonarvioinnin, otteen arvioinnin ja liikkeen suunnittelun. Lisäksi esitellään joitain julkisia tietokokonaisuuksia, arviointikriteerejä, vertailevaa analyysiä ja ajankohtaisia ​​haasteita. Lopuksi artikkelissa tarkastellaan robottiohjauksen vastaavia sovellusalueita ja pohditaan tulevaisuuden tutkimussuuntia ja avoimia kysymyksiä.

Kiinnostuneet lukijat voivat aloittaa oppimisen napsauttamalla projektilinkkiä.