notizia

Vuoi capire la direzione imprenditoriale di Li Feifei? Ecco un elenco di articoli su Robot 3D

2024-08-16

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Rapporto sul cuore della macchina

Editore: Zhang Qian

Più di 80 articoli comprendono i progressi della ricerca "robotica + 3D".

Qualche tempo fa, diversi media hanno riferito che World Labs, una startup fondata dal famoso studioso di intelligenza artificiale e professore dell'Università di Stanford Li Feifei, aveva completato due round di finanziamento in soli tre mesi. L'ultimo round di finanziamento ha raccolto circa 100 milioni di dollari dalla società La sua valutazione ha superato il miliardo di dollari, rendendolo un nuovo unicorno.

La direzione di sviluppo di World Labs si concentra sull'"intelligenza spaziale", ovvero sullo sviluppo di modelli in grado di comprendere il mondo fisico tridimensionale e simulare le proprietà fisiche, la posizione spaziale e le funzioni degli oggetti. Li Feifei ritiene che l'"intelligenza spaziale" sia una parte fondamentale dello sviluppo dell'intelligenza artificiale. Il suo team sta addestrando computer e robot a compiere azioni nel mondo tridimensionale nel laboratorio dell'Università di Stanford, ad esempio utilizzando un modello linguistico di grandi dimensioni per consentire una braccio robotico per aprire le porte e fare cose secondo le istruzioni verbali. Panini e altri compiti. (Per i dettagli, vedere "Li Feifei spiega la direzione imprenditoriale "Intelligenza spaziale" per consentire all'intelligenza artificiale di comprendere veramente il mondo")



Per spiegare il concetto di "intelligenza spaziale", Li Feifei ha mostrato l'immagine di un gatto che allunga le zampe per spingere un bicchiere fino al bordo di un tavolo. In una frazione di secondo, dice, il cervello umano può valutare "la geometria di questo bicchiere, la sua posizione nello spazio tridimensionale, la sua relazione con il tavolo, il gatto e tutte queste altre cose", quindi prevedere cosa accadrà e agire per risolverlo.

Infatti, oltre a Li Feifei, molti gruppi di ricerca stanno ora prestando attenzione alla direzione della visione 3D + robot. Questi team ritengono che molti dei limiti dell’attuale intelligenza artificiale siano dovuti alla mancanza di una profonda comprensione del mondo 3D da parte del modello. Se vogliamo completare questo puzzle, dobbiamo investire più energie di ricerca nella direzione della visione 3D. Inoltre, la visione 3D fornisce la percezione della profondità e la comprensione spaziale dell’ambiente, che sono fondamentali per la navigazione, il funzionamento e il processo decisionale dei robot in un mondo tridimensionale complesso.

Quindi, esiste materiale di ricerca sistematico a cui i ricercatori in questa direzione possono fare riferimento? Il Cuore della Macchina ne ha recentemente trovato uno:



Collegamento al progetto: https://github.com/zubair-irshad/Awesome-Robotics-3D

Questo repository GitHub chiamato "Awesome-Robotics-3D" ha raccolto un totale di più di 80 documenti nella direzione "Visione 3D + robot". La maggior parte dei documenti fornisce documenti, progetti e collegamenti al codice corrispondenti.



Questi documenti possono essere suddivisi nei seguenti argomenti:

  • apprendimento strategico
  • pre-allenamento
  • VLM e LLM
  • esprimere
  • Simulazioni, set di dati e benchmark

Questi documenti includono preprint di arXiv, nonché documenti delle principali conferenze sulla robotica come RSS, ICRA, IROS e CORL, nonché documenti delle principali conferenze nei campi della visione artificiale e dell'apprendimento automatico come CVPR, ICLR e ICML. Sono molto preziosi.

L'elenco dei documenti in ciascuna parte è il seguente:

1. Apprendimento strategico





2. Pre-formazione



3. VLM e LLM





4. Esprimere





5. Simulazioni, set di dati e benchmark





Inoltre, l'autore fornisce anche due documenti di revisione a cui puoi fare riferimento:

  • Titolo 1: Quando gli LLM entrano nel mondo 3D: un'indagine e una meta-analisi di attività 3D tramite modelli linguistici multimodali di grandi dimensioni
  • Link al documento: https://arxiv.org/pdf/2405.10255

Introduzione al documento: questo documento fornisce una panoramica completa delle metodologie che consentono a LLM di elaborare, comprendere e generare dati 3D ed evidenzia i vantaggi unici di LLM come l'apprendimento in contesto, il ragionamento passo passo, le capacità di vocabolario aperto e un'ampia gamma di strumenti. mondiale, si prevede che questi vantaggi miglioreranno significativamente la comprensione spaziale e l’interazione nei sistemi di intelligenza artificiale incorporati. La ricerca copre vari metodi di rappresentazione dei dati 3D, dalle nuvole di punti ai campi di radiazione neurale (NeRF), ed esamina la loro integrazione con LLM per la comprensione della scena 3D, la generazione di descrizioni, la risposta alle domande e il dialogo, nonché agenti basati su LLM per compiti spaziali come ragionamento, pianificazione e navigazione. Inoltre, l'articolo esamina brevemente altri metodi di integrazione del 3D e del linguaggio. Attraverso una meta-analisi di questi studi, il documento rivela i significativi progressi compiuti ed evidenzia la necessità di sviluppare nuovi metodi per sfruttare appieno le potenzialità del 3D-LLM.

Per supportare questa indagine, gli autori hanno creato una pagina del progetto che organizza ed elenca i documenti relativi all'argomento: https://github.com/ActiveVisionLab/Awesome-LLM-3D



  • Documento 2: Uno studio completo sulla manipolazione robotica basata sulla visione 3D
  • Link al documento: https://ieeexplore.ieee.org/document/9541299

Introduzione all'articolo: questo articolo analizza in modo esaustivo gli ultimi progressi della visione 3D nel campo del controllo dei robot, in particolare nell'imitare l'intelligenza umana e nel fornire ai robot capacità di lavoro più flessibili. L'articolo discute il sistema di visione 2D su cui solitamente si basa il controllo tradizionale dei robot e i suoi limiti, e sottolinea le sfide affrontate dai sistemi di visione 3D nel mondo aperto, come il riconoscimento generale degli oggetti in sfondi disordinati, la stima dell'occlusione e flessibilità simile a quella umana. controllare. L'articolo copre tecnologie chiave come l'acquisizione e la rappresentazione di dati 3D, la calibrazione della visione del robot, il rilevamento/riconoscimento di oggetti 3D, la stima della posa a 6 gradi di libertà, la stima della presa e la pianificazione del movimento. Inoltre, vengono introdotti alcuni set di dati pubblici, criteri di valutazione, analisi comparative e sfide attuali. Infine, l'articolo esplora i relativi campi applicativi del controllo robotico e discute le future direzioni di ricerca e le questioni aperte.

I lettori interessati possono fare clic sul collegamento del progetto per iniziare ad apprendere.