Minhas informações de contato
Correspondênciaadmin@informação.bz
2024-08-16
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
Relatório do coração da máquina
Editor: Zhang Qian
Mais de 80 artigos compreendem o progresso da pesquisa "robótica + 3D".
Há algum tempo, vários meios de comunicação relataram que o World Labs, uma empresa iniciante fundada pelo famoso estudioso de IA e professor da Universidade de Stanford, Li Feifei, completou duas rodadas de financiamento em apenas três meses. A última rodada de financiamento arrecadou aproximadamente US$ 100 milhões. Sua avaliação ultrapassou US$ 1 bilhão, tornando-o um novo unicórnio.
A direção de desenvolvimento do World Labs concentra-se na "inteligência espacial", ou seja, no desenvolvimento de modelos que possam compreender o mundo físico tridimensional e simular as propriedades físicas, localização espacial e funções dos objetos. Li Feifei acredita que a "inteligência espacial" é uma parte fundamental do desenvolvimento da IA. Sua equipe está treinando computadores e robôs para realizar ações no mundo tridimensional no laboratório da Universidade de Stanford, como usar um grande modelo de linguagem para permitir um grande modelo de linguagem. braço robótico para abrir portas e fazer coisas de acordo com instruções verbais e outras tarefas. (Para obter detalhes, consulte "Li Feifei explica a direção empreendedora" Inteligência Espacial "para permitir que a IA realmente entenda o mundo")
Para explicar o conceito de “inteligência espacial”, Li Feifei mostrou a imagem de um gato esticando as patas para empurrar um copo até a borda de uma mesa. Numa fração de segundo, diz ela, o cérebro humano pode avaliar “a geometria deste vidro, a sua posição no espaço tridimensional, a sua relação com a mesa, o gato e todas estas outras coisas”, e depois prever o que irá acontecer e tome medidas para corrigi-lo.
Na verdade, além de Li Feifei, muitas equipes de pesquisa estão agora prestando atenção à direção da visão 3D + robôs. Essas equipes acreditam que muitas das limitações da IA atual se devem à falta de compreensão profunda do modelo do mundo 3D. Se quisermos completar este quebra-cabeça, devemos investir mais energia de pesquisa na direção da visão 3D. Além disso, a visão 3D fornece percepção de profundidade e compreensão espacial do ambiente, o que é fundamental para a navegação, operação e tomada de decisões do robô em um mundo tridimensional complexo.
Então, existe algum material de pesquisa sistemática ao qual os pesquisadores nessa direção possam se referir? O Coração da Máquina encontrou recentemente um:
Link do projeto: https://github.com/zubair-irshad/Awesome-Robotics-3D
Este repositório GitHub chamado "Awesome-Robotics-3D" coletou um total de mais de 80 artigos na direção de "visão 3D + robôs". A maioria dos artigos fornece artigos, projetos e links de código correspondentes.
Esses artigos podem ser divididos nos seguintes tópicos:
Esses artigos incluem pré-impressões do arXiv, bem como artigos das principais conferências de robótica, como RSS, ICRA, IROS e CORL, bem como artigos das principais conferências nas áreas de visão computacional e aprendizado de máquina, como CVPR, ICLR e ICML. Eles são muito valiosos.
A lista de artigos em cada parte é a seguinte:
1. Aprendizagem estratégica
2. Pré-treinamento
3. VLM e LLM
4. Expressar
5. Simulações, conjuntos de dados e benchmarks
Além disso, o autor também fornece dois artigos de revisão que você pode consultar:
Introdução ao artigo: Este artigo fornece uma visão geral abrangente das metodologias que permitem ao LLM processar, compreender e gerar dados 3D e destaca as vantagens exclusivas do LLM, como aprendizagem em contexto, raciocínio passo a passo, recursos de vocabulário aberto e amplo conhecimento mundial, espera-se que essas vantagens avancem significativamente a compreensão espacial e a interação em sistemas de inteligência artificial incorporados. A pesquisa cobre vários métodos de representação de dados 3D, desde nuvens de pontos até campos de radiação neural (NeRF), e examina sua integração com LLM para compreensão de cenas 3D, geração de descrição, resposta a perguntas e diálogo, bem como agentes baseados em LLM para tarefas espaciais, como raciocínio, planejamento e navegação. Além disso, o artigo analisa brevemente outros métodos de integração 3D e linguagem. Através de uma meta-análise destes estudos, o artigo revela os progressos significativos alcançados e destaca a necessidade de desenvolver novos métodos para explorar plenamente o potencial do 3D-LLM.
Para apoiar esta investigação, os autores estabeleceram uma página do projeto que organiza e lista artigos relacionados ao tema: https://github.com/ActiveVisionLab/Awesome-LLM-3D
Introdução ao artigo: Este artigo analisa de forma abrangente os mais recentes progressos da visão 3D no campo do controle de robôs, especialmente na imitação da inteligência humana e no fornecimento de capacidades de trabalho mais flexíveis aos robôs. O artigo discute o sistema de visão 2D no qual geralmente se baseia o controle de robôs tradicionais e suas limitações, e aponta os desafios enfrentados pelos sistemas de visão 3D no mundo aberto, como reconhecimento geral de objetos em fundos desordenados, estimativa de oclusão e flexibilidade semelhante à humana. controlar. O artigo cobre tecnologias-chave, como aquisição e representação de dados 3D, calibração de visão de robô, detecção/reconhecimento de objetos 3D, estimativa de pose de 6 graus de liberdade, estimativa de compreensão e planejamento de movimento. Além disso, são introduzidos alguns conjuntos de dados públicos, critérios de avaliação, análises comparativas e desafios atuais. Finalmente, o artigo explora campos de aplicação relacionados ao controle de robôs e discute direções de pesquisas futuras e questões em aberto.
Os leitores interessados podem clicar no link do projeto para começar a aprender.