новости

Хотите понять предпринимательское направление Ли Фейфэя? Вот список статей по Robot 3D.

2024-08-16

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Отчет о сердце машины

Монтажер: Чжан Цянь

В более чем 80 статьях описывается прогресс исследований в области «робототехника + 3D».

Некоторое время назад многие СМИ сообщили, что World Labs, стартап-компания, основанная известным ученым в области искусственного интеллекта и профессором Стэнфордского университета Ли Фейфеем, завершила два раунда финансирования всего за три месяца. Последний раунд финансирования привлек около 100 миллионов долларов США. Его оценка превысила 1 миллиард долларов США, что сделало его новым единорогом.

Направление развития World Labs сосредоточено на «пространственном интеллекте», то есть разработке моделей, способных понимать трехмерный физический мир и моделировать физические свойства, пространственное расположение и функции объектов. Ли Фейфей считает, что «пространственный интеллект» является ключевой частью разработки искусственного интеллекта. Ее команда обучает компьютеры и роботов выполнять действия в трехмерном мире в лаборатории Стэнфордского университета, например, использовать большую языковую модель, чтобы позволить роботизированная рука для открытия дверей и выполнения действий по устным инструкциям. Сэндвичи и другие задачи. (Подробнее см. «Ли Фейфей объясняет предпринимательское направление «Пространственный интеллект», позволяющий ИИ по-настоящему понять мир».)



Чтобы объяснить концепцию «пространственного интеллекта», Ли Фейфэй показал изображение кошки, вытянувшей лапы, чтобы подтолкнуть стакан к краю стола. По ее словам, за долю секунды человеческий мозг может оценить «геометрию этого стакана, его положение в трехмерном пространстве, его отношение к столу, кошке и всем остальным вещам», а затем предсказать, что произойдет, и принять меры, чтобы это исправить.

Фактически, помимо Ли Фейфея, многие исследовательские группы сейчас обращают внимание на направление 3D-зрения + роботы. Эти команды полагают, что многие ограничения нынешнего ИИ связаны с отсутствием у модели глубокого понимания трехмерного мира. Если мы хотим решить эту головоломку, мы должны вложить больше исследовательской энергии в направление 3D-видения. Кроме того, 3D-зрение обеспечивает восприятие глубины и пространственное понимание окружающей среды, что имеет решающее значение для навигации, работы и принятия решений роботом в сложном трехмерном мире.

Итак, существует ли какой-либо систематический исследовательский материал, на который могут ссылаться исследователи в этом направлении? Сердце машины недавно нашло такой:



Ссылка на проект: https://github.com/zubair-irshad/Awesome-Robotics-3D

В этом репозитории GitHub под названием «Awesome-Robotics-3D» собрано в общей сложности более 80 статей по направлению «3D-зрение + роботы». Большинство статей содержат соответствующие статьи, проекты и ссылки на код.



Эти статьи можно разделить на следующие темы:

  • стратегия обучения
  • предварительная подготовка
  • ВЛМ и LLM
  • выражать
  • Моделирование, наборы данных и тесты

Эти документы включают в себя препринты arXiv, а также документы ведущих конференций по робототехнике, таких как RSS, ICRA, IROS и CORL, а также документы ведущих конференций в области компьютерного зрения и машинного обучения, таких как CVPR, ICLR и ICML. Они очень ценны.

Перечень статей в каждой части следующий:

1. Стратегическое обучение





2. Предварительная тренировка



3. ВЛМ и LLM





4. Экспресс





5. Моделирование, наборы данных и тесты





Кроме того, автор также предоставляет две обзорные статьи, к которым вы можете обратиться:

  • Тема 1: Когда LLM вступают в мир 3D: обзор и метаанализ 3D-задач с использованием многомодальных больших языковых моделей
  • Ссылка на документ: https://arxiv.org/pdf/2405.10255.

Введение в документ: В этом документе представлен всесторонний обзор методологий, которые позволяют LLM обрабатывать, понимать и генерировать трехмерные данные, а также подчеркиваются уникальные преимущества LLM, такие как контекстное обучение, пошаговое рассуждение, возможности открытого словаря и широкие возможности LLM. Ожидается, что эти преимущества значительно улучшат пространственное понимание и взаимодействие во встроенных системах искусственного интеллекта. Исследование охватывает различные методы представления трехмерных данных, от облаков точек до полей нейронного излучения (NeRF), и изучает их интеграцию с LLM для понимания трехмерных сцен, создания описаний, ответов на вопросы и диалога, а также с агентами на основе LLM для пространственных задач, таких как рассуждение, планирование и навигация. Кроме того, в статье кратко рассматриваются другие методы интеграции 3D и языка. Посредством метаанализа этих исследований в документе раскрывается значительный прогресс и подчеркивается необходимость разработки новых методов для полного использования потенциала 3D-LLM.

Чтобы поддержать это расследование, авторы создали страницу проекта, на которой систематизированы и перечислены документы, связанные с этой темой: https://github.com/ActiveVisionLab/Awesome-LLM-3D.



  • Документ 2: Комплексное исследование манипулирования роботами на основе трехмерного зрения
  • Ссылка на документ: https://ieeexplore.ieee.org/document/9541299.

Введение в статью: В этой статье всесторонне анализируются последние достижения 3D-видения в области управления роботами, особенно в области имитации человеческого интеллекта и предоставления роботам более гибких рабочих возможностей. В статье обсуждается система 2D-видения, на которую обычно опирается традиционное управление роботами, и ее ограничения, а также указываются проблемы, с которыми сталкиваются системы 3D-видения в открытом мире, такие как общее распознавание объектов на загроможденном фоне, оценка окклюзии и гибкость, подобная человеческой. контроль. В статье рассматриваются ключевые технологии, такие как сбор и представление 3D-данных, калибровка зрения робота, обнаружение/распознавание 3D-объектов, оценка позы с 6 степенями свободы, оценка захвата и планирование движения. Кроме того, представлены некоторые общедоступные наборы данных, критерии оценки, сравнительный анализ и текущие проблемы. Наконец, в статье исследуются смежные области применения управления роботами и обсуждаются будущие направления исследований и открытые проблемы.

Заинтересованные читатели могут нажать на ссылку проекта, чтобы начать обучение.