Моя контактная информация
Почта[email protected]
2024-08-16
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
Отчет о сердце машины
Монтажер: Чжан Цянь
В более чем 80 статьях описывается прогресс исследований в области «робототехника + 3D».
Некоторое время назад многие СМИ сообщили, что World Labs, стартап-компания, основанная известным ученым в области искусственного интеллекта и профессором Стэнфордского университета Ли Фейфеем, завершила два раунда финансирования всего за три месяца. Последний раунд финансирования привлек около 100 миллионов долларов США. Его оценка превысила 1 миллиард долларов США, что сделало его новым единорогом.
Направление развития World Labs сосредоточено на «пространственном интеллекте», то есть разработке моделей, способных понимать трехмерный физический мир и моделировать физические свойства, пространственное расположение и функции объектов. Ли Фейфей считает, что «пространственный интеллект» является ключевой частью разработки искусственного интеллекта. Ее команда обучает компьютеры и роботов выполнять действия в трехмерном мире в лаборатории Стэнфордского университета, например, использовать большую языковую модель, чтобы позволить роботизированная рука для открытия дверей и выполнения действий по устным инструкциям. Сэндвичи и другие задачи. (Подробнее см. «Ли Фейфей объясняет предпринимательское направление «Пространственный интеллект», позволяющий ИИ по-настоящему понять мир».)
Чтобы объяснить концепцию «пространственного интеллекта», Ли Фейфэй показал изображение кошки, вытянувшей лапы, чтобы подтолкнуть стакан к краю стола. По ее словам, за долю секунды человеческий мозг может оценить «геометрию этого стакана, его положение в трехмерном пространстве, его отношение к столу, кошке и всем остальным вещам», а затем предсказать, что произойдет, и принять меры, чтобы это исправить.
Фактически, помимо Ли Фейфея, многие исследовательские группы сейчас обращают внимание на направление 3D-зрения + роботы. Эти команды полагают, что многие ограничения нынешнего ИИ связаны с отсутствием у модели глубокого понимания трехмерного мира. Если мы хотим решить эту головоломку, мы должны вложить больше исследовательской энергии в направление 3D-видения. Кроме того, 3D-зрение обеспечивает восприятие глубины и пространственное понимание окружающей среды, что имеет решающее значение для навигации, работы и принятия решений роботом в сложном трехмерном мире.
Итак, существует ли какой-либо систематический исследовательский материал, на который могут ссылаться исследователи в этом направлении? Сердце машины недавно нашло такой:
Ссылка на проект: https://github.com/zubair-irshad/Awesome-Robotics-3D
В этом репозитории GitHub под названием «Awesome-Robotics-3D» собрано в общей сложности более 80 статей по направлению «3D-зрение + роботы». Большинство статей содержат соответствующие статьи, проекты и ссылки на код.
Эти статьи можно разделить на следующие темы:
Эти документы включают в себя препринты arXiv, а также документы ведущих конференций по робототехнике, таких как RSS, ICRA, IROS и CORL, а также документы ведущих конференций в области компьютерного зрения и машинного обучения, таких как CVPR, ICLR и ICML. Они очень ценны.
Перечень статей в каждой части следующий:
1. Стратегическое обучение
2. Предварительная тренировка
3. ВЛМ и LLM
4. Экспресс
5. Моделирование, наборы данных и тесты
Кроме того, автор также предоставляет две обзорные статьи, к которым вы можете обратиться:
Введение в документ: В этом документе представлен всесторонний обзор методологий, которые позволяют LLM обрабатывать, понимать и генерировать трехмерные данные, а также подчеркиваются уникальные преимущества LLM, такие как контекстное обучение, пошаговое рассуждение, возможности открытого словаря и широкие возможности LLM. Ожидается, что эти преимущества значительно улучшат пространственное понимание и взаимодействие во встроенных системах искусственного интеллекта. Исследование охватывает различные методы представления трехмерных данных, от облаков точек до полей нейронного излучения (NeRF), и изучает их интеграцию с LLM для понимания трехмерных сцен, создания описаний, ответов на вопросы и диалога, а также с агентами на основе LLM для пространственных задач, таких как рассуждение, планирование и навигация. Кроме того, в статье кратко рассматриваются другие методы интеграции 3D и языка. Посредством метаанализа этих исследований в документе раскрывается значительный прогресс и подчеркивается необходимость разработки новых методов для полного использования потенциала 3D-LLM.
Чтобы поддержать это расследование, авторы создали страницу проекта, на которой систематизированы и перечислены документы, связанные с этой темой: https://github.com/ActiveVisionLab/Awesome-LLM-3D.
Введение в статью: В этой статье всесторонне анализируются последние достижения 3D-видения в области управления роботами, особенно в области имитации человеческого интеллекта и предоставления роботам более гибких рабочих возможностей. В статье обсуждается система 2D-видения, на которую обычно опирается традиционное управление роботами, и ее ограничения, а также указываются проблемы, с которыми сталкиваются системы 3D-видения в открытом мире, такие как общее распознавание объектов на загроможденном фоне, оценка окклюзии и гибкость, подобная человеческой. контроль. В статье рассматриваются ключевые технологии, такие как сбор и представление 3D-данных, калибровка зрения робота, обнаружение/распознавание 3D-объектов, оценка позы с 6 степенями свободы, оценка захвата и планирование движения. Кроме того, представлены некоторые общедоступные наборы данных, критерии оценки, сравнительный анализ и текущие проблемы. Наконец, в статье исследуются смежные области применения управления роботами и обсуждаются будущие направления исследований и открытые проблемы.
Заинтересованные читатели могут нажать на ссылку проекта, чтобы начать обучение.