новости

Meta выпускает визуальную модель Sapiens, позволяющую ИИ анализировать и понимать действия человека на картинках и видео

2024-08-24

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

IT House сообщил 24 августа, что Meta Reality Lab недавно запустила модель искусственного зрения под названием Sapiens, которая подходит для четырех основных человеко-ориентированных методов: двумерной оценки позы, сегментации частей тела, оценки глубины и прогнозирования нормалей поверхности.

Модели различаются по количеству параметров: от 300 миллионов до 2 миллиардов. Они используют архитектуру визуального преобразователя, в которой задачи используют один и тот же кодировщик, а каждая задача имеет другую головку декодера.

Оценка 2D-позы:Эта задача включает в себя обнаружение и определение местоположения ключевых точек человеческого тела на 2D-изображениях. Эти ключевые точки обычно соответствуют таким суставам, как локти, колени и плечи, и помогают понять позу и движения человека.

Сегментация частей тела:Эта задача сегментирует изображения на различные части тела, такие как голова, туловище, руки и ноги. Каждый пиксель изображения классифицируется как принадлежащий определенной части тела, что полезно для таких приложений, как виртуальные примерки и медицинская визуализация.

Оценка глубины:Задача состоит в том, чтобы оценить расстояние каждого пикселя изображения от камеры, эффективно создавая трехмерное изображение из двухмерного изображения. Это критически важно для таких приложений, как дополненная реальность и автономное вождение, где важно понимание пространственного расположения.

Прогноз нормалей поверхности:Задача — предсказать ориентацию поверхностей на изображении. Каждому пикселю присваивается вектор нормали, который представляет направление, в котором обращена поверхность. Эта информация полезна для 3D-реконструкции и понимания геометрии объектов сцены.

Мета утверждает, что модель может изначально поддерживать вывод с высоким разрешением 1K и ее очень легко настроить для индивидуальных задач путем предварительного обучения модели на более чем 300 миллионах изображений диких людей.

Даже если размеченных данных недостаточно или они полностью синтетические, сгенерированные модели могут продемонстрировать отличные возможности обобщения диких данных.