noticias

Meta lanza el modelo visual Sapiens, que permite a la IA analizar y comprender las acciones humanas en imágenes y videos

2024-08-24

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

IT House informó el 24 de agosto que Meta Reality Lab lanzó recientemente un modelo de visión de IA llamado Sapiens, que es adecuado para cuatro métodos básicos centrados en el ser humano: estimación de pose bidimensional, segmentación de partes del cuerpo, estimación de profundidad y predicción de superficie normal.

El número de parámetros en estos modelos varía de 300 millones a 2 mil millones. Emplean una arquitectura de transformador visual donde las tareas comparten el mismo codificador mientras que cada tarea tiene un cabezal decodificador diferente.

Estimación de pose 2D:Esta tarea consiste en detectar y localizar puntos clave del cuerpo humano en imágenes 2D. Estos puntos clave suelen corresponder a articulaciones como codos, rodillas y hombros, y son útiles para comprender la postura y el movimiento humanos.

Segmentación de partes del cuerpo:Esta tarea segmenta imágenes en diferentes partes del cuerpo, como cabeza, torso, brazos y piernas. Cada píxel de la imagen se clasifica como perteneciente a una parte específica del cuerpo, lo que resulta útil para aplicaciones como pruebas virtuales e imágenes médicas.

Estimación de profundidad:La tarea consiste en estimar la distancia de cada píxel de la imagen desde la cámara, generando efectivamente una imagen tridimensional a partir de una imagen bidimensional. Esto es fundamental para aplicaciones como la realidad aumentada y la conducción autónoma, donde es importante comprender la distribución espacial.

Predicción normal de superficie:La tarea consiste en predecir la orientación de las superficies en una imagen. A cada píxel se le asigna un vector normal, que representa la dirección hacia la que mira la superficie. Esta información es valiosa para la reconstrucción 3D y la comprensión de la geometría de los objetos en la escena.

Meta dice que el modelo puede admitir de forma nativa inferencia de alta resolución de 1K y es muy fácil de ajustar para tareas individuales entrenando previamente el modelo en más de 300 millones de imágenes humanas salvajes.

Incluso cuando los datos etiquetados son escasos o completamente sintéticos, los modelos generados pueden demostrar excelentes capacidades de generalización de datos salvajes.