nouvelles

Meta publie le modèle visuel Sapiens, permettant à l'IA d'analyser et de comprendre les actions humaines dans les images et les vidéos

2024-08-24

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

IT House a rapporté le 24 août que Meta Reality Lab a récemment lancé un modèle de vision d'IA appelé Sapiens, qui convient à quatre méthodes de base centrées sur l'humain : l'estimation de la pose bidimensionnelle, la segmentation des parties du corps, l'estimation de la profondeur et la prédiction des normales de surface.

Le nombre de paramètres dans ces modèles varie de 300 millions à 2 milliards. Ils utilisent une architecture de transformateur visuel dans laquelle les tâches partagent le même encodeur tandis que chaque tâche possède une tête de décodeur différente.

Estimation de pose 2D :Cette tâche consiste à détecter et localiser les points clés du corps humain dans des images 2D. Ces points clés correspondent généralement à des articulations telles que les coudes, les genoux et les épaules et sont utiles pour comprendre la posture et les mouvements humains.

Segmentation des parties du corps :Cette tâche segmente les images en différentes parties du corps telles que la tête, le torse, les bras et les jambes. Chaque pixel de l'image est classé comme appartenant à une partie spécifique du corps, ce qui est utile pour des applications telles que les essais virtuels et l'imagerie médicale.

Estimation de la profondeur :La tâche consiste à estimer la distance entre chaque pixel de l'image et la caméra, générant ainsi une image tridimensionnelle à partir d'une image bidimensionnelle. Ceci est essentiel pour des applications telles que la réalité augmentée et la conduite autonome, où la compréhension de la disposition spatiale est importante.

Prédiction de la normale à la surface :La tâche consiste à prédire l'orientation des surfaces dans une image. Chaque pixel se voit attribuer un vecteur normal, qui représente la direction vers laquelle la surface fait face. Ces informations sont précieuses pour la reconstruction 3D et la compréhension de la géométrie des objets de la scène.

Meta indique que le modèle peut prendre en charge nativement l'inférence haute résolution 1K et qu'il est très facile à ajuster pour des tâches individuelles en pré-entraînant le modèle sur plus de 300 millions d'images humaines sauvages.

Même lorsque les données étiquetées sont rares ou entièrement synthétiques, les modèles générés peuvent démontrer d'excellentes capacités de généralisation aux données sauvages.