notícias

Meta lança modelo visual Sapiens, permitindo que IA analise e entenda ações humanas em fotos e vídeos

2024-08-24

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

A IT House informou em 24 de agosto que o Meta Reality Lab lançou recentemente um modelo de visão de IA chamado Sapiens, que é adequado para quatro métodos básicos centrados no ser humano: estimativa de pose bidimensional, segmentação de partes do corpo, estimativa de profundidade e previsão visual de superfície.

Esses modelos variam no número de parâmetros, variando de 300 milhões a 2 bilhões. Eles empregam uma arquitetura de transformador visual onde as tarefas compartilham o mesmo codificador enquanto cada tarefa tem um cabeçote decodificador diferente.

Estimativa de pose 2D:Esta tarefa envolve detectar e localizar pontos-chave do corpo humano em imagens 2D. Esses pontos-chave normalmente correspondem a articulações como cotovelos, joelhos e ombros e são úteis na compreensão da postura e do movimento humano.

Segmentação de partes do corpo:Esta tarefa segmenta imagens em diferentes partes do corpo, como cabeça, tronco, braços e pernas. Cada pixel da imagem é classificado como pertencente a uma parte específica do corpo, o que é útil para aplicações como testes virtuais e imagens médicas.

Estimativa de profundidade:A tarefa é estimar a distância de cada pixel da imagem até a câmera, gerando efetivamente uma imagem tridimensional a partir de uma imagem bidimensional. Isto é fundamental para aplicações como realidade aumentada e direção autônoma, onde a compreensão do layout espacial é importante.

Previsão normal de superfície:A tarefa é prever a orientação das superfícies em uma imagem. Cada pixel recebe um vetor normal, que representa a direção para a qual a superfície está voltada. Essas informações são valiosas para a reconstrução 3D e para a compreensão da geometria dos objetos na cena.

Meta diz que o modelo pode suportar nativamente inferência de alta resolução de 1K e é muito fácil de ajustar para tarefas individuais, pré-treinando o modelo em mais de 300 milhões de imagens humanas selvagens.

Mesmo quando os dados rotulados são escassos ou totalmente sintéticos, os modelos gerados podem demonstrar excelentes capacidades de generalização para dados selvagens.