Meta, AI가 사진과 비디오에서 인간의 행동을 분석하고 이해할 수 있는 Sapiens 시각적 모델 출시

2024-08-24

IT하우스는 최근 메타리얼리티랩(Meta Reality Lab)이 2차원 자세 추정, 신체 부위 분할, 깊이 추정, 표면 법선 예측 등 인간 중심의 4가지 기본 방법에 적합한 AI 비전 모델인 사피엔스(Sapiens)를 출시했다고 24일 보도했다.

이 모델의 매개변수 수는 3억에서 20억까지 다양합니다. 작업은 동일한 인코더를 공유하고 각 작업은 서로 다른 디코더 헤드를 갖는 시각적 변환기 아키텍처를 사용합니다.

2D 포즈 추정:이 작업에는 2D 이미지에서 인체의 주요 지점을 감지하고 찾는 작업이 포함됩니다. 이러한 핵심 포인트는 일반적으로 팔꿈치, 무릎, 어깨 등의 관절에 해당하며, 인간의 자세와 움직임을 이해하는 데 도움이 됩니다.

신체 부위 분할:이 작업은 이미지를 머리, 몸통, 팔, 다리와 같은 다양한 신체 부위로 분할합니다. 이미지의 각 픽셀은 특정 신체 부위에 속하는 것으로 분류되므로 가상 체험 및 의료 영상과 같은 응용 분야에 유용합니다.

예상 깊이:이 작업은 카메라에서 이미지의 각 픽셀까지의 거리를 추정하여 2차원 이미지에서 3차원 이미지를 효과적으로 생성하는 것입니다. 이는 공간 레이아웃을 이해하는 것이 중요한 증강 현실 및 자율 주행과 같은 애플리케이션에 매우 중요합니다.

표면 법선 예측:이 작업은 이미지에서 표면의 방향을 예측하는 것입니다. 각 픽셀에는 표면이 향하는 방향을 나타내는 법선 벡터가 할당됩니다. 이 정보는 3D 재구성과 장면 내 개체의 기하학적 구조를 이해하는 데 유용합니다.

Meta는 이 모델이 기본적으로 1K 고해상도 추론을 지원할 수 있으며 3억 개가 넘는 야생 인간 이미지에 대해 모델을 사전 교육함으로써 개별 작업에 맞게 조정하기가 매우 쉽다고 말합니다.

레이블이 지정된 데이터가 부족하거나 완전히 합성된 경우에도 생성된 모델은 야생 데이터에 대한 탁월한 일반화 기능을 보여줄 수 있습니다.

소식