소식

ECCV 2024 | 난양폴리테크닉의 3D 디지털 휴먼 세대의 새로운 패러다임: 구조 확산 모델

2024-08-12

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

  • AIxiv 칼럼은 Machine Heart가 학술 및 기술 콘텐츠를 게재하는 칼럼입니다. 지난 몇 년 동안 Heart of the Machine AIxiv 칼럼은 전 세계 주요 대학 및 기업의 최고 연구실을 대상으로 2,000개 이상의 보고서를 접수하여 학술 교류 및 보급을 효과적으로 촉진했습니다. 공유하고 싶은 훌륭한 작품이 있다면 자유롭게 기여하거나 보고를 위해 연락주시기 바랍니다. 제출 이메일: [email protected] [email protected]

본 논문의 저자는 Hu Tao 박사후 연구원, Hong Fangzhou 박사과정 학생, Liu Ziwei 교수(MIT Technology Review Asia-Pacific Innovator, MIT Technology Review Asia-Pacific Innovator) 등 모두 싱가포르 난양 기술대학교 S-Lab 팀 출신입니다. 35세). 최근 몇 년간 S-Lab은 CVPR, ICCV, ECCV, NeurIPS, ICLR 등 주요 학회에서 다수의 CV/CG/AIGC 관련 연구 작품을 발표했으며, 국내 유명 대학 및 과학 연구 기관과 폭넓게 협력해 왔습니다. 그리고 해외.

3차원 디지털 인간 생성 및 편집은 디지털 트윈, 메타버스, 게임, 홀로그램 통신 및 기타 분야에서 널리 사용됩니다. 전통적인 3차원 디지털 인간 제작은 종종 시간이 많이 걸리고 노동 집약적입니다. 최근 몇 년 동안 연구자들은 3차원 생성적 적대 신경망(3D GAN)을 기반으로 한 2D 이미지에서 3차원 디지털 인간을 학습할 것을 제안했습니다. 디지털 인간 생산의 효율성.

이러한 방법은 종종 1차원 잠재 벡터 공간에서 디지털 인간을 모델링하며, 1차원 잠재 벡터는 인체의 기하학적 구조와 의미 정보를 표현할 수 없으므로 생성 품질과 편집 기능이 제한됩니다.

이 문제를 해결하기 위해,싱가포르 난양공과대학 S-Lab팀은 구조적 잠재 확산 모델(Structured Latent Diffusion Model)을 기반으로 새로운 3차원 디지털 인간 세대 패러다임 StructLDM을 제안했습니다.. 이 패러다임에는 구조화된 고차원 인체 표현, 구조화된 자동 디코더 및 구조화된 잠재 공간 확산 모델의 세 가지 주요 설계가 포함됩니다.

StructLDM은 이미지와 비디오를 통해 학습하는 피드포워드 3D 생성 모델로, 기존 3D GAN 방법과 비교하여 일관된 관점을 가진 고품질의 다양하고 일관된 3D 디지털 인물을 생성할 수 있으며, 다양한 수준의 제어 가능한 생성 및 편집 기능을 지원합니다. 부분적인 의상 편집, 3차원 가상 피팅 및 기타 부분 인식 편집 작업으로 특정 의류 유형이나 마스킹 조건에 의존하지 않으며 적용성이 높습니다.



논문 제목: StructLDM: 3D 인간 생성을 위한 구조적 잠재 확산

논문 주소: https://arxiv.org/pdf/2404.01241

프로젝트 홈페이지: https://taohuumd.github.io/projects/StructLDM

연구실 홈페이지: https://www.ntu.edu.sg/s-lab



방법 개요



StructLDM 교육 프로세스는 두 단계로 구성됩니다.

구조화된 자동 디코딩: 인간 자세 정보 SMPL 및 카메라 매개변수가 주어지면 자동 디코더는 훈련 세트의 각 개별 캐릭터에 대해 구조화된 UV 잠재성을 맞춥니다. 이 프로세스의 어려움은 서로 다른 자세, 서로 다른 카메라 각도 및 서로 다른 의복을 가진 인간 이미지를 통합된 UV 잠재성에 맞추는 방법입니다. 이를 위해 StructLDM은 신체의 각 부분을 개별적으로 모델링하고 글로벌 스타일을 통해 구조화된 로컬 NeRF를 제안합니다. 블렌더는 신체 부위를 병합하고 전체적인 캐릭터 모양을 학습합니다. 또한, 포즈 추정 오류 문제를 해결하기 위해 자동 디코더 학습 과정에 적대적 학습을 도입합니다. 이 단계에서 자동 디코더는 훈련 세트의 각 개별 문자를 일련의 UV 잠재성으로 변환합니다.

구조적 확산 모델: 이 확산 모델은 인체의 3차원 사전 학습을 위해 1단계에서 획득한 UV 잠재 공간을 학습합니다.

추론 단계에서 StructLDM은 무작위로 3차원 디지털 사람을 생성할 수 있습니다. 잡음은 무작위로 샘플링되고 잡음이 제거되어 UV 잠재성을 얻습니다. 이는 자동 디코더를 통해 인체 이미지로 렌더링될 수 있습니다.

실험 결과

이 연구는 단일 뷰 이미지 데이터 세트 DeepFashion [Liu et al. 2016], 비디오 데이터 세트 UBCFashion [Zablotskaia et al. 2019] 및 실제 3D 인체 데이터 세트 THUman 2.0에 대한 실험적 평가를 수행했습니다. . 2021], 가상 3D 인체 데이터 세트 RenderPeople.

3.1 정성적 결과의 비교

StructLDM은 EVA3D, AG3D 및 StyleSDF와 같은 UBCFashion 데이터 세트에 대한 기존 3D GAN 방법과 비교되었습니다. 기존 방법과 비교하여 StructLDM은 다양한 피부색, 다양한 헤어스타일, 의류 디테일(예: 하이힐) 등 일관된 관점을 갖춘 고품질의 다양하고 일관된 3D 디지털 인물을 생성할 수 있습니다.



StructLDM은 기존 3D GAN 방법(예: EG3D, StyleSDF 및 EVA3D) 및 RenderPeople 데이터세트의 확산 모델 PrimDiff와 비교됩니다. 기존 방법과 비교하여 StructLDM은 자세와 외모가 다른 고품질의 3차원 디지털 인물을 생성하고 고품질의 얼굴 세부 정보를 생성할 수 있습니다.



3.2 정량적 결과의 비교

연구진은 정량적 결과를 UBCFashion, RenderPeople 및 THUman 2.0의 알려진 방법과 비교했으며, FID를 계산하기 위해 각 데이터 세트에서 50,000개의 이미지를 무작위로 선택했습니다. 또한 User Study에 따르면 약 73%의 사용자가 StructLDM이 생성한 결과가 얼굴 디테일 및 전신 이미지 품질 측면에서 AG3D보다 더 유리하다고 생각하는 것으로 나타났습니다.



3.3 적용

3.3.1 제어 가능한 발전

StructLDM은 카메라 관점, 자세, 체형 제어, 3차원 가상 피팅 등 제어 가능한 생성을 지원하고 2차원 잠재 공간에서 보간할 수 있습니다.



3.3.2 복합발전

StructLDM은 부품 ① ② ③ ④ 을 결합하여 새로운 디지털 인물을 생성하는 등의 결합 생성을 지원하며, 아이덴티티 편집, 소매(4), 스커트(5), 3차원 가상 피팅(6), 전신 스타일화 등 다양한 편집 작업을 지원합니다. (7).



3.3.3 인터넷 사진 편집

StructLDM은 먼저 Inversion 기술을 통해 해당 UV 잠재성을 얻은 후 생성된 디지털 인물을 신발, 상의, 바지 등 UV 잠재 편집을 통해 편집할 수 있습니다.



3.4 절제 실험

3.4.1 숨겨진 공간 확산

StructLDM이 제안한 잠재 공간 확산 모델은 조합 생성과 같은 다양한 편집 작업에 사용될 수 있습니다. 아래 그림에서는 확산 단계 수, 노이즈 규모 등 확산 모델 매개변수가 생성된 결과에 미치는 영향을 살펴봅니다. StructLDM은 확산 모델 매개변수를 제어하여 생성 성능을 향상시킵니다.



3.4.2 1차원 및 2차원 인체 표현

연구자들은 1차원 및 2차원 잠재 인체 표현의 효과를 비교한 결과 2차원 잠재가 고주파 세부사항(예: 옷의 질감 및 얼굴 표정)을 생성할 수 있으며, 적대적 학습을 추가하면 이미지 품질과 충실도를 동시에 향상시킬 수 있음을 발견했습니다. .



3.4.3 구조 인식 정규화

StructLDM은 확산 모델의 학습 효율성을 높이기 위해 구조 인식 잠재 정규화 기술(구조 정렬 정규화), 즉 각 잠재 픽셀을 픽셀 단위로 정규화하는 기술을 제안합니다. 연구에 따르면 정규화된 잠재 분포는 가우스 분포에 더 가깝고 이는 확산 모델 학습에 더 도움이 됩니다.