소식

Kuaishou 오픈 소스 LivePortrait, GitHub 6.6K Star를 통해 표정과 자세를 매우 빠르게 마이그레이션할 수 있습니다.

2024-07-17

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

하트 오브 더 머신 출시

머신하트 편집부

최근 Kuaishou Keling 대형 모델 팀은 다음과 같은 프로젝트를 오픈 소스로 공개했습니다.라이브포트레이트 영상을 구동하는 표정과 자세를 정적 또는 동적 인물 영상으로 정확하고 실시간으로 전송하여 표현력이 뛰어난 영상 결과를 생성할 수 있는 제어 가능한 인물 영상 생성 프레임워크입니다. 다음 애니메이션에서 볼 수 있듯이:



LivePortrait를 테스트하는 네티즌들로부터



LivePortrait를 테스트하는 네티즌들로부터

Kuaishou의 오픈 소스 LivePortrait의 해당 논문 제목은 다음과 같습니다.

《 LivePortrait: 스티칭 및 리타겟팅 제어를 통한 효율적인 인물 애니메이션 》



LivePortrait 용지 홈페이지

더욱이 LivePortrait는 출시되자마자 사용할 수 있으며 Kuaishou 스타일을 고수하며 한 번의 클릭으로 논문, 홈페이지 및 코드를 연결합니다. LivePortrait가 오픈 소스로 공개되자허깅페이스(HuggingFace) CEO 클레망 들랑그(Clément Delangue)팔로우하고 리트윗하고,최고 전략 책임자(CSO) 토마스 울프저도 직접 사용해본 기능인데 정말 놀랍네요!



전 세계 네티즌들의 이목을 끌었습니다.대규모 평가



영상자료는 모두 X에서 가져왔습니다

视频链接:https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650926594&idx=3&sn=7d44eac3409c6c2d5587ef80d7575a69&chksm=84e42a7cb393a36a0da 7b8d223f28c5ed51095e53a449ea8e341ddd5f71576595776c02109b6&token=1755385124&lang=zh_CN#rd

동시에 LivePotrait은 단 일주일 만에 오픈 소스 커뮤니티로부터 광범위한 관심을 받았습니다.6.4K 별, 550개 포크, 140개 이슈 및 PR, 널리 호평을 받았으며 여전히 관심이 높아지고 있습니다.



그 밖에 HuggingFace Space, 코드 트렌드 목록이 포함된 논문일주일 연속 1위, 최근 HuggingFace 전체 테마 순위에서 1위를 차지했습니다.목록의 첫 번째



허깅페이스 스페이스 No.1



코드 목록 1이 포함된 논문



HuggingFace 전체 테마 랭킹 1위

자세한 리소스 정보는 다음을 참조하세요.

  • 코드 주소: https://github.com/KwaiVGI/LivePortrait
  • 논문 링크: https://arxiv.org/abs/2407.03168
  • 프로젝트 홈페이지: https://liveportrait.github.io/
  • HuggingFace Space 원클릭 온라인 경험: https://huggingface.co/spaces/KwaiVGI/LivePortrait

LivePortrait는 인터넷 전체에서 빠르게 인기를 얻기 위해 어떤 종류의 기술을 사용합니까?

방법 소개

확산 모델을 기반으로 하는 현재 주류 방법과 달리 LivePortrait는 암시적 핵심 포인트 기반 프레임워크의 잠재력을 탐색하고 확장하여 모델 계산 효율성과 제어 가능성의 균형을 유지합니다. LivePortrait는 더 나은 일반화, 제어 가능성 및 실제 효율성에 중점을 둡니다. 생성 기능과 제어 가능성을 향상시키기 위해 LivePortrait는 69M 고품질 훈련 프레임, 비디오-사진 하이브리드 훈련 전략을 사용하고 네트워크 구조를 업그레이드하고 더 나은 동작 모델링 및 최적화 방법을 설계했습니다. 또한 LivePortrait는 암시적 키 포인트를 얼굴 블렌드 변형(Blendshape)의 효과적인 암시적 표현으로 간주하고 이를 기반으로 스티칭 및 리타겟팅 모듈을 신중하게 제안합니다. 이 두 모듈은 경량 MLP 네트워크이므로 제어 가능성을 향상시키면서 계산 비용을 무시할 수 있습니다. 기존 확산 모델 기반 방법과 비교해도 LivePortrait는 여전히 매우 효과적입니다. 동시에 RTX4090 GPU에서 LivePortrait의 단일 프레임 생성 속도는 12.8ms에 도달할 수 있습니다. TensorRT와 같이 추가로 최적화되면 10ms 미만에 도달할 것으로 예상됩니다!

LivePortrait의 모델 훈련은 두 단계로 나뉩니다. 첫 번째 단계는 기본 모델 학습이고, 두 번째 단계는 피팅 및 리디렉션 모듈 학습입니다.

기본 모델 학습의 첫 번째 단계



기본 모델 학습의 첫 번째 단계

모델 훈련의 첫 번째 단계에서 LivePortrait는 다음을 포함하여 Face Vid2vid[1]와 같은 암시적 포인트 기반 프레임워크에 대한 일련의 개선을 수행했습니다.

고품질 훈련 데이터 수집 : LivePortrait는 공개 비디오 데이터세트인 Voxceleb[2], MEAD[3], RAVDESS[4]와 양식화된 사진 데이터세트인 AAHQ[5]를 사용합니다. 또한 다양한 표정과 자세, 200시간이 넘는 대화 인물 영상, 개인 데이터 세트인 LightStage[6], 일부 스타일화된 영상 및 사진을 포함한 대규모 4K 해상도 인물 영상이 사용됩니다. LivePortrait는 긴 비디오를 30초 미만의 세그먼트로 분할하고 각 세그먼트에 한 사람만 포함되도록 합니다. 훈련 데이터의 품질을 보장하기 위해 LivePortrait는 Kuaishou가 자체 개발한 KVQ[7](Kuaishou가 자체 개발한 비디오 품질 평가 방법)를 사용합니다. 다차원 평가를 수행하는 비디오)를 사용하여 품질이 낮은 비디오 클립을 필터링합니다. 총 훈련 데이터에는 18.9K개의 ID와 60K의 정적 스타일화된 인물 사진을 포함하여 69M개의 비디오가 포함됩니다.

비디오-이미지 하이브리드 훈련 : 실제 인물의 비디오만 사용하여 훈련된 모델은 실제 인물에 대해서는 잘 수행되지만 애니메이션과 같은 정형화된 인물에 대해서는 잘 일반화되지 않습니다. LivePortrait는 100개 미만의 신원에서 약 1,300개의 비디오 클립만 수집하므로 스타일화된 인물 사진 비디오는 더욱 드뭅니다. 이에 비해 LivePortrait는 다양한 신원을 지닌 약 60,000장의 사진을 수집하여 다양한 신원 정보를 제공하는 고품질의 스타일화된 인물 사진이 더 풍부합니다. 두 가지 데이터 유형을 모두 활용하기 위해 LivePortrait는 각 이미지를 비디오 클립으로 처리하고 비디오와 이미지 모두에 대해 동시에 모델을 교육합니다. 이 하이브리드 훈련은 모델의 일반화 능력을 향상시킵니다.

업그레이드된 네트워크 구조 : LivePortrait는 표준 암시적 키 포인트 추정 네트워크(L), 머리 자세 추정 네트워크(H) 및 표현 변형 추정 네트워크(Δ)를 단일 모델(M)로 통합하고 ConvNeXt-V2-Tiny[8]를 다음과 같이 사용합니다. 입력 이미지의 표준 암시적 키포인트, 머리 자세, 표정 변형을 직접 추정할 수 있도록 구성되어 있습니다. 또한, LivePortrait는 Face vid2vid의 관련 작업에서 영감을 받아 SPADE [9]의 보다 효과적인 디코더를 생성기(G)로 사용합니다. 잠재 기능(fs)은 변형 후 SPADE 디코더에 꼼꼼하게 공급되며, 여기서 잠재 기능의 각 채널은 구동 이미지를 생성하기 위한 의미 체계 맵 역할을 합니다. 효율성을 높이기 위해 LivePortrait도 PixelShuffle[10] 레이어를 (G)의 마지막 레이어로 삽입하여 해상도를 256에서 512로 높입니다.

더욱 유연한 액션 변환 모델링 : 원래의 암시적 핵심점 계산 및 모델링 방법은 스케일링 계수를 무시하므로 스케일링이 표현 계수로 쉽게 학습되어 훈련이 더 어려워집니다. 이 문제를 해결하기 위해 LivePortrait는 모델링에 스케일링 요소를 도입합니다. LivePortrait는 정규 투영을 확장하면 학습 가능한 표현 계수가 지나치게 유연해져서 ID 전반에 걸쳐 구동될 때 텍스처 접착이 발생한다는 사실을 발견했습니다. 따라서 LivePortrait가 채택한 변화는 유연성과 주행성 사이의 절충안입니다.

키포인트 기반 암시적 키포인트 최적화 : 기존의 암시적 포인트 프레임워크는 눈 깜박임, 눈 움직임 등 표정을 생생하게 구동하는 능력이 부족한 것 같습니다. 특히, 주행 결과에서 인물 사진의 안구 방향과 머리 방향은 평행을 유지하는 경향이 있습니다. LivePortrait는 이러한 한계를 미묘한 얼굴 표정에 대한 비지도 학습의 어려움 때문이라고 생각합니다. 이 문제를 해결하기 위해 LivePortrait는 키포인트 유도 손실(Lguide)을 암시적 키포인트 최적화를 위한 가이드로 사용하여 미세 표현을 캡처하는 2D 키포인트를 도입합니다.

캐스케이드 손실 기능 : LivePortrait는 얼굴 vid2vid의 암시적 키포인트 불변 손실(LE), 키포인트 사전 손실(LL), 머리 포즈 손실(LH) 및 변형 사전 손실(LΔ)을 사용합니다. 텍스처 품질을 더욱 향상시키기 위해 LivePortrait는 입력 이미지의 전역 도메인뿐만 아니라 얼굴과 입의 로컬 도메인에도 적용되는 지각 및 GAN 손실을 사용하여 계단식 지각 손실(LP, 계단식 ) 및 캐스케이드 GAN(LG, 캐스케이드). 얼굴과 입 영역은 2D 의미론적 키포인트로 정의됩니다. LivePortrait는 또한 Lfaceid(얼굴 신원 손실)를 사용하여 참조 이미지의 신원을 보존합니다.

첫 번째 단계의 모든 모듈은 처음부터 훈련되며 전체 훈련 최적화 함수(Lbase)는 위 손실 항의 가중 합입니다.

2단계 맞춤 및 리디렉션 모듈 교육

LivePortrait는 암시적 핵심 포인트를 암시적 하이브리드 변형으로 처리하고 이 조합이 경량 MLP의 도움으로 더 잘 학습될 수 있으며 계산 비용은 무시할 수 있음을 발견했습니다. 실제 요구 사항을 고려하여 LivePortrait는 맞춤 모듈, 눈 방향 전환 모듈 및 입 방향 전환 모듈을 설계했습니다. 참조 인물 사진을 자르면 구동 인물 사진이 자르기 공간에서 원본 이미지 공간으로 다시 붙여넣어지며, 어깨 부분과 같은 붙여넣기 과정에서 픽셀 정렬이 어긋나는 것을 방지하기 위해 피팅 모듈이 추가됩니다. 결과적으로 LivePortrait는 더 큰 사진 크기나 그룹 사진에 대해 액션 중심적일 수 있습니다. 눈 리타겟팅 모듈은 신원을 가로질러 운전할 때, 특히 작은 눈을 가진 인물이 큰 눈을 가진 인물을 운전할 때 불완전하게 눈을 감는 문제를 해결하도록 설계되었습니다. 입 방향 전환 모듈의 설계 아이디어는 눈 방향 전환 모듈과 ​​유사하며, 더 나은 운전을 위해 참조 사진의 입을 닫은 상태로 구동하여 입력을 정규화합니다.



모델 훈련의 두 번째 단계: 피팅 및 리디렉션 모듈 훈련

모듈 맞춤 : 훈련 과정에서 피팅 모듈(S)의 입력은 참조 이미지의 암시적 키 포인트(xs)와 다른 아이덴티티 중심 프레임의 암시적 키 포인트(xd), 구동 암시적 키 포인트(xd)입니다. )는 발현 변화량(Δst)을 추정합니다. 첫 번째 단계와 달리 LivePortrait는 피팅 모듈이 더 나은 일반화를 갖도록 하는 것을 목표로 교차 ID 작업을 사용하여 동일 ID 작업을 대체하여 훈련 난이도를 높이는 것을 볼 수 있습니다. 다음으로 드라이버 암시적 키포인트(xd)가 업데이트되고 해당 드라이버 출력은 (Ip,st)입니다. LivePortrait는 이 단계에서 자체 재구성된 이미지(Ip,recon)도 출력합니다. 마지막으로 피팅 모듈의 손실 함수(Lst)는 두 어깨 영역의 픽셀 일관성 손실과 피팅 변화의 정규화 손실을 계산합니다.

눈과 입 방향 전환 모듈 : 눈 재배향 모듈(Reyes)의 입력은 기준 영상 내재적 키포인트(xs), 기준 영상 눈 뜨는 조건 튜플, 랜덤한 구동 눈 뜨는 계수로 구동 키포인트의 변형 변화량(Δeyes)을 추정한다. ). 눈 뜨는 조건 튜플은 눈 뜨는 비율을 나타내며, 클수록 눈 뜨는 정도가 크다. 마찬가지로 입 방향 전환 모듈(Rlip)의 입력은 기준 영상의 암시적 키포인트(xs), 기준 영상의 입 열림 조건 계수 및 랜덤한 구동 입 열림 계수이며, 운전 키 포인트는 다음으로부터 추정된다. 변화량(Δlip)입니다. 다음으로, 눈과 입 각각의 해당 변형 변화에 따라 구동 키 포인트(xd)가 업데이트되고 해당 구동 출력은 (Ip, 눈) 및 (Ip, 입술)입니다. 마지막으로 눈과 입 리타겟팅 모듈의 목적 함수는 각각 (Leyes)와 (Llip)이며, 이는 눈과 입 영역의 픽셀 일관성 손실, 눈과 입 변형의 정규화 손실, 무작위 손실을 계산합니다. 구동 계수와 구동 출력의 개방 조건 계수 사이의 손실입니다. 눈과 입의 변화(Δeyes)와 (Δlip)은 서로 독립적이므로 추론 단계에서 암시적 키포인트를 구동하기 위해 선형적으로 추가 및 업데이트될 수 있습니다.

실험적 비교





동일한 정체성 중심 : 위의 동일 아이덴티티 드라이버 비교 결과에서 기존의 비확산 모델 방식과 확산 모델 기반 방식에 비해 LivePortrait의 생성 품질과 구동 정확도가 더 우수하며, 구동 프레임의 눈과 입은 참고 이미지의 질감과 아이덴티티를 유지하면서 표현합니다. 더 큰 머리 자세에서도 LivePortrait는 더욱 안정적인 성능을 제공합니다.





교차 ID 기반 : 위의 교차 신원 운전자 비교 결과에서 LivePortrait는 기존 방법과 비교하여 운전자 영상에서 미묘한 눈과 입의 움직임을 정확하게 상속할 수 있으며, 자세가 큰 경우에도 상대적으로 안정적임을 알 수 있습니다. LivePortrait는 생성 품질 측면에서 확산 모델 기반 방법인 AniPortrait[11]에 비해 약간 약하지만 후자에 비해 LivePortrait는 매우 빠른 추론 효율성을 가지며 더 적은 FLOP를 필요로 합니다.

확장하다

멀티플레이어 중심: LivePortrait의 피팅 모듈 덕분에 단체 사진의 경우 LivePortrait는 특정 운전자 비디오를 사용하여 특정 얼굴을 구동할 수 있어 다인 사진 드라이브를 실현하고 LivePortrait의 실용 적용 범위를 넓힐 수 있습니다.



视频链接:https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650926594&idx=3&sn=7d44eac3409c6c2d5587ef80d7575a69&chksm=84e42a7cb393a36a0da 7b8d223f28c5ed51095e53a449ea8e341ddd5f71576595776c02109b6&token=1755385124&lang=zh_CN#rd

동물 운전: LivePortrait는 인물 사진에 대한 일반화 능력이 뛰어날 뿐만 아니라, 동물 데이터 세트를 미세 조정한 후 동물 인물 사진에 대해서도 정확하게 구동할 수 있습니다.

인물 영상 편집 : 인물 사진 외에도 댄스 영상 등 인물 영상이 주어지면 LivePortrait에서는 주행 영상을 활용하여 머리 부분의 모션 편집을 수행할 수 있습니다. LivePortrait는 피팅 모듈 덕분에 머리가 아닌 영역의 이미지에 영향을 주지 않고 표정, 자세 등 머리 영역의 움직임을 정확하게 편집할 수 있습니다.



视频链接:https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650926594&idx=3&sn=7d44eac3409c6c2d5587ef80d7575a69&chksm=84e42a7cb393a36a0da 7b8d223f28c5ed51095e53a449ea8e341ddd5f71576595776c02109b6&token=1755385124&lang=zh_CN#rd

구현 및 전망

LivePortrait의 관련 기술 포인트는 다음을 포함하여 Kuaishou의 많은 사업에서 구현되었습니다.Kuaishou 마술 시계, Kuaishou 비공개 메시지, Kuaishou의 AI 이모티콘 게임 플레이, Kuaishou 라이브 방송 및 Kuaishou가 젊은이들을 위해 인큐베이션한 Puji APP 등등, 사용자를 위한 가치를 지속적으로 창출하기 위해 새로운 구현 방법을 모색할 것입니다. 또한 LivePortrait는 Keling 기본 모델을 기반으로 하는 다중 모드 기반 초상화 비디오 생성을 더욱 탐구하여 더 높은 품질의 효과를 추구할 것입니다.

참고자료

[1] Ting-Chun Wang, Arun Mallya 및 Ming-Yu Liu. 화상 회의를 위한 원샷 자유 시점 신경 토킹 헤드 합성. CVPR, 2021.

[2] Arsha Nagrani, Joon Son Chung 및 Andrew Zisserman. Voxceleb: 대규모 화자 식별 데이터 세트. Interspeech, 2017.

[3] Kaisiyuan Wang, Qianyi Wu, Linsen Song, Zhuoqian Yang, Wayne Wu, Chen Qian, Ran He, Yu Qiao 및 Chen Change Loy. Mead: 감정적 대화 얼굴 생성을 위한 대규모 오디오비주얼 데이터 세트. ECCV, 2020.

[4] Steven R Livingstone 및 Frank A Russo. 감정적 말과 노래의 Ryerson 오디오비주얼 데이터베이스(Ravdess): 북미 영어의 역동적이고 다중 모드의 얼굴 및 음성 표현 세트. PloS One, 2018

[5] Mingcong Liu, Qiang Li, Zekui Qin, Guoxin Zhang, Pengfei Wan 및 Wen Zheng. Blendgan: 임의의 양식화된 얼굴 생성을 위한 암시적 gan 블렌딩입니다. NeurIPS, 2021.

[6] Haotian Yang, Mingwu Zheng, Wanquan Feng, Haibin Huang, Yu-Kun Lai, Pengfei Wan, Zhongyuan Wang 및 Chongyang Ma. 충실도가 높은 재조명 가능한 아바타의 실제 캡처를 향하여. 2023년 SIGGRAPH 아시아에서.

[7] Kai Zhao, Kun Yuan, Ming Sun, Mading Li 및 Xing Wen. 맹목적인 이미지 품질을 위한 품질 인식 사전 학습 모델

평가. CVPR, 2023.

[8] 우상현, Shoubhik Debnath, Ronghang Hu, Xinlei Chen, Zhuang Liu, In So Kweon 및 Saining Xie. 범죄자-

vnext v2: 마스크 오토인코더를 사용한 컨브넷 공동 설계 및 확장. CVPR, 2023.

[9] Taesung Park, Ming-Yu Liu, Ting-Chun Wang 및 Jun-Yan Zhu. 공간적 적응 정규화를 통한 의미적 이미지 합성. CVPR, 2019.

[10] Wenzhe Shi, Jose Caballero, Ferenc Husz ´ar, Johannes Totz, Andrew P Aitken, Rob Bishop, Daniel Rueckert 및 Zehan Wang. 효율적인 하위 픽셀 합성 신경망을 사용한 실시간 단일 이미지 및 비디오 초고해상도. CVPR, 2016.

[11] Huawei Wei, Zejun Yang 및 Zhisheng Wang. Aniportrait: 사실적인 초상화 애니메이션의 오디오 기반 합성. arXiv 사전 인쇄: 2403.17694, 2024.