소식

Kuaishou Keling 팀의 최신 오픈 소스 프로젝트가 인기를 끌고 있습니다. 삼촌이 소녀로 변하고 GitHub가 7500개의 별을 획득했습니다.

2024-07-23

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

차트에서 벗어났습니다! ! 풀버전 영상을 보지 않고서 그 아름다운 소녀가 실제로 삼촌이라는 것을 누가 알았겠습니까?

[영상은 여기에 삽입할 수 없습니다. 아쉽게도...Qubit 공식 계정에서 확인하실 수 있습니다~]

좋아요, 이것은 Kuaishou Keling 팀을 사용하여 수행된 것으로 밝혀졌습니다.제어 가능한 인물 영상 생성 프레임워크——라이브포트레이트。

LivePortrait는 오픈 소스로 즉각적으로 히트를 쳤고, 짧은 시간 내에 GitHub에서 널리 사용되었습니다.7.5K스타마크.

또한 HuggingFace의 최고 전략 책임자인 Thomas Wolf가 직접 경험해 보고 싶어졌습니다.



현재 모든 HuggingFace 앱 중에서 순위가 ​​매겨져 있습니다.추세 우선



그렇다면 LivePortrait가 그토록 많은 관심을 끄는 이유는 무엇일까요?

눈길을 사로잡는 성능부터 시작해 보겠습니다.

"이전"이라는 표현을 보자

LivePortrait는 Kuaishou Keling 빅 모델 팀에서 오픈 소스로 제공되며 필요한 것만 필요합니다.원본 사진 1개역동적인 영상을 생성할 수 있습니다.



먼저 공식 출력물을 살펴보겠습니다.

~에서가장 단순한시작하려면 정적 이미지를 넣으면 LivePortrait가 인물 사진을 깜박이거나 웃게 하거나 머리를 돌리게 할 수 있습니다.

여전히 사용할 수 있습니다"부정 이득", 즉 표현, 역동성 등을 다른 사람에게 복사하거나 스타일(사실주의, 유화, 조각, 3D 렌더링) 및 크기에 국한되지 않고~



물론, 이 "마법"1인에 국한되지 않고 , 가족사진을 찍는 것이 불가능하지는 않습니다. [총독]



정적 이미지에서 비디오로 전환하는 것 외에도 다음을 만들 수 있습니다.하나 이상의 비디오"스마일 강화 기술"을 실현합니다.

예를 들어 무표정한 아기 영상(오른쪽 끝)을 제공하면 참조 영상에 따라 아기가 윙크하거나 웃게 할 수 있습니다.



그건 그렇고, 사람의 초상화에만 국한되지 않고 고양이와 개도 요염하고 귀엽게 행동하기 시작할 수 있습니다.



즉, LivePortrait는 다음을 달성할 수 있습니다.문자 표현의 정밀한 제어, 입가의 위쪽 곡률, 눈의 확대 정도 등을 켜고 선택할 수 있습니다.

예를 들어보세요밤나무아들, 다음 두 가지는 다양한 매개변수 설정에 따른 캐릭터의 눈 크기 변화입니다.





소설 속 '냉철함 3부분, 조롱 3부분, 무관심 4부분'이 불가능하지는 않은 것 같다. [총독]

이 글을 읽고 감동을 받으셨는지 모르겠습니다. 어쨌든 네티즌들의 열광은 막을 수 없습니다.

예를 들어, 공포 영화처럼 얼굴을 만드는 조명 트릭을 추가해 보세요.



또 다른 예는 실시간으로 가시가 두 개인 원숭이로 변신하는 것입니다.



이러한 예시를 읽은 후, 그 뒤에 숨은 기술적 원리를 자세히 살펴보겠습니다.

인기 오픈 소스 프레임워크

LivePortrait는 확산 모델을 기반으로 하는 현재의 주류 방법과 달리 탐색하고 확장합니다.암시적 키포인트 기반 프레임워크잠재적인.

특히 LivePortrait는 이미지에 명시적으로 보이는 마커나 특징점에 의존하지 않고 대신 데이터 세트의 패턴을 학습하여 핵심 포인트의 위치를 ​​암시적으로 추론합니다.

이를 바탕으로 LivePortrait는 다음을 채택합니다.두 단계모델을 처음부터 훈련하세요.

먼저 첫 번째 단계에 대해 이야기해 보겠습니다. LivePortrait는 암시적 포인트(예: Face Vid2vid)를 기반으로 프레임워크에 대한 일련의 개선을 이루었습니다.



이러한 개선 사항에는 다음이 포함됩니다.고품질 데이터 정렬, 이미지와 비디오 혼합 훈련, 네트워크 아키텍처 업그레이드, 확장 가능한 모션 변환, 랜드마크 기반 암시적 키포인트 최적화, 캐스케이드 손실 조건 적용 등

이를 통해 모델의 일반화 능력, 표현력, 질감 품질을 더욱 향상시킬 수 있습니다.

두 번째 단계에 대해 이야기해 보겠습니다. 피팅 모듈과 리디렉션 모듈의 훈련을 통해 모델은 얼굴 표정의 세부 사항을 보다 정확하게 처리할 수 있습니다.



모듈 맞춤교차 ID 작업 훈련을 통해 일반화를 강화하고 표현 변화를 추정하며 핵심 사항을 최적화합니다.

눈과 입 방향 전환 모듈눈과 입의 변형 변화를 별도로 처리하고, 독립적인 목적 함수를 통해 픽셀 일관성과 정규화 손실을 계산하여 복잡한 표현을 처리할 때 모델의 유연성과 정확성을 향상시킵니다.

그렇다면 LivePortrait는 구체적으로 어떻게 작동합니까?

연구에 따르면동일한 ID 기반 비교 결과, 기존 방식에 비해 LivePortrait는 생성 품질과 구동 정확도가 더 우수하며 참조 이미지의 질감과 아이덴티티를 유지하면서 구동 프레임의 눈과 입의 미묘한 표정을 포착할 수 있습니다.





그리고교차 ID 기반 비교 결과 확산 모델 기반 방법인 AniPortrait보다 생성 품질이 약간 떨어지지만 성능도 좋습니다. 그러나 후자에 비해 LivePortrait는 추론 효율성이 매우 빠르고 필요한 FLOP도 더 적습니다.





전체적으로 RTX 4090 GPU에서 LivePortrait는 다음과 같은 속도를 생성했습니다.프레임당 12.8밀리초, 기존 확산 모델 방법보다 훨씬 높습니다.

하나 더

공식 최신 공지 추가: Keling AI가 곧 출시됩니다.전 세계적으로서비스를 시작합니다.

소라가 아직 안왔는데 이번에는 케링이 먼저 나갔네요~