소식

MotionClone: ​​교육이 필요하지 않으며 원클릭으로 비디오 동작을 복제합니다.

2024-07-15

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

AIxiv 칼럼은 Machine Heart가 학술 및 기술 콘텐츠를 게재하는 칼럼입니다. 지난 몇 년 동안 Heart of the Machine AIxiv 칼럼은 전 세계 주요 대학 및 기업의 최고 연구실을 대상으로 2,000개 이상의 보고서를 접수하여 학술 교류 및 보급을 효과적으로 촉진했습니다. 공유하고 싶은 훌륭한 작품이 있다면 자유롭게 기여하거나 보고를 위해 연락주시기 바랍니다. 제출 이메일: [email protected] [email protected]

훈련이나 미세 조정이 필요하지 않으며, 프롬프트 단어로 지정된 새 장면에 참조 비디오의 움직임을 복제할 수 있습니다. 글로벌 카메라 이동이든 로컬 신체 이동이든 한 번의 클릭으로 수행할 수 있습니다.



논문: https://arxiv.org/abs/2406.05338

홈페이지: https://bujiazi.github.io/motionclone.github.io/

코드: https://github.com/Bujiazi/MotionClone

본 논문은 MotionClone이라는 새로운 프레임워크를 제안하며, 해당 모션 정보는 모델 훈련이나 미세 조정 없이 추출될 수 있으며, 이 모션 정보는 텍스트 생성 비디오를 구현하는 데 직접적으로 도움이 될 수 있습니다. 맞춤형 모션(text2video)으로.



이전 연구와 비교하여 MotionClone에는 다음과 같은 장점이 있습니다.

훈련이나 미세 조정이 필요하지 않음: 이전 접근 방식에서는 동작 신호를 인코딩하기 위한 훈련 모델이 필요하거나 특정 동작 패턴에 맞게 비디오 확산 모델을 미세 조정해야 하는 경우가 많았습니다. 동작 신호를 인코딩하는 훈련 모델은 훈련 영역 외부의 동작에 대한 일반화 능력이 좋지 않으며 기존 비디오 생성 모델을 미세 조정하면 기본 모델의 기본 비디오 생성 품질이 손상될 수 있습니다. MotionClone은 추가 교육이나 미세 조정이 필요하지 않으므로 기본 모델의 생성 품질을 최대한 유지하면서 모션 일반화 기능을 향상시킵니다.

더 높은 모션 품질: 기존 오픈 소스 Wensheng 비디오 모델은 크고 합리적인 모션을 생성하기가 어렵습니다. MotionClone은 생성된 비디오의 모션 진폭을 크게 향상시키는 동시에 모션의 합리성을 효과적으로 보장하기 위해 주요 구성 요소인 시간적 주의 모션 안내를 도입합니다.

향상된 공간 위치 관계: 직접 모션 복제로 인해 발생할 수 있는 공간 의미 불일치를 방지하기 위해 MotionClone은 교차 주의 마스크를 기반으로 공간 의미 정보와 시공간 모션 정보의 올바른 결합을 지원하는 공간 의미 정보 지침을 제안합니다.

시간적 주의 모듈의 동작 정보



텍스트로 생성된 비디오 작업에서 시간적 주의 모듈(Temporal Attention)은 비디오의 프레임 간 상관 관계를 모델링하는 데 널리 사용됩니다. 시간적 주의 모듈의 주의 지도 점수는 프레임 간의 상관 관계를 나타내기 때문에 주의 점수를 제한하여 프레임 간 연결을 복제하여 모션 복제를 달성할 수 있는지 여부가 직관적인 아이디어입니다.

그러나 실험에 따르면 완전한 어텐션 맵(일반 제어)을 직접 복사하면 매우 대략적인 모션 전달만 달성할 수 있습니다. 이는 어텐션의 가중치 대부분이 노이즈 또는 매우 미묘한 모션 정보에 해당하기 때문에 결합하기 어렵기 때문입니다. 한편으로는 규정된 새로운 시나리오의 조합이 잠재적으로 효과적인 이동 지침을 가립니다.

이 문제를 해결하기 위해 MotionClone은 시간적 관심의 주요 구성 요소만 사용하여 비디오 생성을 드물게 안내함으로써 노이즈와 미묘한 모션 정보를 필터링하는 주요 구성 요소 시간적 관심 유도 메커니즘(Primary Temporal-Attention Guidance)을 도입합니다. , 텍스트로 지정된 새로운 시나리오에서 효과적인 모션 복제를 달성합니다.



공간적 의미 교정

주요 구성 요소인 시간적 주의 모션 안내는 참조 비디오의 모션 복제를 달성할 수 있지만 움직이는 피사체가 사용자의 의도와 일치하는지 확인할 수 없습니다. 이로 인해 비디오 생성 품질이 저하되고 일부에서는 움직이는 피사체의 정렬이 잘못될 수도 있습니다. 사례.

위와 같은 문제를 해결하기 위해 MotionClone에서는 공간 의미론적 안내 메커니즘(위치 인식 의미론적 안내)을 도입하고 Cross Attention Mask를 통해 영상의 앞 배경 영역과 뒷배경 영역을 구분하고, 영상의 의미 정보를 각각 제한하여 공간 의미론을 보장합니다. 비디오의 전면 및 후면 배경은 시간적 움직임과 공간적 의미의 올바른 결합을 촉진합니다.

MotionClone 구현 세부정보



DDIM 반전: MotionClone은 DDIM 반전을 사용하여 입력 참조 비디오를 잠재 공간으로 반전시켜 참조 비디오의 시간적 주의 주성분 추출을 달성합니다.

안내 단계: 각 잡음 제거 중에 MotionClone은 제어 가능한 비디오 생성을 위한 포괄적인 동작 및 의미론적 안내를 제공하기 위해 함께 작동하는 주요 구성 요소인 시간적 주의 동작 안내와 공간 의미론적 정보 안내를 동시에 도입합니다.

가우시안 마스크: 공간 의미론적 안내 메커니즘에서 가우시안 커널 기능은 잠재적인 구조 정보의 영향을 제거하기 위해 교차 주의 마스크를 흐리게 하는 데 사용됩니다.

테스트에는 DAVIS 데이터 세트의 30개 비디오가 사용되었습니다. 실험 결과에 따르면 MotionClone은 텍스트 맞춤, 타이밍 일관성 및 여러 사용자 설문 조사 지표에서 이전 모션 전송 방법을 능가하는 상당한 개선을 달성했습니다. 구체적인 결과는 아래 표에 나와 있습니다.



모션클론의 생성 결과와 기존 모션 전송 방식을 비교하면 아래 그림과 같이 모션클론이 앞선 성능을 가지고 있음을 알 수 있습니다.



요약하자면, MotionClone은 플러그 앤 플레이 기능을 제공하는 비디오 모델을 교육하거나 미세 조정할 필요 없이 참조 비디오의 모션을 사용자가 지정한 프롬프트 단어로 지정된 새 장면에 효과적으로 복제할 수 있는 새로운 모션 전송 프레임워크입니다. 스포츠 맞춤화.

MotionClone은 기존 기본 모델의 생성 품질을 유지하면서 효율적인 주성분 동작 정보 안내와 공간적 의미 안내를 도입하여 텍스트와의 의미 정렬 능력을 보장하면서도 참조 영상과의 동작 일관성을 대폭 향상시켜 높은 품질을 구현합니다. -제어 가능한 비디오 생성.

또한 MotionClone은 풍부한 커뮤니티 모델에 직접 적응하여 다양한 비디오 생성을 달성할 수 있으며 확장성이 매우 높습니다.