소식

ECCV 2024 │ 일반적인 영상 깜박임 제거 방법인 BlazeBVD가 등장했습니다. 아름다운 사진들

2024-07-23

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

  • AIxiv 칼럼은 Machine Heart가 학술 및 기술 콘텐츠를 게재하는 칼럼입니다. 지난 몇 년 동안 Heart of the Machine AIxiv 칼럼은 전 세계 주요 대학 및 기업의 최고 연구실을 대상으로 2,000개 이상의 보고서를 접수하여 학술 교류 및 보급을 효과적으로 촉진했습니다. 공유하고 싶은 훌륭한 작품이 있다면 자유롭게 기여하거나 보고를 위해 연락주시기 바랍니다. 제출 이메일: [email protected] [email protected]

최근 몇 년간 단편 영상 생태계가 급부상하고 있으며, 단편 영상을 중심으로 한 창의적이고 편집 도구가 끊임없이 등장하고 있는 메이투(Meitu)의 전문 모바일 영상 편집 도구인 윙크(Wink)는 독보적인 영상 품질 복원 기능으로 집에서 사용자들의 관심을 끌고 있다. 해외에서도 볼륨이 계속 증가하고 있습니다.

Wink의 이미지 품질 복구 기능이 인기를 얻은 배경에는 비디오 편집 애플리케이션에 대한 수요가 가속화되는 가운데 흐릿한 이미지, 심각한 노이즈, 낮은 이미지 품질 등 사용자의 비디오 제작 문제점에 대한 Meitu의 통찰력이 있습니다. Meitu Imaging Research Institute(MT Lab)의 강력한 영상 복원 및 영상 향상 기술 지원을 바탕으로 현재 화질 복원-HD, 화질 복원-UHD, 화질 복원-인물 향상, 해상도 개선 및 기타 기능을 출시했습니다. .

최근 메이투 이미징 연구소(MT Lab)와 중국과학원대학에서는 조명 깜박임 저하가 알려지지 않은 저화질 영상을 처리하는 데 사용되는 새로운 STE 기반 BVD(블라인드 비디오 디플리커링) 방법 BlazeBVD를 제안했습니다. 원본 비디오 콘텐츠와 색상의 무결성을 최대한 유지하는 것이 최고의 컴퓨터 비전 컨퍼런스 ECCV 2024에서 승인되었습니다.



논문 링크: https://arxiv.org/pdf/2403.06243v1

BlazeBVD는 비디오 깜박임 시나리오를 대상으로 합니다. 비디오 깜박임은 시간적 일관성에 쉽게 영향을 미칠 수 있으며 이는 고품질 비디오 출력에 필요한 조건입니다. 약한 비디오 깜박임도 시청 경험에 심각한 영향을 미칠 수 있습니다. 그 이유는 일반적으로 열악한 촬영 환경과 촬영 장비의 하드웨어적 한계로 인해 발생하며, 영상 프레임에 이미지 처리 기술을 적용하면 이 문제가 더욱 악화되는 경우가 많습니다. 또한 GAN(Generative Adversarial Network) 및 DM(확산 모델) 기반 작업을 포함하여 최근 비디오 생성 작업에서도 깜박임 아티팩트 및 색상 왜곡 문제가 자주 발생합니다. 따라서 다양한 비디오 처리 시나리오에서 BVD(Blind Video Deflickering)를 사용하여 비디오 깜박임을 제거하고 비디오 콘텐츠의 무결성을 유지하는 것이 중요합니다.

BVD 작업은 비디오 깜박임의 원인과 정도에 영향을 받지 않으며 응용 가능성이 넓습니다. 현재 이러한 작업에 중점을 두고 있는 작업에는 주로 오래된 영화 복원, 고속 카메라 촬영, 색상 왜곡 처리 및 기타 작업이 포함됩니다. 비디오 깜박임 유형 및 깜박임 정도와는 아무런 관련이 없으며 비디오 깜박임 유형, 참조 비디오 입력 등과 같은 추가 안내 정보 없이 단일 깜박임 비디오에서만 작동하면 되는 작업입니다. 또한 BVD는 이제 주로 전통적인 필터링, 강제된 시간적 일관성 및 아틀라스 방법에 중점을 두고 있습니다. 따라서 딥러닝 방법은 BVD 작업에서 상당한 진전을 이루었지만 사전 지식이 부족하여 응용 수준에서는 크게 방해를 받습니다. BVD는 여전히 많은 과제에 직면해 있습니다.

BlazeBVD: 시각 장애인 비디오의 깜박임 방지 효과를 효과적으로 개선합니다.

BlazeBVD는 전통적인 깜박임 제거 방법인 STE(스케일-시간 균등화)에서 영감을 받아 히스토그램 지원 솔루션을 도입했습니다. 이미지 히스토그램은 픽셀 값의 분포로 정의됩니다. 이는 이미지의 밝기나 대비를 조정하기 위해 이미지 처리에 널리 사용됩니다. STE는 가우시안 필터링을 사용하여 히스토그램을 평활화하고 히스토그램 균등화를 사용하여 각 이미지를 수정할 수 있습니다. 프레임의 픽셀 값을 조정하여 비디오의 시각적 안정성을 향상시킵니다. STE는 일부 사소한 깜박임에만 효과적이지만 다음을 확인합니다.

히스토그램은 픽셀 값보다 훨씬 컴팩트하며 밝기와 깜박임 정보를 잘 표현할 수 있습니다.

히스토그램 시퀀스의 매끄러운 비디오에는 시각적으로 눈에 띄는 깜박임이 없습니다.

따라서 STE 및 히스토그램의 단서를 활용하여 블라인드 비디오 깜박임 제거의 품질과 속도를 향상시키는 것이 가능합니다.

BlazeBVD는 이러한 히스토그램을 평활화하여 단일 프레임 컬렉션, 필터링된 조명 맵 및 노출 마스크 맵을 생성함으로써 조명 변동 및 노출 과다 또는 노출 부족 시 빠르고 안정적인 텍스처 복구를 가능하게 합니다. 이전 딥 러닝 방법과 비교하여 BlazeBVD는 처음으로 히스토그램을 사용하여 BVD 작업의 학습 복잡성을 줄이고 학습 비디오 데이터의 복잡성과 리소스 소비를 단순화합니다. 핵심은 A 필터링을 포함하여 STE의 깜박임 이전을 사용하는 것입니다. 전체 깜박임 제거를 안내하는 조명 맵, 깜박임 프레임 인덱스를 식별하는 단일 프레임 세트, 과다 노출이나 암흑으로 인해 국지적으로 영향을 받는 영역을 식별하는 노출 맵입니다.

동시에 BlazeBVD는 깜박임 우선 순위를 활용하여 전역 깜박임 제거 모듈(GFRM)과 로컬 깜박임 제거 모듈(LFRM)을 결합하여 개별 인접 프레임의 전역 조명 및 로컬 노출 텍스처를 효과적으로 수정합니다. 또한 프레임 간 일관성을 높이기 위해 TCM(Lightweight Timing Network)을 통합하여 많은 시간을 들이지 않고도 성능을 향상시킬 수 있습니다.



그림 1: BlazeBVD 방법과 기존 방법의 블라인드 비디오 깜박임 제거 작업 결과 비교

구체적으로 BlazeBVD는 세 단계로 구성됩니다.

먼저, 조명 공간에서 비디오 프레임의 히스토그램 시퀀스를 수정하고 단일 프레임 세트, 필터링된 조명 맵 및 노출 맵을 포함한 깜박임 사전을 추출하기 위해 STE가 도입되었습니다.

둘째, 필터링된 조명 맵은 안정적인 시간적 성능을 가지므로 비디오 프레임의 색상 보정을 안내하는 2D 네트워크를 포함하는 GFRM(글로벌 깜박임 제거 모듈)에 대한 큐 조건으로 사용됩니다. 반면, 국부 깜박임 제거 모듈(LFRM)은 광류 정보를 기반으로 국부 노출 맵으로 표시된 노출 과다 또는 어두운 영역을 복구합니다.

마지막으로 모든 프레임을 처리하기 위해 TCM(Lightweight Temporal Network)이 도입되었으며, 적응형 마스크 가중 손실이 비디오 일관성을 향상하도록 설계되었습니다.

합성 영상, 실제 영상, 생성 영상에 대한 종합적인 실험을 통해 BlazeBVD의 우수한 정성적, 정량적 결과를 입증하며, 최첨단 모델 추론 속도보다 10배 빠른 모델 추론 속도를 달성합니다.



그림 2: BlazeBVD의 훈련 및 추론 프로세스

실험 결과

수많은 실험을 통해 블라인드 비디오 깜박임 작업을 위한 일반적인 방법인 BlazeBVD가 합성 및 실제 데이터 세트에 대한 이전 작업보다 성능이 우수하다는 것을 보여 주며, 절제 실험에서도 BlazeBVD가 설계한 모듈의 효율성이 검증되었습니다.



표 1: 기준 방법과의 정량적 비교



그림 3: 기준 방법과의 시각적 비교



그림 4: 절제 실험

이미징 기술을 사용하여 생산성 향상

본 논문에서는 블라인드 비디오 깜박임 작업을 위한 일반적인 방법인 BlazeBVD를 2D 네트워크를 사용하여 조명 변화나 국부적 노출 문제로 인해 영향을 받는 저화질 깜박임 비디오를 복구하는 방법을 제안합니다. 핵심은 조명 공간의 STE 필터 내에서 깜박임 사전 처리를 수행한 다음 전역 깜박임 제거 모듈(GFRM) 및 로컬 깜박임 제거 모듈(LFRM)과 결합된 이러한 사전 처리를 사용하여 전역 깜박임 및 로컬 노출 텍스처를 수정하는 것입니다. 마지막으로 경량 시간 네트워크(TCM)를 사용하여 비디오의 일관성과 프레임 간 일관성을 개선하고 모델 추론 속도를 10배 향상시켰습니다.

중국 이미징 및 디자인 분야의 탐험가로서 Meitu는 사용자에게 혁신적인 서비스와 경험을 제공하기 위해 편리하고 효율적인 AI 기능을 계속해서 출시하고 있습니다. 핵심 R&D 센터인 Meitu Imaging Research Institute(MT Lab)는 계속해서 반복적으로 연구할 것입니다. AI 기능을 업그레이드하여 동영상 제작자에게 동영상을 제작하고 더 넓은 세상을 열어줄 수 있는 새로운 방법을 제공합니다.