noticias

ECCV 2024 | BlazeBVD, un método general para eliminar el parpadeo de videos ciegos, ya está aquí, hermosas imágenes

2024-07-23

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

  • La columna AIxiv es una columna donde Machine Heart publica contenido académico y técnico. En los últimos años, la columna Heart of the Machine AIxiv ha recibido más de 2.000 informes, que cubren los mejores laboratorios de las principales universidades y empresas de todo el mundo, promoviendo eficazmente los intercambios y la difusión académicos. Si tiene un trabajo excelente que desea compartir, no dude en contribuir o contactarnos para informarnos. Correo electrónico de envío: [email protected]; [email protected];

En los últimos años, el ecosistema de videos cortos ha surgido rápidamente y constantemente surgen herramientas creativas y de edición en torno a videos cortos. Wink, una herramienta de edición de video móvil profesional propiedad de Meitu, ocupa el primer lugar con sus capacidades de restauración de la calidad del video original, lo que atrae a usuarios en casa. y en el extranjero.

Detrás de la popularidad de la función de reparación de la calidad de imagen de Wink está el conocimiento de Meitu sobre los puntos débiles de la creación de videos de los usuarios, como imágenes borrosas, ruido severo y baja calidad de imagen en medio de la liberación acelerada de la demanda de aplicaciones de edición de video. basado en Con el poderoso soporte de tecnología de mejora y restauración de video del Meitu Imaging Research Institute (MT Lab), actualmente ha lanzado restauración de calidad de imagen-HD, restauración de calidad de imagen-UHD, restauración de calidad de imagen-mejora de retratos, mejora de resolución y otras funciones. .

Recientemente, el Instituto de Investigación de Imágenes Meitu (MT Lab) y la Academia de Ciencias de la Universidad de China propusieron un nuevo método de eliminación de parpadeo de video ciego (BVD) basado en STE, BlazeBVD, que se utiliza para procesar videos de baja calidad con degradación de parpadeo de iluminación desconocida. manteniendo la integridad del contenido del video original y el color tanto como sea posible, y ha sido aceptado por la principal conferencia de visión por computadora ECCV 2024.



Enlace del artículo: https://arxiv.org/pdf/2403.06243v1

BlazeBVD apunta a escenarios de parpadeo de video. El parpadeo de video puede afectar fácilmente la consistencia temporal, lo cual es una condición necesaria para una salida de video de alta calidad. Incluso un parpadeo de video débil puede afectar seriamente la experiencia de visualización. La razón generalmente es causada por un entorno de filmación deficiente y limitaciones de hardware del equipo de filmación, y cuando se aplica tecnología de procesamiento de imágenes a los fotogramas de video, este problema a menudo se agrava aún más. Además, los artefactos de parpadeo y los problemas de distorsión del color también surgen con frecuencia en tareas recientes de generación de video, incluidas aquellas basadas en redes generativas adversarias (GAN) y modelos de difusión (DM). Por lo tanto, en diversos escenarios de procesamiento de video, es crucial explorar el uso de Blind Video Deflickering (BVD) para eliminar el parpadeo del video y mantener la integridad del contenido del video.

La tarea BVD no se ve afectada por la causa ni el grado de parpadeo del vídeo, y tiene una amplia gama de perspectivas de aplicación. El enfoque actual en dichas tareas incluye principalmente la restauración de películas antiguas, la filmación con cámara de alta velocidad, el procesamiento de distorsión del color y otras tareas que tienen. nada que ver con el tipo de parpadeo del video y el grado de parpadeo, y tareas que solo necesitan operar en un solo video parpadeante sin información de guía adicional como el tipo de parpadeo del video, entrada de video de referencia, etc. Además, BVD ahora se centra principalmente en el filtrado tradicional, la coherencia temporal forzada y los métodos de atlas. Por lo tanto, aunque los métodos de aprendizaje profundo han logrado avances significativos en las tareas de BVD, se ven muy obstaculizados a nivel de aplicación debido a la falta de conocimiento previo. BVD todavía enfrenta muchos desafíos.

BlazeBVD: mejora eficazmente el efecto antiparpadeo de vídeos ciegos

Inspirándose en el método clásico de eliminación de parpadeo de ecualización en tiempo de escala (STE), BlazeBVD presenta una solución asistida por histograma. El histograma de imagen se define como la distribución de valores de píxeles. Se usa ampliamente en el procesamiento de imágenes para ajustar el brillo o el contraste de una imagen dado un video arbitrario, STE puede suavizar el histograma mediante el filtrado gaussiano y corregir cada imagen mediante la ecualización del histograma. valores de píxeles en el cuadro, mejorando así la estabilidad visual del video. Aunque STE sólo es eficaz para algunos parpadeos menores, verifica:

Los histogramas son mucho más compactos que los valores de píxeles y pueden representar bien la información de brillo y parpadeo.

El vídeo suavizado de la secuencia del histograma no presenta ningún parpadeo visualmente perceptible.

Por lo tanto, es factible utilizar señales de STE e histogramas para mejorar la calidad y la velocidad de la eliminación del parpadeo del vídeo ciego.

Al suavizar estos histogramas para generar colecciones de fotogramas singulares, mapas de luz filtrada y mapas de máscara de exposición, BlazeBVD permite una recuperación de textura rápida y estable frente a fluctuaciones de iluminación y sobreexposición o subexposición. En comparación con los métodos de aprendizaje profundo anteriores, BlazeBVD utiliza cuidadosamente histogramas para reducir la complejidad de aprendizaje de las tareas de BVD por primera vez, simplificando la complejidad y el consumo de recursos de los datos de video de aprendizaje. Su núcleo es utilizar el parpadeo previo de STE, incluido el filtrado A. un mapa de iluminación que guía la eliminación del parpadeo global, un conjunto de fotogramas singular que identifica los índices de fotogramas de parpadeo y un mapa de exposición que identifica las regiones que se ven afectadas localmente por la sobreexposición o la oscuridad.

Al mismo tiempo, utilizando priorizaciones de parpadeo, BlazeBVD combina un módulo de eliminación de parpadeo global (GFRM) y un módulo de eliminación de parpadeo local (LFRM) para corregir eficazmente la iluminación global y las texturas de exposición local de fotogramas adyacentes individuales. Además, para mejorar la coherencia entre cuadros, se integra una red de sincronización ligera (TCM) para mejorar el rendimiento sin consumir mucho tiempo.



Figura 1: Comparación de resultados entre el método BlazeBVD y los métodos existentes en la tarea de eliminación de parpadeo de vídeo ciego

En concreto, BlazeBVD consta de tres etapas:

Primero, se introduce STE para corregir la secuencia del histograma de cuadros de video en el espacio de iluminación y extraer antecedentes de parpadeo que incluyen conjuntos de cuadros singulares, mapas de iluminación filtrados y mapas de exposición.

En segundo lugar, dado que los mapas de iluminación filtrados tienen un rendimiento temporal estable, se utilizarán como condiciones de referencia para un módulo de eliminación de parpadeo global (GFRM) que contiene una red 2D para guiar la corrección de color de los fotogramas de vídeo. Por otro lado, el módulo de eliminación de parpadeo local (LFRM) recupera las áreas sobreexpuestas u oscuras marcadas por el mapa de exposición local en función de la información del flujo óptico.

Finalmente, se introduce una red temporal ligera (TCM) para procesar todos los fotogramas, en la que se diseña una pérdida ponderada de máscara adaptativa para mejorar la coherencia del vídeo.

A través de experimentos integrales con videos sintéticos, videos reales y videos generados, demostramos los resultados cualitativos y cuantitativos superiores de BlazeBVD, logrando velocidades de inferencia de modelos que son 10 veces más rápidas que las velocidades de inferencia de modelos de última generación.



Figura 2: proceso de inferencia y entrenamiento de BlazeBVD

Resultados experimentales

Una gran cantidad de experimentos muestran que BlazeBVD, un método general para tareas de parpadeo de video ciego, supera el trabajo anterior en conjuntos de datos sintéticos y reales, y los experimentos de ablación también verifican la efectividad de los módulos diseñados por BlazeBVD.



Tabla 1: Comparación cuantitativa con los métodos de referencia



Figura 3: Comparación visual con los métodos de referencia



Figura 4: Experimento de ablación

Uso de la tecnología de imágenes para aumentar la productividad

Este artículo propone BlazeBVD, un método general para tareas de parpadeo de video ciego, que utiliza redes 2D para reparar videos parpadeantes de baja calidad afectados por cambios de iluminación o problemas de exposición local. Su núcleo es preprocesar los antecedentes de parpadeo dentro del filtro STE en el espacio de iluminación; luego usar estos antecedentes, combinados con el módulo de eliminación de parpadeo global (GFRM) y el módulo de eliminación de parpadeo local (LFRM), para corregir el parpadeo global y las texturas de exposición local; Finalmente, se utiliza una red temporal liviana (TCM) para mejorar la coherencia y la consistencia entre fotogramas del video, y también logra una aceleración de 10 veces en la inferencia del modelo.

Como explorador en el campo de la imagen y el diseño en China, Meitu continúa lanzando funciones de IA convenientes y eficientes para brindar servicios y experiencias innovadores a los usuarios. El Meitu Imaging Research Institute (MT Lab), seguirá siendo el centro principal de investigación y desarrollo. para actualizar iterativamente las capacidades de IA. Proporcionar a los creadores de videos una nueva forma de crear videos y abrir un mundo más amplio.