nouvelles

ECCV 2024|BlazeBVD, une méthode générale de suppression du scintillement aveugle des vidéos, est là, de belles images

2024-07-23

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

  • La rubrique AIxiv est une rubrique dans laquelle Machine Heart publie du contenu académique et technique. Au cours des dernières années, la rubrique Heart of the Machine AIxiv a reçu plus de 2 000 rapports, couvrant les meilleurs laboratoires des principales universités et entreprises du monde entier, favorisant efficacement les échanges et la diffusion académiques. Si vous souhaitez partager un excellent travail, n'hésitez pas à contribuer ou à nous contacter pour un rapport. Courriel de soumission : [email protected] ; [email protected] ;

Ces dernières années, l'écosystème des vidéos courtes a rapidement émergé et des outils de création et d'édition autour de courtes vidéos émergent constamment. Wink, un outil de montage vidéo mobile professionnel appartenant à Meitu, se classe au premier rang avec ses capacités de restauration de qualité vidéo originale, attirant les utilisateurs à domicile. et à l'étranger. Le volume continue d'augmenter.

Derrière la popularité de la fonction de réparation de la qualité d'image de Wink se cache la compréhension de Meitu des problèmes de création vidéo des utilisateurs tels que les images floues, le bruit important et la faible qualité d'image dans le contexte de la libération accélérée de la demande d'applications de montage vidéo. basé sur Grâce au puissant support technologique de restauration et d'amélioration vidéo du Meitu Imaging Research Institute (MT Lab), il a actuellement lancé la restauration de la qualité d'image-HD, la restauration de la qualité d'image-UHD, la restauration de la qualité d'image-amélioration du portrait, l'amélioration de la résolution et d'autres fonctions. .

Récemment, le Meitu Imaging Research Institute (MT Lab) et l'Université de l'Académie des sciences de Chine ont proposé une nouvelle méthode de suppression du scintillement vidéo aveugle (BVD) basée sur STE, BlazeBVD, qui est utilisée pour traiter des vidéos de faible qualité avec une dégradation inconnue du scintillement d'éclairage. en conservant autant que possible l'intégrité du contenu vidéo original et de la couleur, a été accepté par la conférence de vision par ordinateur ECCV 2024.



Lien papier : https://arxiv.org/pdf/2403.06243v1

BlazeBVD cible les scénarios de scintillement vidéo. Le scintillement vidéo peut facilement affecter la cohérence temporelle, condition nécessaire pour une sortie vidéo de haute qualité. Même un faible scintillement vidéo peut sérieusement affecter l'expérience de visionnage. La raison est généralement due à un mauvais environnement de prise de vue et aux limitations matérielles de l'équipement de prise de vue. Lorsque la technologie de traitement d'image est appliquée aux images vidéo, ce problème est souvent encore exacerbé. En outre, des problèmes d'artefacts de scintillement et de distorsion des couleurs surviennent également fréquemment dans les tâches de génération vidéo récentes, notamment celles basées sur des réseaux contradictoires génératifs (GAN) et des modèles de diffusion (DM). Par conséquent, dans divers scénarios de traitement vidéo, il est crucial d’explorer l’utilisation du Blind Video Deflickering (BVD) pour éliminer le scintillement vidéo et maintenir l’intégrité du contenu vidéo.

La tâche BVD n'est pas affectée par la cause et le degré de scintillement vidéo et présente un large éventail de perspectives d'application. L'accent actuel sur ces tâches comprend principalement la restauration d'anciens films, la prise de vue par caméra à grande vitesse, le traitement de la distorsion des couleurs et d'autres tâches. rien à voir avec le type de scintillement vidéo et le degré de scintillement, ni avec les tâches qui ne doivent fonctionner que sur une seule vidéo scintillante sans informations de guidage supplémentaires telles que le type de scintillement vidéo, l'entrée vidéo de référence, etc. De plus, BVD se concentre désormais principalement sur les méthodes de filtrage traditionnel, de cohérence temporelle forcée et d'atlas. Par conséquent, bien que les méthodes d'apprentissage profond aient fait des progrès significatifs dans les tâches BVD, elles sont fortement entravées au niveau applicatif en raison du manque de connaissances préalables. BVD est encore confronté à de nombreux défis.

BlazeBVD : améliore efficacement l'effet anti-scintillement des vidéos aveugles

Inspiré de la méthode classique de suppression du scintillement (STE), BlazeBVD introduit une solution assistée par histogramme. L'histogramme d'image est défini comme la distribution des valeurs de pixels. Il est largement utilisé dans le traitement d'image pour ajuster la luminosité ou le contraste d'une image, étant donné une vidéo arbitraire, STE peut lisser l'histogramme en utilisant le filtrage gaussien et corriger chaque image à l'aide de l'égalisation de l'histogramme. valeurs de pixels dans le cadre, améliorant ainsi la stabilité visuelle de la vidéo. Bien que STE ne soit efficace que pour quelques scintillements mineurs, il vérifie :

Les histogrammes sont beaucoup plus compacts que les valeurs de pixels et peuvent bien représenter les informations sur la luminosité et le scintillement.

La vidéo lissée de la séquence d'histogramme ne présente aucun scintillement visuellement perceptible.

Par conséquent, il est possible d’utiliser les signaux du STE et des histogrammes pour améliorer la qualité et la vitesse de suppression du scintillement vidéo aveugle.

En lissant ces histogrammes pour générer des collections d'images singulières, des cartes de lumière filtrée et des cartes de masques d'exposition, BlazeBVD permet une récupération de texture rapide et stable face aux fluctuations d'éclairage et à la sur ou sous-exposition. Par rapport aux méthodes d'apprentissage en profondeur précédentes, BlazeBVD utilise soigneusement des histogrammes pour réduire pour la première fois la complexité d'apprentissage des tâches BVD, simplifiant ainsi la complexité et la consommation de ressources des données vidéo d'apprentissage. Son objectif principal est d'utiliser le scintillement préalable de STE, y compris pour A filtré. une carte d'éclairage qui guide la suppression du scintillement global, un ensemble d'images singulier qui identifie les index d'images de scintillement et une carte d'exposition qui identifie les régions localement affectées par la surexposition ou l'obscurité.

Dans le même temps, en utilisant les priorités de scintillement, BlazeBVD combine un module global de suppression du scintillement (GFRM) et un module local de suppression du scintillement (LFRM) pour corriger efficacement l'éclairage global et les textures d'exposition locale des images adjacentes individuelles. De plus, pour améliorer la cohérence inter-trames, un réseau de synchronisation léger (TCM) est intégré pour améliorer les performances sans consommer beaucoup de temps.



Figure 1 : Comparaison des résultats entre la méthode BlazeBVD et les méthodes existantes sur la tâche de suppression du scintillement vidéo aveugle

Plus précisément, BlazeBVD se compose de trois étapes :

Tout d'abord, STE est introduit pour corriger la séquence d'histogramme des images vidéo dans l'espace d'éclairage et extraire les priorités de scintillement, y compris les ensembles d'images singulières, les cartes d'éclairage filtrées et les cartes d'exposition.

Deuxièmement, étant donné que les cartes d'éclairage filtrées ont des performances temporelles stables, elles seront utilisées comme conditions de repère pour un module global de suppression du scintillement (GFRM) contenant un réseau 2D pour guider la correction des couleurs des images vidéo. D'autre part, le module de suppression du scintillement local (LFRM) récupère les zones surexposées ou sombres marquées par la carte d'exposition locale sur la base des informations de flux optique.

Enfin, un réseau temporel léger (TCM) est introduit pour traiter toutes les images, dans lequel une perte pondérée de masque adaptatif est conçue pour améliorer la cohérence vidéo.

Grâce à des expériences complètes sur des vidéos synthétiques, des vidéos réelles et des vidéos générées, nous démontrons les résultats qualitatifs et quantitatifs supérieurs de BlazeBVD, atteignant des vitesses d'inférence de modèle 10 fois plus rapides que les vitesses d'inférence de modèle de pointe.



Figure 2 : Processus de formation et d’inférence de BlazeBVD

Résultats expérimentaux

Un grand nombre d'expériences montrent que BlazeBVD, une méthode générale pour les tâches de scintillement vidéo aveugle, surpasse les travaux antérieurs sur des ensembles de données synthétiques et réelles, et les expériences d'ablation vérifient également l'efficacité des modules conçus par BlazeBVD.



Tableau 1 : Comparaison quantitative avec les méthodes de référence



Figure 3 : Comparaison visuelle avec les méthodes de référence



Figure 4 : Expérience d’ablation

Utiliser la technologie d’imagerie pour augmenter la productivité

Cet article propose BlazeBVD, une méthode générale pour les tâches de scintillement vidéo aveugle, utilisant des réseaux 2D pour réparer les vidéos scintillantes de mauvaise qualité affectées par des changements d'éclairage ou des problèmes d'exposition locale. Son cœur est de prétraiter les priorités de scintillement dans le filtre STE dans l'espace d'éclairage ; puis d'utiliser ces priorités, combinées avec le module de suppression de scintillement global (GFRM) et le module de suppression de scintillement local (LFRM), pour corriger le scintillement global et les textures d'exposition locales ; Enfin, un réseau temporel léger (TCM) est utilisé pour améliorer la cohérence et la cohérence inter-images de la vidéo, et permet également d'obtenir une accélération 10x dans l'inférence du modèle.

En tant qu'explorateur dans le domaine de l'imagerie et du design en Chine, Meitu continue de lancer des fonctions d'IA pratiques et efficaces pour offrir des services et des expériences innovantes aux utilisateurs. Le Meitu Imaging Research Institute (MT Lab), en tant que centre principal de recherche et de développement, continuera. pour mettre à niveau de manière itérative les capacités de l'IA. Offrez aux créateurs de vidéos une nouvelle façon de créer des vidéos et d'ouvrir un monde plus large.