Nachricht

ECCV 2024|BlazeBVD, eine allgemeine Methode zur blinden Entflimmerung von Videos, ist da, wunderschöne Bilder

2024-07-23

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

  • Die AIxiv-Kolumne ist eine Kolumne, in der Machine Heart akademische und technische Inhalte veröffentlicht. In den letzten Jahren hat die Kolumne „Heart of the Machine AIxiv“ mehr als 2.000 Berichte erhalten, die Spitzenlabore großer Universitäten und Unternehmen auf der ganzen Welt abdecken und so den akademischen Austausch und die Verbreitung wirksam fördern. Wenn Sie hervorragende Arbeiten haben, die Sie teilen möchten, können Sie gerne einen Beitrag leisten oder uns für die Berichterstattung kontaktieren. E-Mail-Adresse: [email protected]; [email protected]

In den letzten Jahren hat sich das Kurzvideo-Ökosystem rasant entwickelt, und es entstehen ständig Kreativ- und Bearbeitungstools rund um Kurzvideos. Wink, ein professionelles mobiles Videobearbeitungstool von Meitu, steht mit seinen einzigartigen Funktionen zur Wiederherstellung der Videoqualität an erster Stelle und lockt Benutzer zu Hause an und im Ausland steigt das Volumen weiter.

Hinter der Beliebtheit der Bildqualitäts-Reparaturfunktion von Wink steht Meitus Einblick in die Probleme der Benutzer bei der Videoerstellung wie verschwommene Bilder, starkes Rauschen und geringe Bildqualität angesichts der beschleunigten Nachfrage nach Videobearbeitungsanwendungen Basierend auf der leistungsstarken Videowiederherstellungs- und Videoverbesserungstechnologieunterstützung des Meitu Imaging Research Institute (MT Lab) wurden derzeit Bildqualitätswiederherstellung-HD, Bildqualitätswiederherstellung-UHD, Bildqualitätswiederherstellung-Porträtverbesserung, Auflösungsverbesserung und andere Funktionen eingeführt .

Kürzlich haben das Meitu Imaging Research Institute (MT Lab) und die University of Chinese Academy of Sciences eine neue STE-basierte Blind Video Deflickering (BVD)-Methode BlazeBVD vorgeschlagen, die zur Verarbeitung von Videos geringer Qualität mit unbekannter Verschlechterung des Beleuchtungsflimmerns verwendet wird. Die größtmögliche Beibehaltung der Integrität des ursprünglichen Videoinhalts und der Farbe wurde von der führenden Computer-Vision-Konferenz ECCV 2024 akzeptiert.



Papierlink: https://arxiv.org/pdf/2403.06243v1

BlazeBVD zielt auf Szenarien mit Videoflimmern ab, die leicht die zeitliche Konsistenz beeinträchtigen können, was eine notwendige Voraussetzung für eine qualitativ hochwertige Videoausgabe ist. Selbst schwaches Videoflimmern kann das Seherlebnis ernsthaft beeinträchtigen. Der Grund liegt im Allgemeinen in einer schlechten Aufnahmeumgebung und Hardwareeinschränkungen der Aufnahmeausrüstung. Wenn Bildverarbeitungstechnologie auf Videobilder angewendet wird, wird dieses Problem häufig noch verschärft. Darüber hinaus treten bei neueren Videogenerierungsaufgaben häufig Flimmerartefakte und Farbverzerrungen auf, einschließlich solcher, die auf generativen gegnerischen Netzwerken (GAN) und Diffusionsmodellen (DM) basieren. Daher ist es in verschiedenen Videoverarbeitungsszenarien von entscheidender Bedeutung, den Einsatz von Blind Video Deflickering (BVD) zu untersuchen, um Videoflimmern zu beseitigen und die Integrität von Videoinhalten aufrechtzuerhalten.

Die BVD-Aufgabe wird von der Ursache und dem Grad des Videoflimmerns nicht beeinflusst und bietet ein breites Anwendungsspektrum. Der aktuelle Schwerpunkt auf solchen Aufgaben umfasst hauptsächlich die Wiederherstellung alter Filme, Hochgeschwindigkeitskameraaufnahmen, die Verarbeitung von Farbverzerrungen und andere Aufgaben nichts mit Videoflimmertyp und Flimmergrad zu tun haben, und Aufgaben, die nur ein einzelnes Flimmervideo ohne zusätzliche Führungsinformationen wie Videoflimmertyp, Referenzvideoeingang usw. bearbeiten müssen. Darüber hinaus konzentriert sich BVD heute hauptsächlich auf traditionelle Filterung, erzwungene zeitliche Konsistenz und Atlas-Methoden. Obwohl Deep-Learning-Methoden bei BVD-Aufgaben erhebliche Fortschritte gemacht haben, werden sie auf Anwendungsebene aufgrund mangelnder Vorkenntnisse stark behindert. BVD steht immer noch vor vielen Herausforderungen.

BlazeBVD: Verbessert effektiv den De-Flicker-Effekt von Blindvideos

Inspiriert von der klassischen Flimmerentfernungsmethode Scale-Time Equalization (STE) stellt BlazeBVD eine histogrammgestützte Lösung vor. Unter einem Bildhistogramm versteht man die Verteilung von Pixelwerten. Es wird häufig in der Bildverarbeitung verwendet, um die Helligkeit oder den Kontrast eines Bildes anzupassen. STE kann das Histogramm mithilfe der Gauß-Filterung glätten und jedes Bild mithilfe des Histogrammausgleichs korrigieren. Pixelwerte im Frame, wodurch die visuelle Stabilität des Videos verbessert wird. Obwohl STE nur bei einigen geringfügigen Flackern wirksam ist, überprüft es Folgendes:

Histogramme sind wesentlich kompakter als Pixelwerte und können Helligkeits- und Flimmerinformationen gut darstellen.

Das geglättete Video der Histogrammsequenz weist kein optisch wahrnehmbares Flimmern auf.

Daher ist es möglich, Hinweise aus STE und Histogrammen zu nutzen, um die Qualität und Geschwindigkeit der Blindvideo-Entflackerung zu verbessern.

Durch die Glättung dieser Histogramme zur Generierung einzelner Bildsammlungen, gefilterter Lichtkarten und Belichtungsmaskenkarten ermöglicht BlazeBVD eine schnelle und stabile Texturwiederherstellung trotz Lichtschwankungen und Über- oder Unterbelichtung. Im Vergleich zu früheren Deep-Learning-Methoden verwendet BlazeBVD erstmals sorgfältig Histogramme, um die Lernkomplexität von BVD-Aufgaben zu reduzieren und so die Komplexität und den Ressourcenverbrauch von Lernvideodaten zu vereinfachen. Sein Kern besteht darin, das Flimmern vor STE zu verwenden, auch für A-Filter Beleuchtungskarte, die die Entfernung von globalem Flimmern steuert, ein einzelner Frame-Satz, der Flicker-Frame-Indizes identifiziert, und eine Belichtungskarte, die Regionen identifiziert, die lokal von Überbelichtung oder Dunkelheit betroffen sind.

Gleichzeitig kombiniert BlazeBVD unter Verwendung von Flicker-Priors ein globales Flicker-Entfernungsmodul (GFRM) und ein lokales Flicker-Entfernungsmodul (LFRM), um die globale Beleuchtung und die lokalen Belichtungstexturen einzelner benachbarter Bilder effektiv zu korrigieren. Um die Konsistenz zwischen Frames zu verbessern, ist außerdem ein Lightweight Timing Network (TCM) integriert, um die Leistung zu verbessern, ohne viel Zeit zu verbrauchen.



Abbildung 1: Vergleich der Ergebnisse zwischen der BlazeBVD-Methode und vorhandenen Methoden für die Blind-Video-Deflimmer-Aufgabe

Konkret besteht BlazeBVD aus drei Phasen:

Zunächst wird STE eingeführt, um die Histogrammsequenz von Videobildern im Beleuchtungsraum zu korrigieren und Flicker-Priors einschließlich einzelner Bildsätze, gefilterter Beleuchtungskarten und Belichtungskarten zu extrahieren.

Zweitens werden die gefilterten Beleuchtungskarten, da sie eine stabile zeitliche Leistung aufweisen, als Cue-Bedingungen für ein globales Flimmerentfernungsmodul (GFRM) verwendet, das ein 2D-Netzwerk zur Steuerung der Farbkorrektur von Videobildern enthält. Andererseits stellt das lokale Flimmerentfernungsmodul (LFRM) die überbelichteten oder dunklen Bereiche wieder her, die durch die lokale Belichtungskarte markiert sind, basierend auf den optischen Flussinformationen.

Schließlich wird ein leichtes zeitliches Netzwerk (TCM) zur Verarbeitung aller Frames eingeführt, in dem ein adaptiver maskengewichteter Verlust zur Verbesserung der Videokonsistenz entwickelt wurde.

Durch umfassende Experimente mit synthetischen Videos, realen Videos und generierten Videos demonstrieren wir die überlegenen qualitativen und quantitativen Ergebnisse von BlazeBVD und erreichen Modellinferenzgeschwindigkeiten, die zehnmal schneller sind als die Modellinferenzgeschwindigkeiten auf dem neuesten Stand der Technik.



Abbildung 2: BlazeBVDs Trainings- und Inferenzprozess

Experimentelle Ergebnisse

Eine große Anzahl von Experimenten zeigt, dass BlazeBVD, eine allgemeine Methode für blinde Videoflimmeraufgaben, frühere Arbeiten an synthetischen und realen Datensätzen übertrifft, und Ablationsexperimente bestätigen auch die Wirksamkeit der von BlazeBVD entwickelten Module.



Tabelle 1: Quantitativer Vergleich mit Basismethoden



Abbildung 3: Visueller Vergleich mit Basismethoden



Abbildung 4: Ablationsexperiment

Mit Bildgebungstechnologie die Produktivität steigern

In diesem Artikel wird BlazeBVD vorgeschlagen, eine allgemeine Methode für blinde Videoflimmeraufgaben, bei der 2D-Netzwerke verwendet werden, um Flimmervideos mit geringer Qualität zu reparieren, die durch Beleuchtungsänderungen oder lokale Belichtungsprobleme beeinträchtigt werden. Sein Kern besteht darin, Flicker-Prioris innerhalb des STE-Filters im Beleuchtungsraum vorzuverarbeiten und diese Priors dann in Kombination mit dem globalen Flicker-Entfernungsmodul (GFRM) und dem lokalen Flicker-Entfernungsmodul (LFRM) zu verwenden, um globales Flicker und lokale Belichtungstexturen zu korrigieren; Schließlich wird ein leichtes zeitliches Netzwerk (TCM) verwendet, um die Kohärenz und Inter-Frame-Konsistenz des Videos zu verbessern und außerdem eine 10-fache Beschleunigung der Modellinferenz zu erreichen.

Als Pionier im Bereich Bildgebung und Design in China führt Meitu weiterhin praktische und effiziente KI-Funktionen ein, um Benutzern als zentrales Forschungs- und Entwicklungszentrum innovative Dienste und Erfahrungen zu bieten Verbessern Sie die KI-Funktionen. Bieten Sie Videokünstlern eine neue Möglichkeit, Videos zu erstellen und eine größere Welt zu eröffnen.