notizia

ECCV 2024|BlazeBVD, un metodo generale per lo sfarfallio dei video ciechi, è qui, bellissime immagini

2024-07-23

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

  • La rubrica AIxiv è una rubrica in cui Machine Heart pubblica contenuti accademici e tecnici. Negli ultimi anni, la rubrica Heart of the Machine AIxiv ha ricevuto più di 2.000 segnalazioni, riguardanti i migliori laboratori delle principali università e aziende di tutto il mondo, promuovendo efficacemente gli scambi accademici e la divulgazione. Se hai un lavoro eccellente che desideri condividere, non esitare a contribuire o contattarci per segnalarlo. E-mail di presentazione: [email protected] [email protected];

Negli ultimi anni, l'ecosistema dei video brevi è emerso rapidamente e gli strumenti creativi e di editing per brevi video stanno emergendo costantemente. Wink, uno strumento di editing video mobile professionale di proprietà di Meitu, è al primo posto con le sue esclusive capacità di ripristino della qualità video, attirando gli utenti a casa. e all'estero. Il volume continua ad aumentare.

Dietro la popolarità della funzione di riparazione della qualità dell'immagine di Wink c'è l'intuizione di Meitu sui punti critici della creazione di video degli utenti come immagini sfocate, rumore intenso e bassa qualità dell'immagine in mezzo al rilascio accelerato della domanda di applicazioni di editing video basato su Con il potente supporto tecnologico di ripristino e miglioramento video del Meitu Imaging Research Institute (MT Lab), ha attualmente lanciato il ripristino della qualità dell'immagine-HD, il ripristino della qualità dell'immagine-UHD, il ripristino della qualità dell'immagine-miglioramento del ritratto, il miglioramento della risoluzione e altre funzioni .

Recentemente, il Meitu Imaging Research Institute (MT Lab) e l'Università dell'Accademia cinese delle scienze hanno proposto un nuovo metodo BlazeBVD (blick video deflickering) basato su STE, che viene utilizzato per elaborare video di bassa qualità con un degrado sconosciuto dello sfarfallio dell'illuminazione. mantenere il più possibile l'integrità del contenuto video e del colore originale è stato accettato dalla principale conferenza sulla visione artificiale ECCV 2024.



Link al documento: https://arxiv.org/pdf/2403.06243v1

BlazeBVD prende di mira scenari di sfarfallio del video. Lo sfarfallio del video può facilmente influenzare la coerenza temporale, che è una condizione necessaria per un output video di alta qualità. Anche uno sfarfallio del video debole può compromettere seriamente l'esperienza di visualizzazione. Il motivo è generalmente causato da un ambiente di ripresa inadeguato e dalle limitazioni hardware dell'attrezzatura di ripresa e quando la tecnologia di elaborazione delle immagini viene applicata ai fotogrammi video, questo problema viene spesso ulteriormente esacerbato. Inoltre, artefatti dovuti allo sfarfallio e problemi di distorsione del colore si presentano frequentemente anche nelle recenti attività di generazione video, comprese quelle basate su reti generative avversarie (GAN) e modelli di diffusione (DM). Pertanto, in vari scenari di elaborazione video, è fondamentale esplorare l'uso del Blind Video Deflickering (BVD) per eliminare lo sfarfallio del video e mantenere l'integrità del contenuto video.

L'attività BVD non è influenzata dalla causa e dal grado dello sfarfallio video e ha un'ampia gamma di prospettive applicative. L'attenzione attuale su tali attività comprende principalmente il restauro di vecchi film, le riprese con fotocamera ad alta velocità, l'elaborazione della distorsione del colore e altre attività che hanno non ha nulla a che fare con il tipo e il grado di sfarfallio del video e con le attività che devono funzionare solo su un singolo video con sfarfallio senza ulteriori informazioni di guida come il tipo di sfarfallio del video, l'ingresso video di riferimento, ecc. Inoltre, BVD si concentra ora principalmente sul filtraggio tradizionale, sulla coerenza temporale forzata e sui metodi atlante. Pertanto, sebbene i metodi di deep learning abbiano fatto progressi significativi nei compiti BVD, sono notevolmente ostacolati a livello applicativo a causa della mancanza di conoscenze pregresse. BVD deve ancora affrontare molte sfide.

BlazeBVD: migliora efficacemente l'effetto antisfarfallio dei video ciechi

Ispirato al classico metodo di rimozione dello sfarfallio (STE), BlazeBVD introduce una soluzione assistita da istogrammi. L'istogramma dell'immagine è definito come la distribuzione dei valori dei pixel. È ampiamente utilizzato nell'elaborazione delle immagini per regolare la luminosità o il contrasto di un'immagine, dato un video arbitrario, STE può attenuare l'istogramma utilizzando il filtro gaussiano e correggere ciascuna immagine utilizzando l'equalizzazione dell'istogramma. valori dei pixel nel fotogramma, migliorando così la stabilità visiva del video. Sebbene STE sia efficace solo per alcuni sfarfallii minori, verifica:

Gli istogrammi sono molto più compatti dei valori dei pixel e possono rappresentare bene le informazioni sulla luminosità e sullo sfarfallio.

Il video livellato della sequenza dell'istogramma non presenta sfarfallio visivamente evidente.

Pertanto, è possibile utilizzare segnali provenienti da STE e istogrammi per migliorare la qualità e la velocità dello sfarfallio dei video ciechi.

Uniformando questi istogrammi per generare raccolte di fotogrammi singolari, mappe di luce filtrate e mappe di maschere di esposizione, BlazeBVD consente un recupero rapido e stabile delle texture nonostante le fluttuazioni di illuminazione e la sovra o sottoesposizione. Rispetto ai precedenti metodi di deep learning, BlazeBVD utilizza attentamente gli istogrammi per ridurre per la prima volta la complessità dell'apprendimento delle attività BVD, semplificando la complessità e il consumo di risorse dell'apprendimento dei dati video. Il suo nucleo è utilizzare lo sfarfallio prima di STE, anche per A filtrato una mappa di illuminazione che guida la rimozione dello sfarfallio globale, un set di fotogrammi singolari che identifica gli indici dei fotogrammi di sfarfallio e una mappa di esposizione che identifica le regioni colpite localmente da sovraesposizione o oscurità.

Allo stesso tempo, utilizzando i priori dello sfarfallio, BlazeBVD combina un modulo di rimozione dello sfarfallio globale (GFRM) e un modulo di rimozione dello sfarfallio locale (LFRM) per correggere in modo efficace l'illuminazione globale e le trame di esposizione locale dei singoli fotogrammi adiacenti. Inoltre, per migliorare la coerenza tra frame, è integrata una rete di temporizzazione leggera (TCM) per migliorare le prestazioni senza consumare molto tempo.



Figura 1: Confronto dei risultati tra il metodo BlazeBVD e i metodi esistenti sull'attività di riduzione dello sfarfallio dei video ciechi

Nello specifico, BlazeBVD si compone di tre fasi:

Innanzitutto, viene introdotto STE per correggere la sequenza dell'istogramma dei fotogrammi video nello spazio di illuminazione ed estrarre i precedenti dello sfarfallio inclusi set di fotogrammi singolari, mappe di illuminazione filtrate e mappe di esposizione.

In secondo luogo, poiché le mappe di illuminazione filtrate hanno prestazioni temporali stabili, verranno utilizzate come condizioni di indicazione per un modulo globale di rimozione dello sfarfallio (GFRM) contenente una rete 2D per guidare la correzione del colore dei fotogrammi video. D'altra parte, il modulo di rimozione locale dello sfarfallio (LFRM) recupera le aree sovraesposte o scure contrassegnate dalla mappa di esposizione locale in base alle informazioni sul flusso ottico.

Infine, viene introdotta una rete temporale leggera (TCM) per elaborare tutti i fotogrammi, in cui una perdita ponderata della maschera adattiva è progettata per migliorare la coerenza del video.

Attraverso esperimenti completi su video sintetici, video reali e video generati, dimostriamo i risultati qualitativi e quantitativi superiori di BlazeBVD, ottenendo velocità di inferenza del modello 10 volte più veloci rispetto alle velocità di inferenza del modello all'avanguardia.



Figura 2: processo di formazione e inferenza di BlazeBVD

Risultati sperimentali

Un gran numero di esperimenti mostrano che BlazeBVD, un metodo generale per attività di sfarfallio dei video ciechi, supera il lavoro precedente su set di dati sintetici e reali, e gli esperimenti di ablazione verificano anche l'efficacia dei moduli progettati da BlazeBVD.



Tabella 1: Confronto quantitativo con i metodi di base



Figura 3: Confronto visivo con i metodi di base



Figura 4: esperimento di ablazione

Utilizzo della tecnologia di imaging per aumentare la produttività

Questo articolo propone BlazeBVD, un metodo generale per le attività di sfarfallio dei video ciechi, utilizzando reti 2D per riparare video con sfarfallio di bassa qualità influenzati da cambiamenti di illuminazione o problemi di esposizione locale. Il suo scopo principale è preelaborare i valori a priori dello sfarfallio all'interno del filtro STE nello spazio di illuminazione; quindi utilizzare questi valori a priori, combinati con il modulo di rimozione globale dello sfarfallio (GFRM) e il modulo di rimozione locale dello sfarfallio (LFRM), per correggere lo sfarfallio globale e le trame di esposizione locale; Infine, viene utilizzata una rete temporale leggera (TCM) per migliorare la coerenza e la consistenza tra fotogrammi del video e raggiunge anche un'accelerazione 10x nell'inferenza del modello.

In qualità di esploratore nel campo dell'imaging e del design in Cina, Meitu continua a lanciare funzioni di intelligenza artificiale convenienti ed efficienti per offrire servizi ed esperienze innovativi agli utenti. Il Meitu Imaging Research Institute (MT Lab), in quanto centro principale di ricerca e sviluppo, continuerà a farlo in modo iterativo aggiornare le funzionalità dell'intelligenza artificiale. Fornire ai creatori di video un nuovo modo di creare video e aprire un mondo più ampio.