notícias

ECCV 2024|BlazeBVD, um método geral para remoção de cintilação cega de vídeo, está aqui, lindas fotos

2024-07-23

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

  • A coluna AIxiv é uma coluna onde a Machine Heart publica conteúdo acadêmico e técnico. Nos últimos anos, a coluna Heart of the Machine AIxiv recebeu mais de 2.000 relatórios, abrangendo os principais laboratórios das principais universidades e empresas de todo o mundo, promovendo efetivamente o intercâmbio e a divulgação acadêmica. Se você tem um trabalho excelente que deseja compartilhar, sinta-se à vontade para contribuir ou entre em contato conosco para reportar. E-mail de envio: [email protected]; [email protected];

Nos últimos anos, o ecossistema de vídeos curtos emergiu rapidamente, e ferramentas criativas e de edição em torno de vídeos curtos estão constantemente surgindo. Wink, uma ferramenta profissional de edição de vídeo móvel de propriedade da Meitu, ocupa o primeiro lugar com seus recursos exclusivos de restauração de qualidade de vídeo, atraindo usuários em casa. e no exterior.

Por trás da popularidade da função de reparo de qualidade de imagem do Wink está a visão da Meitu sobre os pontos problemáticos da criação de vídeo dos usuários, como imagens borradas, ruído intenso e baixa qualidade de imagem em meio à liberação acelerada da demanda por aplicativos de edição de vídeo. baseado em Com o poderoso suporte de tecnologia de restauração e aprimoramento de vídeo do Meitu Imaging Research Institute (MT Lab), lançou atualmente restauração de qualidade de imagem-HD, restauração de qualidade de imagem-UHD, restauração de qualidade de imagem-aprimoramento de retrato, melhoria de resolução e outras funções .

Recentemente, o Meitu Imaging Research Institute (MT Lab) e a Universidade da Academia Chinesa de Ciências propuseram um novo método BlazeBVD de deflickering de vídeo cego (BVD) baseado em STE, que é usado para processar vídeos de baixa qualidade com degradação de cintilação de iluminação desconhecida. mantendo a integridade do conteúdo e da cor do vídeo original, tanto quanto possível, foi aceito pela principal conferência de visão computacional ECCV 2024.



Link do artigo: https://arxiv.org/pdf/2403.06243v1

O BlazeBVD tem como alvo cenários de oscilação de vídeo. A oscilação de vídeo pode facilmente afetar a consistência temporal, o que é uma condição necessária para uma saída de vídeo de alta qualidade. A razão geralmente é causada por um ambiente de filmagem ruim e limitações de hardware do equipamento de filmagem, e quando a tecnologia de processamento de imagem é aplicada a quadros de vídeo, esse problema costuma ser ainda mais exacerbado. Além disso, artefatos de cintilação e problemas de distorção de cores também surgem frequentemente em tarefas recentes de geração de vídeo, incluindo aquelas baseadas em redes adversárias generativas (GAN) e modelos de difusão (DM). Portanto, em vários cenários de processamento de vídeo, é crucial explorar o uso do Blind Video Deflickering (BVD) para eliminar a cintilação do vídeo e manter a integridade do conteúdo do vídeo.

A tarefa BVD não é afetada pela causa e pelo grau de oscilação do vídeo e tem uma ampla gama de perspectivas de aplicação. O foco atual em tais tarefas inclui principalmente restauração de filmes antigos, gravação de câmera em alta velocidade, processamento de distorção de cores e outras tarefas que possuem. nada a ver com tarefas de tipo e grau de oscilação de vídeo e tarefas que só precisam operar em um único vídeo de oscilação sem informações de orientação adicionais, como tipo de oscilação de vídeo, entrada de vídeo de referência, etc. Além disso, o BVD agora está focado principalmente na filtragem tradicional, na consistência temporal forçada e nos métodos de atlas. Portanto, embora os métodos de aprendizagem profunda tenham feito progressos significativos nas tarefas do BVD, eles são muito prejudicados no nível da aplicação devido à falta de conhecimento prévio. O BVD ainda enfrenta muitos desafios.

BlazeBVD: Melhore efetivamente o efeito de cintilação de vídeos cegos

Inspirado no clássico método de remoção de cintilação, equalização em tempo de escala (STE), BlazeBVD apresenta uma solução assistida por histograma. O histograma da imagem é definido como a distribuição de valores de pixel. É amplamente utilizado no processamento de imagens para ajustar o brilho ou contraste de uma imagem. Dado um vídeo arbitrário, o STE pode suavizar o histograma usando filtragem gaussiana e corrigir cada imagem usando a equalização do histograma. valores de pixel no quadro, melhorando assim a estabilidade visual do vídeo. Embora o STE seja eficaz apenas para algumas oscilações menores, ele verifica:

Os histogramas são muito mais compactos do que os valores de pixel e podem representar bem as informações de brilho e oscilação.

O vídeo suavizado da sequência do histograma não apresenta cintilação visualmente perceptível.

Portanto, é viável utilizar dicas de STE e histogramas para melhorar a qualidade e a velocidade da cintilação cega do vídeo.

Ao suavizar esses histogramas para gerar coleções de quadros singulares, mapas de luz filtrados e mapas de máscaras de exposição, o BlazeBVD permite uma recuperação de textura rápida e estável diante de flutuações de iluminação e super ou subexposição. Em comparação com os métodos anteriores de aprendizagem profunda, o BlazeBVD usa histogramas cuidadosamente para reduzir a complexidade de aprendizagem das tarefas do BVD pela primeira vez, simplificando a complexidade e o consumo de recursos dos dados de vídeo de aprendizagem. Seu núcleo é usar o flicker anterior do STE, inclusive para A filtrado. mapa de iluminação que orienta a remoção da cintilação global, um conjunto de quadros singular que identifica índices de quadros de cintilação e um mapa de exposição que identifica regiões que são afetadas localmente pela superexposição ou escuridão.

Ao mesmo tempo, utilizando flicker priors, o BlazeBVD combina um módulo de remoção de cintilação global (GFRM) e um módulo de remoção de cintilação local (LFRM) para corrigir com eficácia a iluminação global e as texturas de exposição local de quadros adjacentes individuais. Além disso, para melhorar a consistência entre quadros, uma rede de temporização leve (TCM) é integrada para melhorar o desempenho sem consumir muito tempo.



Figura 1: Comparação de resultados entre o método BlazeBVD e métodos existentes na tarefa cega de remoção de cintilação de vídeo

Especificamente, o BlazeBVD consiste em três estágios:

Primeiro, o STE é introduzido para corrigir a sequência do histograma de quadros de vídeo no espaço de iluminação e extrair anteriores de cintilação, incluindo conjuntos de quadros singulares, mapas de iluminação filtrados e mapas de exposição.

Em segundo lugar, uma vez que os mapas de iluminação filtrados têm desempenho temporal estável, eles serão usados ​​como condições de sinalização para um módulo global de remoção de cintilação (GFRM) contendo uma rede 2D para orientar a correção de cores de quadros de vídeo. Por outro lado, o módulo de remoção de cintilação local (LFRM) recupera as áreas superexpostas ou escuras marcadas pelo mapa de exposição local com base nas informações do fluxo óptico.

Finalmente, uma rede temporal leve (TCM) é introduzida para processar todos os quadros, na qual uma perda ponderada de máscara adaptativa é projetada para melhorar a consistência do vídeo.

Por meio de experimentos abrangentes em vídeos sintéticos, vídeos reais e vídeos gerados, demonstramos os resultados qualitativos e quantitativos superiores do BlazeBVD, alcançando velocidades de inferência de modelo 10 vezes mais rápidas do que as velocidades de inferência de modelo de última geração.



Figura 2: Processo de treinamento e inferência do BlazeBVD

Resultados experimentais

Um grande número de experimentos mostram que o BlazeBVD, um método geral para tarefas cegas de oscilação de vídeo, supera trabalhos anteriores em conjuntos de dados sintéticos e reais, e experimentos de ablação também verificam a eficácia dos módulos projetados pelo BlazeBVD.



Tabela 1: Comparação quantitativa com métodos basais



Figura 3: Comparação visual com métodos de linha de base



Figura 4: Experimento de ablação

Usando tecnologia de imagem para aumentar a produtividade

Este artigo propõe o BlazeBVD, um método geral para tarefas de cintilação cega de vídeo, usando redes 2D para reparar vídeos de cintilação de baixa qualidade afetados por mudanças de iluminação ou problemas de exposição local. Seu núcleo é pré-processar os anteriores de cintilação dentro do filtro STE no espaço de iluminação; em seguida, usar esses anteriores, combinados com o módulo de remoção de cintilação global (GFRM) e o módulo de remoção de cintilação local (LFRM), para corrigir cintilação global e texturas de exposição local; Finalmente, uma rede temporal leve (TCM) é usada para melhorar a coerência e a consistência entre quadros do vídeo e também atinge uma aceleração de 10x na inferência do modelo.

Como exploradora no campo de imagem e design na China, a Meitu continua a lançar funções de IA convenientes e eficientes para trazer serviços e experiências inovadoras aos usuários. O Meitu Imaging Research Institute (MT Lab), como centro principal de P&D, continuará a iterativamente. atualize os recursos de IA. Forneça aos criadores de vídeo uma nova maneira de criar vídeos e abrir um mundo mais amplo.