berita

ECCV 2024|BlazeBVD, metode umum untuk menghilangkan kedipan video buta, telah hadir, gambar yang indah

2024-07-23

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

  • Kolom AIxiv adalah kolom tempat Machine Heart menerbitkan konten akademis dan teknis. Dalam beberapa tahun terakhir, kolom Heart of the Machine AIxiv telah menerima lebih dari 2.000 laporan, mencakup laboratorium terkemuka dari universitas dan perusahaan besar di seluruh dunia, yang secara efektif mendorong pertukaran dan diseminasi akademis. Jika Anda memiliki karya luar biasa yang ingin Anda bagikan, silakan berkontribusi atau hubungi kami untuk pelaporan. Email pengiriman: [email protected]; [email protected]

Dalam beberapa tahun terakhir, ekosistem video pendek telah berkembang pesat, dan alat kreatif serta pengeditan seputar video pendek terus bermunculan. Wink, alat pengeditan video seluler profesional milik Meitu, menempati peringkat pertama dengan kemampuan pemulihan kualitas video aslinya, menarik pengguna di rumah. dan di luar negeri.

Di balik popularitas fungsi perbaikan kualitas gambar Wink adalah wawasan Meitu tentang titik-titik kesulitan pembuatan video pengguna seperti gambar buram, noise parah, dan kualitas gambar rendah di tengah percepatan pelepasan permintaan untuk aplikasi pengeditan video berdasarkan Dengan dukungan teknologi pemulihan video dan peningkatan video yang kuat dari Meitu Imaging Research Institute (MT Lab), saat ini telah meluncurkan pemulihan kualitas gambar-HD, pemulihan kualitas gambar-UHD, peningkatan kualitas gambar restorasi-potret, peningkatan resolusi dan fungsi lainnya .

Baru-baru ini, Meitu Imaging Research Institute (MT Lab) dan University of Chinese Academy of Sciences telah mengusulkan metode blind video deflickering (BVD) berbasis STE baru, BlazeBVD, yang digunakan untuk memproses video berkualitas rendah dengan degradasi kedipan iluminasi yang tidak diketahui. menjaga integritas konten dan warna video asli semaksimal mungkin, telah diterima oleh konferensi visi komputer teratas ECCV 2024.



Tautan makalah: https://arxiv.org/pdf/2403.06243v1

BlazeBVD menargetkan skenario kedipan video. Kedipan video dapat dengan mudah memengaruhi konsistensi temporal, yang merupakan kondisi penting untuk keluaran video berkualitas tinggi. Bahkan kedipan video yang lemah pun dapat sangat memengaruhi pengalaman menonton. Alasannya umumnya disebabkan oleh lingkungan pengambilan gambar yang buruk dan keterbatasan perangkat keras pada peralatan pengambilan gambar, dan ketika teknologi pemrosesan gambar diterapkan pada bingkai video, masalah ini sering kali menjadi lebih buruk. Selain itu, masalah artefak kedipan dan distorsi warna juga sering muncul dalam tugas pembuatan video terkini, termasuk tugas yang didasarkan pada jaringan permusuhan generatif (GAN) dan model difusi (DM). Oleh karena itu, dalam berbagai skenario pemrosesan video, penting untuk mengeksplorasi penggunaan Blind Video Deflickering (BVD) untuk menghilangkan kedipan video dan menjaga integritas konten video.

Tugas BVD tidak terpengaruh oleh penyebab dan tingkat kedipan video, dan memiliki beragam prospek penerapan. Fokus saat ini pada tugas-tugas tersebut terutama mencakup pemulihan film lama, pengambilan gambar kamera berkecepatan tinggi, pemrosesan distorsi warna, dan tugas-tugas lain yang memiliki tidak ada hubungannya dengan jenis kedipan video dan tingkat kedipan, dan tugas yang hanya perlu dijalankan pada satu video kedipan tanpa informasi panduan tambahan seperti jenis kedipan video, input video referensi, dll. Selain itu, BVD sekarang terutama berfokus pada pemfilteran tradisional, konsistensi temporal paksa, dan metode atlas. Oleh karena itu, meskipun metode pembelajaran mendalam telah membuat kemajuan yang signifikan dalam tugas-tugas BVD, metode tersebut sangat terhambat di tingkat penerapan karena kurangnya pengetahuan sebelumnya. BVD masih menghadapi banyak tantangan.

BlazeBVD: Secara efektif meningkatkan efek penghilangan kedipan pada video buta

Terinspirasi oleh metode penghilangan kedipan klasik, pemerataan waktu skala (STE), BlazeBVD memperkenalkan solusi berbantuan histogram. Histogram gambar didefinisikan sebagai distribusi nilai piksel. Ini banyak digunakan dalam pemrosesan gambar untuk menyesuaikan kecerahan atau kontras suatu gambar. Mengingat video yang berubah-ubah, STE dapat menghaluskan histogram dengan menggunakan pemfilteran Gaussian dan mengoreksi setiap gambar menggunakan pemerataan histogram. nilai piksel dalam bingkai, sehingga meningkatkan stabilitas visual video. Meskipun STE hanya efektif untuk beberapa kedipan kecil, STE memverifikasi:

Histogram jauh lebih kompak daripada nilai piksel dan dapat menggambarkan informasi kecerahan dan kedipan dengan baik.

Video urutan histogram yang dihaluskan tidak memiliki kedipan yang terlihat secara visual.

Oleh karena itu, isyarat dari STE dan histogram dapat digunakan untuk meningkatkan kualitas dan kecepatan penghilangan kedipan video buta.

Dengan memperhalus histogram ini untuk menghasilkan kumpulan bingkai tunggal, peta cahaya yang difilter, dan peta masker eksposur, BlazeBVD memungkinkan pemulihan tekstur yang cepat dan stabil dalam menghadapi fluktuasi pencahayaan dan pencahayaan berlebih atau kurang. Dibandingkan dengan metode pembelajaran mendalam sebelumnya, BlazeBVD dengan hati-hati menggunakan histogram untuk mengurangi kompleksitas pembelajaran tugas BVD untuk pertama kalinya, menyederhanakan kompleksitas dan konsumsi sumber daya dari data video pembelajaran. Intinya adalah menggunakan kedipan sebelum STE, termasuk untuk filter A peta iluminasi yang memandu penghapusan kedipan global, kumpulan bingkai tunggal yang mengidentifikasi indeks bingkai kedipan, dan peta paparan yang mengidentifikasi wilayah yang secara lokal terpengaruh oleh paparan berlebih atau kegelapan.

Pada saat yang sama, dengan memanfaatkan prior kedipan, BlazeBVD menggabungkan modul penghilang kedipan global (GFRM) dan modul penghilang kedipan lokal (LFRM) untuk secara efektif mengoreksi pencahayaan global dan tekstur paparan lokal dari masing-masing bingkai yang berdekatan. Selain itu, untuk meningkatkan konsistensi antar-frame, jaringan timing ringan (TCM) diintegrasikan untuk meningkatkan kinerja tanpa memakan banyak waktu.



Gambar 1: Perbandingan hasil antara metode BlazeBVD dan metode yang ada pada tugas blind video de-flicker

Secara khusus, BlazeBVD terdiri dari tiga tahap:

Pertama, STE diperkenalkan untuk mengoreksi urutan histogram bingkai video di ruang iluminasi, dan mengekstrak prior kedipan termasuk kumpulan bingkai tunggal, peta iluminasi yang difilter, dan peta eksposur.

Kedua, karena peta iluminasi yang difilter memiliki kinerja temporal yang stabil, peta tersebut akan digunakan sebagai kondisi isyarat untuk modul penghilang kedipan global (GFRM) yang berisi jaringan 2D untuk memandu koreksi warna bingkai video. Di sisi lain, modul penghilang kedipan lokal (LFRM) memulihkan area yang terlalu terang atau gelap yang ditandai oleh peta paparan lokal berdasarkan informasi aliran optik.

Terakhir, jaringan temporal ringan (TCM) diperkenalkan untuk memproses semua frame, di mana penurunan bobot masker adaptif dirancang untuk meningkatkan konsistensi video.

Melalui eksperimen komprehensif pada video sintetis, video nyata, dan video yang dihasilkan, kami mendemonstrasikan hasil kualitatif dan kuantitatif BlazeBVD yang unggul, mencapai kecepatan inferensi model yang 10 kali lebih cepat daripada kecepatan inferensi model yang canggih.



Gambar 2: Proses pelatihan dan inferensi BlazeBVD

Hasil percobaan

Sejumlah besar eksperimen menunjukkan bahwa BlazeBVD, metode umum untuk tugas kedipan video buta, mengungguli pekerjaan sebelumnya pada kumpulan data sintetis dan nyata, dan eksperimen ablasi juga memverifikasi efektivitas modul yang dirancang oleh BlazeBVD.



Tabel 1: Perbandingan kuantitatif dengan metode dasar



Gambar 3: Perbandingan visual dengan metode dasar



Gambar 4: Eksperimen ablasi

Menggunakan teknologi pencitraan untuk meningkatkan produktivitas

Makalah ini mengusulkan BlazeBVD, metode umum untuk tugas kedipan video buta, menggunakan jaringan 2D untuk memperbaiki video kedipan berkualitas rendah yang dipengaruhi oleh perubahan pencahayaan atau masalah eksposur lokal. Intinya adalah memproses terlebih dahulu prior kedipan dalam filter STE di ruang pencahayaan; kemudian menggunakan prior ini, dikombinasikan dengan modul penghilang kedipan global (GFRM) dan modul penghilang kedipan lokal (LFRM), untuk memperbaiki tekstur kedipan global dan paparan lokal; Terakhir, jaringan temporal ringan (TCM) digunakan untuk meningkatkan koherensi dan konsistensi antar-frame video, dan juga mencapai akselerasi 10x dalam inferensi model.

Sebagai penjelajah di bidang pencitraan dan desain di Tiongkok, Meitu terus meluncurkan fungsi AI yang nyaman dan efisien untuk menghadirkan layanan dan pengalaman inovatif kepada pengguna. Meitu Imaging Research Institute (MT Lab), sebagai pusat penelitian dan pengembangan inti, akan terus berlanjut untuk meningkatkan kemampuan AI secara berulang. Memberi pembuat video cara baru untuk membuat video dan membuka dunia yang lebih luas.