ニュース

ECCV 2024|ブラインドビデオのちらつきを除去するための一般的な方法であるBlazeBVDが登場、美しい写真が登場

2024-07-23

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

  • AIxivコラムは、マシンハートが学術的・技術的な内容を掲載するコラムです。過去数年間で、Heart of the Machine AIxiv コラムには 2,000 件を超えるレポートが寄せられ、世界中の主要な大学や企業のトップ研究室がカバーされ、学術交流と普及を効果的に促進しています。共有したい優れた作品がある場合は、お気軽に寄稿するか、報告のために当社までご連絡ください。送信メール: [email protected] [email protected]

近年、ショートビデオのエコシステムが急速に台頭しており、ショートビデオ関連のクリエイティブおよび編集ツールが次々と登場しています。Meitu が所有するプロ仕様のモバイルビデオ編集ツールである Wink は、オリジナルのビデオ品質の復元機能を備え、家庭のユーザーを魅了しています。海外でも取引量は増加し続けています。

Wink の画質修復機能の人気の背景には、ビデオ編集アプリケーションの需要のリリースが加速する中で、ぼやけた画像、激しいノイズ、低画質などのユーザーのビデオ作成の問題点を Meitu が洞察したこともあります。 Meitu Imaging Research Institute (MT Lab) の強力なビデオ復元およびビデオ強化技術サポートにより、現在、画質復元 - HD、画質復元 - UHD、画質復元 - ポートレート強化、解像度向上などの機能をリリースしています。 。

最近、Meitu Imaging Research Institute (MT Lab) と中国科学院大学は、未知の照明フリッカー劣化を伴う低品質ビデオの処理に使用される、新しい STE ベースのブラインド ビデオ ディフリッカ (BVD) 手法 BlazeBVD を提案しました。オリジナルのビデオ コンテンツと色の完全性を可能な限り維持するこの手法は、コンピューター ビジョンのトップカンファレンスである ECCV 2024 に承認されました。



論文リンク: https://arxiv.org/pdf/2403.06243v1

BlazeBVD は、ビデオのちらつきシナリオを対象としています。ビデオのちらつきは、高品質のビデオ出力に必要な条件である時間的一貫性に容易に影響を与える可能性があります。その原因は一般的に劣悪な撮影環境や撮影機材のハードウェア制限によって引き起こされますが、ビデオフレームに画像処理技術が適用されると、この問題はさらに悪化することがよくあります。さらに、敵対的生成ネットワーク (GAN) や拡散モデル (DM) に基づくタスクなど、最近のビデオ生成タスクでも、ちらつきアーティファクトや色の歪みの問題が頻繁に発生します。したがって、さまざまなビデオ処理シナリオでは、ビデオのちらつきを排除し、ビデオ コンテンツの整合性を維持するためにブラインド ビデオ ディフリッカリング (BVD) の使用を検討することが重要です。

BVD タスクは、ビデオのちらつきの原因や程度に影響されず、幅広い応用が期待されており、主に古い映画の修復、高速カメラ撮影、色歪み処理などのタスクに焦点が当てられています。ビデオのフリッカー タイプやフリッカーの程度とは関係のないタスク、およびビデオ フリッカー タイプやリファレンス ビデオ入力などの追加のガイダンス情報なしで単一のフリッカー ビデオを操作するだけでよいタスク。さらに、BVD は現在、従来のフィルタリング、強制時間的整合性、およびアトラス手法に主に焦点を当てています。そのため、深層学習手法は BVD タスクにおいて大幅な進歩を遂げていますが、事前知識の欠如により、アプリケーション レベルでは大きな妨げとなっています。 BVD は依然として多くの課題に直面しています。

BlazeBVD: ブラインドビデオのフリッカー除去効果を効果的に改善します。

BlazeBVD は、古典的なフリッカー除去手法であるスケールタイム イコライゼーション (STE) からインスピレーションを得て、ヒストグラム支援ソリューションを導入しています。画像ヒストグラムは、ピクセル値の分布として定義され、任意のビデオに対して、ガウス フィルタリングを使用してヒストグラムを平滑化し、ヒストグラム イコライゼーションを使用して各画像を補正することができます。フレーム内のピクセル値を変更することで、ビデオの視覚的な安定性が向上します。 STE は一部の軽微なちらつきに対してのみ効果がありますが、次のことが確認されます。

ヒストグラムはピクセル値よりもはるかにコンパクトで、明るさやちらつきの情報をうまく表現できます。

ヒストグラム シーケンスの平滑化されたビデオには、視覚的に目立つちらつきがありません。

したがって、STE とヒストグラムからのキューを利用して、ブラインド ビデオのちらつき除去の品質と速度を向上させることが可能です。

BlazeBVD は、これらのヒストグラムを平滑化して特異なフレーム コレクション、フィルターされたライト マップ、および露出マスク マップを生成することで、照明の変動や露出過多または露出不足に直面しても、高速かつ安定したテクスチャの回復を可能にします。以前のディープ ラーニング手法と比較して、BlazeBVD はヒストグラムを慎重に使用して BVD タスクの学習の複雑さを初めて軽減し、ビデオ データの学習の複雑さとリソース消費を簡素化します。その中心は、A フィルター処理を含む STE の前にフリッカーを使用することです。グローバルなフリッカーの除去をガイドするイルミネーション マップ、フリッカー フレーム インデックスを特定する単一フレーム セット、および露出過度や暗さによって局所的に影響を受ける領域を特定する露出マップです。

同時に、BlazeBVD はフリッカー事前分布を利用して、グローバル フリッカー除去モジュール (GFRM) とローカル フリッカー除去モジュール (LFRM) を組み合わせて、個々の隣接フレームのグローバル イルミネーションとローカル露出テクスチャを効果的に補正します。さらに、フレーム間の一貫性を高めるために、軽量タイミング ネットワーク (TCM) が統合されており、多くの時間を費やすことなくパフォーマンスが向上します。



図 1: ブラインド ビデオのフリッカー除去タスクにおける BlazeBVD 手法と既存手法の結果の比較

具体的には、BlazeBVD は 3 つのステージで構成されます。

まず、照明空間内のビデオ フレームのヒストグラム シーケンスを修正し、特異なフレーム セット、フィルタリングされた照明マップ、および露出マップを含むフリッカー事前分布を抽出するために STE が導入されます。

第 2 に、フィルタリングされたイルミネーション マップは安定した時間パフォーマンスを備えているため、ビデオ フレームの色補正をガイドする 2D ネットワークを含むグローバル フリッカー除去モジュール (GFRM) の合図条件として使用されます。一方、ローカル フリッカー除去モジュール (LFRM) は、オプティカル フロー情報に基づいて、ローカル露出マップによってマークされた露出過剰または暗いエリアを復元します。

最後に、すべてのフレームを処理するために軽量テンポラル ネットワーク (TCM) が導入され、ビデオの一貫性を向上させるために適応マスク重み付け損失が設計されています。

合成ビデオ、実際のビデオ、生成されたビデオに関する包括的な実験を通じて、BlazeBVD の優れた定性的および定量的結果を実証し、最先端のモデル推論速度よりも 10 倍高速なモデル推論速度を達成しました。



図 2: BlazeBVD のトレーニングと推論のプロセス

実験結果

多数の実験により、ブラインド ビデオ フリッカー タスクの一般的な方法である BlazeBVD が、合成および実際のデータ セットに対する以前の研究よりも優れていることが示されており、アブレーション実験でも、BlazeBVD によって設計されたモジュールの有効性が検証されています。



表 1: ベースライン手法との定量的比較



図 3: ベースライン手法との視覚的な比較



図 4: アブレーション実験

イメージング技術を活用して生産性を向上

この論文では、2D ネットワークを使用して、照明の変化や局所的な露出の問題によって影響を受ける低品質のちらつきビデオを修復する、ブラインド ビデオのちらつきタスクのための一般的な方法である BlazeBVD を提案します。その核心は、照明空間の STE フィルター内でフリッカー事前処理を前処理し、これらの事前処理をグローバル フリッカー除去モジュール (GFRM) およびローカル フリッカー除去モジュール (LFRM) と組み合わせて使用​​し、グローバル フリッカーとローカル露出テクスチャを補正することです。最後に、軽量テンポラル ネットワーク (TCM) を使用してビデオの一貫性とフレーム間の一貫性を向上させ、モデル推論で 10 倍の高速化も実現します。

Meitu は中国のイメージングとデザイン分野の開拓者として、便利で効率的な AI 機能を立ち上げ、革新的なサービスと体験をユーザーに提供し続けます。Meitu Imaging Research Institute (MT Lab) は中核的な研究開発センターとして継続します。 AI 機能を繰り返しアップグレードし、ビデオを作成する新しい方法を提供し、より広い世界を開きます。