人工知能によるモザイク除去ディープ CNN デノイザーと多層隣接コンポーネント埋め込みによるモザイク除去

モザイク除去のための人工知能、ディープ CNN デノイザーとモザイク除去のための多層隣接コンポーネント埋め込み概要: 現在の顔デモザイク手法のほとんどは、浅い学習であれ深い学習であれ、トレーニングアンサンブルの助けを借りて、低解像度 (LR) 空間と高解像度 (HR) 空間間の関係モデルを学習しようとします。主に、モデルベースの最適化または識別推論学習による画像の優先順位付けのモデル化に焦点を当てています。しかし、入力LR面が小さい場合、学習した事前知識は有効ではなくなり、パフォーマンスが急激に低下します。この問題に対処するために、本論文では、モデルベースの最適化と識別的推論を組み合わせた一般的な顔幻覚法を提案します。特に、モデルベースの事前確率を活用するために、画像適応型ラプラス正則化を利用して、深層畳み込みニューラルネットワーク (CNN) のノイズ除去事前確率が超解像最適化モデルに挿入されます。さらに、顔画像を顔のパーツに分散し、多層近傍埋め込み方式で顔幻覚を実行するための高周波詳細補正方法も開発しました。実験により、提案された方法は、小さな入力 LR 顔に対して有望な超解像結果を達成できることが実証されています。

人工知能によるモザイク除去、ディープ CNN デノイザーと多層近傍コンポーネント埋め込みによるモザイク除去の概要: モデルベースの最適化手法と判別推論学習手法の欠点を克服し、それぞれの利点を活用するために、最近、ADMM 最適化やノイズ除去正則化 (RED) [Romano et al.、2017] などの変数分割技術を利用して、忠実度項と正則化項を個別に扱う方法がいくつか提案されています。モデルベースの超解像法では、ダウングレードされた LR 画像が入力 LR 画像と一致するように HR 画像を繰り返し再構築しようとしますが、推論学習では、LR 画像と HR 画像のペアを使用して、機械学習によってノイズ除去装置をトレーニングしようとします。したがって、複雑な超解像再構成問題は、扱いやすい二次ノルム正規化最小二乗最適化問題と結合された一連の画像ノイズ除去タスクに分解されます。

実際の監視シナリオの多くでは、カメラは通常、対象物から遠く離れており、システムの帯域幅とストレージリソースは限られているため、通常、顔画像は非常に小さく、つまり小さな顔になります。上記の方法は一般的であり、さまざまな画像劣化プロセスを処理するのに使用できますが、サンプリング係数が非常に大きい場合、つまり入力 LR 顔画像が非常に小さい場合、この方法のパフォーマンスは低下します。これまで学習したノイズ除去装置は人間の顔の構造を十分に活用できなかったため、図 1 の 2 番目の列に示すように、幻覚による HR 顔には詳細な特徴がまだ欠けています。通常、顔の幻覚に基づく深層畳み込みニューラルネットワーク (CNN) のノイズ除去は、顔の主な構造を適切に生成できますが、高周波コンテンツを回復することはできません。非常に小さな入力画像のボトルネックに対処するために、ディープニューラルネットワークに基づくいくつかの方法が提案されています [Yu and Porikli、2016; Yu and Porikli、2017]。

人工知能によるモザイク除去ディープ CNN デノイザーと多層近傍コンポーネント埋め込みモザイク除去の貢献: この論文では、ディープ CNN デノイザーと多層近傍コンポーネント埋め込み (MNCE) を介して、新しい顔のモザイク除去方法を開発します。 [Zhang et al.] の影響を受けています。、2017]では、CNN を採用して事前ノイズ除去を学習し、それをモデルベースの最適化に挿入することで、モデルベースの最適化と判別推論の利点を共同で活用しています。このステップでは、滑らかに見えるディープ CNN デノイザーの中間結果を予測できます。詳細な特徴を強化するために、MNCE による残差補正方法をさらに提案します。 NCE を多層フレームワークに拡張して、LR 空間と HR 空間間の不整合を段階的に緩和し (特に係数が非常に大きい場合)、最初のステップで回復されなかった欠落した詳細を補正します。図 2 はアルゴリズムのパイプラインを示しています。

この研究の貢献は次のように要約されます。

（i）モデルベースの最適化と識別推論学習の利点を組み合わせた、新しい2段階のデモザイキング手法を提案します。提案されたフレームワークにより、さまざまなソース (一般画像と顔画像) から事前学習を行い、顔モザイクを同時に調整できるようになります。（ii）欠落した詳細な特徴を回復するために、隣接するコンポーネントを多層的に埋め込むことを提案し、幻覚結果を徐々に最適化して改善することができます。これは、1 対多のマッピングによる LR 空間と HR 空間間の不整合を軽減するスキームを提供します。

人工知能によるモザイク除去、ディープ CNN デノイザーと多層隣接コンポーネント埋め込みによるモザイク除去実験: アルゴリズムのパフォーマンスは、大規模な有名人の顔属性 (CelebA) データセット [Liu et al., 2015a] で評価されており、このデータセットでこの手法を最先端の手法と定性的および定量的に比較しています。我々は広く使用されているピーク信号対雑音比（PSNR）、構造類似性（SSIM）[Wang et al. 、2004]および特徴類似性（FSIM）[Zhang et al.評価基準として[1]を採用した。

データセット: Celebrity Face Attributes (CelebA) データセット [Liu et al. , 2015b]は、10,177のアイデンティティと202,599の顔画像を含む、多様で大規模で注釈が豊富な主題を多数含んでいるため、このデータベースは特に優れています。データの 10% を選択します。これには 20,000 枚のトレーニング画像と 260 枚のテスト画像が含まれます。次に、これらの画像を整列させて 128 × 128 ピクセルにトリミングし、HR 画像を作成します。 LR 画像は、バイキュービック 8× ダウンサンプリング (Matlab 関数 imresize のデフォルト設定) によって取得されるため、入力 LR 面は 16×16 ピクセルになります。

提案された 2 段階アプローチの有効性。提案された 2 段階アプローチの有効性を実証するために、さまざまなステップの中間結果を示します。図 4 に示すように、ディープ CNN デノイザー (ステップ 1) に基づいてグローバルな顔の再構築を実行すると、主な顔の輪郭を適切に保持できます。コンポーネントをレイヤーごとに埋め込むことで（ステップ2）、再構成結果の特徴の詳細が徐々に向上することが期待できます（3列目から5列目を参照）。一般的な経験則として、以前のディープ CNN ノイズ除去ツールは顔の詳細をモデル化するために使用することはできません。ただし、LR と HR の画像空間間のあいまいな不一致を軽減するために使用することができ、これは後続の隣接コンポーネントの埋め込み学習に役立ちます。 2 番目のステップでは、LR 空間と HR 空間間の多様体構造のギャップが小さい場合、それらの間の関係を予測することがはるかに簡単になります。図5は多層埋め込みの有効性を定量的に示しています。埋め込みを繰り返すことで、実際の状況に徐々に近づくことが期待できることがわかります。

ディープ CNN スノーマンベースのグローバル顔再構築モデルの有効性を実証するために、2 番目のステップ (MNCE) を同じにしたまま、ディープ CNN スノーマンベースのグローバル顔再構築をバイキュービック補間に置き換えた場合の幻覚結果も示します。図 6 に示すように、ディープ CNN ノイズ除去により、より鮮明できれいな顔の輪郭を生成できます。さらに、MNEC を使用した Bicubic でも妥当な結果を推測できることもわかりました。これは、LR 顔と残差画像の関係を学習する MNCE の能力を示しています。

定性的および定量的比較: LLE [Chang et al.] を含むいくつかの代表的な方法と当社の方法を比較します。、2004]およびLcR [Jiang et al. , 2014b]、2つの代表的な深層学習ベースの手法、SR-CNN [Dong et al. 、2016]、VDSR [Kim et al. 、2016]と最近提案された2つの顔固有の画像超解像手法、すなわちLCGE [Song et al. 、2017]およびUR-DGN [Yu and Porikli、2016]。ベースラインとしてバイキュービック補間も導入されています。

人工知能によるモザイク除去、ディープ CNN デノイザーと多層隣接コンポーネント埋め込みによるモザイク除去、結論と今後の取り組み: 本論文では、顔の小さな画像に対する新しい 2 段階の顔幻覚フレームワークを提案しました。モデルベースの最適化と識別的推論を共同で考慮し、ディープ CNN ノイズ除去に基づくグローバルな顔再構築方法を提案します。次に、多層近傍コンポーネントの埋め込みを通じて、グローバル中間 HR 面が HR 管理空間方式で徐々に埋め込まれます。大規模な顔データセットと現実世界の画像に関する実証的研究により、提案された顔幻覚フレームワークの有効性と堅牢性が実証されています。入力面は手動または他のアルゴリズムによって位置合わせされます。今後の作業では、未知の任意のポーズの LR 顔画像を幻覚させるために、顔の位置合わせと解析を考慮する必要があります。

<<: ディープラーニングにおける正規化の概要（Python コード付き）

>>: 人工知能は一般的な仕事に取って代わるのでしょうか？心配しないで、この機会をつかんで次の10年をリードしてください