単眼輝度画像を用いた顔深度マップ推定のための敵対的アーキテクチャによるディープラーニング

本論文では、単眼輝度画像から顔の深度マップを推定する敵対的アーキテクチャを提案する。画像対画像のアプローチに従うことで、教師あり学習と敵対的トレーニングの利点を組み合わせ、強度の顔画像を対応する深度マップに変換することを効果的に学習する条件付き生成的敵対的ネットワークを提案します。 2 つの公開データセット、つまり Biwi データベースと Pandora データセットを使用して、提案モデルが視覚的な外観と情報内容の両方の点で高品質の合成深度画像を生成することを実証します。さらに、顔認証タスクのために実際の深度マップでトレーニングされた深層モデルによって生成された深度マップをテストすることで、モデルが特徴的な顔の詳細を予測できることを実証します。

AI による単眼強度画像からの顔の深度マップ推定のための敵対的アーキテクチャはじめに: 深度推定は、2 つの高品質ステレオカメラ (つまり、人間の目) と特別な学習ツール (つまり、人間の脳) の存在から人間が自然に恩恵を受けるタスクです。人間が単一の単眼画像から奥行きを評価するのに優れているのはなぜでしょうか。また、この学習プロセスはどのようにして起こるのでしょうか。一つの仮説は、過去の視覚経験を通じて世界の三次元構造を推定する教師を発達させるというもので、その視覚経験には触覚刺激（小さな物体の場合）や動き（広い空間の場合）に関連する多数の観察が含まれる[43]。このプロセスにより、人間は単眼画像からでも、見た物体や光景の構造モデルを推測する能力を発達させることができます。

深度推定は人間の脳の自然な活動ですが、異なる 3D マップが同じ 2D 画像を生成する可能性があるため、このタスクはコンピュータービジョンの設定には適さない問題です。さらに、強度画像と深度マップに属する情報ソースが非常に異なるため、テクスチャデータと形状データをこれら 2 つの領域間で変換することは非常に困難です。伝統的に、コンピュータビジョンコミュニティは、ステレオカメラ[16、40]、動きからの構造[4、6]、影と光の拡散からの深さ[35、37]など、さまざまな方法で深度推定の問題に幅広く取り組んできました。上記の方法には、深度の均一性や値の欠損（深度画像に穴が開く）などのさまざまな問題があります。その他の難しい要素は、カメラのキャリブレーション、セットアップ、および後処理の手順に関連しており、時間と計算コストがかかる可能性があります。最近、ディープニューラルネットワークの進歩により、研究チームは、以前に報告された問題を克服するために、強度画像からの単一の深度推定タスクを研究してきました。

単眼輝度画像からの顔の深度マップ推定のための敵対的アーキテクチャによる人工知能への貢献: この論文では、顔の単眼輝度画像から深度マップを生成するフレームワークを提案します。敵対的アプローチ[12, 28]を採用して、対応するグレースケール画像から顔の深度マップを推定できる完全畳み込みオートエンコーダを効果的にトレーニングします。提案手法の訓練とテストには、多数の深度画像と強度画像のペアからなる2つの公開データセット、すなわちPandora [3]とBiwi Kinect Head Pose [9]データセットが利用される。私たちの知る限り、これは、人間の顔など、小さなサイズで細部までこだわったオブジェクトを扱うグローバルなディープシーン推定とは異なる敵対的アプローチを通じてこのタスクに取り組む最初の試みの 1 つです。 ***、さまざまなピクセル単位のメトリックを導入して、システムのパフォーマンスを効果的に測定する方法を研究します。さらに、オリジナルの顔深度画像でトレーニングされた顔検証モデルを導入し、生成された画像が人間の視覚で検査された場合だけでなく、深層畳み込みネットワークで処理された場合にも、オリジナルの人物の顔の特徴を維持しているかどうかを確認します。

単眼輝度画像からの顔深度マップ推定のための敵対的アーキテクチャディープラーニングアーキテクチャ: このセクションでは、顔輝度画像からの深度推定モデルを提案し、cGAN アーキテクチャ、そのトレーニングプロセス、および採用された前処理顔切り取りアルゴリズム (セクション 3.2) について詳しく説明します。このモデルの実装は[12]で提案されたガイドラインに従っています。 Goodfellow らによる研究に続き、 [12]およびMirza et al. [28]では、提案されたアーキテクチャは、顔のグレースケール画像の強度画像を入力として深度マップIgen = tt(Igray)を予測し、対応する深度マップを推定する推定関数に対応する生成ネットワークttと識別ネットワークdttから構成される。 (ターゲット関数には、敵対的損失と MSE 損失が含まれます)。

人工知能ディープラーニングによる単眼輝度画像からの顔深度マップ推定のための敵対的アーキテクチャ結論: 本論文では、輝度画像から顔深度マップを推定する方法を提案しました。生成された画像の品質を評価するために、元の深度マップで事前トレーニングされた Siamese ネットワークを使用して顔検証タスクを実行します。生成された画像でテストしたときに Siamese ネットワークの精度が低下しないことを示すことにより、提示されたフレームワークが視覚的な外観と識別情報の両方の観点から高品質の深度マップを生成できることを実証します。また、提案されたアーキテクチャは、敵対的ポリシーのトレーニング時にオートエンコーダや文献の競合製品よりも優れていることも実証しています。私たちのアプローチは柔軟性が高いため、タスク固有の損失を導入してモデルを拡張し、さまざまなシナリオに適用する予定です。

<<: 機械学習と予測アプリケーションに必要な50のAPI

>>: ネットワークの構築から面接の最後の質問まで、AI企業に応募するための包括的なガイドをご紹介します