単眼輝度画像を用いた顔深度マップ推定のための敵対的アーキテクチャによるディープラーニング

単眼輝度画像を用いた顔深度マップ推定のための敵対的アーキテクチャによるディープラーニング

本論文では、単眼輝度画像から顔の深度マップを推定する敵対的アーキテクチャを提案する。 画像対画像のアプローチに従うことで、教師あり学習と敵対的トレーニングの利点を組み合わせ、強度の顔画像を対応する深度マップに変換することを効果的に学習する条件付き生成的敵対的ネットワークを提案します。 2 つの公開データセット、つまり Biwi データベースと Pandora データセットを使用して、提案モデルが視覚的な外観と情報内容の両方の点で高品質の合成深度画像を生成することを実証します。 さらに、顔認証タスクのために実際の深度マップでトレーニングされた深層モデルによって生成された深度マップをテストすることで、モデルが特徴的な顔の詳細を予測できることを実証します。

AI による単眼強度画像からの顔の深度マップ推定のための敵対的アーキテクチャ はじめに: 深度推定は、2 つの高品質ステレオ カメラ (つまり、人間の目) と特別な学習ツール (つまり、人間の脳) の存在から人間が自然に恩恵を受けるタスクです。人間が単一の単眼画像から奥行きを評価するのに優れているのはなぜでしょうか。また、この学習プロセスはどのようにして起こるのでしょうか。一つの仮説は、過去の視覚経験を通じて世界の三次元構造を推定する教師を発達させるというもので、その視覚経験には触覚刺激(小さな物体の場合)や動き(広い空間の場合)に関連する多数の観察が含まれる[43]。このプロセスにより、人間は単眼画像からでも、見た物体や光景の構造モデルを推測する能力を発達させることができます。

深度推定は人間の脳の自然な活動ですが、異なる 3D マップが同じ 2D 画像を生成する可能性があるため、このタスクはコンピューター ビジョンの設定には適さない問題です。さらに、強度画像と深度マップに属する情報ソースが非常に異なるため、テクスチャデータと形状データをこれら 2 つの領域間で変換することは非常に困難です。伝統的に、コンピュータビジョンコミュニティは、ステレオカメラ[16、40]、動きからの構造[4、6]、影と光の拡散からの深さ[35、37]など、さまざまな方法で深度推定の問題に幅広く取り組んできました。上記の方法には、深度の均一性や値の欠損(深度画像に穴が開く)などのさまざまな問題があります。その他の難しい要素は、カメラのキャリブレーション、セットアップ、および後処理の手順に関連しており、時間と計算コストがかかる可能性があります。最近、ディープニューラルネットワークの進歩により、研究チームは、以前に報告された問題を克服するために、強度画像からの単一の深度推定タスクを研究してきました。

単眼輝度画像からの顔の深度マップ推定のための敵対的アーキテクチャによる人工知能への貢献: この論文では、顔の単眼輝度画像から深度マップを生成するフレームワークを提案します。敵対的アプローチ[12, 28]を採用して、対応するグレースケール画像から顔の深度マップを推定できる完全畳み込みオートエンコーダを効果的にトレーニングします。提案手法の訓練とテストには、多数の深度画像と強度画像のペアからなる2つの公開データセット、すなわちPandora [3]とBiwi Kinect Head Pose [9]データセットが利用される。私たちの知る限り、これは、人間の顔など、小さなサイズで細部までこだわったオブジェクトを扱うグローバルなディープシーン推定とは異なる敵対的アプローチを通じてこのタスクに取り組む最初の試みの 1 つです。 ***、さまざまなピクセル単位のメトリックを導入して、システムのパフォーマンスを効果的に測定する方法を研究します。さらに、オリジナルの顔深度画像でトレーニングされた顔検証モデルを導入し、生成された画像が人間の視覚で検査された場合だけでなく、深層畳み込みネットワークで処理された場合にも、オリジナルの人物の顔の特徴を維持しているかどうかを確認します。

単眼輝度画像からの顔深度マップ推定のための敵対的アーキテクチャ ディープラーニング アーキテクチャ: このセクションでは、顔輝度画像からの深度推定モデルを提案し、cGAN アーキテクチャ、そのトレーニング プロセス、および採用された前処理顔切り取りアルゴリズム (セクション 3.2) について詳しく説明します。 このモデルの実装は[12]で提案されたガイドラインに従っています。 Goodfellow らによる研究に続き、 [12]およびMirza et al. [28]では、提案されたアーキテクチャは、顔のグレースケール画像の強度画像を入力として深度マップIgen = tt(Igray)を予測し、対応する深度マップを推定する推定関数に対応する生成ネットワークttと識別ネットワークdttから構成される。 (ターゲット関数には、敵対的損失と MSE 損失が含まれます)。

人工知能ディープラーニングによる単眼輝度画像からの顔深度マップ推定のための敵対的アーキテクチャ 結論: 本論文では、輝度画像から顔深度マップを推定する方法を提案しました。 生成された画像の品質を評価するために、元の深度マップで事前トレーニングされた Siamese ネットワークを使用して顔検証タスクを実行します。 生成された画像でテストしたときに Siamese ネットワークの精度が低下しないことを示すことにより、提示されたフレームワークが視覚的な外観と識別情報の両方の観点から高品質の深度マップを生成できることを実証します。 また、提案されたアーキテクチャは、敵対的ポリシーのトレーニング時にオートエンコーダや文献の競合製品よりも優れていることも実証しています。私たちのアプローチは柔軟性が高いため、タスク固有の損失を導入してモデルを拡張し、さまざまなシナリオに適用する予定です。

<<:  機械学習と予測アプリケーションに必要な50のAPI

>>:  ネットワークの構築から面接の最後の質問まで、AI企業に応募するための包括的なガイドをご紹介します

ブログ    

推薦する

...

人工知能業界が「再始動」:2021年の5つの主要トレンドに関する洞察

2020年12月30日、テンセントYoutuの2020年度年次コミュニケーション会議が海南省で正式に...

2021年の世界人工知能産業の市場規模と投資・資金調達状況を分析人工知能は今後スパイラル状に発展する

人工知能業界の主要上場企業:現在、国内の人工知能業界の上場企業は主に百度(BAIDU)、テンセント(...

GNMT - Google のニューラル ネットワーク翻訳システム

1. はじめに2016年9月、Googleはニューラルネットワークベースの翻訳システム(GNMT)を...

...

...

fBox アルゴリズムを使用して、高度に隠蔽された詐欺ユーザーを検出する方法

[51CTO.com クイック翻訳] インターネットの活発な発展とインターネットユーザーの継続的な増...

人工知能は、電力網とユビキタス電力のIoTの構築と開発にとって重要な方向性となるだろう

[[285204]]現在、モバイルインターネット、ビッグデータ、スーパーコンピューティングなどの新し...

App Storeのランキングアルゴリズムの変更、開発者は準備が必要

[[80451]]数日前、AppleのApp Storeの検索アルゴリズムが変わり始めたかもしれない...

Apache IoTDB: 産業用 IoT シナリオに適した新しいデータベース。保存、クエリ、使用はもはや問題ではありません。

インダストリー4.0の時代に入り、デジタル化と自動化の導入により生産環境はより効率的になりました。同...

インテリジェントプロセスオートメーションについて知っておくべきこと

インテリジェント プロセス オートメーション (IPA) とは何ですか?インテリジェント プロセス ...

Diffie-Hellman 鍵交換は、一般的な暗号化アルゴリズムです。

公開されたばかりの Logjam 脆弱性 (FREAK 脆弱性のバリエーション) に関する情報はブラ...

人工知能の時代では、機械があなたの仕事を奪うのでしょうか?

テクノロジーの波が押し寄せています。近年、人工知能技術の発展に伴い、ロボット宅配便や純電気無人車両の...

Googleは、ニュースコンテンツを作成するために生成AIツールを使用するためにいくつかの出版社と提携していると報じられている。

2月28日、Adweekは、Googleがいくつかの出版社と、ニュースコンテンツを作成するための新...