教師あり学習に匹敵する、より優れた一般化性能を備えた自己教師あり学習深度推定アルゴリズム

[[428260]]

屋内環境での自己教師付き深度推定は、屋外環境でのそれよりも常に困難でした。OPPO は、深度因数分解モジュールと残差姿勢推定モジュールを通じて屋内環境での自己教師付き単眼深度推定のパフォーマンスを向上させる、新しい単眼自己教師付き深度推定モデル MonoIndoor を提案しました。現在、この成果はICCV 2021に採択されています。 ICCV はコンピュータービジョンにおけるトップ 3 カンファレンスの 1 つであり、今年の論文採択率は 25.9% です。

単一の画像から深度情報を推定することは、コンピュータービジョンの分野における古典的な問題であり、また困難な問題でもあります。単眼画像のスケールは不確実なため、従来の方法では深度値を計算できません。

ディープラーニング技術の発展により、このパラダイムは単眼画像の深度情報を推定するソリューションになりました。初期の深度推定方法のほとんどは教師あり方式であり、ネットワークモデルのトレーニングをサポートするために、データセットに単眼画像と対応する深度真理値が含まれている必要がありました。

画像に実際の深度値を含めることは非常に難しく、通常は正確な深度測定機器とモバイルプラットフォームの「キャプチャ」が必要になります。したがって、コストが高いとデータセットが小さくなり、教師あり学習の深度推定方法が大規模な産業シナリオには適さないことも意味します。

最近、OPPO は新しい単眼自己教師深度推定モデル「MonoIndoor」を提案しました。この方法では、画像内の明示的なターゲット深度値を必要とせず、ディープネットワークをトレーニングする際に画像自体のみを教師情報として使用できます。トレーニングデータセットの要件が軽減されると同時に、深度推定の適応性と堅牢性も向上します。現在、この成果はICCV 2021に採択され、関連技術は特許を取得しています。

論文アドレス: https://arxiv.org/pdf/2107.12429.pdf

具体的には、この論文では、より困難で複雑な屋内シーンに対する自己教師あり深度推定について研究しています。EuRoC、NYUv2、7-Scenes の 3 つの公開データセットでテストしたところ、Monodepth2 などの方法よりもパフォーマンスが優れており、自己教師あり深度推定の分野で最高のパフォーマンスを達成しました。

屋内シーンの深度推定を実現するにはどうすればよいでしょうか?

自己教師あり深度推定に関する研究は数多く行われており、その性能は教師あり手法と同等ですが、これらの自己教師あり手法の性能評価は屋外でのみ実施されているか、屋内では性能が低下します。

その理由について、OPPO 研究所の研究者は、屋外のシーンと比較して、屋内のシーンでは、通常、重要な局所的または全体的な視覚的特徴が欠けていると考えています。具体的には：

1. 屋内シーンの被写界深度は劇的に変化するため、ニューラルネットワークが一貫した奥行きの手がかりを推測することが困難になります。

2. 屋内シーンでは、カメラの動きには通常多くの回転が含まれるため、カメラポーズネットワークが困難になります。

上記の観察に基づいて、研究者は上記の 2 つの困難を解決するために 2 つの新しいモジュールを提案しました。その中で、深度係数化モジュールは、被写界深度の急激な変化によって引き起こされる深度推定の困難さを克服することを目的としています。残差ポーズ推定モジュールは、屋内シーンでのカメラ回転の推定を改善し、深度の品質を向上させることができます。

図1: MonoIndoorモデルアーキテクチャの概要

モデルの動作原理は上図に示されています。深度分解モジュールはコーデックのディープネットワークを使用して相対深度マップを推定し、非ローカルスケールネットワークを使用してグローバルスケール係数を推定します。残差ポーズ推定モジュールはポーズネットワークを使用して 1 組のフレームの初期カメラポーズを推定し、次に残差ポーズネットワークを使用して初期ポーズに基づいて残差カメラポーズを繰り返し推定します。

モデルアーキテクチャ: 深層分解モジュール

深度分解モジュールのバックボーンモデルは Monodepth2 です。このモデルの自動マスキングメカニズムにより、単眼トレーニングでカメラに対して静止しているピクセルを無視できます。同時に、マルチスケールの光度測定一貫性損失を採用して、すべての画像サンプリングを入力解像度で実行し、深度歪みを軽減します。

研究者らは、Monodepth2 に基づいて、現在の視点のグローバルスケール係数を推定するための自己注意誘導スケール回帰ネットワークを提案しました。

スケーリングネットワークは、ディープファクタライゼーションモジュールの別のブランチであり、カラー画像を入力として受け取り、グローバルスケーリング係数を出力します。グローバルスケーリング係数は画像のローカル領域と密接に関連しているため、研究者はネットワークに自己注意ブロックを追加し、特定の情報豊富な領域に「より多くの注意を払う」ようにネットワークを誘導して深度係数を導きました。式は次のとおりです。画像特徴入力が与えられると、出力はクエリ、キー、値になります。

さらに、グローバルスケール係数の推定を安定させるために、研究者らはネットワークに確率的スケール回帰ヘッドも追加しました。式は次のとおりです。グローバルスケールは、各スケールの加重確率の合計です。

モデルアーキテクチャ残差姿勢推定モジュール

データの前処理中に回転成分を「除去」または「削減」することに重点を置く既存の方法とは異なり、OPPO の研究者が提案する残差ポーズ推定モジュールは、ターゲット画像とソース画像間の相対的なカメラポーズを反復的に学習できます。

図1: 2つの姿勢推定に分解された姿勢推定の例

ステップ 1: ポーズネットワークは、ターゲットイメージとソースイメージを入力として受け取り、初期のカメラポーズを推定します。

ステップ 2: 上記の式を使用して、ソースイメージからバイリニアサンプリングを実行し、仮想ビューを再構築します。

ステップ 3: 残差ポーズネットワークを使用します。このネットワークは、ターゲットイメージと合成ビューを入力として受け取り、残差カメラポーズを出力します。ここで、残差カメラポーズとは、合成ビューとターゲット画像間のカメラポーズを指します。

4 番目のステップは、合成画像から双線形サンプリングを実行することです。式は上記↑のようになります。

最後に、新しい合成ビューを取得した後、次の残差ポーズの推定を続けます。このとき、双線形サンプリング式の一般化は↓です。

複数回の推定の後、残差姿勢は次のように動的に記述できます。↓

要約すると、反復法によって残差姿勢を推定することで、より正確なカメラ姿勢が得られ、深度推定をより適切に実行できるようになります。具体的な実験結果については次のセクションで説明します。

パフォーマンス評価

MonoIndoor モデルの有効性を示すために、研究者は EuRoC MAV、NYUv2、RGBD 7-Scenes という 3 つの信頼できるデータセットで評価しました。業界標準の単眼深度推定定量指標が採用されています: 絶対相対差 (AbsRel)、二乗平均平方根誤差 (RMSE)、および一般的に使用される 3 つのしきい値 thr=1.25、1.25^2、および 1.25^3 での精度。

特に実験構成では、研究者は PyTorch を使用してモデルを実装しました。各実験では、Adam オプティマイザーを使用して 40 エポックをトレーニングしました。学習率は、最初の 20 エポックでは 10^-4 に設定され、他の 20 エポックでは 10^-5 に設定されました。平滑化項と一貫性項は、それぞれ 0.001 と 0.05 に設定されました。

EuRoC MAVの実験結果

Monodepth2 は比較のためのベースラインモデルとして使用されます。結果は上の表に示されています。深度因子分解モジュールは AbsRel を 15.7% から 14.9% に削減でき、残差ポーズ推定モジュールは AbsRel を 14.1% に削減できます。モデル全体がすべての評価指標で最高のパフォーマンスを達成します。

上の図から、MonoIndoor による深度推定は Monoepth2 によるものよりもはるかに優れていることが定性的にわかります。たとえば、最初の行では、MonoIndoor は画像の右下隅にある「穴の領域」の正確な深さを推定できますが、Monoepth2 では明らかにそれができません。

NYUv2の実験結果

最新の SOTA 教師あり学習法および自己教師あり学習法と MonoIndoor のパフォーマンス比較結果は、上の表に示されています。自己教師あり学習法の面では、さまざまな指標で最高の結果を達成できます。教師あり学習法と比較すると、1 つのグループを「打ち負かす」こともでき、自己教師あり学習法と教師あり学習法の差が縮まりました。

上の図は、NYUv2 における深度推定効果を視覚化したものです。 Monoepth2 の結果と比較すると、MonoIndoor の深度推定は実際の状況に近いです。たとえば、最初の行の 3 番目の列では、MonoIndoor は椅子の領域の奥行きをより正確に推定します。

実験結果: RGB-D 7シーン

上記の表は、RGB-D 7 シーンデータセットでの MonoIndoor のテスト結果 (微調整前と微調整後) を示しています。各シーンに示されているさまざまな指標から、MonoIndoor の一般化能力と堅牢性が優れていることがわかります。たとえば、シーン「Fire」では、MonoIndoor によって AbsRel が 1.2% 削減され、シーン「Heads」では、MonoIndoor によって AbsRel が 1.8% 削減されます。

結論

近年、さまざまな業界で人工知能製品が急速に発展しており、ロボット工学、3D再構成、ターゲット追跡などの分野では、深度推定技術の精度と効率に対する要求がますます高まっています。しかし、現在主流となっている深度推定方法は、外部環境やコスト上の理由により、エンジニアリングに適用したり、関連する要件を満たしたりすることが難しい場合が多くあります。

一方、画像の深度推定に関する研究は数多く行われていますが、利用できる公開データセットは比較的少なく、公開データセット内のシーンは比較的豊富ではないため、深度推定アルゴリズムの一般化能力は大きく制限されています。

OPPOは、独自に開発した教師なしアルゴリズムを通じて屋内シーンに適したモデルを設計しました。これにより、データラベル付けに依存せずに、屋内シーンにおけるニューラルネットワークの深度推定効果を大幅に向上させることができます。これは、一方では OPPO の人工知能の応用シナリオに対する理解を反映しており、他方では、人工知能における最先端の学術的課題に対する OPPO の独自の把握を示しています。

<<: コンピュータアーキテクチャにおける機械学習

>>: LRUアルゴリズムの概念から実装まで、React非同期開発の未来