画像マッチング 応用: ターゲット認識、ターゲット追跡、超解像度画像再構成、視覚ナビゲーション、画像ステッチング、3D 再構成、視覚的位置決め、シーン深度計算。 方法: ディープラーニングに基づく特徴点マッチングアルゴリズム、リアルタイムマッチングアルゴリズム、3D ポイントクラウドマッチングアルゴリズム、共面線ポイント不変マッチングアルゴリズム、ディープラーニングに基づく画像領域マッチングなど。 分類: ローカル不変の特徴点マッチング、線マッチング、および領域マッチング。 パート1: 局所不変特徴点マッチング-2D キーポイント: 画像内の特徴点の位置を指し、方向やスケールなどの情報を持ちます。 記述子: 記述子は通常、キーポイントの近傍のピクセル情報を記述するベクトルです。 2. 特徴点マッチングはどのように行うのですか? - 手動で設計された検出器 2 つの記述子をベクトル空間で比較し、距離が近い場合は同じ特徴点であると判定されます。 コーナーポイント、エッジポイントなどはすべて、潜在的な特徴ポイントとして使用できます。 SIFT概要[5] :Xu Yunxiらは局所画像記述子を分析・記述し、この種の方法の計算量、評価方法、応用分野をまとめた。 SIFT概要[4] :Liu Liらは、SIFTアルゴリズムの進化とさまざまな分野でのその典型的な応用について包括的な議論を行い、さまざまなアルゴリズムの長所と短所を比較しました。 SIFTアルゴリズムの改良[9][10][11] :アルゴリズムの時間計算量の高さに対処するために、PCA-SIFT、Surf、SSIFが提案された。 改良SIFTアルゴリズム[12] :カラー画像用のCSIFT(カラーSIFT)。 SIFTアルゴリズム[13]の改良:対数極座標階層を持つGLOH(勾配位置と方向ヒストグラム)を使用する。 改良SIFTアルゴリズム[14] :アフィン不変性を備えたASFIT(アフィンSIFT)。 高速【2】 :隣接するピクセルを比較することで特徴点を検出し、機械学習を導入してプロセスを高速化します。ビデオ監視におけるターゲット認識など、リアルタイム性が求められる場面で使用できます。 FAST は単一スケールの画像のみを処理し、「コーナー ポイント」の特徴だけでなく、分離されたノイズ ポイントなど、要件を満たす他の特徴ポイントも検出できます。画像内にノイズ ポイントが多くなると、外れ値も増え、堅牢性が低下します。 ハリス[1] :コーナーポイントは、2つの直交方向の強度の変化率によって定義されます。しかし、この方法には、スケールが固定されている、ピクセルの位置決め精度が低い、疑似コーナーポイントの数が多い、計算量が多いなどの問題があります。 ハリス改良アルゴリズム[6] :ハリスのコーナーポイントにマルチ解像度の考え方を導入し、ハリスのアルゴリズムがスケールを変更しない問題を解決しました。 ハリス改良アルゴリズム[7] :ハリスアルゴリズムでは、候補点セットを2回スクリーニングし、最小二乗加重距離法を使用してコーナーポイントのサブピクセル位置決めを実現し、コーナーポイント検出の効率と精度を大幅に向上させます。 ハリス改良アルゴリズム[8] :グレースケール差分とテンプレートをハリスアルゴリズムと組み合わせ、ハリスアルゴリズムにおける多くの偽コーナーと膨大な計算量の問題を解決します。 コーナー検出アルゴリズム - 最も一般的に使用される: 画像のグレースケールに基づく方法。 近傍ピクセル検出。 SIFT[3] :コーナーポイントの検出に限定されなくなりました。 3. 特徴点マッチングはどのように行うのですか? 3.1 ディープラーニング特徴検出器 - 局所特徴点の繰り返し検出 FAST-ERアルゴリズム[15] :特徴点検出器は、高度に繰り返される点を検出するための三値決定木として定義され、決定木はシミュレーテッドアニーリングアルゴリズムを使用して最適化され、検出繰り返し率が向上します。新しい決定木は各反復で検出のために再適用する必要があり、そのパフォーマンスは初期のキーポイント検出器によって制限されるため、アルゴリズムの堅牢性は低下します。 時間不変特徴検出器(TILDE)[16] :Verdieらは、天候、季節、時間などの要因によって引き起こされる劇的な照明変化の場合に、繰り返し発生するキーポイントをより適切に検出できることを提案した。トレーニングに関係する候補特徴点は、図 a に示すように、SIFT アルゴリズムを使用して複数のトレーニング画像から抽出された繰り返し可能なキー ポイントで構成されます。正のサンプルはこれらのポイントを中心とした領域であり、負のサンプルはこれらのポイントから遠く離れた領域です。回帰トレーニング中、図 b に示すように、正のサンプルは特徴点の位置で最大値を返し、特徴点の位置から離れたところではより小さな値を返します。回帰テスト中、テスト画像は固定サイズの画像ブロックに分割され、その回帰応答は図 c に示され、次に図 d に示すように、非最大値抑制に基づいて特徴点が抽出されます。この方法は、トレーニング データとテスト データとして同じシーンの画像を処理するのに適しています。 (TILDE は、手動でラベル付けされたデータを識別特徴トレーニングとして使用し、ガウス分布の DOG 差を使用してトレーニング セットを収集しますが、これは RGB/深度モダリティ ペアなどのクロスモーダル タスクには適用できません) 学習ベースの共変特徴検出器[17] :局所特徴検出器の2つの特性(識別可能な特徴の検出、共変制約 - 異なる変換の下で一貫した特徴を繰り返し検出)を考慮して、Zhangらはこの方法は、TILDE の出力を候補標準画像パッチとして使用し、変換予測子をトレーニングすることで学習フレームワークを確立し、ローカル特徴検出器の共分散制約を変換予測子の共分散制約に変換して、回帰 (ディープ ニューラル ネットワークなど) を変換予測に使用します。予測された変換には、2 つの重要な特性があります。1) 変換の逆変換により、観測された画像パッチを「標準パッチ」にマッピングできます。これにより、識別可能な画像パッチと、パッチ内の「典型的な特徴」(単位円など) の位置と形状が定義されます。2) 変換を「典型的な特徴」に適用すると、画像パッチ内の変換された特徴の位置と形状を予測できます。 Quadnetworks[18] :教師なし学習を使用して特徴点を検出します。 Savinov らは、この方法が、キーポイント検出問題を画像変換におけるキーポイント一貫性ソート問題に変換することを提案しました。最適化されたソートは、さまざまな変換で繰り返し実行でき、キーポイントは応答関数の上位/下位の四分位数から取得されます。 Quad-networks のトレーニング プロセスは図に示されています。ランダムに回転した画像ブロック ペア (1、3) と (2、4) が 2 つの画像から抽出されます。各ブロックはニューラル ネットワークを通じて実数値の応答 H(pw) を出力します。ここで、p は点を表し、w はパラメーター ベクトルを表します。ヒンジ損失は、4 重体のソート一貫性関数を通じて計算され、勾配降下法によって最適化されます。 Quadnetworks は、RGB/RGB モードと RGB/深度モードの両方で繰り返し検出において DOG より優れています。画像マッチング用の学習ベースの記述子と組み合わせることができ、ビデオ内の関心フレーム検出にも使用できます。 3.2 ディープラーニング特徴記述子学習 特徴点記述子の識別学習のためのDeepDesc [19] :Simo-Serraらは、この手法では、判別が難しいカテゴリのトレーニングサンプルに焦点を当てるためにSiameseネットワークを使用し、画像パッチペアを入力し、CNN出力の非線形マッピングを記述子として使用し、ユークリッド距離を使用して類似性を計算し、そのヒンジ損失を最小化すると提案しました。この方法は、幅広いベースラインの画像マッチング、非剛体変形、極端な照明変化を伴うケースなど、さまざまなデータセットやアプリケーションに適用できますが、堅牢性を確保するには大量のトレーニング データが必要です。 3.3 深層学習の各段階の統合 Yiらは[20]を提案した:学習ベースの不変特徴変換(LIFT)は、空間変換器ネットワーク[21]とsoftargmax関数を組み合わせて、深層学習ベースの特徴点検出[16]、深層学習ベースの方向推定[22]、および深層学習ベースの記述子[19]を統合ネットワークに接続し、完全な特徴点マッチング処理パイプラインを実現する。画像ブロックの切り取りと回転は、空間変換ネットワークによって実現されます。トレーニング段階では、4 ブランチ シャム ネットワークが使用されます。特徴点が配置されている画像ブロックが入力され、その位置と方向は SFM アルゴリズムの出力から導出されます。P1 と P2 は、異なる視点での同じ 3D ポイントの画像、P3 は異なる 3D ポイントの投影の画像ブロック、P4 は特徴点を含まない画像ブロック、S はスコア マップ、x は特徴点の位置を表します。バックツーフロントトレーニング戦略が採用されています。つまり、最初に記述子がトレーニングされ、次に方向推定がトレーニングされ、最後に特徴点検出がトレーニングされます。テストフェーズでは、最適化問題の処理を容易にするために、特徴点の検出が方向推定および記述子から分離されます。 LIFT メソッドの入力はマルチスケール画像であり、スライディング ウィンドウの形式で特徴点検出を実行し、ローカル ブロックを抽出して方向を 1 つずつ割り当て、記述子を計算します。 SIFT と比較すると、LIFT はより密度の高い特徴点を抽出でき、照明や季節の変化に対して非常に堅牢です。 3.4 異なるオブジェクトやシーンのマッチング方法の研究(画像セマンティックマッチング) 画像が時間的 (オプティカルフロー) または空間的 (ステレオ) に隣接しているとみなす画像特徴対応とは異なり、意味的対応は、画像の正確な外観と形状は異なる場合があるものの、高レベルの構造が類似しているという特徴があります。 3.4.1 同じオブジェクトクラスの画像ペアのマッチング 古典的なSIFTフロー法[23] :異なるシーン間の密な対応の概念を提案し、滑らかさの制約と小さな変位の事前分布を通じて異なるシーン間の密な対応を計算します。 Bristowら[24] :意味的対応問題を制約検出問題に変換し、Examplar-LDA(Examplar線形判別分析)分類器を提案した。まず、マッチング画像の各ピクセルに対してExamplar-LDA分類器を学習し、次にそれをスライディングウィンドウ方式でターゲット画像に適用し、すべての分類器からのマッチング応答を追加のスムーズな事前処理と組み合わせて、密な対応推定値を取得します。この方法により、セマンティック フローのパフォーマンスが向上し、背景が乱雑なシーンでもより堅牢になります。 3.4.2 異なるオブジェクトクラスの画像ペアマッチング Novotnyら[25]は、幾何学的特徴に基づく弱教師学習法であるAnchorNetを提案した。 AnchorNet は、画像レベルのラベル監視のみを使用して、同じカテゴリの異なるインスタンス間または 2 つの類似カテゴリ間で幾何学的に一貫性のある残差ハイパーコラム HC から抽出された直交応答を持つ一連の多様なフィルターに依存します。 AnchorNet は、ILSVRC12 (imagenet 大規模視覚認識コンペティション 2012) で事前トレーニングされたディープ残差ネットワーク (ResNet50) モデルを使用してネットワーク パラメータを初期化し、2 段階の最適化と加速トレーニングを使用してマッチングを完了します。 3.4.3 複数画像の意味的マッチング 複数の画像間の一貫した対応関係を見つけることができるため、アプリケーションにおいてより重要な役割を果たします。 オブジェクトクラスモデルの再構築 [26] ランドマークの自動注釈【27】 王ら[28] :複数の画像間の意味的マッチング問題は、特徴選択とラベル付けの問題に変換されます。つまり、各画像の初期候補集合から疎な特徴点の集合が選択され、ラベルを割り当てることによって画像間の対応が確立されます。この方法は、サイクルの一貫性と幾何学的一貫性の両方を満たす画像セットに対して信頼性の高い特徴の対応を確立することができ、サイクルの一貫性により、画像セット内の繰り返し可能な特徴を選択して一致させることができます。低ランク制約は、特徴対応の幾何学的一貫性を保証するために使用され、循環的一貫性と幾何学的一貫性の両方を最適化できます。この方法はスケーラビリティが高く、何千もの画像を照合でき、注釈を使用せずにオブジェクト クラス モデルを再構築するのに適しています。 3.5 正確な臨床診断と治療のための画像マッチング 臓器の幾何学的形状を正確に比較することで、臓器に病変があるかどうかを判断できます。また、腫瘍の幾何学的特徴を分析することで、腫瘍が悪性かどうかを判断できます。 Yuら[29]は、 A-NSIFT(高速多次元スケール不変特徴変換)とPO-GMMREG(ガウス混合モデル登録に基づく並列最適化)を組み合わせて特徴抽出とマッチングのプロセスを改善する方法を提案した。 ANSIFT は NSIFT の高速バージョンです。CUDA プログラミングは、マッチング画像とマッチング対象画像の特徴点を抽出するために使用される NSIFT の最初の 2 つのステップを高速化するために使用されます (位置情報のみが保持されます)。 PO-GMMREG は、並列最適化に基づくガウス混合モデル (GMM) マッチング アルゴリズムです。並列最適化により、マッチング画像とマッチング対象画像を任意の回転角度で配置することができます。この方法により、時間の消費が削減され、姿勢の大きな違いがある場合でもマッチングの精度が向上します。 TV-L1(全変動-L1)光学フローモデル[30]は、画像のエッジなどの特徴情報を効果的に保存できますが、弱い微分特性を持つテクスチャの詳細情報を保存するには依然として理想的ではありません。 Zhang Guimeiら[31]は、 TV-L1光フローモデルにGL(Grunwald-Letnikov)分数次微分理論を導入し、一次微分を置き換え、分数次TV-L1光フロー場モデルFTV-L1(分数TV-L1)を提案した。同時に、マッチング精度と GL 分数次テンプレート パラメータの関係が示され、最適なテンプレートを選択するための基礎が提供されます。 FTV-L1 モデルは、全変動エネルギー方程式の双対形式を最小化して変位場を取得し、画像のグレースケール均一性と弱いテクスチャ領域のマッチング結果における情報の曖昧性の問題を解決できます。この方法は、画像マッチングの精度を効果的に向上させることができ、より弱いテクスチャや弱いエッジ情報を含む医療画像のマッチングに適しています。 マッチングする画像ペア内のターゲットの大きな変形と異方性グレースケール分布の問題を解決するために、Lu Xuesongら[32]は、2つの画像の結合Renyiαエントロピーを多次元特徴測定に導入し、グローバル特徴とローカル特徴を組み合わせて非剛体マッチングを実現しました。まず、最小距離ツリーを使用して、ジョイント レニイ α エントロピー メトリック基準を構築します。次に、確率的勾配降下法を使用して、相対変形モデル FFD (自由形状変形) の勾配解析式に基づいてメトリックを最適化します。最後に、画像の Canny 特徴と勾配方向特徴をメトリックに統合して、グローバル特徴とローカル特徴の組み合わせを実現します。この方法のマッチング精度は、従来の相互情報量法や相互相関係数法に比べて大幅に向上しており、新しい測定方法は、画像の不一致な局所的なグレースケール分布によって引き起こされる影響を克服し、誤マッチングをある程度まで削減することができます。 Yangら[33]が提案したFMLND(学習した非線形記述子を使用した特徴マッチング)は、学習した局所非線形記述子LNDを特徴マッチングに使用し、2つの異なる画像パラメータT1wとT2wを持つ磁気共鳴画像(MRI)データからCT(コンピュータ断層撮影)画像を予測します。このプロセスは、非線形記述子の学習と pCT (疑似 CT) 画像の予測という 2 つの段階に分かれています。最初の段階では、まず高密度 SIFT を使用して MR 画像の特徴を抽出します。次に、明示的な特徴マッピングを通じて高次元空間に投影し、元のブロック強度と組み合わせて初期非線形記述子として使用します。最後に、教師あり CT 情報を含むローカル記述子を修正記述子学習 (SDL) フレームワークで学習します。第 2 段階では、入力 MR 画像のローカル記述子の K 近傍がトレーニング MR 画像の制約空間で検索され、対応する元の CT ブロックにマッピングされ、重複する CT ブロックの加重平均が実行されて最終的な pCT ブロックが得られます。 T1w または T2w の画像パラメータのみを使用する MR 画像法と比較して、FMLND 法は予測精度を向上させます。 骨盤CTとMRIを組み合わせることで、前立腺癌の放射線治療において両方の検査法を効果的に統合できる可能性があります。骨盤臓器の形状/外観のモードのギャップが大きく、形状/外観の変動が大きいため、マッチングは困難です。これに基づいて、Caoら[34]は、マルチモーダル骨盤画像をマッチングするための双方向画像合成、すなわちMRIからCTを合成し、CTからMRIを合成する、地域適応型変形マッチング法を提案した。マルチターゲット回帰フォレスト MT-RF は、CT モードと MRI モードを使用して方向性画像合成の共同教師あり学習を実行し、豊富な解剖学的詳細を保持しながら、モダリティ間の外観の違いを排除します。そのマッチングプロセスは次のとおりです。まず、MT-RF を介して双方向画像を合成し、実際の CT と合成 CT (S-CT) の CT 画像ペアと、実際の MRI と合成 MRI (S-MRI) の MRI 画像ペアを取得します。次に、CT 画像ペアの骨領域と MRI 画像ペアの軟部組織領域を検出して、2 つのモードの解剖学的詳細を組み合わせます。最後に、2 つのモードから選択された特徴点を使用して対称マッチングを実行します。マッチング処理中に、特徴点の数が徐々に増加し、変形フィールドの対称性の推定において優れた階層的ガイドの役割を果たします。この方法は骨盤画像のマッチング問題をうまく解決でき、高い精度と堅牢性を備えています。 3.6 リモートセンシング画像処理のための画像マッチング - 高解像度 He Mengmengら[35]は、豊富な詳細テクスチャ情報を持つ高解像度の光学画像とSAR(合成開口レーダー)リモートセンシング画像を分析し、特徴レベルの高解像度リモートセンシング画像の高速自動マッチング法を提案した。この方法では、まずマッチング画像とマッチング対象画像に Harr ウェーブレット変換を実行し、後続の処理のためにそれらを低周波近似画像に変換して、画像マッチング速度を向上させます。次に、Canny 演算子と ROA (平均比) 演算子を使用して、それぞれ光学画像と SAR 画像からエッジ特徴を抽出し、エッジ線特徴を点特徴に変換します。次に、マッチング画像とマッチング対象画像の各特徴点ペア間の最小角度と第 2 最小角度の比によって初期マッチング点ペアを決定し、ランダム サンプリング コンセンサス アルゴリズム (RANSAC) に制約を追加して誤ったマッチング点ペアをフィルター処理します。最後に、ブロック内のマッチング点ペアを均等に抽出する方法を使用して、マッチング精度をさらに向上させます。この方法は迅速に実装でき、登録精度が高く、堅牢性も優れています。 3.7 エラーマッチングの排除 3.7.1 幾何学的制約は、対応する点がエピポーラ線上にあることを要求するパラメータである。 Fischlerら[36]は、外れ値を含むデータセットから数学モデルを推定するために反復的なアプローチを使用するRANSAC法を提案した。マッチングポイントペアを精製する手順は次のとおりです。1) マッチングされた特徴点ペアデータセットから非共線ポイントのペアを4組ランダムに抽出し、ホモグラフィ行列Hを計算してモデルMとして記録します。2) しきい値tを設定します。データセット内の特徴点とMの間の投影誤差がt未満の場合、そのポイントを内部ポイントセットに追加し、上記の手順を繰り返します。反復後、内部ポイントの数が最も多いケースが最適なマッチングです。 RANSAC は、不一致点を除去するためにホモグラフィ行列の計算に依存しており、計算量が多く、効率が低いなどの問題があります。 文献[37]は、正常値と異常値の混合確率モデルを導入することでパラメータモデルの最大尤度推定を達成した。 文献[38]では、サポートベクター回帰によって学習された対応関数を使用しており、ある画像内の点を別の画像内の対応する点にマッピングし、対応関数と一致するかどうかをチェックして外れ値を除去します。 グラフマッチングによる点の対応関係の記述[39-40] RANSACに頼らずに多数のインライアを回復するために、Linら[41]は、ノイズの多いマッチからグローバルマッチの一貫した関数を計算し、インライアとアウトライアを分離するBF(双方向関数)法を提案した。 BF は、一連の初期マッチから開始し、各マッチによって定義されたローカル アフィン変換行列を使用して、2 つの画像間のアフィン モーション フィールドを計算します。モーション フィールドが与えられると、BF は各特徴の記述子空間内で最も近い近傍の一致を見つけて、より多くの対応を回復します。 RANSAC と比較すると、双方向動作モデルは再現率と精度が高くなります。 BFに触発されて、Bianら[42]は動きの滑らかさを統計として使用し、最も近い隣接点の一致数に基づいて正しいマッチングポイントペアと誤ったマッチングポイントペアを区別するグリッドベースの動き統計(GMS)法を提案しました。 GMS アルゴリズムの中核は、図 4 に示すように、モーション統計モデルです。このうち、si と sj はそれぞれ正しい一致 xi と間違った一致 xj の動きの統計を表します。このプロセスを高速化するために、画像全体を G = 20 × 20 のグリッドに分割し、グリッド内で操作を実行します。 GMS アルゴリズムはグリッド分割を実行するときに画像サイズを考慮しないため、アスペクト比が一貫していない画像の場合、長方形のグリッドが生成され、グリッド内の特徴が不均一に分布することになります。これに基づいて、文献[43]は外れ値を除去するために5グリッド特徴スコアを計算し、画像サイズを制約として画像を正方形のグリッドに分割することで、GMSアルゴリズムと同等のマッチング精度を達成しながら計算速度を向上させることができました。 3.7.2 幾何学的制約は非パラメトリックである Maら[44]は、ベクトル場の平滑性事前分布を用いて外れ値を含むサンプルからベクトル場の堅牢な推定値を求めるVFC(ベクトル場コンセンサス)法を提案した。ベクトル場の滑らかさは、再生核ヒルベルト空間(RKHS)[45]ノルムによって特徴付けられます。VFCアルゴリズムはこの事前理論に基づいており、ベイズモデルの最大事後確率(MAP)を使用して一致が正しいかどうかを計算します。最後に、EMアルゴリズムを使用して事後確率を最大化します。 VFC アルゴリズムの適用範囲: 1) 不一致率が高い場合 (リモートセンシング画像、赤外線画像、異種画像)、2) 変換モデルを提供できない場合 (非剛体変形、不明なカメラパラメータなど)、3) 高速マッチングアルゴリズムが必要であり、変換パラメータを解決する必要がない場合。 パート2: 局所不変特徴点マッチング-3D 1. 特徴検出 PointNet[46]は3Dポイントクラウドを直接入力できる改良版である。 PointNet++[47]はより適切にローカル情報を抽出できる。 3D ローカル記述子は 3D ビジョンで重要な役割を果たし、対応推定、マッチング、ターゲット検出、形状検索を解決するための前提条件です。ロボット工学、ナビゲーション (SVM)、シーン再構築で広く使用されています。ポイントクラウドマッチングにおける 3D 幾何学的記述子は、この分野で常に研究のホットスポットとなっています。この記述子は主に 3D のローカル幾何学的情報に依存しています。 Dengら[48]は、グローバル知覚を備えたローカル特徴抽出ネットワークPPFNet(ポイントペア特徴ネットワーク)を提案した。 PPFNet 構造を図 5 に示します。ブロック記述 Fr は、ポイントペア特徴 (PPF)、ポイント、ローカル近傍の法線のセットで構成されます。まず、PointNet を使用して各地域ブロックを処理し、ローカル特徴を取得します。次に、各ブロックのローカル特徴は最大プーリング層を介してグローバル特徴に集約され、個別のローカル情報はフラグメント全体のグローバル背景に要約されます。最後に、グローバル特徴は各ローカル特徴に接続され、一連のマルチレイヤーパーセプトロン (MLP) を使用して、グローバル特徴とローカル特徴をさらに融合し、最終的なグローバル背景認識ローカル記述子を作成します。 PPFNet は、幾何学的空間でローカル記述子を学習し、順列不変であり、元のポイント クラウドのスパース性を十分に活用して、リコール率を向上させ、ポイント クラウドの密度の変化に対する堅牢性が向上します。ただし、メモリ使用量はブロック数の 2 乗に比例するため、ブロック数が制限され、現在は 2K までしか設定できません。 深層モデルに基づくマッチングアルゴリズムでは、 Zhouら[49]は、マルチビュー融合技術Fuseption-ResNet(FRN)に基づくマルチビュー記述子MVDescを提案した。 FRN は、図 6 に示すように、マルチビューの特徴マップを単一のビュー表現に統合できます。このうち、ビュープーリングはショートカット接続に使用され、Fuseptionブランチは残差マッピングの学習を担当します。この2つのブランチは、精度と収束率の点で互いに補強し合います。 3 × 3、1 × 3、3 × 1 の異なるカーネル サイズを持つ軽量空間フィルタを使用してさまざまな種類の特徴を抽出し、上記のカスケードされた特徴マップの 1 × 1 畳み込みによって、クロス チャネル統計のマージと次元削減が行われます。 FRNを複数の並列特徴ネットワークの上に配置し、畳み込み6のチャネル数が特徴ネットワークが出力する特徴マップのチャネル数と同じになるようにMVDescの学習ネットワークを構築します。 多視点画像に依存したり、固有の形状特徴の抽出を必要とする畳み込みニューラルネットワークとは異なり、 Wangら[50]は、3D表面形状に基づいて局所記述子を生成できるネットワークフレームワークを提案した。この方法は、キーポイントの近傍を複数のスケールで量子化し、2Dグリッドにパラメータ化します。これを幾何学画像と呼びます。記述子のトレーニングプロセスは次のとおりです。まず、表面上のキーポイントの近傍のマルチスケールローカルブロックを抽出し、これらのブロックに基づいて幾何学画像のセットを構築します。次に、これらのブロックをTripletネットワークに入力し、各ネットワークブランチをConvNet(畳み込みネットワーク)を使用してトレーニングします。最後に、128次元の記述子が出力され、MinCV Triplet損失関数を使用して、アンカーサンプルとポジティブサンプル間の距離の変動係数(CV)の比を最小化します。他のローカル記述子学習方法と比較して、この方法は識別性、堅牢性、一般化能力が優れています。 Georgakisら[51]は、特徴点検出と記述子学習のためのエンドツーエンドのフレームワークを提案した。このフレームワークはSiameseアーキテクチャに基づいており、各ブランチは改良されたFaster R-CNNです[52]。図7に示すように、VGG-16の畳み込み層cov5_3は、深度マップIの深層畳み込み特徴の抽出に使用されます。一方では、RPN(領域提案ネットワーク)によって処理され、特徴点の候補領域(オレンジ色の領域)とスコアSが生成されます。他方では、RoI(関心領域)プーリング層に入力され、特徴点の候補領域は、全結合層を介して対応する畳み込み特徴fにマッピングされます。サンプリング層は、候補領域の重心x、畳み込み特徴f、深度画像値D、カメラ姿勢情報g、およびカメラの固有パラメータを入力として、ローカルブロックの対応するラベル(正または負)を動的に生成し、コントラスト損失関数Lcontrを使用して、正のサンプルペア間の特徴距離を最小化し、負のサンプルペア間の距離を最大化します。この方法は、視野角の変化に対して一定の堅牢性を持っています。 2. エラーの除去 グラフィカルモデルに基づく 3D 不一致点除去法 RMBP (信念伝播法を使用したロバストマッチング) を採用しています。このモデルは、一致するペア間の隣接関係を記述し、信念伝播を通じて各一致するペアに対して推論検証を実行できるため、3D ポイント マッチングの精度と堅牢性が向上します。 パート 3: 直線マッチング<br /> ライン マッチングを研究するには、まず、不正確なエンドポイント位置、不明瞭な画像エッジ機能、線分の断片化の問題など、ライン機能自体に存在するいくつかの問題を克服する必要があります。ポイント機能と比較して、ライン機能にはシーンやオブジェクトの構造情報がより多く含まれています。線特徴マッチング法は、単一線分マッチング法、線分グループマッチング法、共面線点不変法 (LP) 法の 3 種類に大別できます。 1. 単一セグメントマッチングに基づく Wang et alによって提案されたMSLD(平均標準偏差記述子)メソッドは、ピクセルサポート領域の各サブ領域の4つの方向に勾配ベクトルをカウントすることにより、記述子マトリックスを構築し、それにより記述子の堅牢性を改善します。 MSLDは、適切な変更を伴うテクスチャ画像に適切なマッチング効果があり、3D再構成やターゲット認識などのフィールドに適用できます。 MSLDがスケールの変化に敏感であるという問題を解決するために、文献[54]は地域のアフィン変換とMSLDを組み合わせ、カーネルラインの制約を使用してマッチングイメージに対応する同じ名前のサポートドメインを決定し、サポートドメインでアフィン変換を実行して、地域のサイズを統一し、それによって異なるスケールの画像の直線の対戦を達成します。 MSLDと同様に、Zhang et al。この方法では、異なるスケールスペースのラインセグメントを検出し、ラインセグメントの断片化問題を克服し、大規模な変化に対する堅牢性を改善できます。 2。セグメントグループベースの方法 画像ペア間の回転角度が大きすぎる場合、単一のセグメントマッチング方法の一致する精度は、より幾何学的な情報を通じてこの問題を解決するために使用できます。 Wang et al。 制御されていない照明条件下での低テクスチャー画像の一致する精度を改善するために、Lópezetal。最初に、ラインの特徴が検出されます。1)特徴は、ガウススケール空間の位相ベースのエッジ検出器を使用して抽出されます。第二に、この方法の位相の一貫性は、画像の輝度とコントラストに対する高い不変性を持ち、ラインセグメント融合は、重複するラインセグメントとラインセグメントフラグメントの外観を減らすことができます。最後に、ラインフィーチャマッチングは反復的に実行され、各反復のマッチングラインセットは、この方法のローカル構造情報によって強化されます。 ラインセグメントグループマッチング方法は、ラインセグメントのエンドポイントと部分閉塞に大きく依存しています。 3。コプラナー線点内イベリア(LP)メソッドに基づいています Fan et al。 LPには、「ライン + 2ポイント」と「ライン + 4ポイント」で構成される射影不変剤からなるアフィン不変剤が含まれます。 「2つの線 + 2つの点」[60]で構成される投影不変の不変と比較して、この投影不変は、複雑な組み合わせの最適化なしにラインマッチングに直接使用できます。ラインの勾配方向によれば、線の近隣は左の近所(ライン勾配方向)に分割され、ラインの類似性を測定すると、左右の近隣の最大値が取られます。 この方法は、ポイントと画像変換の不一致に対して堅牢ですが、一致したキーポイントの精度に大きく依存しています。この目的のために、Jia et al。 CNはクロスオーバー比を延長し、ラインの上とオフのポイントを使用して、基礎となるジオメトリを記述します。ラインポイントの不変は「5ポイント」によって構築されます。ここでは、2つのポイントがライン上にあり、他の3つのポイントはラインの同じ側にありますが、図8に示すようにコリネアではありません。ポイントKP1 L、KP2 L、P1、P2、P3は不変の構築に使用され、2つのポイントを接続することで他の特徴ポイントを取得できます。線の近隣の類似性を計算するとき、線の近隣は、ライングラデーションの方向に応じて左の近隣と右の近所(勾配方向)に分割され、左右の近隣の類似性は、ラインポイントの不変に基づいて個別に計算されます。この類似性測定方法は、特徴ポイントの一致することであまり影響を受けません。この方法は、低テクスチャとワイドベースライン画像のラインマッチングのために、他のラインマッチングアルゴリズムよりも優れたパフォーマンスを発揮し、多くの画像の歪みに対しても堅牢です。ラインポイントの不変はコプラナーであるため、非平面シーン画像の処理には制限があります。 空中画像でラインマッチングを実行すると、通常、ラインの特徴はブロックされ、変形し、壊れているため、形態ベースのグローバル記述子が適用されなくなります。これに基づいて、Ouyang Huanら[63]は、ポイント特徴の利点を組み合わせて、ラインの特徴を離散化し、航空画像のライン特徴マッチングを実現するためにそれらを組み合わせました。ライン機能の離散化は、線を離散ポイントと見なし、ライン上の同じ名前のポイントの分布をカウントすることにより、ライン機能の初期一致結果を決定します。同名のポイントの制約には、ホモグラフィーの制約とホモグラフィーの制約がラインの特徴間の位置の制約を実現し、カーネル線の制約は一致する検索空間を2次元から1次元に減らします。ライン上の離散点の一致する制約は、図9に示されています。ここで、ILはターゲット画像であり、L1はターゲットラインの特徴であり、Pはそれのポイントです。制約、およびポイントP1、P2、およびP3は、pの候補の同名のポイントです。アルゴリズムは、一致する精度が高く、比較的速い速度を備えており、マッチングの信頼性は、同じ名前の初期ポイントを取得するのが難しい領域の影響を受けます。 パート4:地域のマッチング 地域の特徴は、ほとんどの画像で繰り返し検出され、他の検出器と特定の相補性を持つことができます。 2002年、Matas et al。古典的なMSERアルゴリズムは、時間の複雑さが高くなっています。 Nistéret al。 MSERなどの方法は、画像スポット領域の検出とテキストのローカリゼーションに使用できます。たとえば、他の検出器と組み合わせて使用できます。 地域の特徴の検出は、コンピューター技術の樹木理論を使用して、この理論に基づいてトポロジー方法(ツリーベースのモールス領域)を提案しました。この方法は、臨界ポイントを定義するためのモールス理論に基づいています:最大葉のノード、最小ツリーリーフノード、および分岐ノードに対応する最大点、最小点、およびサドルポイント。 TBM領域は、子ノードが1つだけの兄弟ノードが1つしかないツリー内のノードに対応しています。図10に示すように、ノードは最大領域を表します。この方法は、トポロジー情報のみに依存し、形状空間不変性を完全に継承し、視点の変化に堅牢であり、速い計算速度を持ち、MSERと同じ複雑さを持ち、画像登録と3D再構成によく使用されます。 2。テンプレートマッチング: テンプレートマッチングとは、ターゲットトラッキング、ターゲット検出、画像ステッチ、その他のフィールドで広く使用されているため、ターゲット画像のテンプレートに対応する領域を見つける方法を指します。 テンプレートとターゲット画像サブウィンドウの類似性測定値は、上記の方法で使用されるCSAD、SV-NCCなど、ピクセルのピクセルを比較するためによく使用されます。 Korman et al。この方法では、グローバルな最適なマッチング位置を見つけることができますが、色画像を一致させる場合は、事前にグレースケール画像に変換する必要があり、このプロセスはカラー空間情報を失い、画像マッチングの精度を低下させます。 Jia et al。この方法は、各ピクセルポイントのカテゴリをベクトル密度クラスタリングアルゴリズムを介して計算し、各RGBチャネルの同様のピクセルの数と累積値をカウントし、各分類のベクトル中心を解き、ベクター中心をCSADの判断条件として使用し、同様のピクセルの類似性測定として同様のピクセルを使用します。 上記の方法は、明らかな色素異常を伴う領域で一致する精度が高くなりますが、一部のパラメーターは経験に応じて設定されており、大規模な画像の処理には適していません。この問題を解決するために、文献[71]は、スコアグラフに基づいてテンプレートマッチングアルゴリズムを提案しています。この方法では、サンプリングベクトル正規化相互相関法(SVNCC)を使用して、色画像のマルチチャネル特性に基づいて2つの画像間の領域の一貫性を測定して、光とノイズの影響を減らします。 Dekel et al。ただし、このアルゴリズムは、重度の非剛性変形や大部分の閉塞や不均一な照明などの環境では、一致する堅牢性が低いです。文献[74]は、BBSアルゴリズムのユークリッド距離の代わりにマンハッタンの距離を使用し、生成された信頼マップのしきい値スクリーニングとフィルタリングを実行します。 双方向NNの使用は、BBSのより長い計算時間につながりました。まず、テンプレートのターゲット画像ウィンドウポイントのNN一致点を計算し、対応する一致ポイントの数をカウントし、ピクセルポイントの信頼性を計算します。第二に、ターゲットポイントと対応するNN一致点の間の距離は、ユークリッド距離を使用して計算され、最後に、一致する結果は、メトリックテンプレートとターゲット画像ウィンドウの類似性を組み合わせることによって得られます。 DDISはアルゴリズムの複雑さを減らし、検出精度を向上させますが、変形の程度が大きい場合、マッチング効果に依然として影響します。 DDISは各スライドウィンドウのNN一致を個別に計算し、スライドウィンドウの計算効率が低いため、より大きなサイズのターゲット画像を一致させるときのテンプレートの処理時間は長くなります。この目的のために、Talker et al。ターゲット画像ウィンドウポイントに基づくDDIとは異なり、DIWUは、複数のピクセルのNNマッチングポイントが同じである場合、ピクセルの信頼性スコアが低くなり、マッチングの正しさが低くなる場合、最近隣の一致点を計算します。最初の画像ウィンドウのスコアに基づいて、Diwuはその後、各ウィンドウのスコアを徐々に計算します。 BBSとDDIの両方は、長方形ブロック間の類似性の計算を使用して、幾何学的な変形と部分的閉塞の問題を解決しますが、スライド窓の使用は閉塞の程度を制限します。 [77]は、一貫したSET最大化(CSM)に基づいて、高オクルージョン状況に適したテンプレートマッチングアルゴリズムOATM(職業認識テンプレートマッチング)を提案しました。還元方法を通じて、OATMは、単一のベクトルとnターゲットベクトル間の一致する問題を、2セットのnベクター間の一致問題に変換し、ランダムグリッドハッシュアルゴリズムに基づいて一致する検索を実行します。検索を一致させるプロセスは、CSMを見つけるプロセスです。つまり、変換検索のしきい値内で残差マップを使用します。 OATMは、アルゴリズムの処理速度を改善し、閉塞問題をより適切に解決します。 ユークリッド距離に基づくピクセル間の類似性とは異なり、コクランス統計は、データからピクセル間の類似性を学習することです。 Kat et al。 COTMがカラーマップを使用すると、画像はKクラスクラスタリングアルゴリズムに量子化され、ターゲット画像に表示される回数は、各クラスクラスターの事前の確率に基づいて正規化され、相互情報(PMI)マトリックスが構築されるほど、マイズマッチレートが低くなります。最後に、ターゲット画像ウィンドウに含まれるクラスクラスターのピクセルとクラスクラスターのピクセルとの相関は、PMIに基づいて計算され、最適な一致位置が選択されます。 COTMは、標準のデータセットに基づいてテンプレートマッチングのマッチング効果を改善するために、共起統計(グローバル統計をキャプチャ)と深度特徴(キャプチャローカル統計)と組み合わせることができる深度機能など、色の特徴以外の他の機能にも適しています。 3。ディープラーニングメソッドブロックマッチング: 近年、深い学習に基づいた画像領域の一致は、ローカル画像領域のマッチングの適用で、畳み込み型ニューラルネットワーク(CNN)を2つのカテゴリに分割することができます。 最初のタイプは、このタイプのネットワークを測定層のある方法です。 Han et alによって提案されたマッチネットは、CNNを介して画像領域の特徴抽出と類似性測定を実行します。各入力画像ブロックについて、機能ネットワークは固定次元機能を出力し、前処理層の入力はグレースケール画像ブロックであり、正規化された役割を果たします。畳み込み層のアクティブ化関数はreluであり、ボトルネック層は完全に接続されたレイヤーであり、特徴の寸法を減らし、ネットワークの過剰適合を防ぐことができます。機能ペアのマッチングスコアは、3つの完全に接続されたレイヤーを使用して計算されます。 Zagoruyko et al。この方法では、基本的なネットワークフレームワークシャム、擬似型、2チャンネル(2CH)を説明し、これに基づいて、深いネットワーク、中央サウリュラウンド2ストリーム(2ストリーム)および空間ピラミッドプーリング(SPP)ネットワークを使用して、基本フレームワークのパフォーマンスを改善します。 衛星画像の登録率を改善するために、Fan Dazhao et al。 BBS-2CHDCNNは、デュアルチャンネルディープ畳み込みニューラルネットワーク(2CHDCNN)のフロントエンドに追加された空間的にスケールの畳み込み層で、ネットワーク全体のスケールアンチスケール特性を強化します。 2CHDCNNは、入力データとして一致するポイントのローカルで合成された2チャンネル画像を取得し、4つの畳み込み、RELU操作、最大プーリング操作、3つの畳み込みおよびRELU操作を実行し、最終的に平坦化と2つの完全な接続操作を出力して、1次元スケーラー結果を出力します。この方法は、異種、多相、および多解像度の衛星画像の処理に適しており、従来のマッチング方法よりも同じ名前のより豊富なポイントを抽出できます。 2番目のタイプのメソッドにはメトリックレイヤーがなく、このタイプのネットワークの出力は機能記述子であり、一部のアプリケーションでは従来の記述子に直接置き換えることができます。 Balntasらによって提案されたPN-NET [82]は、トリプレットネットワークトレーニングを使用し、トレーニングプロセスを図14に示します。イメージブロックトリプレットT = {p1、p2、n}、正のサンプルペア(p1、p2)およびネガティブサンプルペア(p1、n)、(p2、n)を含む、ソフトPN損失関数を使用して、ネットワーク出力記述子の類似性を計算し、最小負のサンプルペア距離が正のサンプルペア距離より大きくなることを保証します。表2に、32×32ピクセルの画像ブロックを入力として使用して採用されたCNNアーキテクチャのパラメーターを示し、括弧内の数字は畳み込みカーネルのサイズを表し、矢印の背後にある数値は出力チャネルの数を表し、TANHはアクティベーション関数です。他の機能記述子と比較して、PN-NETにはより効率的な記述子抽出とマッチングパフォーマンスがあり、トレーニングと実行時間を大幅に短縮できます。 Yang et al。この方法は、トリプレットネットワークを使用してトレーニングされ、メインの記述子(実質値記述子)とセカンダリ記述子(バイナリ値記述子)を出力します。データ関連の変調層(DDM)は、学習率の動的な調整を通じて、支配的な記述子に対する補助記述子の補助的役割を実現します。この方法は、さまざまなアプリケーションと変換で画像ブロック記述子のパフォーマンスを効果的に改善できます。 上記の方法はすべて、Tian et alによって提案されたL2-NETを処理します。図16に示すように、各畳み込み層は畳み込みカーネルのサイズを表しますrn)は、ユニット記述子の出力層として使用され、128次元の記述子が取得されます。 CS L2-NETは、2つの独立したL2-NETによって二重タワー構造にカスケードされます。進歩的なサンプリング戦略が採用され、トレーニングに参加するバッチでは、一致したサンプルの各ペアからランダムに選択して、いくつかの不一致のサンプルを形成して、負のサンプルの数を増やします。ペアのサンプルやトリプルサンプルと比較して、よりネガティブなサンプル情報を利用できます。 比較する 2次元ポイントマッチング https://cvlab.epfl.ch/research/tilde 共変動機能の検出[17] http://dvmmweb.cs.columbia.edu/files/3129.pdf https://github.com/columbiadvmm/transform_covariant_detector deepdesc http://icww.epfl.ch/~trulls/pdf/iccv-2015-deepdesc.pdf https://github.com/etrulls/deepdesc-release リフト https://arxiv.org/pdf/1603.09114.pdf https://github.com/cvlab-epfl/lift Quad-Networks https://arxiv.org/pdf/1611.07571.pdfgmshttp://jwbian.net/gmsvfc http://www.escience.cn/people/jiayima/cxdm.html 3Dポイントマッチング http://tbirdal.me/downloads/tolga-birdal-cvpr-2018-ppfnet.pdf 文献[51] http://cn.arxiv.org/pdf/1802.07869 文献[49] http://cn.arxiv.org/pdf/1807.05653 文献[50] http://openaccess.thecvf.com/content_eccv_2018/papers/hanyu_wang_learning_3d_keypoint_eccv_2018_paper.pdf セマンティックマッチ<br /> サンプルLDA分類器 http://ci2cv.net/media/papers/2015_iccv_hilton.pdf https://github.com/hbristow/epic anchornet http://openaccess.thecvf.com/content_cvpr_2017/papers/novotny_anchornet_a_weakly_cvpr_2017_paper.pdf 文献[28] http://cn.arxiv.org/pdf/1711.07641 ラインマッチング http://www.docin.com/p-1395717977.html https://github.com/mtamburrano/lbd_descriptor 新しいラインポイント投影不変[61] https://github.com/dlut-dimt/linematching テンプレートマッチング http://www.eng.tau.ac.il/~simonk/fastmatch/ cfast-match https://wenku.baidu.com/view/3d96bf9127fff705cc1755270722192e453658a5.html DDIS https://arxiv.org/abs/1612.02190 https://github.com/roimehrez/ddis ディウ http://liortalker.wixsite.com/liortalker/code cotm http://openaccess.thecvf.com/content_cvpr_2018/cameraready/2450.pdf OATM http://cn.arxiv.org/pdf/1804.02638 ブロックマッチ http://www.cs.unc.edu/~xufeng/cs/papers/cvpr15-matchnet.pdf https://github.com/hanxf/matchnet DeepCompare http://imagine.enpc.fr/~zagoruys/publication/deepcompare/ pn-net https://arxiv.org/abs/1601.05030 https://github.com/vbalnt/pnnet l2-net http://www.nlpr.ia.ac.cn/fanbin/pub/l2-net_cvpr17.pdf https://github.com/yuruntian/l2-net deepcd https://www.csie.ntu.edu.tw/~cyy/publications/papers/yang2017dld.pdf https://github.com/shamangary/deepcd |
<<: 人工知能の簡単な歴史 | (1) ディープラーニング、人工知能の新たな盛り上がり
企業は、画像認識、音声認識、チャットボット、自然言語生成、感情分析がビジネスの運営方法にどのような変...
[[424110]]こんにちは、みんな!昨日、プログラミング面接の準備をしていて、アルゴリズムの基礎...
見て!今、あなたの前で踊っているのは 4 人の若い女性です。ショート動画プラットフォームで何人かのキ...
[[188839]]ビッグデータの概念が普及するにつれ、ビールとおむつの話は広く知られるようになり...
急速に進化する今日のテクノロジー環境において、人工知能 (AI) はあらゆる業界に革命を起こす可能性...
自然災害が増加する中、スイス・リーは人工知能を活用して、顧客が保険金請求をより正確に予測し、手続きを...
「次世代のロボットは『人間と共存する』ものになるだろう。中国がこのチャンスをつかめば、ロボットイノ...