概要: 視覚追跡技術は、コンピュータービジョン(人工知能の一分野)の分野における重要なトピックであり、重要な研究意義を持っています。軍事誘導、ビデオ監視、ロボット視覚ナビゲーション、人間とコンピュータの相互作用、医療診断など、多くの面で幅広い応用の見込みがあります。研究者が徹底的な研究を続ける中で、視覚的ターゲット追跡は過去10年間で飛躍的な進歩を遂げ、視覚追跡アルゴリズムは従来の機械学習手法に限定されるだけでなく、近年の人工知能ブームであるディープラーニング(ニューラルネットワーク)と関連フィルターなどの手法も組み合わせられるようになりました。この記事では、主に、視覚的ターゲット追跡(単一ターゲット追跡)とは何か、単一ターゲット追跡の基本構造(フレームワーク)、ターゲット追跡の課題、ターゲット追跡の古典的な関連方法と研究動向などについて紹介します。 01 単一ターゲット追跡タスクの概要オブジェクト追跡は、コンピュータービジョンの分野における重要な問題であり、現在、スポーツイベントの放送、セキュリティ監視、ドローン、無人車両、ロボットなどの分野で広く使用されています。以下にいくつかのアプリケーション例を示します。 車両追跡 サッカーの試合 陸上競技 視覚ターゲット(単一ターゲット)追跡とは、画像シーケンス内の移動ターゲットを検出、抽出、識別、追跡して、位置、速度、加速度、移動軌跡などの移動ターゲットの動きパラメータを取得し、次のステップの処理と分析を実行して、移動ターゲットの動作を理解し、より高度な検出タスクを完了することを指します。 その具体的なタスクは、追跡されたビデオ シーケンスの初期フレーム (最初のフレーム) のターゲット状態 (位置、スケール) に基づいて、後続のフレームのターゲット状態 (位置、スケール) を予測することです。基本的な構造(フレームワーク)は次のとおりです。 基本的なプロセス: 最初のフレームを入力し、追跡するターゲットを指定します。通常、ターゲットは長方形のボックスでマークされます (入力フレーム)。次のフレームで多数の候補ボックス (モーション モデル) を生成し、これらの候補ボックスの特徴を抽出します (特徴抽出器)。そして、観測モデル (観測モデル) がこれらの候補ボックスにスコアを付けます。最後に、これらのスコアの中で最も高いスコアを持つ候補ボックスを予測対象(予測A)として見つけたり、複数の予測値を融合(アンサンブル)してより良い予測対象を得たりします。この時点で、アルゴリズムは最初のフレームの情報に基づいて 2 番目のフレームの予測を完了しており、後続のフレームも同様であり、指定されたルールに従ってモデル (モデル アップデータ) を更新します。 上記のフレームワークによれば、ターゲット追跡は、以下のフローチャートに示すように、5 つの主要な研究内容に分けられます。 フローチャート
下の図の概要は、ターゲット追跡アルゴリズムが追跡タスクを完了する方法をよりよく理解するのに役立ちます。 タスクフローの追跡 02 ターゲット追跡アルゴリズムの分類ほとんどの追跡方法は、観測モデルの設計に重点を置いており、観測モデルに応じて生成モデルと識別モデルの 2 つのカテゴリに分類できます。
たとえば、トラッカーは現在のフレームから、ターゲット領域が赤 80%、緑 20% であることを認識します。次のフレームでは、検索アルゴリズムが戻って、この色の比率に最も一致する領域を探します。 生成アルゴリズムフレームワーク
たとえば、トレーニング中に、ターゲットは 80% が赤で 20% が緑であり、背景にはオレンジがあるため、特に注意する必要があることをトラッカーに伝えます。このようにすると、分類器はより多くの情報を認識し、効果が比較的良くなります。 判別アルゴリズムフレームワーク 03 ターゲット追跡タスクの難しさと課題ターゲット追跡には幅広い用途がありますが、その用途を制限する問題がまだいくつかあります。主な問題は次のとおりです。
次の図は上記の問題の例です。 ターゲット追跡タスクにおける困難と課題 上の図に示すように、ターゲット追跡タスクにおける困難さと課題は次のとおりです。 1. 変形、2. 照明の変化、3. 類似干渉、4. モーション ブラー、5. 背景干渉、6. オクルージョン、7. フレーム外、8. スケールの変更、9. 平面外プロパガンダ、10. 平面内回転、11. 背景の類似性 04 ターゲット追跡データベース厳密なデータセットはアルゴリズムを駆動するための鍵です。過去数年間、ターゲット追跡用のデータベースリソースは比較的不足しており、これがターゲット追跡の開発がターゲット検出の開発に遅れをとっている重要な理由の 1 つです。以下では、オブジェクト追跡の分野における権威ある 2 つのデータベースについて簡単に紹介します。 OTB50データセット OTB は、単一ターゲット追跡に必須のデータベースと言えます。2013 OTB50 には、手動で注釈が付けられた 50 のビデオ シーケンスが含まれています。これまでターゲット追跡の分野では一般に受け入れられているデータベースがなく、すべての単一ターゲット追跡アルゴリズムに対する統一された測定法もなかったため、このデータベースは非常に意義深く、単一ターゲット追跡アルゴリズムの開発を直接促進します。その後、OTB100 に拡張され、100 個のシーケンスとともに TPAMI に送信されましたが、これはより難しく、より権威のあるものとなりました。近年のより強力な追跡アルゴリズムについて知りたい場合は、Wu Yi教授の論文(添付)を参照してください。 VOTデータベース VOT チャレンジは、画像認識分野の ImageNet チャレンジに似た、オブジェクト追跡分野のコンテストです。これらのイベントは通常、標準データセットのソースであるため、VOT データセットは一般的に使用されるターゲット追跡データセットであり、すべてのシーケンスを無料でダウンロードできます。 VOTコンテストはこれまで9回開催され、毎年多くの新しいアルゴリズムやユニークなアイデアがコンテストに登場しています。2022年のVOTコンテストが間もなく始まります。評価シーケンスは毎年更新され、アノテーションの精度も年々向上しているため、VOTコンテストは視覚追跡分野で最も難しいコンテストともみなされており、結果の信頼性は比較的高くなっています。 OTB と VOT の違い: OTB には 25% のグレースケール シーケンスが含まれますが、VOT はすべてカラー シーケンスです。これが、多くのカラー機能アルゴリズムのパフォーマンスの違いの理由でもあります。両ライブラリの評価指標は異なります。詳細については論文およびコンペティションの公式サイトを参照してください。 05 古典的なターゲット追跡アルゴリズム過去数年間、生成追跡法はスパースコーディングが最も一般的でしたが、最近では識別追跡法が徐々に主流になってきています。相関フィルタリング(CF:Correlation Filter)とディープラーニング(DL:Deep Learning)に代表される識別手法は、満足のいく結果を達成しています。このセクションでは、古典的なアルゴリズムを時系列順に簡単に整理します。各アルゴリズムの年は、論文の発表年またはベンチマーク参加年に基づいており、単一ターゲット追跡アルゴリズムの進化と開発の傾向を理解するのに役立ちます。さまざまな追跡タスクの課題に対してさまざまなアルゴリズムによって提案されたソリューションは、学習して理解する価値があり、追跡アルゴリズムの開発動向を見ることができます。 1981
LK Tracker は、最も初期のターゲット追跡作業であるはずです。これは、オプティカルフローの概念を使用しています。下の図に示すように、異なる色はオプティカルフローの異なる方向を表し、色の深さは移動速度を表します。オプティカルフローの計算は非常にシンプルで高速ですが、堅牢性は低く、基本的には移動して外観が変化しないオブジェクトのみを追跡できます。 オプティカルフロー 2002
平均シフトは、平均シフトを検索戦略として使用します。これは、画像特徴ヒストグラムを使用して空間的に滑らかな確率密度関数を構築し、確率密度関数の勾配方向に沿って反復することで関数の局所的最大値を検索する、パラメーターフリーの確率推定方法です。当時、一般的に使用されていたターゲット追跡方法になりました。シンプルで実装が簡単でしたが、堅牢性は低かったです。 MeanShiftアルゴリズム 2010
MOSSE (Minimum Output Sum of Squared Error) は、相関フィルタリングを使用してターゲットを追跡します (最初のものではありませんが、明確なアイデアと完全なアルゴリズムのため、相関フィルタ追跡アルゴリズムの祖先と呼ばれています)。速度は 1 秒あたり 600 フレーム以上に達しますが、主に単純な元のピクセル機能のみを使用するため、効果は平均的です。 一般的なプロセス:
MOSSEアルゴリズム 2012
CSK の著者らは MOSSE にいくつかの改良を加えました。著者らは、巡回シフトによって現在の正のサンプルのすべての変換バージョン (境界を除く) をシミュレートできると考え、密なサンプリングに巡回行列を使用し (MOSSE のランダム アフィン サンプリングと比較して)、カーネル関数を通じて低次元の線形空間を高次元空間にマッピングすることで、相関フィルターの堅牢性を向上させました。 巡回行列は特殊な種類の行列です。その 1 次元形式は、n×n 行列が生成されるまで、毎回 1 つの要素を右に循環的に移動する n 次元ベクトルです。具体的な効果は下の図に示されています。 円形マトリックス図 2014
CSK の特徴入力は単一チャネルのグレースケール ピクセルですが、KCF は HOG マルチチャネル特徴を使用し、カーネル関数はガウス カーネル関数を使用します。 方向勾配特性効果図 CSK と KCF の組み合わせは、完全なカーネル化相関フィルタの進化のトレンドと言えます。巡回行列とフーリエ対角化の両方を備え、計算を簡素化し、単一チャネルの特殊アプリケーションの拡張により、より優れた特徴記述に適応できます。
DSST の作成者は、追跡を位置変更とスケール変更の 2 つの部分に分けます。追跡プロセス中に、著者らは新しいターゲットの位置とスケールの評価を決定するための 2 つのフィルターを定義し、これによりアルゴリズムの堅牢性が向上しました。 2015
MDNet は、畳み込み特徴表現ターゲットを学習するための軽量の小規模ネットワークを設計します。著者らは、マルチドメイン ネットワーク フレームワークを提案しました。 オフライン トレーニング中は、特徴抽出ネットワークが共有され、トレーニング用のビデオ シーケンスごとに新しい検出ブランチが構築されます。このようにして、特徴抽出ネットワークは、より一般的でドメインに依存しない特徴を学習できます。 追跡中、特徴抽出ネットワークは保持および固定され、追跡シーケンス用に新しい分岐検出部分が構築されます。検出部分が最初のフレーム サンプルでオンラインでトレーニングされた後、追跡結果を使用して正と負のサンプルが生成され、検出ブランチが微調整されます。 さらに、MDNet はトレーニング中に難しいサンプルマイニング技術を使用してネガティブサンプルを生成します。トレーニングが進むにつれて、サンプルの分類の難易度が増し、ネットワークの識別能力がますます強くなります。 下の図に示すように、ネガティブサンプルの判別はますます困難になってきています。 ハード例マイニング
SRDCF の作者は、単純な相関フィルタリングのみを使用すると境界効果が生じると考えました。つまり、相関フィルタリングでは円形シフト サンプリングが使用され、ターゲットがエッジに移動する時にセグメント化されます。このとき、取得されたサンプルには完全なターゲット画像がないため、効果が失われます。 境界効果 そこで著者の考えは、境界効果は境界付近で発生するため、シフトしたサンプルすべての境界ピクセルを無視するか、境界付近のフィルタ係数を 0 に近くなるように制限することです。具体的なアプローチは、空間正規化を追加し、境界領域のフィルタ係数にペナルティを課すことです。その効果を下の図に示します。 SRDCE空間正規化
HCFの主な貢献は、相関フィルタのHOG特徴を深層特徴に置き換えることです。VGGの第3層、第4層、第5層を使用して特徴を抽出し、CNNの各層にフィルタをトレーニングし、相関フィルタを深層から浅層へと順番に使用します。そして、深層から得られた結果を使用して浅層を誘導し、検索空間を減らします。 HCFアルゴリズムは深層特徴を抽出します 上図は畳み込み可視化を使用して得られたものです。図に示すように、conv3の特徴はターゲットの輪郭をはっきりと見ることができますが、conv5では詳細を見ることが困難です。ただし、conv5では、この層の特徴により多くの意味情報が含まれていることがわかります。左半分の強調表示された領域は、ターゲットが位置するおおよその領域です。したがって、高レベルの特徴では、ターゲットが位置するおおよその領域を簡単に見つけることができ、その後、徐々に低レベルの特徴を使用してターゲットを正確に配置できます。 2016
ステープル氏は補完的なアプローチを提案した。 HOG 特徴は変形やモーション ブラーに敏感ですが、色の変化に対しては優れた追跡効果を実現でき、カラー特徴は色に対して敏感ですが、変形やモーション ブラーに対しては優れた追跡効果を実現できることを考慮すると、この 2 つが相互に補完できれば、追跡プロセスで発生するいくつかの主要な問題を解決できると著者らは考えています。そのため、Staple は HOG-KCF と color-KCF を組み合わせたアルゴリズムを使用してターゲットを追跡します。 このアルゴリズムの革新的なアイデアはシンプルでわかりやすいものですが、その効果は驚くべきものです。
TCNN はツリー構造を使用して CNN 機能を処理します。著者は信頼性を使用して予測ターゲットに重みを割り当て、10 フレームごとにフロント ノードを削除して新しい CNN ノードを作成し、新しいノードを最も信頼できるものにできるノードを親ノードとして選択するという更新戦略を採用しています。このようにして、最近更新された 10 個の CNN モデルを含むアクティブ セットが常に維持され、このアクティブ セットが追跡に使用されます。ただし、ネットワーク構造を更新する必要があるため、速度は遅くなります。 TCNN ツリー構造の更新例
SiamFC メソッドの核となる考え方は非常にシンプルで、追跡プロセスを類似性学習問題として計画することです。つまり、サンプル画像zと検索画像xの類似度を比較する関数f(z, x)を学習します。2つの画像間の類似度が高いほど、スコアが高くなります。次のフレーム画像でターゲットの位置を見つけるために、ターゲットの可能なすべての位置をテストし、最も類似性の高い位置をターゲットの予測位置として使用できます。 ディープラーニングにおける類似性の問題に対処する最も一般的な方法は、Siamese アーキテクチャを使用することです。SiamFC のネットワーク構造は次のとおりです。 SiamFCネットワーク構造 2017
CFNet は、ツイン ネットワークのアーキテクチャを採用しています。トレーニング サンプル (ここでは、マッチングに使用するテンプレートを指します) とテスト サンプル (検索する画像領域) が同じネットワークを通過し、その後、トレーニング サンプルのみに適切なフィルタリング操作が適用され、変更に対して堅牢なテンプレートが形成されます。境界効果を抑制するために、著者らはコサインウィンドウを適用し、トレーニングサンプルを切り取りました。 2018
UPDTアルゴリズムの主な考え方は、深い特徴と浅い特徴を異なる方法で扱うことです。深い特徴はデータ強化を通じて効果を高めることができ、深い特徴は精度よりも堅牢性に重点を置いています。逆に、浅い特徴はデータ強化後の効果を減らしますが、同時に精度を十分に確保できます。そこで著者らは、まず深層モデルと浅層モデルを個別にトレーニングし、その後融合するという解決策を考案しました。
SiamRPN は、SiamFC に基づく Faster RCNN で RPN を使用し、従来のディープラーニング追跡アルゴリズムがドメイン固有ではなく (クラスを区別していないと理解できます)、追加のスケール検出とオンラインの微調整が必要であった問題を解決します。 RPN 回帰ネットワークの導入により、一方では精度が向上し、他方では回帰プロセスがマルチスケール検出に取って代わり、速度が向上します。 SiamRPNネットワーク構造 2019
SiamRCNNは、再検出が干渉の影響を受けやすく、モデルドリフトが発生することを発見しました。困難な例のマイニングと動作軌跡の動的計画という2つの角度から始めて、最初のフレームと前のフレームをテンプレートとして使用するツインネットワーク検出構造を設計しました。短期追跡評価への影響は驚くべきものであり、長期追跡評価でも非常に大きな進歩がありました。 軌道動的プログラミングアルゴリズム (TDPA) の主なアイデアは、前のフレームのすべてのターゲット候補ボックスを再検出し、干渉ターゲットを含むすべての潜在的なターゲットを追跡しながら、時間の経過とともにこれらの候補ボックスを短いターゲットトラックにグループ化することです。次に、ビデオ内のすべてのターゲット オブジェクトと妨害オブジェクトの完全な履歴軌跡に基づいて、現在の最適なオブジェクトが選択されます。 2020
RPT アルゴリズム フレームワークは、ターゲット状態推定ネットワークとオンライン分類ネットワークの 2 つの部分で構成されます。 ターゲット状態推定ネットワークは、追跡ターゲットの状態を特徴点の集合として表現し、ターゲットの姿勢変化や幾何学的構造変化のモデリング能力を向上させます。視覚的なターゲット追跡タスクでは、真の値のラベル付けと特徴の抽出を容易にするために、ターゲットの状態は通常、長方形のボックスで表されます。一方で、長方形のフレームは対象領域を大まかに表現したもので、冗長な背景が含まれています。また、対象のポーズや幾何学的構造の変化をモデル化する機能がないため、回帰の精度が制限されます。したがって、追跡対象は一連の特徴点として表現され、対象領域内の意味的キーポイントと極値ポイントの教師あり学習を通じて、より正確な対象状態推定が実現されます。 PRTターゲット状態推定ネットワーク オンライン分類ネットワークは軽量の 2 層完全畳み込みニューラル ネットワークで構成されており、これにより RPT フレームワークは同様の周囲の干渉に対して非常に堅牢になります。 RPTオンライン分類ネットワーク 06 ターゲット追跡の研究動向このセクションでは、近年のターゲット追跡分野におけるさまざまなアルゴリズムの主流の研究動向と開発方向を簡単に分析します。 a) 情報抽出
実際のシーンでは、オブジェクトは 3 次元のモーション フィールド内を移動します。しかし、ビデオや画像シーケンスは 2 次元の情報であり、これが実際にいくつかの問題の根本的な原因の 1 つとなっています。もっと極端な例としては、理髪店の前によく見られる回転柱があります。純粋に 2 次元的な視点で見ると柱は上方向に動きますが、実際のスポーツ フィールドでは柱は水平方向に動き、観察される方向と実際の移動方向は完全に垂直になります。 回転列効果図 したがって、ターゲットをより適切に追跡するには、可能な限り最良の特徴を抽出する必要があり、ビデオまたは画像シーケンスからより豊富な情報(特に意味情報)を学習することも望ましいです。
CNN は学習プロセス中にサンプル内の各領域に対して差別化された注意を生成できるため、境界効果は無視できます。境界効果の処理は、巡回シフトを必要とする相関フィルタリングなどのアルゴリズムで主に発生します。 実際、ターゲット追跡のタスク自体は時間領域情報を利用します。次のフレームを予測するには、前のフレームの情報が必ず必要となるためです。ただし、前のフレームの情報だけを使用するのは十分ではないことがよくあります。時間領域情報を最大限に活用することで、正規化や補助メモリで特定の結果を達成できます。 b) メタ学習ディープラーニングの台頭後、多くのターゲット追跡アルゴリズムは、ターゲット分類タスクでいくつかの事前トレーニング済みモデルを転送して特徴を抽出することを選択しています。この転送学習には、実際にはメタ学習の考え方が含まれています。たとえば、MDNet は各ビデオをドメインと見なします。テスト中は、以前のトレーニング中に他のドメインから学習した経験を保持しながら、新しいドメインを作成します。これにより、オーバーフィットを回避しながら、新しいビデオ シーケンスをより速く、より適切に学習できます。 ツインネットワークは、実際にはメタ学習の分野でよく使用される構造です。入力間の類似性を判断する方法を学習します。 c) 過剰適合を防ぐターゲット追跡におけるテンプレートの更新やターゲットの変形によって生じる過剰適合の問題も重要な懸念事項です。一般的な方法は次のとおりです。
07 学習目標追跡関連参考資料a) はじめに
b) 上級古典的なターゲット追跡アルゴリズムを徹底的に学習することをお勧めします。特定のアルゴリズムの詳細な原理は比較的長いため、ここでは詳しく説明しません。ここにいくつかの古典的な追跡アルゴリズムの学習資料があります。また、他の 1 つまたは 2 つの古典的なアルゴリズムを選択して徹底的に学習することもできます。
c) フロンティア次のリンクは、最新の追跡アルゴリズムと追跡のアイデアを理解するのに役立ちます。
ターゲット追跡アルゴリズムのマインドマップ
以下は、2019 年から 2020 年にかけての主要なカンファレンス論文の概要です。
|
>>: 科学者が人工結晶で大きな進歩を遂げ、コンピューターをより低電力で動作可能に
[[228895]] AI は囲碁のゲームを変え、今度はポスターのデザインを変えています。アリババ...
トランスフォーマー モデルは現在、言語、視覚、強化学習などの分野での有効性から注目を集めています。た...
DeepMind はゲーム AI の分野で新たな成果を上げました。今回はチェスです。 AI ゲーム...
世界経済フォーラムによると、2025年までに世界では毎日463EBのデータが生成されることになります...
AIビデオトラックでは、Googleが再び衝撃的なアップデートをリリースしました! Google L...
2023 年の幕がゆっくりと下りる中、IT 業界は楽観と慎重さをもって新年を待ち望んでいます。警戒感...
[[282875]] 数十年前、日本は避けることの難しい一連の長期的経済課題に直面していました。 1...
人間の目には、以下の 3 つの画像はそれぞれ異なるもの、つまり鳥、犬、馬に見えます。しかし、機械学習...
この魅力的な旅をさらに深く探究する中で、モノのインターネット (IoT)、スマート交通システム、エネ...
[[277858]] 「自動運転は長い間宣伝されてきたが、なぜ一般の人々は自動運転車に乗らないのか?...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
モバイルインターネット時代の到来により、AIは前例のない成果を達成し、人々の生活のあらゆる側面に入り...
Markets and Marketsの人工知能サイバーセキュリティ予測レポートによると、AIサイバ...