この記事では、ロボットが視覚を通じてターゲット追跡を実現する方法を説明します。

概要: 視覚追跡技術は、コンピュータービジョン（人工知能の一分野）の分野における重要なトピックであり、重要な研究意義を持っています。軍事誘導、ビデオ監視、ロボット視覚ナビゲーション、人間とコンピュータの相互作用、医療診断など、多くの面で幅広い応用の見込みがあります。研究者が徹底的な研究を続ける中で、視覚的ターゲット追跡は過去10年間で飛躍的な進歩を遂げ、視覚追跡アルゴリズムは従来の機械学習手法に限定されるだけでなく、近年の人工知能ブームであるディープラーニング（ニューラルネットワーク）と関連フィルターなどの手法も組み合わせられるようになりました。この記事では、主に、視覚的ターゲット追跡（単一ターゲット追跡）とは何か、単一ターゲット追跡の基本構造（フレームワーク）、ターゲット追跡の課題、ターゲット追跡の古典的な関連方法と研究動向などについて紹介します。

01 単一ターゲット追跡タスクの概要

オブジェクト追跡は、コンピュータービジョンの分野における重要な問題であり、現在、スポーツイベントの放送、セキュリティ監視、ドローン、無人車両、ロボットなどの分野で広く使用されています。以下にいくつかのアプリケーション例を示します。

車両追跡

サッカーの試合

陸上競技

視覚ターゲット（単一ターゲット）追跡とは、画像シーケンス内の移動ターゲットを検出、抽出、識別、追跡して、位置、速度、加速度、移動軌跡などの移動ターゲットの動きパラメータを取得し、次のステップの処理と分析を実行して、移動ターゲットの動作を理解し、より高度な検出タスクを完了することを指します。

その具体的なタスクは、追跡されたビデオシーケンスの初期フレーム (最初のフレーム) のターゲット状態 (位置、スケール) に基づいて、後続のフレームのターゲット状態 (位置、スケール) を予測することです。基本的な構造（フレームワーク）は次のとおりです。

基本的なプロセス: 最初のフレームを入力し、追跡するターゲットを指定します。通常、ターゲットは長方形のボックスでマークされます (入力フレーム)。次のフレームで多数の候補ボックス (モーションモデル) を生成し、これらの候補ボックスの特徴を抽出します (特徴抽出器)。そして、観測モデル (観測モデル) がこれらの候補ボックスにスコアを付けます。最後に、これらのスコアの中で最も高いスコアを持つ候補ボックスを予測対象（予測A）として見つけたり、複数の予測値を融合（アンサンブル）してより良い予測対象を得たりします。この時点で、アルゴリズムは最初のフレームの情報に基づいて 2 番目のフレームの予測を完了しており、後続のフレームも同様であり、指定されたルールに従ってモデル (モデルアップデータ) を更新します。

上記のフレームワークによれば、ターゲット追跡は、以下のフローチャートに示すように、5 つの主要な研究内容に分けられます。

フローチャート

モーションモデル: 多数の候補サンプルを生成する方法。
特徴抽出器: ターゲットを表すために使用される特徴の種類。
モデルの観察: 多数の候補サンプルにスコアを付ける方法。
モデルアップデータ: ターゲットの変化に適応するために観測モデルを更新する方法。
アンサンブル法: 複数の決定を組み合わせて、より堅牢な決定構造を取得する方法。

下の図の概要は、ターゲット追跡アルゴリズムが追跡タスクを完了する方法をよりよく理解するのに役立ちます。

タスクフローの追跡

02 ターゲット追跡アルゴリズムの分類

ほとんどの追跡方法は、観測モデルの設計に重点を置いており、観測モデルに応じて生成モデルと識別モデルの 2 つのカテゴリに分類できます。

生成モデル: 対象の特徴を抽出して外観モデルを構築し、追跡結果としてモデルに最も一致する領域を画像内で検索します。グローバル特徴とローカル特徴のどちらが使用されるかに関係なく、生成モデルの本質は、ターゲット表現の高次元空間で現在の推定値としてターゲットモデルに最も近い候補ターゲットを見つけることです。このタイプの方法の欠点は、ターゲット情報のみに焦点を当て、背景情報を無視することです。ターゲットの外観が大幅に変化したり、遮蔽されたりすると、ターゲットがドリフトしたり、見失ったりしやすくなります。

たとえば、トラッカーは現在のフレームから、ターゲット領域が赤 80%、緑 20% であることを認識します。次のフレームでは、検索アルゴリズムが戻って、この色の比率に最も一致する領域を探します。

生成アルゴリズムフレームワーク

判別法：ターゲット追跡は、バイナリ分類問題と見なされます。ターゲットと背景について分類器をトレーニングすることで、ターゲットを背景から分離し、候補ターゲットからターゲットを決定します。この方法は、背景とターゲットを明確に区別でき、堅牢なパフォーマンスを備えており、ターゲット追跡の分野で徐々に主流の方法になっています。そして現在、ディープラーニングに基づくターゲット追跡アルゴリズムのほとんども識別的な手法です。

たとえば、トレーニング中に、ターゲットは 80% が赤で 20% が緑であり、背景にはオレンジがあるため、特に注意する必要があることをトラッカーに伝えます。このようにすると、分類器はより多くの情報を認識し、効果が比較的良くなります。

判別アルゴリズムフレームワーク

03 ターゲット追跡タスクの難しさと課題

ターゲット追跡には幅広い用途がありますが、その用途を制限する問題がまだいくつかあります。主な問題は次のとおりです。

ポーズの変化 - ポーズの変化は、オブジェクト追跡においてよくある厄介な問題です。移動するターゲットの姿勢が変化すると、その特徴や外観モデルも変化し、追跡に失敗する可能性が高くなります。たとえば、スポーツ競技の選手、道路上の歩行者などです。
スケールの変更 - スケールの適応もオブジェクト追跡における重要な問題です。ターゲットスケールが縮小されると、追跡フレームは適応的に追跡できず、多くの背景情報が含まれるため、ターゲットモデルが正しく更新されません。ターゲットスケールが拡大されると、追跡フレームはターゲットを完全に含めることができず、追跡フレーム内のターゲット情報が不完全になるため、ターゲットモデルが正しく更新されません。そのため、スケール適応型の追跡を実現する必要があります。
遮蔽と消失 - 移動中にターゲットが一時的に遮られたり消失したりすることがあります。このような状況が発生すると、追跡フレームに遮蔽物と背景情報が簡単に含まれるようになり、後続のフレームの追跡ターゲットが遮蔽物上に移動することになります。ターゲットが完全に遮蔽されている場合、ターゲットに対応するモデルが見つからないため、追跡は失敗します。
画像のぼやけ - 光の強度の変化、ターゲットの高速な動き、低解像度などにより、特に移動するターゲットが背景と似ている場合に、ターゲットのぼやけが発生する可能性があります。そのため、対象を背景から区別するために効果的な特徴を選択する必要があります。

次の図は上記の問題の例です。

ターゲット追跡タスクにおける困難と課題

上の図に示すように、ターゲット追跡タスクにおける困難さと課題は次のとおりです。

1. 変形、2. 照明の変化、3. 類似干渉、4. モーションブラー、5. 背景干渉、6. オクルージョン、7. フレーム外、8. スケールの変更、9. 平面外プロパガンダ、10. 平面内回転、11. 背景の類似性

04 ターゲット追跡データベース

厳密なデータセットはアルゴリズムを駆動するための鍵です。過去数年間、ターゲット追跡用のデータベースリソースは比較的不足しており、これがターゲット追跡の開発がターゲット検出の開発に遅れをとっている重要な理由の 1 つです。以下では、オブジェクト追跡の分野における権威ある 2 つのデータベースについて簡単に紹介します。

OTB50データセット

OTB は、単一ターゲット追跡に必須のデータベースと言えます。2013 OTB50 には、手動で注釈が付けられた 50 のビデオシーケンスが含まれています。これまでターゲット追跡の分野では一般に受け入れられているデータベースがなく、すべての単一ターゲット追跡アルゴリズムに対する統一された測定法もなかったため、このデータベースは非常に意義深く、単一ターゲット追跡アルゴリズムの開発を直接促進します。その後、OTB100 に拡張され、100 個のシーケンスとともに TPAMI に送信されましたが、これはより難しく、より権威のあるものとなりました。近年のより強力な追跡アルゴリズムについて知りたい場合は、Wu Yi教授の論文（添付）を参照してください。

VOTデータベース

VOT チャレンジは、画像認識分野の ImageNet チャレンジに似た、オブジェクト追跡分野のコンテストです。これらのイベントは通常、標準データセットのソースであるため、VOT データセットは一般的に使用されるターゲット追跡データセットであり、すべてのシーケンスを無料でダウンロードできます。 VOTコンテストはこれまで9回開催され、毎年多くの新しいアルゴリズムやユニークなアイデアがコンテストに登場しています。2022年のVOTコンテストが間もなく始まります。評価シーケンスは毎年更新され、アノテーションの精度も年々向上しているため、VOTコンテストは視覚追跡分野で最も難しいコンテストともみなされており、結果の信頼性は比較的高くなっています。

OTB と VOT の違い: OTB には 25% のグレースケールシーケンスが含まれますが、VOT はすべてカラーシーケンスです。これが、多くのカラー機能アルゴリズムのパフォーマンスの違いの理由でもあります。両ライブラリの評価指標は異なります。詳細については論文およびコンペティションの公式サイトを参照してください。

05 古典的なターゲット追跡アルゴリズム

過去数年間、生成追跡法はスパースコーディングが最も一般的でしたが、最近では識別追跡法が徐々に主流になってきています。相関フィルタリング（CF：Correlation Filter）とディープラーニング（DL：Deep Learning）に代表される識別手法は、満足のいく結果を達成しています。このセクションでは、古典的なアルゴリズムを時系列順に簡単に整理します。各アルゴリズムの年は、論文の発表年またはベンチマーク参加年に基づいており、単一ターゲット追跡アルゴリズムの進化と開発の傾向を理解するのに役立ちます。さまざまな追跡タスクの課題に対してさまざまなアルゴリズムによって提案されたソリューションは、学習して理解する価値があり、追跡アルゴリズムの開発動向を見ることができます。

1981

LKトラッカー1981

LK Tracker は、最も初期のターゲット追跡作業であるはずです。これは、オプティカルフローの概念を使用しています。下の図に示すように、異なる色はオプティカルフローの異なる方向を表し、色の深さは移動速度を表します。オプティカルフローの計算は非常にシンプルで高速ですが、堅牢性は低く、基本的には移動して外観が変化しないオブジェクトのみを追跡できます。

オプティカルフロー

2002

平均シフト

平均シフトは、平均シフトを検索戦略として使用します。これは、画像特徴ヒストグラムを使用して空間的に滑らかな確率密度関数を構築し、確率密度関数の勾配方向に沿って反復することで関数の局所的最大値を検索する、パラメーターフリーの確率推定方法です。当時、一般的に使用されていたターゲット追跡方法になりました。シンプルで実装が簡単でしたが、堅牢性は低かったです。

MeanShiftアルゴリズム

2010

モス

MOSSE (Minimum Output Sum of Squared Error) は、相関フィルタリングを使用してターゲットを追跡します (最初のものではありませんが、明確なアイデアと完全なアルゴリズムのため、相関フィルタ追跡アルゴリズムの祖先と呼ばれています)。速度は 1 秒あたり 600 フレーム以上に達しますが、主に単純な元のピクセル機能のみを使用するため、効果は平均的です。

一般的なプロセス:

初期フレームのグラウンドトゥルース（中心点と長方形のボックスの高さと幅を含む）を再入力します。
現在のターゲットフレームに対してランダムアフィン変換を実行して 128 個のサンプルを生成します。各サンプルはガウス関数を使用して計算され、応答値が得られます。最後に、式を組み合わせてフィルターテンプレート (図 13 の FILTER) が得られます。
2 フレーム目のレスポンスグラフはテンプレートに基づいて計算され、レスポンス値が最大となる点が 2 フレーム目のターゲットの中心点となり、それに基づいてターゲットフレームが描画されます (図 13 の OUTPUT)。
2フレーム目のターゲット領域に応じてフィルタテンプレートを更新する
手順3〜4を繰り返します

MOSSEアルゴリズム

2012

CSK の著者らは MOSSE にいくつかの改良を加えました。著者らは、巡回シフトによって現在の正のサンプルのすべての変換バージョン (境界を除く) をシミュレートできると考え、密なサンプリングに巡回行列を使用し (MOSSE のランダムアフィンサンプリングと比較して)、カーネル関数を通じて低次元の線形空間を高次元空間にマッピングすることで、相関フィルターの堅牢性を向上させました。

巡回行列は特殊な種類の行列です。その 1 次元形式は、n×n 行列が生成されるまで、毎回 1 つの要素を右に循環的に移動する n 次元ベクトルです。具体的な効果は下の図に示されています。

円形マトリックス図

2014

韓国

CSK の特徴入力は単一チャネルのグレースケールピクセルですが、KCF は HOG マルチチャネル特徴を使用し、カーネル関数はガウスカーネル関数を使用します。

方向勾配特性効果図

CSK と KCF の組み合わせは、完全なカーネル化相関フィルタの進化のトレンドと言えます。巡回行列とフーリエ対角化の両方を備え、計算を簡素化し、単一チャネルの特殊アプリケーションの拡張により、より優れた特徴記述に適応できます。

DSST

DSST の作成者は、追跡を位置変更とスケール変更の 2 つの部分に分けます。追跡プロセス中に、著者らは新しいターゲットの位置とスケールの評価を決定するための 2 つのフィルターを定義し、これによりアルゴリズムの堅牢性が向上しました。

2015

MDネット

MDNet は、畳み込み特徴表現ターゲットを学習するための軽量の小規模ネットワークを設計します。著者らは、マルチドメインネットワークフレームワークを提案しました。

オフライントレーニング中は、特徴抽出ネットワークが共有され、トレーニング用のビデオシーケンスごとに新しい検出ブランチが構築されます。このようにして、特徴抽出ネットワークは、より一般的でドメインに依存しない特徴を学習できます。

追跡中、特徴抽出ネットワークは保持および固定され、追跡シーケンス用に新しい分岐検出部分が構築されます。検出部分が最初のフレームサンプルでオンラインでトレーニングされた後、追跡結果を使用して正と負のサンプルが生成され、検出ブランチが微調整されます。

さらに、MDNet はトレーニング中に難しいサンプルマイニング技術を使用してネガティブサンプルを生成します。トレーニングが進むにつれて、サンプルの分類の難易度が増し、ネットワークの識別能力がますます強くなります。

下の図に示すように、ネガティブサンプルの判別はますます困難になってきています。

ハード例マイニング

SRDCF の

SRDCF の作者は、単純な相関フィルタリングのみを使用すると境界効果が生じると考えました。つまり、相関フィルタリングでは円形シフトサンプリングが使用され、ターゲットがエッジに移動する時にセグメント化されます。このとき、取得されたサンプルには完全なターゲット画像がないため、効果が失われます。

境界効果

そこで著者の考えは、境界効果は境界付近で発生するため、シフトしたサンプルすべての境界ピクセルを無視するか、境界付近のフィルタ係数を 0 に近くなるように制限することです。具体的なアプローチは、空間正規化を追加し、境界領域のフィルタ係数にペナルティを課すことです。その効果を下の図に示します。

SRDCE空間正規化

HCFの主な貢献は、相関フィルタのHOG特徴を深層特徴に置き換えることです。VGGの第3層、第4層、第5層を使用して特徴を抽出し、CNNの各層にフィルタをトレーニングし、相関フィルタを深層から浅層へと順番に使用します。そして、深層から得られた結果を使用して浅層を誘導し、検索空間を減らします。

HCFアルゴリズムは深層特徴を抽出します

上図は畳み込み可視化を使用して得られたものです。図に示すように、conv3の特徴はターゲットの輪郭をはっきりと見ることができますが、conv5では詳細を見ることが困難です。ただし、conv5では、この層の特徴により多くの意味情報が含まれていることがわかります。左半分の強調表示された領域は、ターゲットが位置するおおよその領域です。したがって、高レベルの特徴では、ターゲットが位置するおおよその領域を簡単に見つけることができ、その後、徐々に低レベルの特徴を使用してターゲットを正確に配置できます。

2016

ステープル

ステープル氏は補完的なアプローチを提案した。 HOG 特徴は変形やモーションブラーに敏感ですが、色の変化に対しては優れた追跡効果を実現でき、カラー特徴は色に対して敏感ですが、変形やモーションブラーに対しては優れた追跡効果を実現できることを考慮すると、この 2 つが相互に補完できれば、追跡プロセスで発生するいくつかの主要な問題を解決できると著者らは考えています。そのため、Staple は HOG-KCF と color-KCF を組み合わせたアルゴリズムを使用してターゲットを追跡します。

このアルゴリズムの革新的なアイデアはシンプルでわかりやすいものですが、その効果は驚くべきものです。

TCNN

TCNN はツリー構造を使用して CNN 機能を処理します。著者は信頼性を使用して予測ターゲットに重みを割り当て、10 フレームごとにフロントノードを削除して新しい CNN ノードを作成し、新しいノードを最も信頼できるものにできるノードを親ノードとして選択するという更新戦略を採用しています。このようにして、最近更新された 10 個の CNN モデルを含むアクティブセットが常に維持され、このアクティブセットが追跡に使用されます。ただし、ネットワーク構造を更新する必要があるため、速度は遅くなります。

TCNN ツリー構造の更新例

SiamFC メソッドの核となる考え方は非常にシンプルで、追跡プロセスを類似性学習問題として計画することです。つまり、サンプル画像zと検索画像xの類似度を比較する関数f(z, x)を学習します。2つの画像間の類似度が高いほど、スコアが高くなります。次のフレーム画像でターゲットの位置を見つけるために、ターゲットの可能なすべての位置をテストし、最も類似性の高い位置をターゲットの予測位置として使用できます。

ディープラーニングにおける類似性の問題に対処する最も一般的な方法は、Siamese アーキテクチャを使用することです。SiamFC のネットワーク構造は次のとおりです。

SiamFCネットワーク構造

2017

CFネット

CFNet は、ツインネットワークのアーキテクチャを採用しています。トレーニングサンプル (ここでは、マッチングに使用するテンプレートを指します) とテストサンプル (検索する画像領域) が同じネットワークを通過し、その後、トレーニングサンプルのみに適切なフィルタリング操作が適用され、変更に対して堅牢なテンプレートが形成されます。境界効果を抑制するために、著者らはコサインウィンドウを適用し、トレーニングサンプルを切り取りました。

2018

上達

UPDTアルゴリズムの主な考え方は、深い特徴と浅い特徴を異なる方法で扱うことです。深い特徴はデータ強化を通じて効果を高めることができ、深い特徴は精度よりも堅牢性に重点を置いています。逆に、浅い特徴はデータ強化後の効果を減らしますが、同時に精度を十分に確保できます。そこで著者らは、まず深層モデルと浅層モデルを個別にトレーニングし、その後融合するという解決策を考案しました。

サイアムRPN

SiamRPN は、SiamFC に基づく Faster RCNN で RPN を使用し、従来のディープラーニング追跡アルゴリズムがドメイン固有ではなく (クラスを区別していないと理解できます)、追加のスケール検出とオンラインの微調整が必要であった問題を解決します。 RPN 回帰ネットワークの導入により、一方では精度が向上し、他方では回帰プロセスがマルチスケール検出に取って代わり、速度が向上します。

SiamRPNネットワーク構造

2019

サイアムRCNN

SiamRCNNは、再検出が干渉の影響を受けやすく、モデルドリフトが発生することを発見しました。困難な例のマイニングと動作軌跡の動的計画という2つの角度から始めて、最初のフレームと前のフレームをテンプレートとして使用するツインネットワーク検出構造を設計しました。短期追跡評価への影響は驚くべきものであり、長期追跡評価でも非常に大きな進歩がありました。

軌道動的プログラミングアルゴリズム (TDPA) の主なアイデアは、前のフレームのすべてのターゲット候補ボックスを再検出し、干渉ターゲットを含むすべての潜在的なターゲットを追跡しながら、時間の経過とともにこれらの候補ボックスを短いターゲットトラックにグループ化することです。次に、ビデオ内のすべてのターゲットオブジェクトと妨害オブジェクトの完全な履歴軌跡に基づいて、現在の最適なオブジェクトが選択されます。

2020

RPTフレームワーク

RPT アルゴリズムフレームワークは、ターゲット状態推定ネットワークとオンライン分類ネットワークの 2 つの部分で構成されます。

ターゲット状態推定ネットワークは、追跡ターゲットの状態を特徴点の集合として表現し、ターゲットの姿勢変化や幾何学的構造変化のモデリング能力を向上させます。視覚的なターゲット追跡タスクでは、真の値のラベル付けと特徴の抽出を容易にするために、ターゲットの状態は通常、長方形のボックスで表されます。一方で、長方形のフレームは対象領域を大まかに表現したもので、冗長な背景が含まれています。また、対象のポーズや幾何学的構造の変化をモデル化する機能がないため、回帰の精度が制限されます。したがって、追跡対象は一連の特徴点として表現され、対象領域内の意味的キーポイントと極値ポイントの教師あり学習を通じて、より正確な対象状態推定が実現されます。

PRTターゲット状態推定ネットワーク

オンライン分類ネットワークは軽量の 2 層完全畳み込みニューラルネットワークで構成されており、これにより RPT フレームワークは同様の周囲の干渉に対して非常に堅牢になります。

RPTオンライン分類ネットワーク

06 ターゲット追跡の研究動向

このセクションでは、近年のターゲット追跡分野におけるさまざまなアルゴリズムの主流の研究動向と開発方向を簡単に分析します。

a) 情報抽出

ディープフィーチャー

実際のシーンでは、オブジェクトは 3 次元のモーションフィールド内を移動します。しかし、ビデオや画像シーケンスは 2 次元の情報であり、これが実際にいくつかの問題の根本的な原因の 1 つとなっています。もっと極端な例としては、理髪店の前によく見られる回転柱があります。純粋に 2 次元的な視点で見ると柱は上方向に動きますが、実際のスポーツフィールドでは柱は水平方向に動き、観察される方向と実際の移動方向は完全に垂直になります。

回転列効果図

したがって、ターゲットをより適切に追跡するには、可能な限り最良の特徴を抽出する必要があり、ビデオまたは画像シーケンスからより豊富な情報（特に意味情報）を学習することも望ましいです。

時間と空間の領域を組み合わせる

CNN は学習プロセス中にサンプル内の各領域に対して差別化された注意を生成できるため、境界効果は無視できます。境界効果の処理は、巡回シフトを必要とする相関フィルタリングなどのアルゴリズムで主に発生します。

実際、ターゲット追跡のタスク自体は時間領域情報を利用します。次のフレームを予測するには、前のフレームの情報が必ず必要となるためです。ただし、前のフレームの情報だけを使用するのは十分ではないことがよくあります。時間領域情報を最大限に活用することで、正規化や補助メモリで特定の結果を達成できます。

b) メタ学習

ディープラーニングの台頭後、多くのターゲット追跡アルゴリズムは、ターゲット分類タスクでいくつかの事前トレーニング済みモデルを転送して特徴を抽出することを選択しています。この転送学習には、実際にはメタ学習の考え方が含まれています。たとえば、MDNet は各ビデオをドメインと見なします。テスト中は、以前のトレーニング中に他のドメインから学習した経験を保持しながら、新しいドメインを作成します。これにより、オーバーフィットを回避しながら、新しいビデオシーケンスをより速く、より適切に学習できます。

ツインネットワークは、実際にはメタ学習の分野でよく使用される構造です。入力間の類似性を判断する方法を学習します。

c) 過剰適合を防ぐ

ターゲット追跡におけるテンプレートの更新やターゲットの変形によって生じる過剰適合の問題も重要な懸念事項です。一般的な方法は次のとおりです。

スパース更新方式（数フレームごとに更新する）を使用することは、単一フレーム情報を使用した更新をバッチ処理形式に変換することと同じです。
各更新では、現在のフレームだけでなく、最新のフレームの情報が使用されます。原理は前のものと同様です。
初期フレームまたは比較的品質の良い複数のフレームに保存されたサンプルを使用して、時間領域の正規化を実行します。
状況に応じて異なる更新または初期化戦略を使用します。
マスクを使用して、信頼できない情報を削除します。

07 学習目標追跡関連参考資料

a) はじめに

この記事は、「ターゲットトラッキングとは何か」と「ターゲットトラッキングを使用して何を達成するか」を理解するのに役立つと思います。次の記事では、ターゲット追跡タスクプロセスにおけるさまざまなサブ問題についてさらに詳しく説明します (この記事の最初のセクションのフローチャートを参照してください)。 https://www.pianshen.com/article/54451671167/
さらに、ターゲット追跡（ターゲット検出などの他のコンピュータービジョンタスクにも適用されます）を開始する場合は、まず OpenCV を学習し、基本的な画像処理を習得して、ターゲットを効果的に記述するための画像の特徴を抽出することから始めることができます。シンプルで使いやすい OpenCV 入門コースのリソースをお勧めします: https://www.bilibili.com/video/BV1Fo4y1d7JL?p=1

b) 上級

古典的なターゲット追跡アルゴリズムを徹底的に学習することをお勧めします。特定のアルゴリズムの詳細な原理は比較的長いため、ここでは詳しく説明しません。ここにいくつかの古典的な追跡アルゴリズムの学習資料があります。また、他の 1 つまたは 2 つの古典的なアルゴリズムを選択して徹底的に学習することもできます。

相関フィルタリングに基づく古典的なターゲット追跡アルゴリズム: KCF (ソースコードは OpenCV4 に含まれています): https://blog.csdn.net/crazyice521/article/details/53525366
ツインネットワークに基づくターゲット追跡アルゴリズムの考案者: SiamFC (まずツインネットワークを理解してください): https://arxiv.org/pdf/1606.09549.pdf
Wu Yi 教授の論文には、2012 年以前の古典的なアルゴリズムの比較が含まれています。Wu Y、Lim J、Yang M H. オンラインオブジェクト追跡: ベンチマーク [C]// CVPR、2013。Wu Y、Lim J、Yang M H. オブジェクト追跡ベンチマーク [J]。TPAMI、2015。

c) フロンティア

次のリンクは、最新の追跡アルゴリズムと追跡のアイデアを理解するのに役立ちます。

まず、github で管理されている相関フィルタの追跡ベンチマークを推奨します。これは相関フィルタのターゲット追跡アルゴリズムをまとめ、各論文で解決された問題に応じて分類したものです: https://github.com/HEscop/TBCF
下の図は、中国科学院の王強博士が GitHub でまとめた追跡アルゴリズムのマインドマップです。追跡アルゴリズムの発展を見ると、ターゲット追跡アルゴリズムは主に CF (相関フィルタリング) と DL (ディープラーニング) という 2 つの方向に発展していることがわかります。同じリンクには、さまざまな成果の論文やコードも含まれています。長期にわたるアップデートとメンテナンス、収集する価値があります。

ターゲット追跡アルゴリズムのマインドマップ

過去の VOT コンテストのアドレス。各年のコンテストで優勝したアルゴリズムのパフォーマンススコアと原理について知ることができます: https://www.votchallenge.net/challenges.html
ターゲット追跡に関する論文は、トップ 3 のコンピュータービジョンカンファレンスである CVPR (コンピュータービジョンとパターン認識)、ICCV (国際コンピュータービジョンカンファレンス)、ECCV (ヨーロッパコンピュータービジョンカンファレンス) に焦点を当てることができます。

以下は、2019 年から 2020 年にかけての主要なカンファレンス論文の概要です。