[AI開発] ディープラーニングに基づくビデオマルチターゲットトラッキングの実装

複数のターゲットを追跡するには、次の 2 つの方法があります。

オプション1

初期化フレームの追跡に基づいて、ビデオの最初のフレームでターゲットを選択し、追跡アルゴリズムに渡してターゲット追跡を実現します。この方法では、基本的に最初のフレームで選択したターゲットのみを追跡できます。後続のフレームに新しいオブジェクトが表示された場合、アルゴリズムはそれらを追跡できません。この方法の利点は、比較的高速であることです。欠点は明らかです。新しく出現するターゲットを追跡できないのです。

オプション2

ターゲット検出追跡に基づいて、まずビデオの各フレームで対象となるすべてのターゲットオブジェクトが検出され、次に前のフレームで検出されたターゲットと関連付けられて追跡効果が得られます。この方法の利点は、ビデオ全体の任意の時点で表示される新しいターゲットを追跡できることです。もちろん、この方法を使用するには、前提条件として優れた「ターゲット検出」アルゴリズムが必要です。

この記事では、主に Tracking By Detecting の追跡方法であるオプション 2 の実装原理について説明します。この記事にはソースコードへのリンクがありません。「ターゲット検出」アルゴリズムのソースコードについては、前回の記事を参照してください。「軌道追跡」アルゴリズムのソースコード実装に関しては、非常にシンプルです。この記事を読めば誰でも書けると思います。Python 実装は 200 行未満です。

検出による追跡

ステップ 1:ターゲット検出アルゴリズムを使用して、各フレーム内の対象ターゲットを検出し、対応する情報 (位置座標、分類、信頼性) を取得します。検出されたターゲットの数は M であると仮定します。

ステップ 2:何らかの方法で、ステップ 1 の検出結果を前のフレームの検出ターゲットに関連付けます (前のフレームの検出ターゲットの数は N であると仮定します)。つまり、M*N 個のペアの中で最も類似したペアを見つけることです。

ステップ 2 の「特定の方法」についてですが、実際にはターゲットの関連付けを実現する方法は多数あります。たとえば、一般的な方法は、2 つのフレーム内の 2 つのターゲット間のユークリッド距離 (平面上の 2 点間の直線距離) を計算することです。距離が最短のターゲットを同じターゲットと見なし、ハンガリアンアルゴリズムを使用して最も一致するペアを見つけます。もちろん、私が使用した IOU のように、他の判定条件を追加することもできます。これは、2 つのターゲットボックス (位置ボックスとサイズボックス) の交差と結合の比率を計算します。値が 1 に近いほど、同じターゲットを表します。他にも、2 つのターゲットの外観が類似しているかどうかを判断するなど、比較に外観モデルを使用する必要があり、時間がかかる場合があります。

関連付けプロセス中に、次の 3 つの状況が発生する可能性があります。

1) 検出されたターゲットは前のフレームの N 個のターゲットの中に見つかり、正常に追跡されていることを示します。

2) 検出されたターゲットが前のフレームの N 個のターゲットの中に見つからない場合、そのターゲットはこのフレームでは新しいものであるため、次の追跡関連付けのために記録する必要があります。

3) 前のフレームにターゲットがあったが、このフレームにそれに関連付けられたターゲットがない場合、ターゲットが視野から消えた可能性があるため、削除する必要があります。（これは、検出エラーのためにこのフレームでターゲットが検出されなかった可能性があるためであることに注意してください）

問題点

上記の追跡方法は通常の状況ではうまく機能しますが、ビデオ内のターゲットが非常に速く移動し、前のフレームと次のフレームの同じターゲット間の距離が非常に遠い場合、この追跡方法では問題が発生します。

上図に示すように、実線のフレームは最初のフレームのターゲットの位置を表し、点線のフレームは 2 番目のフレームのターゲットの位置を表します。ターゲットがゆっくり走る場合、従来の追跡方法では (A, A') と (B, B') を正確に関連付けることができます。ただし、ターゲットが非常に速く移動する（または 1 フレームおきに検出される）場合、2 フレーム目では A は 1 フレーム目の B の位置に移動し、B は別の位置に移動します。このとき、上記の関連付け方法を使用すると間違った結果になります。

では、どうすればより正確に追跡できるのでしょうか?

軌道予測に基づく追跡方法

2 番目のフレームの位置を 1 番目のフレームの位置と比較して関連付けると誤差が生じるため、比較する前に次のフレームでターゲットが出現する位置を予測し、予測した位置と比較して関連付ける方法があります。このように、予測が十分に正確である限り、速度が速すぎることによる上記のようなエラーはほとんど発生しません。

上図に示すように、比較して関連付ける前に、まず次のフレームの A と B の位置を予測し、実際の検出位置を使用して予測位置と比較および関連付けることで、上記の問題を最も効果的に解決できます。理論上は、ターゲットがどれだけ高速であっても接続できます。そこで疑問になるのが、次のフレームのターゲットの位置をどのように予測するかということです。

方法は多数あります。カルマンフィルタリングを使用して、前のフレームの軌跡に基づいて次のフレームのターゲットの位置を予測したり、適合した関数を使用して次のフレームの位置を予測したりできます。実際には、フィッティング関数を使用して、次のフレームのターゲットの位置を予測します。

上に示すように、前の 6 フレームの位置に基づいて (T->XY) 曲線を当てはめ (図の直線ではないことに注意してください)、T+1 フレームのターゲットの位置を予測できます。具体的な実装は非常に簡単で、Python の numpy ライブラリに同様の機能を持つメソッドがあります。

残る欠陥

それでも、まだ欠点はあります。

[[266162]]

軌道予測の前提は、過去数フレームにおけるターゲットの軌道情報を知ることです。そのため、最初はターゲットの軌道を予測できないか、予測が不正確になります。したがって、最初の数フレームでは、比較と関連付けに元の方法を使用する必要があります。

<<: ロボット宅配便があなたの玄関までお届けします！フォードが「無人配送」の最後のハードルを解決

>>: アリババ機械知能チームの3年間の取り組みの概要

トレンド検索No.1！ B駅のアップマスターはAIを使って李大昭、陳延年らを笑顔にした

[AI開発] ディープラーニングに基づくビデオマルチターゲットトラッキングの実装

トレンド検索No.1！ B駅のアップマスターはAIを使って李大昭、陳延年らを笑顔にした

AI が顧客中心主義で債権回収サイクルを変革する方法

数千億単位の数学専用大規模モデルMathGPTが公開テストを開始

スマートドライビングが誕生してから10年経った今、なぜ理想的なビジネスモデルの実現が難しいのでしょうか?

多くの場所でAI顔認識の使用が制限されており、監視は技術開発のペースに追いついています

自動運転の国家基準が導入される。2021年はレベル3自動運転車元年となるか？

「小学生」は荷物受け取りのためのFengchaoの顔スキャンシステムを解読できるのか？

機械学習はデータに依存する

セマンティクスと機械学習が融合するとき

百新銀行と百度クラウドAI+銀行金融技術シンクタンク会議が開催、オープンバンキングについて議論

推薦する

人工知能は教育にどのような変化をもたらすのでしょうか?

4 つの主要ビジネス分野における業界に関するインテルの詳細な洞察、アプリケーション事例、革新的な製品とソリューションの解釈 | Intel Vision

ライアットを繰り返し失敗に導いた作者、ピン：作者は若くして交通事故で亡くなり、何千行ものソースコードが世界を変えた

大学を解雇され、Facebookも拒否した大物音声エンジニアのダニエル・ポーヴィー氏が、中国のXiaomiに入社する

あなたが知らないかもしれないゲームにおける AI に関する 5 つの予測

ネットワークセキュリティ運用保守サービスにおける人工知能の応用

Pythonを学ぶときは、学習の方向性と開発ツールの選択を明確に知っておく必要があります。

IEEE: AI の時代において、基本的なサイバー衛生で十分でしょうか?

Metaverse と Web3 は似ていますが、最も重要な違いは何でしょうか?

このAIはガールフレンドの自撮りを手伝います: 写真から3D動画を生成

スマートパッケージング：製造業の最新トレンド

HuaweiとXiaomiの携帯電話を使ったDIY自律ナビゲーションロボット：わずか300元、チュートリアルはオープンソースで誰でも始められる