ターゲット検出にはこの記事で十分です！ 2019年版オブジェクト検出の総合ガイド

[[272485]]

ビッグデータダイジェスト制作

編纂者：張瑞怡、寧静

コンピュータビジョンは、デジタル画像やビデオの高度な意味理解を実行する方法を研究する学際的な分野です。コンピュータビジョンは、機械に「見る」ための知能を与え、人間の脳 (主に視覚皮質) の視覚能力の実現を必要とします。

視覚障害者向けのガイド製品を設計するとします。視覚障害者が道路を横断しているときにシステムカメラが次の画像をキャプチャするとしたら、どのような視覚タスクを完了する必要があるでしょうか。

[[272486]]

画像分類: 画像内のオブジェクトターゲットを、画像内の人物、建物、道路、車両の数などのカテゴリラベルに分類します。
ターゲット検出: 画像またはビデオ内の関心のあるターゲットを抽出します。ガイドシステムの場合、さまざまな車両、歩行者、交通標識、信号はすべて注意が必要なオブジェクトです。
画像セマンティックセグメンテーション：視野内の車両や道路の輪郭を描く必要があり、画像オブジェクト内の前景オブジェクトの輪郭を描くためのサポートとして画像セマンティックセグメンテーション技術が必要です。
シーンテキスト認識：道路名、青信号のカウントダウン秒数、店舗名など。これらの単語もガイド機能の実現に不可欠です。

上記では、コンピュータービジョン (CV) の分野における 4 つの主要なタスクについて説明しました。CV の分野には主に 8 つのタスクがあります。他の 4 つの主要なタスクには、画像生成、人間のキーポイント検出、ビデオ分類、メトリック学習などがあります。

CV の主要なタスクの 1 つとして、オブジェクト検出も画像の理解において重要な役割を果たします。この記事では、オブジェクト検出の基礎を紹介し、最も一般的に使用されるアルゴリズムといくつかの新しい方法を確認します。（注：各セクションの最後に、掲載されている論文の画像へのリンクが記載されています）

物体検出の仕組み

オブジェクト検出は、画像内のオブジェクトの位置を特定し、そのオブジェクトの周囲に境界ボックスを描画します。これには通常、オブジェクトの種類を分類し、オブジェクトの周囲にボックスを描画するという 2 つのプロセスが含まれます。それでは、物体検出のための一般的なモデルアーキテクチャをいくつか見てみましょう。

R-CNN
高速R-CNN
より高速なR-CNN
マスクR-CNN
SSD (シングルショットマルチボックスディフェンダー)
YOLO (一度だけ見る)

1. R-CNN

この技術は、大容量畳み込みニューラルネットワークをボトムアップの領域提案に適用してオブジェクトを特定およびセグメント化するアプローチと、補助タスクの教師あり事前トレーニングという 2 つの主なアプローチを組み合わせたものです。その後、ドメイン固有の微調整が行われ、パフォーマンスが大幅に向上します。論文の著者らは、領域提案と畳み込みニューラルネットワークを組み合わせたアルゴリズムであるため、このアルゴリズムを R-CNN (Regions with CNN features) と名付けました。

このモデルは、画像を取り込み、約 2,000 個のボトムアップ領域候補を抽出します。次に、大規模な CNN を使用して各候補領域の特徴を計算します。その後、クラス固有の線形サポートベクターマシン (SVM) を使用して各領域を分類します。このモデルは、PASCAL VOC 2010 で平均 53.7% の精度を達成しています。

このモデルのオブジェクト検出システムには 3 つのモジュールがあります。最初のモジュールは、モデル検出器で使用できる候補検出器のセットを定義する、カテゴリに依存しない候補領域を生成するモジュールです。2 番目のモジュールは、各領域から固定長の特徴ベクトルを抽出する大規模な畳み込みニューラルネットワークです。3 番目のモジュールは、サポートベクターマシンのクラスで構成されています。

モデルは内部的に選択的検索を使用して領域カテゴリを生成します。領域カテゴリは、色、テクスチャ、形状、サイズに基づいて類似の領域をグループ化します。特徴抽出では、モデルは各候補領域、227×227 RGB 画像に Caffe CNN (畳み込みニューラルネットワーク) を適用して 4096 次元の特徴ベクトルを取得し、5 つの畳み込み層と 2 つの完全結合層を順方向に伝播して特徴を計算します。セクションの最後にリンクされている論文で説明されているモデルは、PASCAL VOC 2012 の以前の結果よりも 30% の改善を達成しています。

R-CNN の欠点は次のとおりです。

トレーニングは、オブジェクト領域に合わせて畳み込みニューラルネットワークを調整し、SVM (サポートベクターマシン) を ConvNet (畳み込みネットワーク) 関数に適合させ、最後に境界ボックス回帰を学習する多段階タスクです。
VGG16 は多くのスペースを占める深いネットワークであるため、トレーニングにはスペースと時間の両方のコストがかかります。
各領域提案に対して ConvNet フォワードパスを実行するため、オブジェクトの検出は遅くなります。

関連論文および参考リンク:

https://arxiv.org/abs/1311.2524?source=post_page
http://host.robots.ox.ac.uk/pascal/VOC/voc2010/index.html?source=post_page
https://heartbeat.fritz.ai/a-beginners-guide-to-convolutional-neural-networks-cnn-cf26c5ee17ed?source=post_page

2. 高速R-CNN

下の図に示す論文では、物体検出のための高速領域ベース畳み込みネットワーク手法 (Fast R-CNN) を提案しており、これは Caffe (Python と C++ を使用) で実装されています。このモデルは PASCAL VOC 2012 で平均 66% の精度を達成していますが、R-CNN は 62% です。

R-CNN と比較すると、Fast R-CNN は平均精度が高く、単一ステージのトレーニング、すべてのネットワークレイヤーを更新するトレーニング、ディスクストレージを必要としない機能キャッシュを備えています。

Fast R-CNN の構造では、画像を入力として受け取り、同時に候補領域のセットを取得します。次に、畳み込み層と最大プーリング層を使用して画像を処理して、畳み込み特徴マップを生成します。各特徴マップでは、関心領域 (ROI) プーリング層が各候補領域の固定サイズの特徴ベクトルを抽出します。

これらの特徴ベクトルは、完全に接続されたレイヤーに送られ、2 つの出力レイヤーに分岐します。1 つは複数のオブジェクトクラスのソフトマックス確率推定値を生成し、もう 1 つは各オブジェクトの境界ボックスの位置を表す 4 つの実数値を各オブジェクトクラスに対して生成します。

関連コンテンツ参照リンク: https://github.com/rbgirshick/fast-rcnn?source=post_page

3. より高速なR-CNN

「Faster R-CNN: 候補領域ネットワークを使用したリアルタイムのオブジェクト検出」では、領域候補タスクを微調整し、オブジェクト検出を微調整するトレーニングメカニズムを提案しています。

Faster R-CNN モデルは、領域提案を抽出するディープ畳み込みネットワークと、これらの領域を使用する Fast R-CNN 検出器の 2 つのモジュールで構成されています。領域提案ネットワークは、画像を入力として受け取り、それぞれに検出スコアが付いた長方形の領域提案を出力します。

関連論文参考リンク: https://arxiv.org/abs/1506.01497?source=post_page

4.マスクR-CNN

以下の論文で提案されているモデルは、前述の Faster R-CNN アーキテクチャの拡張であり、人間の姿勢を推定することもできます。

このモデルでは、境界ボックスとセマンティックセグメンテーション（画像内の各ピクセルを分類するプロセス）を使用してオブジェクトが分類および位置特定されます。このモデルは、各関心領域 (ROI) のセグメンテーションマスクの予測を追加することで、Faster R-CNN を拡張します。Mask R-CNN は、クラスラベルと境界ボックスの 2 つの出力を生成します。

関連論文参考リンク: https://arxiv.org/abs/1703.06870?source=post_page

5. SSD: シングルショットマルチボックス検出器

次の論文では、単一のディープニューラルネットワークを使用して画像内のオブジェクトを予測するモデルを提案しています。ネットワークは、特徴マップ上の小さな畳み込みフィルターを使用して、各オブジェクトクラスのスコアを生成します。

この方法では、フィードフォワード畳み込みニューラルネットワークを使用して、特定のターゲットの境界ボックスとスコアのセットを生成します。畳み込み特徴レイヤーが追加され、複数のスケールで特徴を検出できるようになります。このモデルでは、各特徴マップセルは、デフォルトの境界ボックスのセットに関連付けられています。下の図は、動物、車両、家具に対する SSD512 モデルのパフォーマンスを示しています。

関連コンテンツ参照リンク: https://arxiv.org/abs/1512.02325?source=post_page

6. 一度だけ見る (YOLO)

下の図に示す論文では、1 回の評価で画像内の境界ボックスとクラス確率を予測できる単一のニューラルネットワークを提案しています。

YOLO モデルは、1 秒あたり 45 フレームをリアルタイムで処理します。YOLO は画像検出を回帰問題として扱うため、パイプラインが非常にシンプルになり、モデルが非常に高速になります。

YOLO は、25 秒未満の遅延でストリーミングビデオをリアルタイムで処理でき、トレーニング中は画像全体を把握するため、オブジェクト検出にコンテキストを含めることができます。

YOLO では、各境界ボックスは画像全体の特徴によって予測されます。各境界ボックスには、x、y、w、h、信頼度の 5 つの予測があります。(x、y) は、グリッドセル境界に対する境界ボックスの中心を表し、w と h は画像全体の予測される幅と高さです。

このモデルは畳み込みニューラルネットワークを介して実装され、PASCAL VOC 検出データセットで評価されます。ネットワークの畳み込み層は特徴の抽出を担当し、完全接続層は座標と出力確率を予測します。

このモデルのネットワークアーキテクチャは、画像分類用の GoogLeNet モデルにヒントを得ています。ネットワークには 24 個の畳み込み層と 2 個の完全接続層があります。このモデルの主な課題は、1 つのクラスしか予測できず、鳥などの小さなオブジェクトに対してはパフォーマンスが十分ではないことです。

このモデルの平均 AP 精度は 52.7% ですが、63.4% を達成できます。

参考リンク: https://arxiv.org/abs/1506.02640?source=post_page

ターゲットを点として見る

下の図の論文では、キーポイント推定を使用して中心点を見つけ、他のすべてのオブジェクトプロパティに回帰し、オブジェクトを単一のポイントとしてモデル化することを提案しています。

これらのプロパティには、3D 位置、ポーズの方向、サイズが含まれます。これは、他の境界ボックス検出器と比較してより高速で正確な中心点ベースのアプローチである CenterNet を使用します。

オブジェクトのサイズやポーズなどの属性は、中心位置の画像特徴に基づいて回帰されます。このモデルでは、画像が畳み込みニューラルネットワークに入力されてヒートマップが生成され、これらのヒートマップの最大値が画像内のオブジェクトの中心を表します。人間の姿勢を推定するために、モデルは 2D 関節の位置を調べ、中心点の位置で回帰します。

このモデルは、1.4 フレーム/秒で 45.1% の COCO 平均精度を達成しており、下の図は、これが他の研究論文の結果とどのように比較されるかを示しています。

論文参照リンク: https://arxiv.org/abs/1904.07850v2?source=post_page

物体検出のためのデータ拡張戦略

データ拡張では、たとえば元の画像を回転したりサイズを変更したりして新しい画像データを作成します。

戦略自体はモデル構造ではありませんが、次の論文では、他のオブジェクト検出データセットに転送するために適用できるオブジェクト検出データセットである変換の作成を提案しています。変換は通常、トレーニング中に適用されます。

このモデルでは、拡張ポリシーは、トレーニングプロセス中にランダムに選択された n 個のポリシーのセットとして定義されます。このモデルで適用される操作には、カラーチャネルの歪み、画像の幾何学的歪み、境界ボックス注釈のみのピクセル歪みなどがあります。 COCO データセットでの実験では、データ拡張戦略を最適化することで検出精度が平均精度 +2.3 以上向上し、単一の推論モデルで平均精度 50.7 の精度を達成できることが示されています。

関連論文参考リンク: https://arxiv.org/abs/1906.11172v1?source=post_page

要約する

これで、さまざまな設定で使用される一般的な（そして最近の）オブジェクト検出技術について理解できたはずです。上記で言及およびリンクされている論文/概要には、コード実装へのリンクも含まれています。自分自身を制限しないでください。物体検出はスマートフォン内にも存在します。つまり、私たちは探求と学習を続ける必要があるのです。

関連レポート: https://heartbeat.fritz.ai/a-2019-guide-to-object-detection-9509987954c3

[この記事は51CTOコラムBig Data Digest、WeChatパブリックアカウント「Big Data Digest（id: BigDataDigest）」のオリジナル翻訳です]

この著者の他の記事を読むにはここをクリックしてください

<<: 自動運転列車が完成しました！しかし、あなたは座る勇気がありますか?

>>: 楊振：ビッグデータとAI技術の発展の観点から、クロスチェーン技術は必要かつ不可避である

ブログ

ブログ

ドローンは5G開発をフィードバックし、インテリジェントな運用と保守の新たなアップグレードを促進する

ブログ

顔認識はどのように実現されるのでしょうか? コンピューターはカメラを通じてどのように私たちの身元を識別するのでしょうか?

ブログ

ターゲット検出にはこの記事で十分です！ 2019年版オブジェクト検出の総合ガイド

VB.NET 暗号化アルゴリズムの基本概念の分析

VR時代、eスポーツは新たな輝きを放つ

人工知能開発の重要な要素と気候変動への影響

データ構造とアルゴリズムソート - 理解できないなら、私に相談してください

ドローンは5G開発をフィードバックし、インテリジェントな運用と保守の新たなアップグレードを促進する

顔認識はどのように実現されるのでしょうか? コンピューターはカメラを通じてどのように私たちの身元を識別するのでしょうか?

推薦する

キャラクター AI は私たちのやり取りの方法をどのように変えるのでしょうか?

AI は製造業と産業用 IoT をどのように変えるのでしょうか?

ドローン操縦開始！この国は迎撃のための航空システムを開発している

超人工知能は人類を滅ぼすのか？

AIはあなたの建物をスマートで健康的な建物にします

ElasticSearch はどのようにして TDigest アルゴリズムを使用して数十億のデータのパーセンタイルを計算するのでしょうか?

人工知能技術はますます普及してきています。どの開発言語が優れているのでしょうか?

機械学習とビジネスを組み合わせる上で最も重要なことは何でしょうか?

体験談まとめ VB.NET 暗号化アルゴリズムの分類

Belcorp CIO: AI による IT 研究開発の見直し