ターゲット検出にはこの記事で十分です! 2019年版オブジェクト検出の総合ガイド

ターゲット検出にはこの記事で十分です! 2019年版オブジェクト検出の総合ガイド

[[272485]]

ビッグデータダイジェスト制作

編纂者:張瑞怡、寧静

コンピュータ ビジョンは、デジタル画像やビデオの高度な意味理解を実行する方法を研究する学際的な分野です。コンピュータ ビジョンは、機械に「見る」ための知能を与え、人間の脳 (主に視覚皮質) の視覚能力の実現を必要とします。

視覚障害者向けのガイド製品を設計するとします。視覚障害者が道路を横断しているときにシステム カメラが次の画像をキャプチャするとしたら、どのような視覚タスクを完了する必要があるでしょうか。

[[272486]]

  • 画像分類: 画像内のオブジェクト ターゲットを、画像内の人物、建物、道路、車両の数などのカテゴリ ラベルに分類します。
  • ターゲット検出: 画像またはビデオ内の関心のあるターゲットを抽出します。ガイド システムの場合、さまざまな車両、歩行者、交通標識、信号はすべて注意が必要なオブジェクトです。
  • 画像セマンティックセグメンテーション:視野内の車両や道路の輪郭を描く必要があり、画像オブジェクト内の前景オブジェクトの輪郭を描くためのサポートとして画像セマンティックセグメンテーション技術が必要です。
  • シーンテキスト認識:道路名、青信号のカウントダウン秒数、店舗名など。これらの単語もガイド機能の実現に不可欠です。

上記では、コンピューター ビジョン (CV) の分野における 4 つの主要なタスクについて説明しました。CV の分野には主に 8 つのタスクがあります。他の 4 つの主要なタスクには、画像生成、人間のキー ポイント検出、ビデオ分類、メトリック学習などがあります。

CV の主要なタスクの 1 つとして、オブジェクト検出も画像の理解において重要な役割を果たします。この記事では、オブジェクト検出の基礎を紹介し、最も一般的に使用されるアルゴリズムといくつかの新しい方法を確認します。 (注:各セクションの最後に、掲載されている論文の画像へのリンクが記載されています)

物体検出の仕組み

オブジェクト検出は、画像内のオブジェクトの位置を特定し、そのオブジェクトの周囲に境界ボックスを描画します。これには通常、オブジェクトの種類を分類し、オブジェクトの周囲にボックスを描画するという 2 つのプロセスが含まれます。それでは、物体検出のための一般的なモデル アーキテクチャをいくつか見てみましょう。

  • R-CNN
  • 高速R-CNN
  • より高速なR-CNN
  • マスクR-CNN
  • SSD (シングルショット マルチボックス ディフェンダー)
  • YOLO (一度だけ見る)

1. R-CNN

この技術は、大容量畳み込みニューラル ネットワークをボトムアップの領域提案に適用してオブジェクトを特定およびセグメント化するアプローチと、補助タスクの教師あり事前トレーニングという 2 つの主なアプローチを組み合わせたものです。その後、ドメイン固有の微調整が行われ、パフォーマンスが大幅に向上します。論文の著者らは、領域提案と畳み込みニューラル ネットワークを組み合わせたアルゴリズムであるため、このアルゴリズムを R-CNN (Regions with CNN features) と名付けました。

このモデルは、画像を取り込み、約 2,000 個のボトムアップ領域候補を抽出します。次に、大規模な CNN を使用して各候補領域の特徴を計算します。その後、クラス固有の線形サポート ベクター マシン (SVM) を使用して各領域を分類します。このモデルは、PASCAL VOC 2010 で平均 53.7% の精度を達成しています。

このモデルのオブジェクト検出システムには 3 つのモジュールがあります。最初のモジュールは、モデル検出器で使用できる候補検出器のセットを定義する、カテゴリに依存しない候補領域を生成するモジュールです。2 番目のモジュールは、各領域から固定長の特徴ベクトルを抽出する大規模な畳み込みニューラル ネットワークです。3 番目のモジュールは、サポート ベクター マシンのクラスで構成されています。

モデルは内部的に選択的検索を使用して領域カテゴリを生成します。領域カテゴリは、色、テクスチャ、形状、サイズに基づいて類似の領域をグループ化します。特徴抽出では、モデルは各候補領域、227×227 RGB 画像に Caffe CNN (畳み込みニューラル ネットワーク) を適用して 4096 次元の特徴ベクトルを取得し、5 つの畳み込み層と 2 つの完全結合層を順方向に伝播して特徴を計算します。セクションの最後にリンクされている論文で説明されているモデルは、PASCAL VOC 2012 の以前の結果よりも 30% の改善を達成しています。

R-CNN の欠点は次のとおりです。

  • トレーニングは、オブジェクト領域に合わせて畳み込みニューラル ネットワークを調整し、SVM (サポート ベクター マシン) を ConvNet (畳み込みネットワーク) 関数に適合させ、最後に境界ボックス回帰を学習する多段階タスクです。
  • VGG16 は多くのスペースを占める深いネットワークであるため、トレーニングにはスペースと時間の両方のコストがかかります。
  • 各領域提案に対して ConvNet フォワード パスを実行するため、オブジェクトの検出は遅くなります。

関連論文および参考リンク:

  • https://arxiv.org/abs/1311.2524?source=post_page
  • http://host.robots.ox.ac.uk/pascal/VOC/voc2010/index.html?source=post_page
  • https://heartbeat.fritz.ai/a-beginners-guide-to-convolutional-neural-networks-cnn-cf26c5ee17ed?source=post_page

2. 高速R-CNN

下の図に示す論文では、物体検出のための高速領域ベース畳み込みネットワーク手法 (Fast R-CNN) を提案しており、これは Caffe (Python と C++ を使用) で実装されています。このモデルは PASCAL VOC 2012 で平均 66% の精度を達成していますが、R-CNN は 62% です。

R-CNN と比較すると、Fast R-CNN は平均精度が高く、単一ステージのトレーニング、すべてのネットワーク レイヤーを更新するトレーニング、ディスク ストレージを必要としない機能キャッシュを備えています。

Fast R-CNN の構造では、画像を入力として受け取り、同時に候補領域のセットを取得します。次に、畳み込み層と最大プーリング層を使用して画像を処理して、畳み込み特徴マップを生成します。各特徴マップでは、関心領域 (ROI) プーリング層が各候補領域の固定サイズの特徴ベクトルを抽出します。

これらの特徴ベクトルは、完全に接続されたレイヤーに送られ、2 つの出力レイヤーに分岐します。1 つは複数のオブジェクト クラスのソフトマックス確率推定値を生成し、もう 1 つは各オブジェクトの境界ボックスの位置を表す 4 つの実数値を各オブジェクト クラスに対して生成します。

関連コンテンツ参照リンク: https://github.com/rbgirshick/fast-rcnn?source=post_page

3. より高速なR-CNN

「Faster R-CNN: 候補領域ネットワークを使用したリアルタイムのオブジェクト検出」では、領域候補タスクを微調整し、オブジェクト検出を微調整するトレーニング メカニズムを提案しています。

Faster R-CNN モデルは、領域提案を抽出するディープ畳み込みネットワークと、これらの領域を使用する Fast R-CNN 検出器の 2 つのモジュールで構成されています。領域提案ネットワークは、画像を入力として受け取り、それぞれに検出スコアが付いた長方形の領域提案を出力します。

関連論文参考リンク: https://arxiv.org/abs/1506.01497?source=post_page

4.マスクR-CNN

以下の論文で提案されているモデルは、前述の Faster R-CNN アーキテクチャの拡張であり、人間の姿勢を推定することもできます。

このモデルでは、境界ボックスとセマンティックセグメンテーション(画像内の各ピクセルを分類するプロセス)を使用してオブジェクトが分類および位置特定されます。このモデルは、各関心領域 (ROI) のセグメンテーション マスクの予測を追加することで、Faster R-CNN を拡張します。Mask R-CNN は、クラス ラベルと境界ボックスの 2 つの出力を生成します。

関連論文参考リンク: https://arxiv.org/abs/1703.06870?source=post_page

5. SSD: シングルショットマルチボックス検出器

次の論文では、単一のディープニューラルネットワークを使用して画像内のオブジェクトを予測するモデルを提案しています。ネットワークは、特徴マップ上の小さな畳み込みフィルターを使用して、各オブジェクト クラスのスコアを生成します。

この方法では、フィードフォワード畳み込みニューラル ネットワークを使用して、特定のターゲットの境界ボックスとスコアのセットを生成します。畳み込み特徴レイヤーが追加され、複数のスケールで特徴を検出できるようになります。このモデルでは、各特徴マップ セルは、デフォルトの境界ボックスのセットに関連付けられています。下の図は、動物、車両、家具に対する SSD512 モデルのパフォーマンスを示しています。

関連コンテンツ参照リンク: https://arxiv.org/abs/1512.02325?source=post_page

6. 一度だけ見る (YOLO)

下の図に示す論文では、1 回の評価で画像内の境界ボックスとクラス確率を予測できる単一のニューラル ネットワークを提案しています。

YOLO モデルは、1 秒あたり 45 フレームをリアルタイムで処理します。YOLO は画像検出を回帰問題として扱うため、パイプラインが非常にシンプルになり、モデルが非常に高速になります。

YOLO は、25 秒未満の遅延でストリーミング ビデオをリアルタイムで処理でき、トレーニング中は画像全体を把握するため、オブジェクト検出にコンテキストを含めることができます。

YOLO では、各境界ボックスは画像全体の特徴によって予測されます。各境界ボックスには、x、y、w、h、信頼度の 5 つの予測があります。(x、y) は、グリッド セル境界に対する境界ボックスの中心を表し、w と h は画像全体の予測される幅と高さです。

このモデルは畳み込みニューラル ネットワークを介して実装され、PASCAL VOC 検出データセットで評価されます。ネットワークの畳み込み層は特徴の抽出を担当し、完全接続層は座標と出力確率を予測します。

このモデルのネットワーク アーキテクチャは、画像分類用の GoogLeNet モデルにヒントを得ています。ネットワークには 24 個の畳み込み層と 2 個の完全接続層があります。このモデルの主な課題は、1 つのクラスしか予測できず、鳥などの小さなオブジェクトに対してはパフォーマンスが十分ではないことです。

このモデルの平均 AP 精度は 52.7% ですが、63.4% を達成できます。

参考リンク: https://arxiv.org/abs/1506.02640?source=post_page

ターゲットを点として見る

下の図の論文では、キーポイント推定を使用して中心点を見つけ、他のすべてのオブジェクト プロパティに回帰し、オブジェクトを単一のポイントとしてモデル化することを提案しています。

これらのプロパティには、3D 位置、ポーズの方向、サイズが含まれます。これは、他の境界ボックス検出器と比較してより高速で正確な中心点ベースのアプローチである CenterNet を使用します。

オブジェクトのサイズやポーズなどの属性は、中心位置の画像特徴に基づいて回帰されます。このモデルでは、画像が畳み込みニューラル ネットワークに入力されてヒート マップが生成され、これらのヒート マップの最大値が画像内のオブジェクトの中心を表します。人間の姿勢を推定するために、モデルは 2D 関節の位置を調べ、中心点の位置で回帰します。

このモデルは、1.4 フレーム/秒で 45.1% の COCO 平均精度を達成しており、下の図は、これが他の研究論文の結果とどのように比較されるかを示しています。

論文参照リンク: https://arxiv.org/abs/1904.07850v2?source=post_page

物体検出のためのデータ拡張戦略

データ拡張では、たとえば元の画像を回転したりサイズを変更したりして新しい画像データを作成します。

戦略自体はモデル構造ではありませんが、次の論文では、他のオブジェクト検出データセットに転送するために適用できるオブジェクト検出データセットである変換の作成を提案しています。変換は通常、トレーニング中に適用されます。

このモデルでは、拡張ポリシーは、トレーニング プロセス中にランダムに選択された n 個のポリシーのセットとして定義されます。このモデルで適用される操作には、カラー チャネルの歪み、画像の幾何学的歪み、境界ボックス注釈のみのピクセル歪みなどがあります。 COCO データセットでの実験では、データ拡張戦略を最適化することで検出精度が平均精度 +2.3 以上向上し、単一の推論モデルで平均精度 50.7 の精度を達成できることが示されています。

関連論文参考リンク: https://arxiv.org/abs/1906.11172v1?source=post_page

要約する

これで、さまざまな設定で使用される一般的な(そして最近の)オブジェクト検出技術について理解できたはずです。上記で言及およびリンクされている論文/概要には、コード実装へのリンクも含まれています。自分自身を制限しないでください。物体検出はスマートフォン内にも存在します。つまり、私たちは探求と学習を続ける必要があるのです。

関連レポート: https://heartbeat.fritz.ai/a-2019-guide-to-object-detection-9509987954c3

[この記事は51CTOコラムBig Data Digest、WeChatパブリックアカウント「Big Data Digest(id: BigDataDigest)」のオリジナル翻訳です]

この著者の他の記事を読むにはここをクリックしてください

<<:  自動運転列車が完成しました!しかし、あなたは座る勇気がありますか?

>>:  楊振:ビッグデータとAI技術の発展の観点から、クロスチェーン技術は必要かつ不可避である

ブログ    
ブログ    

推薦する

2020年に注目すべき10のAIトレンド

来年、AI テクノロジーと市場はどのように進化するのでしょうか? 主要な AI トレンドとしては、エ...

MITの画期的技術トップ10

MITテクノロジーレビューは毎年、その年の「トップ10のブレークスルーテクノロジー」を選出していま...

20年後、AIはデータセンターアーキテクチャを再び分裂に引きずり込むのでしょうか?

Alpha GO が人間の囲碁プレイヤーに勝利して以来、AI はビジネス界全体で最もホットな用語に...

厦門大学、インテル、DJI による共同プロジェクトで、オンライン動画からゼロショット画像マッチングの大規模モデルを学習

画像マッチングは、2 つの画像間のピクセルの対応を推定することを目的とした、コンピューター ビジョン...

ChatGPT を成功させるための 26 のスーパーヒント

今日は、実際の戦闘でよく使われる26のヒントを紹介します。これにより、出力がより効果的になります。見...

ディープラーニングフレームワークFlashを使用して、わずか数行のコードで画像分類器を構築する方法

[[412621]] 【51CTO.com クイック翻訳】 1. はじめに画像分類は、画像がどのクラ...

...

...

...

...

AIOps で IT 運用にインテリジェンスを組み込む方法

クラウド プラットフォーム、マネージド サービス プロバイダー、デジタル変革を進めている組織は、AI...

MITテクノロジーレビューが2019年の世界トップ10の画期的テクノロジーを発表

MITテクノロジーレビューは2001年以来、毎年その年の「トップ10ブレークスルーテクノロジー」を選...

量子もつれによりホログラムが生成されます。物体は画像を形成するために光を放射する必要はありません。

新たな研究によると、量子力学は科学者が物体から光を捉えることなくホログラムを生成するのに役立つ可能性...

ハーバード大学とMITがあるボストンは、政府が顔認識を禁止したと公式に発表した。

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

1行のコードで大規模モデルのパフォーマンスが10%向上、開発者は無料でランチを楽しめる

大規模なモデルを微調整するための「無料ランチ」ができました。たった 1 行のコードで、パフォーマンス...