ディープラーニング時代の物体検出アルゴリズムのレビュー

物体検出とその他のコンピュータビジョンの問題

分類問題

これはおそらくコンピュータービジョンにおける最大の問題です。主に画像を特定のカテゴリに分類することを指します。学術界で最も人気のあるデータセットは ImageNet です。これは分類された数百万枚の画像で構成されており、毎年開催される ImageNet Large Scale Visual Recognition Challenge (ILSVRC) で (部分的に) 使用されています。近年、分類モデルは人間のパフォーマンスを上回ったため、この問題はほぼ解決済みであると考えられています。画像分類の分野には多くの課題がありますが、解決済みの課題や未解決の課題を紹介する記事も数多くあります。

分類例

ターゲティング

分類と同様に、位置特定問題は、画像内の単一のオブジェクトの位置を見つけることです。

ターゲティングの例

目標設定は実生活で非常に役立ちます。たとえば、スマートクロッピング (オブジェクトの位置に基づいて画像を切り抜く) や、さまざまな手法を使用してさらに処理するために通常のオブジェクトを抽出することなどです。分類と組み合わせることで、オブジェクトの位置を特定するだけでなく、分類することもできます。

インスタンスのセグメンテーション

オブジェクト検出からさらに一歩進んで、画像内のオブジェクトを見つけるだけでなく、検出された各オブジェクトのピクセルレベルのマスクも見つけます。この問題をインスタンスまたはオブジェクトのセグメンテーションと呼びます。

物体検出

位置特定と分類の問題を組み合わせると、最終的には複数のオブジェクトを同時に検出して分類する必要があります。オブジェクト検出は、画像内のさまざまな数のオブジェクトを特定して分類する問題です。重要な違いは「変数」の部分です。分類問題と比較すると、オブジェクト検出では、検出されたオブジェクトの数が画像ごとに異なる可能性があるため、出力の数は可変です。この記事では、実際の物体検出の詳細、機械学習の問題としての主な問題点、そしてこの問題の解決策がここ数年で徐々にディープラーニングになってきた経緯について説明します。

物体検出の例

実用化

Tryolabs では、最先端の機械学習技術を応用してビジネス上の問題を解決することに特化しています。そのため、私たちは機械学習の研究課題が大好きですが、実際には実用的な応用問題についてより多く考えています。

オブジェクト検出は業界ではまだ新しいツールですが、オブジェクト検出技術を使用した実用的で興味深いアプリケーションはすでに数多く存在します。

顔検出

2000 年代半ば以降、一部のコンパクトカメラには顔検出機能が組み込まれ、より効果的なオートフォーカスが可能になりました。これは限られた種類のオブジェクト検出に過ぎませんが、使用される方法は、後で説明するように、他の種類のオブジェクトにも適用できます。

カウント

オブジェクト検出の単純ですが見落とされがちな用途はカウントです。人、車、花、さらには微生物までも数える機能は、あらゆる画像情報システムが備えるべきものです。最近のビデオ監視デバイスの急増により、コンピュータービジョン手法を使用して生の情報を構造化データに変換する大きな機会が生まれています。

ビジュアル検索エンジン

私たちは皆、Pinterest ビジュアル検索エンジンが大好きです。彼らは、画像のさまざまな部分にインデックスを付けるために、システムの一部としてオブジェクト検出技術を使用しました。こうすることで、特定のハンドバッグを検索するときに、さまざまなシナリオで必要なハンドバッグの画像を見つけることができます。この機能は、Google 画像の逆検索エンジンよりもはるかに強力です。

類似画像: バッグや靴などの商品を見つけるために、オブジェクト検出技術を適用します。この例では、ユーザーは自動的に注釈が付けられたオブジェクトをクリックして、類似の製品を表示できます。

航空写真解析

安価なドローンと（ほぼ）手頃な価格の衛星打ち上げサービスのおかげで、これまでこれほど地球を鳥瞰できる機会はなかった。企業はすでに、Planet や Descartes Labs などの企業の衛星画像を使用して、物体検出技術を応用し、車両、樹木、船舶の数を数えています。これまでは不可能だった（または非常に高価だった）高品質の画像が可能になり、現在ではますます多くの人が使用しています。

一部の企業は、ドローンを使用して、人間がアクセスするのが難しい領域を自動的に調査したり (Betterview など)、物体検出技術を使用して一般的な分析を行ったり (TensorFlight など) しています。これとは別に、一部の企業では、人間の介入なしに問題を自動的に検出して特定するためにこのテクノロジーを使用しています。

テンソルフライト

物体検出の問題点と課題

まず、物体検出の主な問題について掘り下げてみましょう。

ターゲット数の可変問題

先ほど、画像内のオブジェクトの数が可変であるという問題について説明しましたが、なぜそれが問題になるのかを見落としていました。機械学習モデルをトレーニングする場合、通常はデータを固定サイズのベクトルとして表現する必要があります。画像内のオブジェクトの数が事前にわからないため、出力の正確な数はわかりません。このため、後処理が必要になり、モデルの複雑さも増します。

出力数が変化するというこの問題は、スライディングウィンドウベースのアプローチを使用して解決されました。このアプローチでは、スライディングウィンドウの固定サイズの特徴が画像内のさまざまな場所で取得されます。すべての予測を取得した後、一部のスライディングウィンドウは破棄され、一部は結合されて最終出力が得られます。

サイズ

もう一つの大きな課題は、ターゲットのサイズが一貫していないことです。単純な分類を行う場合、画像の最大の割合を占めるオブジェクトを分類することが目的です。一方、検索したいオブジェクトは、数ピクセルのサイズしかない（または元の画像の小さな部分しか占めていない）場合があります。従来の方法では、異なるサイズのスライディングウィンドウを使用してこの問題を解決しますが、これは単純ですが非効率的です。

モデル

3 番目の課題は、2 つの問題を同時に解決することです。ローカリゼーションと分類という 2 つの異なるタイプの問題を 1 つのモデルに最適に組み合わせるにはどうすればよいでしょうか?

ディープラーニングとそれがこれらの課題にどのように対処するかについて説明する前に、古典的なアプローチを簡単に確認してみましょう。

古典的な方法

近年、さまざまな方法が登場していますが、ここでは最も人気のある（そして今でも広く使用されている）2 つの方法に焦点を当てます。

1 つ目は、2001 年に Paul Viola と Michael Jones が論文「Robust Real-time Object Detection」で提案した Viola Jones フレームワークです。この方法は高速で比較的単純なため、コンパクトカメラでは顔検出にこのアルゴリズムが使用され、計算にほとんど労力をかけずにリアルタイム検出を実現できます。

仕組みやトレーニング方法などの低レベルの詳細については説明しませんが、高レベルのアルゴリズムを紹介します。これは、Haar 機能を使用して、多数 (場合によっては数千) の単純なバイナリ分類器を生成することによって機能します。これらの分類器は、カスケードされたマルチスケールのスライディングウィンドウによって評価され、否定的な分類の場合は誤分類が早期に破棄されます。

もう一つの同様の古典的な方法は、特徴としてヒストグラム方向勾配 (HOG) を使用し、分類器としてサポートベクターマシン (SVM) を使用することです。これは依然としてマルチスケールのスライディングウィンドウに依存しており、Viola Jones よりもはるかに優れた機能を備えているものの、速度ははるかに遅くなります。

ディープラーニング手法

ディープラーニングは、機械学習、特にコンピュータービジョンにおける真の「変革者」としてすでに誰もが知っています。画像分類タスクにおいてディープラーニングモデルが他の従来のモデルを完全に圧倒するのと同様に、ディープラーニングモデルはオブジェクト検出の分野でも最良の方法です。

オブジェクト検出の課題とその解決方法について理解が深まったところで、ここ数年間のオブジェクト検出分野におけるディープラーニング手法の進化について振り返ってみましょう。

オーバーフィーチャー

物体検出にディープラーニングを使用し、大きな進歩を遂げた最初の手法は、2013年にニューヨーク大学が提案したOverfeatでした。彼らは、畳み込みニューラルネットワーク (CNN) を使用したマルチスケールスライディングウィンドウアルゴリズムを提案しました。

R-CNN

Overfeat が提案されて間もなく、カリフォルニア大学バークレー校の Ross Girshick らは、Regions with CNN features (R-CNN) と呼ばれる手法を発表しました。この手法は、物体検出コンペティションにおいて他の手法よりも 50% のパフォーマンス向上を達成しました。彼らは3段階のアプローチを提案しました。

領域候補アルゴリズムを使用して、可能性のあるターゲットを含む領域を抽出します（最適な選択検索アルゴリズム）
CNN を使用して各領域の特徴を抽出します。
サポートベクターマシンを使用して領域を分類します。

Girshick、Ross、他「正確な物体検出とセマンティックセグメンテーションのための豊富な特徴階層」2014年。

この方法は良い結果を達成しましたが、トレーニング段階では多くの問題がありました。ネットワークをトレーニングするには、まずトレーニングデータセットの候補領域を生成し、次に CNN を使用して各領域の特徴を抽出し (Pascal 2012 トレーニングデータセットの場合、通常 200 GB を超える中間ファイルを生成する必要があります)、最後に SVM 分類器をトレーニングする必要があります。

高速R-CNN

1 年後、ロス・ガーシック (Microsoft Research Asia) が Fast R-CNN を公開し、これはすぐに純粋なディープラーニング手法へと進化しました。 R-CNN と同様に、選択的検索を使用して候補領域を生成しますが、R-CNN とは異なり、Fast R-CNN は CNN を使用して画像全体の特徴を抽出し、次に特徴マップ上で関心領域プーリング (ROI) を使用し、最後に分類と回帰にフィードフォワードニューラルネットワークを使用します。この方法は高速なだけでなく、RoI プーリング層と完全接続層が存在するため、モデルをエンドツーエンドで導出でき、トレーニングが容易になります。唯一の欠点は、モデルが依然として選択的検索（またはその他の領域候補アルゴリズム）に依存しており、それがモデル推論段階でボトルネックになることです。

ガーシック、ロス。「Fast R-CNN」2015年。

YOLO

その後すぐに、ジョセフ・レドモン氏（ガーシック氏も共著者）が「You Only Look Once: Unified, Real-Time Object Detection (YOLO)」というタイトルの論文を発表しました。 YOLO は、非常に優れた結果が得られ、非常に高速で、初めてリアルタイムの物体検出を実現したシンプルな畳み込みニューラルネットワーク方式を提案しました。

Redmon, Joseph、他「一度だけ見る：統合されたリアルタイムの物体検出」2016年。

より高速なR-CNN

その後、Shaoqing Ren (Girshick 氏も共著者で、現在は Facebook Research に所属) が、R-CNN シリーズの第 3 世代となる Faster R-CNN を出版しました。 Faster R-CNN は、検索選択アルゴリズムを排除し、モデルを完全にエンドツーエンドでトレーニングできるようにするために、いわゆる「Region Proposal Network (RPN)」を追加します。 RPN がどのように機能するかについては詳しく説明しません。簡単に言うと、RPN の役割は、「ターゲットに属する」スコアに基づいて可能性のあるターゲットを出力することです。 RoI プーリングレイヤーと完全接続レイヤーは、これらのオブジェクトを分類に使用します。この構造の詳細については、今後のブログで説明します。

Ren, Shaoqing、他「Faster R-CNN: 領域提案ネットワークによるリアルタイム物体検出に向けて」2015年。

SSD と R-FCN

*** 有名な論文が 2 つあります。1 つは、マルチスケール畳み込み特徴マップを使用して YOLO を改良し、より良い結果と速度を実現する Single Shot Detector (SSD) で、もう 1 つは、Faster RCNN アーキテクチャを使用しながら畳み込みネットワークのみを含む Region-based Fully Convolutional Networks (R-FCN) です。

データセットの重要性

研究において、データセットは非常に重要な（そして時には過小評価されている）役割を果たします。新しいデータセットがリリースされるたびに、新しい論文が発表され、新しいモデルが相互に比較され、継続的な進歩が遂げられ、可能性が限界まで押し上げられます。

残念ながら、物体検出用のデータセットは多くありません。データの入手は困難（かつ高価）であり、企業は投資した製品を無料でリリースすることを望まない可能性があり、大学にはリソースがありません。

ただし、優れたデータセットはまだいくつかあります。主要な公開データセットをいくつか紹介します。

結論は

要約すると、ターゲット検出の分野には、未知の用途と、分野を前進させる新しい方法の提案の両方の点で、多くの機会があります。これはオブジェクト検出の概要にすぎませんが、オブジェクト検出の基本的な理解が得られ、より深い知識が得られることを願っています。

今後数週間にわたり、オブジェクト検出フレームワークの実装、評価基準、トレーニングモデルメソッドの詳細に関する一連の投稿を行う予定です。また、過去の物体検出アルゴリズムを他の問題に適用することも試みます。

<<: 実験により、人工知能がパスワードを簡単に解読できることが証明された

>>: Google はなぜいつも AI に芸術を強制するのでしょうか?