コンピュータビジョンプロジェクトのためのオブジェクト検出の初心者向けガイド

[51CTO.com クイック翻訳]近年、人工知能技術の発展と進歩に伴い、コンピュータービジョンとディープラーニングが業界で広く注目を集めています。私たちの功績として、以前は非常に困難であると考えられていた物体検出アプリケーションが、今でははるかに簡単に作成できるようになりました。

オブジェクト検出は、画像やビデオ内のオブジェクトを識別して位置を特定することを目的としたコンピュータービジョン技術として定義できます。一般的に、コンピュータは人間よりも速く情報を処理できますが、画像やビデオ上のさまざまなオブジェクトを検出することは依然として困難です。これは、コンピューターがほとんどの出力をバイナリ言語でしか解釈できないためです。

この記事では、以下の点について簡単に説明します。

物体検出の基礎
物体検出モデル
物体検出の利点
課題と解決策

これらの点について説明する前に、画像分類とオブジェクト検出の違いを理解することが重要です。初心者は混乱しやすいです。

物体検出と画像分類の違い

まず、物体検出と画像分類を分析して、その違いを理解しましょう。 AI システムは犬の写真を見ると、それが動物の画像であることをすぐに指摘し、その画像が何に関するものかを伝えることができます。画像分類についてはこれですべてです。

物体があれば、画像分類技術を使用することができます。しかし、物体が複数ある場合は、物体検出技術が役立ちます。関心のあるオブジェクトの周囲に長方形のボックスを構築することで、AI システムが各ボックスに含まれるオブジェクトを識別するのに役立ちます。この方法を使用して、オブジェクトの正確な位置を示すこともできます。ただし、画像には複数のオブジェクトが含まれている場合があり、複数の境界ボックスが表示されることがあります。

物体検出の用途は無限ですが、一般的には人間、建物、車などの実際の物体を識別して検出します。さらに、AI システムが将来的にオブジェクトを認識するためには、さまざまな種類のオブジェクトのラベル付きデータが大量に必要になります。つまり、ラベル付けされたデータセットでトレーニングされた機械学習モデルは、より正確な予測を行う可能性が高くなります。

一部の業界ベンダーはデータ注釈サービスを提供しており、ユーザーは要件に基づいて適切なサービスを選択するだけで済みます。この技術は、人物や物体の追跡やビデオ監視カメラなどのアプリケーションで広く使用されており、以下でさらに詳しく説明します。

物体検出モデル

オブジェクト検出とは何かが明確になったので、次に一般的なオブジェクト検出モデルをいくつか見てみましょう。

（１）R-CNN、高速R-CNN、マスクR-CNN

最も人気のあるオブジェクト検出モデルは、領域ベースの CNN モデルファミリーに属します。このモデルは、これまでの物体検出の方法に革命をもたらします。ここ数年で、精度が増しただけでなく、効率も向上しました。

（２）SSDとYOLO

2016年に発売されたシングルショット検出器シリーズには多くのモデルがあります。シングルショットマルチボックス検出 (SSD) モデルは CNN モデルよりも高速ですが、精度は CNN よりもはるかに低くなります。

YOLO モデルは、領域ベースのアルゴリズムとは大きく異なります。 SDD モデルと同様に、YOLO モデルは R-CNN モデルよりも高速ですが、精度が低いため、若干遅れをとります。モバイルデバイスや組み込みデバイスの場合、SDD モデルが適しています。

（３）センターネット

これらのオブジェクト検出モデルは近年ますます人気が高まっています。 CentreNet は、オブジェクト検出にキーポイントベースのアプローチを採用しています。

SSD モデルや R-CNN モデルと比較して、このモデルはより効率的で正確であることが証明されています。この方法の唯一の欠点は、トレーニングプロセスが遅いことです。

物体検出の現実的なメリット

オブジェクト検出は、画像セグメンテーションや画像認識などの他の同様のコンピュータービジョン技術と完全に相互に関連しており、ビデオや画像内のシーンを理解して分析するのに役立ちます。現在、物体検出市場には、さまざまな業界分野に大きな影響を与える実際の使用例がいくつかあります。

（１）自動運転車

自動運転車の成功の最大の理由は、リアルタイム物体検出 AI をベースにしたモデルです。これらのシステムにより、人々は周囲の物体の位置を特定し、識別し、追跡して、安全性と効率性を確保することができます。

（２）ビデオ監視

リアルタイムの物体検出と物体の動きの追跡により、ビデオ監視カメラは空港などの特定の場所でのシーン録画を追跡できます。この最先端の技術により、ビデオ内の特定のオブジェクトの複数のインスタンスを正確に識別し、その位置を特定できます。オブジェクトが特定のシーンまたは特定のフレームをリアルタイムで移動すると、ビデオ監視システムはリアルタイム追跡フィードとともに情報を保存します。

（３）群衆カウント

このアプリは、ショッピングモール、空港、市街地の広場、テーマパークなどの人口密集エリアで非常に効果的に機能します。この物体検出アプリケーションは、大企業や自治体が特定の時間枠内で道路交通、違反、車両数を追跡するのに有用であることが証明されています。

（4）異常検出

さまざまな業界で、オブジェクト検出を使用したさまざまな異常検出アプリケーションが利用可能です。たとえば、農業分野では、物体検出モデルによって植物病害の潜在的な事例を正確に特定し、発見することができます。これらの技術の助けにより、農家は情報を得て、作物が病気に脅かされることを防ぐことができるようになります。

別の例として、このモデルは皮膚感染症や症状のある病変を特定するために使用されています。いくつかのアプリケーションでは、スキンケアやニキビ治療にオブジェクト検出モデルを使用しています。

どのようなタイプのオブジェクト検出モデルを作成する場合でも、問題が発生する可能性があることを覚えておくことが重要です。しかし、これらの課題に対処するための解決策は存在します。

物体検出モデリングの課題と解決策

（１）物体の配置

物体検出の最初の課題は、物体の画像と位置を分類することであり、これを物体位置特定と呼びます。この問題に対処するために、ほとんどの開発者は、ローカリゼーションエラーと分類エラーの両方にペナルティを課すマルチタスク損失関数を使用することが多いです。

ソリューション: 領域ベースの畳み込みニューラルネットワークは、オブジェクトが配置される領域生成スキームと、それに続く CNN モデル処理によってオブジェクトの位置を分類および修正するオブジェクト検出フレームワークのクラスを示します。 Fast-RCNN モデルは、R-CNN の初期結果を改善できます。名前が示すように、FastR-CNN モデルは、位置特定およびオブジェクト分類タスクがマルチタスク損失関数を使用して最適化されるため、驚異的な速度と向上した精度を実現します。

（２）リアルタイム検出速度

高速オブジェクト検出アルゴリズムは、リアルタイムのビデオ処理のニーズを満たすために、主要なターゲットを同時に正確に分類および位置特定するという大きな課題でした。長年にわたり、いくつかのアルゴリズムはテスト時間を 0.02 フレーム/秒から 155 フレーム/秒に改善してきました。

解決策: Faster R-CNN および Fast R-CNN モデルは、元の R-CNN アプローチを高速化することを目的としています。 R-CNN は選択的検索を使用して 2000 個の候補 ROI を生成し、各 CNN ベースのモデルを個別に通過するため、モデルが失敗した後に深刻なボトルネックが発生する可能性があります。 Fast R-CNN モデルは、画像を CNN ベースに一度通してから、選択検索によって作成された ROI を特徴マップに一致させ、処理時間を 20 分の 1 に短縮します。

（３）多様なアスペクト比とサイズ

多くのオブジェクト検出アプリケーションでは、関心対象のアイテムが複数のアスペクト比と異なるサイズで表示される場合があります。研究者らは、検出アルゴリズムがさまざまな視点やサイズのさまざまな物体を認識できるようにするさまざまな方法を実証しました。

解決策: 選択的検索を使用する代わりに、画像の畳み込み特徴マップ上の小さなスライディングウィンドウを使用して関心領域の候補を生成する、Region Proposal Network を使用して Faster R-CNN を更新します。複数の関心領域を異なる場所で予測し、参照アンカーボックスを基準にして記述できます。これらのアンカーボックスのサイズと形状は、さまざまなアスペクト比とさまざまなサイズに対応するように選択されます。これにより、位置特定タスク中に境界ボックスの座標を調整する必要なく、複数の種類のオブジェクトを認識できるようになります。

（４）注釈データの量は限られている

考慮する必要がある否定できない事実の 1 つは、注釈付きデータの量が限られていることです。これは、アプリケーションの構築の障害になります。これらのデータセットには、具体的には数十から数百の実際のオブジェクトの例が含まれており、画像分類データセットには約 100,000 の異なるクラスが含まれています。

解決策: 現在、Microsoft が提供する COCO データセットなど、いくつかのオブジェクト検出注釈データを使用している画像データセットが市場で入手可能です。データセットには、正確な位置ラベルに基づいて 80 種類のオブジェクトカテゴリに分類された 300,000 枚のセグメント化された画像が含まれています。各画像には平均 7 個のオブジェクトとアイテムが含まれており、非常に大きな割合で表示されます。データ不足を軽減するための最も顕著なアプローチの 1 つは、YOLO9000 (YOLO の 2 番目のバージョン) です。 YOLO9000 は YOLO の重要なアップデートの多くに対応していますが、画像分類とオブジェクト検出の間のデータセットのギャップを埋めることも目的としています。さらに、数万のオブジェクトクラスを含む画像分類データセットである ImageNet と COCO で同時にトレーニングされます。結論

情報源によると、物体検出は、特に上記の問題を解決する上で、画像分類よりもはるかに難しいと考えられています。研究者たちはこれらの障壁を減らすために研究を続けており、時には驚くべき結果が得られていますが、依然として重大な問題が残っています。もちろん、すべてのオブジェクト検出モデルは、特に部分的な遮蔽によって集められた小さなオブジェクトの検出に苦労します。物体の分類と位置特定精度の両方を備えたリアルタイム検出は依然として大きな問題であり、研究者は設計上の決定を行う際にどちらか一方を優先することがよくあります。楽観的な観点から見ると、ビデオ追跡技術は将来、他のアプリケーションシナリオでも進歩する可能性があります。

原題: コンピュータビジョンプロジェクトのためのオブジェクト検出の初心者向けガイド、著者: Analytics Insight

[51CTOによる翻訳。パートナーサイトに転載する場合は、元の翻訳者と出典を51CTO.comとして明記してください]

<<: Rainbow のトレーニングには 1425 GPU 日が必要ですか? Googleは強化学習がコンピューティングコストを削減できると述べている

>>: nn.Module クラスに基づく線形回帰モデルの実装