物体検出にディープラーニングを使用する方法

物体検出にディープラーニングを使用する方法

[51CTO.com クイック翻訳]ディープニューラルネットワークは、視覚情報を処理する強力な能力でよく知られています。過去数年間で、それらは多くのコンピューター ビジョン アプリケーションの重要なコンポーネントになりました。

ニューラル ネットワークが解決できる重要な問題の 1 つは、画像内のオブジェクトの検出と位置特定です。物体検出は、自動運転、ビデオ監視、ヘルスケアなど、さまざまな分野で使用されています。

ここでは、コンピューターが物体を検出するのに役立つディープラーニング アーキテクチャについて簡単に説明します。

畳み込みニューラルネットワーク (CNN)

畳み込みニューラル ネットワーク (CNN) は、ディープラーニング ベースのコンピューター ビジョン アプリケーションの重要なコンポーネントです。畳み込みニューラル ネットワーク (CNN) は、ディープラーニング技術の先駆者である Yann LeCun によって 1980 年代に開発された、多次元空間のパターンを効果的に捉えることができるニューラル ネットワークです。このため、畳み込みニューラル ネットワーク (CNN) は、他の種類のデータの処理にも使用されますが、特に画像の検出に役立ちます。簡潔にするために、この論文で検討する畳み込みニューラル ネットワークは 2 次元です。

各畳み込みニューラル ネットワークは、入力画像から意味のある値を抽出するソフトウェア コンポーネントである 1 つ以上の畳み込み層で構成されます。各畳み込み層は、画像上をスライドしてさまざまな場所のピクセル値の加重合計を登録する複数のフィルターとマトリックスで構成されています。各フィルターは異なる値を持ち、入力画像から異なる特徴を抽出します。畳み込み層の出力は「特徴マップ」のセットです。

畳み込み層を積み重ねると、視覚パターンの階層を検出できます。たとえば、下位レイヤーでは、垂直および水平のエッジ、コーナー、その他の単純なパターンの特徴マップが生成されます。上位レイヤーでは、グリッドや円などの複雑なパターンを検出できます。最上位レイヤーでは、車、家、木、人などのより複雑なオブジェクトを検出できます。

ニューラル ネットワークの各層は、入力画像内の特定の特徴をエンコードします。

ほとんどの畳み込みニューラル ネットワークでは、プーリング層を使用して特徴マップのサイズを徐々に縮小し、最も重要な部分を保持します。最大プーリングは、畳み込みニューラル ネットワーク (CNN) で現在使用されている主なタイプのプーリング レイヤーであり、ピクセル ブロック内の最大値を保持します。たとえば、サイズが 2 ピクセルのプーリング レイヤーを使用すると、前のレイヤーによって生成された特徴マップから 2×2 ピクセルのパッチが抽出され、最大値が保持されます。この操作により、特徴マップのサイズが半分になり、最も関連性の高い特徴が保持されます。プーリング層により、畳み込みニューラル ネットワーク (CNN) の機能が一般化され、画像間でのオブジェクトの変位に対する感度が低くなります。

最後に、畳み込み層の出力は、画像に含まれる特徴の数値表現である 1 次元行列に平坦化されます。このマトリックスは、一連の「完全に接続された」人工ニューロン層に送られ、ネットワークが期待する出力の種類に特徴がマッピングされます。

畳み込みニューラルネットワーク (CNN) アーキテクチャ

畳み込みニューラル ネットワークの最も基本的なタスクは画像分類です。ネットワークは画像を入力として受け取り、画像が複数のカテゴリのいずれかに属する確率を表す一連の値を返します。たとえば、人気のオープン ソース データセット ImageNet に含まれる 1,000 クラスのオブジェクトをすべて検出するようにニューラル ネットワークをトレーニングするとします。この場合、出力層には 1,000 個の数値出力があり、各数値出力には画像がこれらのクラスのいずれかに属する確率が含まれます。

独自の畳み込みニューラル ネットワークをゼロから作成してテストできます。しかし、ほとんどの機械学習の研究者や開発者は、AlexNet、VGG16、ResNet-50 などのいくつかの一般的な畳み込みニューラル ネットワークを使用しています。

物体検出データセット

物体検出ネットワークは正確にラベル付けされた画像で訓練する必要がある

画像分類ネットワークは、画像に特定のオブジェクトが含まれているかどうかを判断できますが、そのオブジェクトが画像のどこに配置されているかは判断できません。オブジェクト検出ネットワークは、画像に含まれるオブジェクトのカテゴリを提供し、そのオブジェクトの座標の境界ボックスを提供します。

オブジェクト検出ネットワークは画像分類ネットワークと非常によく似ており、畳み込み層を使用して視覚的な特徴を検出します。実際、ほとんどのオブジェクト検出ネットワークは、画像分類の畳み込みニューラル ネットワーク (CNN) を使用し、それをオブジェクト検出に再利用します。

物体検出は教師あり機械学習の問題であり、モデルはラベル付けされた例に基づいてトレーニングされる必要があります。トレーニング データセット内の各画像には、そこに含まれるオブジェクトの境界とカテゴリを含むファイルが添付されている必要があります。オブジェクト検出注釈を作成するためのオープンソース ツールがいくつかあります。

物体検出トレーニングデータのアノテーションファイルの例

オブジェクト検出ネットワークは、画像内の各タイプのオブジェクトに対応する領域を見つけられるまで、注釈付きデータでトレーニングされます。

いくつかのオブジェクト検出ニューラル ネットワーク アーキテクチャを見てみましょう。

R-CNN ディープラーニングモデル

R-CNN アーキテクチャ

領域ベース畳み込みニューラルネットワーク (R-CNN) は、2014 年にカリフォルニア大学バークレー校の人工知能研究者によって提案されました。 R-CNN は 3 つの主要コンポーネントで構成されています。

まず、領域セレクターは「選択検索」アルゴリズムを使用して、画像内のオブジェクトを表す可能性のあるピクセル領域(「関心領域」(RoI)とも呼ばれる)を検索します。領域セレクターは、画像ごとに約 2,000 個の関心領域 (RoI) を生成します。

次に、関心領域 (RoI) が事前定義されたサイズに圧縮され、畳み込みニューラル ネットワークに渡されます。畳み込みニューラル ネットワーク (CNN) は、一連の畳み込み演算を通じて各領域を処理し、特徴を個別に抽出します。畳み込みニューラル ネットワーク (CNN) は、完全に接続されたレイヤーを使用して、特徴マップを 1 次元の数値ベクトルにエンコードします。

最後に、分類器機械学習モデルは、畳み込みニューラル ネットワーク (CNN) から取得されたエンコードされた特徴を出力クラスにマッピングします。分類器には、オブジェクト以外のものに対応する別の「背景」出力クラスがあります。

R-CNN を使用したオブジェクト検出

オリジナルの R-CNN 論文では、研究者が特徴抽出に AlexNet 畳み込みニューラル ネットワークを使用し、分類にサポート ベクター マシン (SVM) を使用することが提案されました。しかし、論文が発表されてから数年経ち、研究者たちはより新しいネットワーク アーキテクチャと分類モデルを使用して、R-CNN のパフォーマンスを改善してきました。

R-CNN にはいくつか問題があります。まず、モデルは画像ごとに 2,000 個の個別の領域を生成して切り取る必要があり、これには長い時間がかかることがあります。次に、モデルは 2,000 の領域ごとに特徴を計算する必要があります。これには大量の計算が必要となり、プロセスが遅くなるため、R-CNN はリアルタイムの物体検出には適していません。最後に、モデルは 3 つの個別のコンポーネントで構成されているため、計算を統合して速度を上げることが困難になります。

高速R-CNN

高速 R-CNN アーキテクチャ

2015 年に、この R-CNN 論文の筆頭著者は、前任者の問題の一部に対処した Fast R-CNN と呼ばれる新しいアーキテクチャを提案しました。 FastR-CNN は、特徴抽出と領域選択を単一の機械学習モデルに統合します。

Fast R-CNN は、画像と一連の関心領域 (RoI) を取り込み、画像内で検出されたオブジェクトの境界ボックスとクラスのリストを返します。

Fast R-CNN の重要な革新の 1 つは、「RoI プーリング レイヤー」です。これは、畳み込みニューラル ネットワーク (CNN) の特徴マップと画像の関心領域を取得し、各領域に対応する特徴を提供する操作です。これにより、Fast R-CNN は画像内のすべての関心領域の特徴を一度に抽出できるようになりますが、R-CNN は各領域を個別に処理します。これにより、処理速度が大幅に向上します。

しかし、未解決の問題が 1 つ残っています。高速 R-CNN では、画像領域を抽出し、それをモデルへの入力として提供する必要があります。 FastR-CNN はまだリアルタイムのオブジェクト検出に対応していません。

より高速なR-CNN

より高速なR-CNNアーキテクチャ

Faster R-CNN は 2016 年にリリースされ、領域抽出メカニズムをオブジェクト検出ネットワークに統合することで、オブジェクト検出の最後の課題を解決しました。

Faster R-CNN は画像を入力として受け取り、オブジェクト クラスとそれに対応する境界ボックスのリストを返します。

Faster R-CNN のアーキテクチャは、FastR-CNN のアーキテクチャとほぼ同じです。その主な革新は、Region Proposal Network (RPN) です。これは、畳み込みニューラル ネットワークによって生成された特徴マップを取得し、オブジェクトが配置される可能性のある境界ボックスのセットを提案するコンポーネントです。提案された領域は、RoI プーリング レイヤーに渡されます。残りのプロセスは Fast R-CNN と同様です。

領域検出をメインのニューラル ネットワーク アーキテクチャに統合することで、Faster R-CNN はほぼリアルタイムのオブジェクト検出速度を実現します。

YOLO

YOLOアーキテクチャ

2016年、ワシントン大学、アレンAI研究所、Facebook AI Researchの研究者らは、ディープラーニングを通じて物体検出の速度と精度を向上させるニューラルネットワークファミリー「YOLO」を発表しました。

YOLO の主な改善点は、オブジェクトの検出と分類のプロセス全体を 1 つのネットワークに統合したことです。 YOLO は、特徴と領域を個別に抽出するのではなく、ネットワークを 1 回通過してすべての操作を実行するため、「You Only Look Once (YOLO)」という名前が付けられています。

YOLO はビデオ ストリーミングのフレーム レートでオブジェクト検出を実行できるため、リアルタイム推論を必要とするアプリケーションに適しています。

ディープラーニングによる物体検出はここ数年で大きな進歩を遂げ、さまざまなコンポーネントを組み合わせた単一のニューラル ネットワークから、より強力で効率的なニューラル ネットワークへと進化しました。現在、多くのアプリケーションがオブジェクト検出ネットワークを主要なコンポーネントとして使用しており、このテクノロジは携帯電話、コンピューター、カメラ、自動車、その他のデバイスに搭載されています。より高度なニューラル ネットワークが何を実現できるかを知ることは、興味深い、そしておそらく不気味なことだろう。

原題: ディープラーニングによる物体検出入門、著者: Ben Dickson

[51CTOによる翻訳。パートナーサイトに転載する場合は、元の翻訳者と出典を51CTO.comとして明記してください]

<<:  顔認識は使いやすいが、情報セキュリティは高価

>>:  米国NHTSAの新規制:レベル2以上の自動運転に関わる事故は報告が必要

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

MITの自律ロボットはUVC光を使用して表面のコロナウイルス粒子を殺します

MITの研究者らは新型コロナウイルスとの戦いに役立つ新しいロボットを開発した。この自律型機械は、微生...

...

研究者は、現在のAIトレーニングの効率が低すぎると不満を述べている

海外メディアによると、グーグルの研究者は以前、グーグルが現在検索やその他のテキスト分析製品に使用して...

AIがネットワークゴミを生み出す:古いインターネットは死につつあり、新しいインターネットは困難の中で生まれる

網易科技は6月27日、ここ数カ月、インターネットの方向性が変化したことを示すさまざまな兆候があると報...

GPT-4+物理エンジンは拡散モデルをサポートし、現実的で一貫性のある合理的なビデオを生成します。

拡散モデルの出現により、テキスト生成ビデオ技術の開発が促進されましたが、このような方法は通常、計算コ...

AIが医療画像診断を強化し、潜在的な病気が隠れる場所をなくす

【51CTO.comオリジナル記事】 [[376669]]医療は人々の生活に関わる最も重要な問題の一...

Soraはどのように機能しますか?

翻訳者 |ブガッティレビュー | Chonglou先週、 OpenAIチームは、物理世界の基本的な側...

やがて世界は人工知能に支配されるようになる。ホーキング博士の死後、人工知能の発展に冷水を浴びせるのは誰だろうか?

ホーキング博士は人類に対し、人工知能に対して慎重になるよう警告し続けている。人工知能が発達すると、制...

...

...

製造業におけるコンピューター ビジョン: 機会と導入のヒント

時計職人の片眼鏡から、絵を描くのに便利な「ルシーダカメラ」まで、職人たちは光学技術を使って感覚を高め...

...

...

Baidu が DeepVoice の最終バージョンをリリース: 10,000 人の声を真似て 30 分でアクセントを習得

今年初め、検索大手の百度は、人気のディープラーニング技術を使用してテキスト読み上げ(TTS)変換を実...

...