ディープラーニングによって変革された5つのコンピュータービジョン技術

概要: この記事では、主にコンピュータービジョンにおける 5 つの主要テクノロジ、つまり画像分類、オブジェクト検出、オブジェクト追跡、セマンティックセグメンテーション、インスタンスセグメンテーションについて紹介します。各技術について、基本的な概念とそれに対応する代表的な方法が示されており、シンプルで読みやすいです。

コンピュータビジョンは現在最も人気のある研究テーマの 1 つです。コンピュータサイエンス (グラフィックス、アルゴリズム、理論研究など)、数学 (情報検索、機械学習)、エンジニアリング (ロボット工学、NLP など)、生物学 (神経科学)、心理学 (認知科学) を網羅する学際的な研究です。コンピュータービジョンは視覚環境と背景の相対的な理解を表すため、多くの科学者は、この分野の研究が人工知能産業の発展の基礎を築くと考えています。

では、コンピュータービジョンとは何でしょうか?一般的に受け入れられている定義をいくつか示します。

1. 画像から物理的な物体の構造を明確かつ意味のある形で説明する（Ballard & Brown, 1982）。

2. 1つまたは複数のデジタル画像から3次元世界の特性を計算する（Trucco＆Verri、1998）。

3. リモートセンシング画像に基づいて実際のオブジェクトやシーンに関する有用な決定を下す（Sockman & Shapiro、2001）。

では、なぜコンピュータービジョンを学ぶのでしょうか?答えは明らかです。この分野からは、次のような一連のアプリケーションが生まれます。

1. 顔認識: 写真から人物の身元を認識できる顔検出アルゴリズム。

2. 画像検索: Google 画像検索と同様に、コンテンツベースのクエリを使用して関連する画像を検索し、アルゴリズムによってクエリコンテンツに最も一致する画像が返されます。

4. ゲームとコントロール：体性感覚ゲーム

5. 監視: 不審な行動を監視するために、公共の場所のいたるところに監視カメラが設置されています。

6. 生体認証: 指紋、虹彩、顔のマッチングは生体認証認識で一般的に使用される方法です。

7. スマートカー: 視覚は依然として、交通標識、信号灯、その他の視覚的特徴を観察するための主な情報源です。

スタンフォード大学の公開コース CS231 で述べられているように、ほとんどのコンピュータービジョンタスクは畳み込みニューラルネットワークに基づいて実行されます。画像の分類、位置決め、検出など。では、コンピュータービジョンでは、どのタスクが支配的で、世界に影響を与えるのでしょうか?この記事では、5 つの重要なコンピュータービジョンテクノロジーと、それらに関連するディープラーニングモデルおよびアプリケーションを読者に紹介します。これら 5 つのテクノロジーが世界の見方を変えると信じてください。

1. 画像分類

[[255372]]

画像分類は私たちの日常生活で頻繁に行われる作業であり、慣れすぎて当たり前のこととして捉えられなくなっています。毎朝、洗面や歯磨きをするときには、歯ブラシやタオルなどの日用品を準備する必要があります。これらのアイテムをいかに正確に取り出すかが画像分類のタスクです。公式の定義は次のとおりです: 画像のセットが与えられると、各画像には対応するカテゴリのラベルが付けられます。次に、新しいテスト画像セットのラベルカテゴリを予測し、予測精度を測定します。

画像を分類できるアルゴリズムはどのように記述しますか?コンピュータービジョンの研究者は、この問題に対してデータ駆動型のアプローチを提案しました。研究者たちは、画像がコードでどのように表現されるかを気にしなくなり、代わりにコンピューターに多数の画像（各カテゴリを含む）を提供し、コンピューターがこれらの画像の特徴を自ら学習し、学習した特徴に基づいて画像を分類する学習アルゴリズムを開発しました。

これを踏まえると、画像分類の完全な手順は一般的に次のようになります。

1. まず、トレーニング画像データセットを入力します。

2. 次に、このトレーニングセットを使用して、各カテゴリの特性を学習できる分類器をトレーニングします。

3. 最後に、テストセットを使用して分類器のパフォーマンスを評価します。つまり、予測された結果を実際のカテゴリラベルと比較します。

画像分類の場合、最も一般的な方法は畳み込みニューラルネットワーク (CNN) です。 CNN はディープラーニングでよく使われる手法であり、そのパフォーマンスは一般的な機械学習アルゴリズムをはるかに上回ります。 CNN ネットワーク構造は、基本的に畳み込み層、プーリング層、全結合層で構成されています。その中で、畳み込み層は画像の特徴を抽出するための主要なコンポーネントと考えられています。畳み込み層は、畳み込みカーネルを介して画像ピクセル行列との畳み込み演算を実行する「スキャナー」に似ています。毎回畳み込みカーネルのサイズだけを「スキャン」し、関連する演算のために次の領域にスライドします。この計算はスライディングウィンドウと呼ばれます。

[[255373]]

図からわかるように、入力画像は畳み込みニューラルネットワークに送信され、畳み込み層を通じて特徴抽出が実行され、次に詳細がプーリング層 (通常は最大プーリングと平均プーリングを使用) を通じてフィルタリングされ、最後に特徴が完全接続層で展開され、対応する分類器に送信されて分類結果が得られます。

ほとんどの画像分類アルゴリズムは、1,000 のカテゴリをカバーする 120 万枚の画像で構成される ImageNet データセットでトレーニングされています。このデータセットは、人工知能と世界を変えたデータセットとも言えます。 ImagNet データセットは、優れたデータセットを構築する作業が AI 研究の中核であり、データはアルゴリズムと同じくらい重要であることを人々に認識させます。この目的のために、世界組織はこのデータセットに対するチャレンジ、ImageNet Challenge も開催しました。

第 1 回 ImageNet チャレンジの最優秀賞は、深層畳み込みニューラルネットワークを使用した Alex Krizhevsky (NIPS 2012) が獲得しました。ネットワーク構造を下の図に示します。このモデルでは、最大プーリング、線形正規化ユニット活性化関数 ReLU、GPU シミュレーション計算などの技術が採用されています。AlexNet モデルは、ディープラーニング研究への序章を開きました。

[[255374]]

AlexNet ネットワークモデルが競争に勝利して以来、ZFNet (2013)、GoogleNet (2014)、VGGNet (2014)、ResNet (2015)、DenseNet (2016) など、多くの CNN ベースのアルゴリズムも ImageNet で特に優れた結果を達成しています。

2. 物体検出

[[255375]]

オブジェクト検出では通常、画像から単一のオブジェクトの境界ボックスとラベルが出力されます。たとえば、車の検出では、境界ボックスを使用して、特定の画像内のすべての車両を検出する必要があります。

これまで画像分類タスクで優れた成果を上げてきた CNN をここでも適用できます。最初の効率的なモデルは、下の図に示すように、R-CNN (領域ベースの畳み込みニューラルネットワーク) です。このネットワークでは、まず画像がスキャンされ、検索アルゴリズムを使用して可能性のある領域が生成されます。次に、可能性のある各領域に対して CNN が実行されます。最後に、各 CNN ネットワークの出力が SVM 分類器に送られ、領域が分類および線形回帰され、ターゲットに境界ボックスが注釈付けされます。

[[255376]]

本質的には、物体検出は画像分類の問題に変換されます。しかし、この方法には、トレーニング速度が遅い、メモリを消費する、予測時間が長いなどの問題があります。

上記の問題を解決するために、Ross Girshickyou は、2 つの側面で検出速度を向上させる Fast R-CNN アルゴリズムを提案しました。

1) 領域提案を行う前に特徴抽出を実行し、画像全体に対して 1 つの CNN のみを実行する必要があります。2) SVM 分類器の代わりに Softmax 分類器を使用します。

[[255377]]

Fast R-CNN は速度が向上しましたが、選択検索アルゴリズムでは提案領域の生成に依然として多くの時間がかかります。この目的のために、Faster R-CNN アルゴリズムが提案されました。このモデルは、選択検索アルゴリズムに代わる候補領域生成ネットワーク (RPN) を提案し、すべてのコンテンツを 1 つのネットワークに統合することで、検出速度と精度を大幅に向上させました。

[[255378]]

近年、物体検出の研究動向は、主に、より高速で効率的な検出システムへと発展してきました。 YOLO、SSD、R-FCN など、他の方法もすでにいくつか利用可能です。

3. ターゲット追跡

[[255379]]

オブジェクトトラッキングとは、特定のシーン内の特定のオブジェクトまたは複数の対象オブジェクトを追跡するプロセスを指します。簡単に言えば、追跡ビデオの最初のフレームのターゲットの初期状態（位置やサイズなど）が与えられると、後続のフレームのターゲットオブジェクトの状態が自動的に推定されます。この技術は自動運転車などの分野にとって極めて重要です。

観測モデルによれば、ターゲット追跡は生成法と識別法の 2 つのカテゴリに分けられます。このうち、生成法は主に生成モデルを使用してターゲットの見かけ上の特徴を記述し、候補ターゲットを検索することで再構築誤差を最小限に抑えます。一般的に使用されるアルゴリズムには、スパースコーディングと主成分分析 (PCA) が含まれます。これに対し、識別法は分類器をトレーニングすることでターゲットと背景を区別し、その性能はより安定しており、ターゲット追跡の分野で徐々に主な研究方法となってきました。一般的に使用されるアルゴリズムには、スタックオートエンコーダ (SAE)、畳み込みニューラルネットワーク (CNN) などがあります。

SAE 方式を使用したターゲット追跡のための最も古典的なディープネットワークは、オフラインの事前トレーニングとオンラインでの微調整を提案する Deep Learning Tracker (DLT) です。この方法の主な手順は次のとおりです。

1. まず、スタックオートエンコーダー (SDAE) を使用して、大規模な自然画像データセットに対して教師なしオフライン事前トレーニングを実行し、一般的なオブジェクト表現機能を取得します。

2. 事前トレーニング済みネットワークのエンコード部分と分類器を組み合わせて分類ネットワークを形成し、初期フレームから取得した正と負のサンプルを使用してネットワークを微調整し、現在のオブジェクトを背景から区別できるようにします。追跡プロセス中に、分類ネットワーク出力スコアが最大のパッチが最終的な予測ターゲットとして選択されます。

3. モデル更新戦略では、しきい値を制限する方法を採用します。

[[255380]]

CNN に基づくターゲット追跡の代表的なアルゴリズムは、FCNT と MD Net です。

FCNT のハイライトの 1 つは、ターゲット追跡タスクにおける ImageNet で事前トレーニングされた CNN 機能のパフォーマンスの詳細な分析です。

1. CNN 特徴マップを使用して追跡対象を特定できます。

2. CNN の特徴マップの多くはノイズが多く、オブジェクト追跡やターゲットと背景の区別のタスクとはほとんど関連性がありません。

3. CNN の異なるレイヤーによって抽出される特徴は異なります。高レベルの特徴はより抽象的で、異なるカテゴリのオブジェクトを区別するのに優れていますが、低レベルの特徴はターゲットのローカルな詳細に重点を置いています。

上記の観察に基づいて、FCNT は最終的に次の図に示すモデル構造を提案しました。

1. Conv4-3およびCon5-3の場合、VGGネットワーク構造を使用して、現在の追跡ターゲットに最も関連性の高い特徴マップチャネルを選択します。

2. 過剰適合を避けるために、選択されたConv5-3とConv4-3の特徴を使用して、それぞれGNetとSNetを構築し、カテゴリ情報を取得します。

3. SNet と GNet の回帰トレーニングのために、最初のフレームで指定された境界ボックスを使用してヒープマップを生成します。

4. 各フレームの予測結果は中央の切り取られた領域であり、それぞれ GNet と SNet に入力されて 2 つの予測ヒートマップが得られ、干渉があるかどうかに基づいてどちらのヒートマップを使用するかが決定されます。

[[255381]]

FCNT とは異なり、MD Net はビデオ内のすべてのシーケンスを使用して動きを追跡します。しかし、シーケンストレーニングにも問題があります。つまり、追跡シーケンスが異なれば追跡対象も完全に異なります。最後に、MD Netはマルチドメイントレーニングのアイデアを提案しました。ネットワーク構造を下図に示します。ネットワークは共有層と分類層の2つの部分に分かれています。ネットワーク構造部分は特徴の抽出に使用され、最終的な分類層はさまざまなカテゴリを区別します。

[[255382]]

4. セマンティックセグメンテーション

[[255383]]

コンピュータービジョンの中心となるのはセグメンテーションのプロセスです。セグメンテーションでは、画像全体をピクセルのグループに分割し、ラベルを付けて分類します。言語セグメンテーションは、画像内の各ピクセル（車、バイクなど）の役割を意味的に理解しようとします。

CNN もこのタスクで優れたパフォーマンスを発揮しました。代表的な方式はFCNであり、その構造を下図に示します。 FCN モデルは、画像を入力すると、出力で密度予測、つまり各ピクセルが属するカテゴリを直接取得し、画像セマンティックセグメンテーションを実現するエンドツーエンドの方法を取得します。

[[255384]]

FCN アップサンプリングとは異なり、SegNet は最大プーリングをデコーダーに転送し、セグメンテーション解像度を向上させます。メモリ使用効率が向上しました。

[[255385]]

完全畳み込みネットワーク、拡張畳み込み、DeepLab、RefineNet などの他の方法もいくつかあります。

5. インスタンスのセグメンテーション

[[255386]]

セマンティックセグメンテーションに加えて、インスタンスセグメンテーションでは、5 台の自動車に 5 つの異なる色でラベルを付けるなど、異なるクラスのインスタンスもセグメント化します。分類では通常、焦点が合ったオブジェクトを含む画像があり、この画像が何であるかを述べることがタスクとなります。しかし、インスタンスをセグメント化するには、より複雑なタスクを実行する必要があります。私たちは、複数の物体が重なり合う複雑なシーンや日常的な背景を見て、これらの日常的な物体を分類するだけでなく、それらの境界、違い、相互の関係を判断します。

[[255387]]

これまで、CNN の機能をさまざまな興味深い方法で使用して、境界ボックスのある画像内の日常的なオブジェクトを効果的に特定する方法を見てきました。これらの手法を拡張して、境界ボックスだけでなく、各オブジェクトの正確なピクセルを見つけることができるでしょうか?

CNN もこのタスクで優れたパフォーマンスを発揮し、代表的なアルゴリズムは Mask R-CNN です。 Mask R-CNN は、Faster R-CNN にブランチを追加して、バイナリマスクを出力します。次の図に示すように、このブランチは既存の分類および境界ボックス回帰と並行して実行されます。

[[255389]]

Faster-RCNN はインスタンスセグメンテーションタスクでのパフォーマンスが低いです。その欠点を修正するために、Mask R-CNN は Rolpool を調整して精度を向上させる RolAlign レイヤーを提案しました。基本的に、RolAlign は、不正確な検出とセグメンテーションにつながる丸め誤差を回避するために双線形補間を使用します。

マスクが生成されると、分類器と境界ボックスを組み合わせた Mask R-CNN によって、非常に正確なセグメンテーションを生成できます。

[[255391]]

結論は

上記の 5 つのコンピュータービジョンテクノロジーは、コンピューターが単一または一連の画像から有用な情報を抽出、分析、理解するのに役立ちます。さらに、スタイル転送、アクション認識など、私たちの探求を待っている先進的なテクノロジーは他にもたくさんあります。この記事があなたの世界に対する見方を変える助けになれば幸いです。

<<: JD Digits JDDコンペティションが終了、「自動運転」と「人口動態国勢調査」の世界チャンピオンが発表

>>: 人工知能技術をより効果的に応用するにはどうすればよいでしょうか?より正確かつ迅速に行う5つの方法