9つのディープラーニングアルゴリズムの紹介

1. 2段階アルゴリズム

2 段階アルゴリズムには、候補ボックスの選択とターゲットの分類/位置の修正という 2 つの段階が含まれます。これら 2 つの段階の処理方法が異なると、異なるアルゴリズムソリューションが構成されます。

1. R-CNNアルゴリズム

2014 年に、R. Girshick らは R-CNN アルゴリズムを提案しました。 R-CNNアルゴリズムの考え方は非常にシンプルです。まず、選択的検索法に基づいて、元の画像からいくつかの候補フレームを選択します。次に、各候補フレーム内の画像を固定スケールにスケーリングし、畳み込みネットワークに送信して特徴を抽出します。最後に、サポートベクターマシン（SVM）法を使用して特徴を分類し、候補フレーム内の画像が背景であるか、関心のあるターゲットタイプであるかを判断します。

VOC2007 データセットでは、R-CNN アルゴリズムによって以前の検出アルゴリズムのパフォーマンスが大幅に向上しました (33.7% から 58.5%)。これは、検出アルゴリズムにおける画期的な進歩です。

R-CNN はアルゴリズムの性能において大きな進歩を遂げていますが、欠点も非常に明白です。2,000 個以上の候補ボックスから個別に特徴を抽出する必要があるため、効率が非常に低くなります。後続のアルゴリズムは、この問題を解決するために提案された一連の改善ソリューションです。

2. SPP-Netアルゴリズム

2014 年に He Kaiming らは SPP-Net (Spatial Pyramid Pooling Networks) アルゴリズムを提案しました。

R-CNN アルゴリズムでは、畳み込みネットワークが特徴を抽出するために使用するサブイメージのサイズを固定する必要があります。たとえば、Alex-Net では入力イメージのサイズを 224 ピクセル × 224 ピクセルに固定する必要がありますが、SPP-Net アルゴリズムではこの制限がなくなります。 SPP-Net アルゴリズムは、入力サブイメージのサイズに関係なく、サブイメージを固定サイズのイメージにサンプリングする空間ピラミッドプーリングレイヤー (SPP レイヤー) に基づいています。

SPP-Net を検出に使用するプロセスでは、元の画像に対して 1 回の畳み込みネットワーク計算のみが必要です。画像全体の特徴マップを取得した後、各候補ボックス領域 (ROI) は空間ピラミッドプーリング層を介して同じサイズのサブ画像にサンプリングされます。同じサイズのサブ画像は、特徴抽出のために後続のネットワークに送られます。抽出された特徴は同じ次元を持ち、最終的に分類のために完全接続層に送られます。

SPP-Net は複数の畳み込みネットワーク計算を必要としません。R-CNN と比較すると、アルゴリズムの精度は変わらないまま、アルゴリズム速度が 20 倍に大幅に向上しました。

3. 高速R-CNNアルゴリズム

2015 年に、R. Girshick らは、本質的には R-CNN と SPP-Net に基づくさらなる改良である Fast R-CNN アルゴリズムを提案しました。 Fast R-CNN は、ネットワーク内のターゲットの分類確率と位置オフセットを同時に予測できます。

VOC2007 データセットでは、Fast R-CNN により mAP (平均精度) が 58.5% から 70.0% に向上し、アルゴリズムの速度は R-CNN の 200 倍になりました。 Fast R-CNN の性能と速度は R-CNN や SPP-Net に比べて大幅に向上していますが、全体的な速度は依然として候補ボックス検出アルゴリズムによって制約されています。この問題を解決するために、Faster R-CNN アルゴリズムが誕生しました。

4. より高速なR-CNNアルゴリズム

2015 年に S. Ren らは、初のエンドツーエンドアルゴリズムであり、リアルタイムディープラーニングに近い初のターゲット検出アルゴリズムである Faster R-CNN アルゴリズムを提案しました。 ZF-Net ネットワークスケルトンを使用すると、VOC2007 データセットで mAP が 73.2% に達し、アルゴリズムの速度が 17fps に達しました。

Faster R-CNN の主な貢献は、畳み込みネットワークを使用して候補ボックスを検出することです。アルゴリズムプロセス全体は、候補ボックスの検出、ターゲットカテゴリの予測、ターゲット位置オフセットの回帰、基礎となる畳み込み機能の共有により、完全なエンドツーエンドの学習フレームワークに統合されます。より高速な R-CNN は、候補ボックス検出の速度ボトルネックを打破する、非常に重要な 2 段階アルゴリズムです。

5. FPNアルゴリズム

2017年、LinらはFaster R-CNNに基づくFPN（Feature Pyramid Networks）アルゴリズムを提案しました。

FPN 以前は、ほとんどのディープラーニング検出器は、畳み込みネットワークの最上位層にある特徴マップに基づいて計算されていました。ディープフィーチャには全体的な情報が含まれますが、詳細な情報は弱くなります。ディープフィーチャを使用すると、小さなターゲットの検出、特に正確な位置決めにおいて大きな不利が生じます。 FPN はトップダウン構造とサイド接続方式を使用して深い特徴と浅い特徴を融合し、特徴にグローバル情報と詳細情報の両方が含まれるようにします。

さらに、検出計算も特徴ピラミッドの多層特徴マップに基づいており、より強力なマルチスケール適応性を備えています。 FPN ベースの Faster R-CNN アルゴリズムは、COCO データセットで最高のパフォーマンスを達成しました。現在、FPN は検出アルゴリズムを構築するための基本的な戦略となっています。

2. 1段階アルゴリズム

1 段階アルゴリズムと 2 段階アルゴリズムの主な違いは、個別の候補ボックススクリーニング段階が存在せず、ターゲットの位置座標と分類確率が直接回帰されることです。一般的に使用される 1 段階アルゴリズムは次のとおりです。

1. YOLOアルゴリズム

2015年、R. Josephらは、ディープラーニング分野における初の1段階アルゴリズムであるYOLO（You Look Only Once）アルゴリズムを提案しました。

名前が示すように、YOLO には 2 段階アルゴリズムにおける候補ボックスの抽出と分類の検証という 2 つのステップがありません。画像をニューラルネットワークに送るだけで、予測プロセス全体を完了できます。 YOLO アルゴリズムの実装スキームは、まず元の画像をグリッドに分割し、次にグリッドの各セルに基づいてターゲットのカテゴリ確率と位置座標を回帰することです。

1 段階アルゴリズムである YOLO の最大の利点の 1 つは、その高速性です。VOC2007 データセットでは、mAP は 63.4% で、検出アルゴリズムの速度は 45fps に達します。YOLO の高速バージョンでは、mAP は 52.7% で、速度は驚異的な 155fps にも達します。

しかし、YOLO にも欠点があります。ターゲットの位置の精度は 2 段階アルゴリズムよりも低く、特に小さなターゲットの検出では効果が著しく悪くなります。これらの問題のため、YOLO やその他の第 1 段階のアルゴリズムの後続バージョンでは、上記の問題をより適切に解決することに取り組んでいます。

2. SSDアルゴリズム

2015 年に W. Liu らは、ディープラーニング分野で 2 番目の 1 段階アルゴリズムである SSD (Single Shot MultiBox Detector) アルゴリズムを提案しました。

予測にトップレベルの特徴マップのみを使用する方法とは異なり、SSD の最も重要な貢献は、マルチスケールの特徴マップに基づく検出戦略の導入であり、これにより、特に小さなターゲットの検出において、アルゴリズムのパフォーマンスが大幅に向上します。YOLO と比較して、大幅に改善されています。VOC2007 データセットでは、mAP は 76.8% に達しました。

3. Retina-Netアルゴリズム

Retina-Net アルゴリズムの主な目的は、正のサンプルと負のサンプル間の不均衡の問題を解決することです。従来の 1 段階アルゴリズムでトレーニングサンプルを抽出するプロセスでは、背景サンプルの割合がターゲットサンプルの割合よりもはるかに大きくなります。正のサンプルと負のサンプルの極端な不均衡により、モデルはトレーニング中にターゲットサンプルにあまり注意を払わなくなります。これは、1 段階アルゴリズムの精度が 2 段階アルゴリズムの精度よりも低くなる主な理由でもあります。

Retina-Net アルゴリズムは損失関数を導入します。基本的な考え方は、トレーニング中に従来のクロスエントロピー損失に重みを追加して、誤分類されたサンプルによって生じる損失が最終的な損失のより大きな割合を占めるようにすることです。損失関数の導入により、1 段階アルゴリズムの速度の利点を維持しながら、ターゲット検出の精度が保証されます。

4. FCOSアルゴリズム

2019年、Shen Chunhua氏のチームはFCOS（Fully Convolutional One-Stage）アルゴリズムを提案しました。 FCOS は、SSD などの 1 段階アルゴリズムとは異なり、ターゲットの位置を回帰するためにアンカーを事前に設定する必要のない「アンカーフリー」方式です。検出するターゲットのスケールと形態が大きく変化するシナリオで重要な用途があります。

さらに、FCOS アルゴリズムは特定の実装で FPN 戦略も使用しており、マルチスケールターゲットに対する検出効果が向上します。

著者について: Tu Ming はシニアデータアーキテクトであり、人工知能技術の専門家です。現在は Tencent に勤務しており、以前は Alibaba に勤務していました。ビッグデータ、自然言語処理、画像認識、Python、Javaなどの関連技術について深く研究し、豊富な実践経験を積んでいます。

コンピュータービジョンアルゴリズムの専門家である Jin Zhiyong 氏は、コンピュータービジョンの分野に 12 年間携わっています。彼は現在、Baidu で働いており、Alibaba や Samsung などの有名なハイテク企業でも働いたことがあります。事業分野は、拡張現実、顔認識、画像美化、インテリジェント交通、工業品質検査などの分野をカバーしており、アルゴリズムの研究と実装において豊富な経験を持っています。

<<: マスク氏はまたも常識に反する発言をしました。自動運転は普及初期段階では渋滞を増加させるでしょう。

>>: 言葉はもっと欺瞞的だ！ MITの最新研究：DeepFakeによる顔の加工はペンを使った編集ほど良くない