9 つのディープラーニング アルゴリズム、ご存知ですか?

9 つのディープラーニング アルゴリズム、ご存知ですか?

[[439436]]

1フェーズまたは2フェーズのアルゴリズム

2 段階アルゴリズムには、候補ボックスの選択とターゲットの分類/位置の修正という 2 つの段階が含まれます。これら 2 つの段階の処理方法が異なると、異なるアルゴリズム ソリューションが構成されます。

1. R-CNNアルゴリズム

2014 年に、R. Girshick らは R-CNN アルゴリズムを提案しました。 R-CNNアルゴリズムの考え方は非常にシンプルです。まず、選択的検索法に基づいて元の画像からいくつかの候補フレームを選択します。次に、各候補フレーム内の画像の固定スケールが畳み込みネットワークに送信され、特徴が抽出されます。最後に、サポートベクターマシン(SVM)法によって特徴が分類され、候補フレーム内の画像が背景であるか、関心のあるターゲットタイプであるかが判断されます。

VOC2007 データセットでは、R-CNN アルゴリズムは以前の検出アルゴリズムと比較してパフォーマンスが大幅に向上しました (33.7% から 58.5%)。これは、検出アルゴリズムにおける画期的な進歩です。

R-CNN はアルゴリズムの性能において大きな進歩を遂げていますが、欠点も非常に明白です。2,000 個以上の候補ボックスから個別に特徴を抽出する必要があるため、効率が非常に低くなります。後続のアルゴリズムは、この問題を解決するために提案された一連の改善ソリューションです。

2. SPP-Netアルゴリズム

2014 年に He Kaiming らは SPP-Net (Spatial Pyramid Pooling Networks) アルゴリズムを提案しました。

R-CNN アルゴリズムでは、畳み込みネットワークが特徴を抽出するために使用するサブイメージのサイズを固定する必要があります。たとえば、Alex-Net では入力イメージのサイズを 224 ピクセル × 224 ピクセルに固定する必要がありますが、SPP-Net アルゴリズムではこの制限がなくなります。 SPP-Net アルゴリズムは、入力サブイメージのサイズに関係なく、サブイメージを固定サイズのイメージにサンプリングする空間ピラミッド プーリング レイヤー (SPP レイヤー) に基づいています。

SPP-Net を検出に使用するプロセスでは、元の画像に対して 1 回の畳み込みネットワーク計算のみが必要です。画像全体の特徴マップを取得した後、各候補ボックス領域 (ROI) は、空間ピラミッド プーリング層を介して同じサイズのサブ画像にサンプリングされます。同じサイズのサブ画像は、特徴抽出のために後続のネットワークに送信されます。抽出された特徴は同じ次元を持ち、最終的に分類のために完全接続層に送信されます。

SPP-Net は複数の畳み込みネットワーク計算を必要としません。R-CNN と比較すると、アルゴリズムの精度は変わらないまま、アルゴリズム速度が 20 倍に大幅に向上しました。

3. 高速R-CNNアルゴリズム

2015 年に、R. Girshick らは、本質的には R-CNN と SPP-Net に基づくさらなる改良である Fast R-CNN アルゴリズムを提案しました。 Fast R-CNN は、ネットワーク内のターゲットの分類確率と位置オフセットを同時に予測できます。

VOC2007 データセットでは、Fast R-CNN により mAP (平均精度) が 58.5% から 70.0% に向上し、アルゴリズムの速度は R-CNN の 200 倍になりました。 Fast R-CNN の性能と速度は R-CNN や SPP-Net に比べて大幅に向上していますが、全体的な速度は依然として候補ボックス検出アルゴリズムによって制約されています。この問題を解決するために、Faster R-CNN アルゴリズムが誕生しました。

4. より高速なR-CNNアルゴリズム

2015 年に S. Ren らは、初のエンドツーエンド アルゴリズムであり、リアルタイム ディープラーニングに近い初のターゲット検出アルゴリズムである Faster R-CNN アルゴリズムを提案しました。 ZF-Net ネットワーク スケルトンを使用すると、VOC2007 データセットで mAP が 73.2% に達し、アルゴリズムの速度が 17fps に達しました。

Faster R-CNN の主な貢献は、畳み込みネットワークを使用して候補ボックスを検出することです。アルゴリズム プロセス全体は、候補ボックスの検出、ターゲット カテゴリの予測、ターゲット位置オフセットの回帰、基礎となる畳み込み機能の共有により、完全なエンドツーエンドの学習フレームワークに統合されます。より高速な R-CNN は、候補ボックス検出の速度ボトルネックを打破する、非常に重要な 2 段階アルゴリズムです。

5. FPNアルゴリズム

2017年、LinらはFaster R-CNNに基づくFPN(Feature Pyramid Networks)アルゴリズムを提案しました。

FPN 以前は、ほとんどのディープラーニング検出器は、畳み込みネットワークの最上位層にある特徴マップに基づいて計算されていました。ディープ フィーチャには全体的な情報が含まれますが、詳細な情報は弱くなります。ディープ フィーチャを使用すると、小さなターゲットの検出、特に正確な位置決めにおいて大きな不利が生じます。 FPN はトップダウン構造とサイド接続方式を使用して深い特徴と浅い特徴を融合し、特徴にグローバル情報と詳細情報の両方が含まれるようにします。

さらに、検出計算も特徴ピラミッドの多層特徴マップに基づいており、より強力なマルチスケール適応性を備えています。 FPN ベースの Faster R-CNN アルゴリズムは、COCO データセットで最高のパフォーマンスを達成しました。現在、FPN は検出アルゴリズムを構築するための基本的な戦略となっています。

2段階アルゴリズム

1 段階アルゴリズムと 2 段階アルゴリズムの主な違いは、個別の候補ボックス スクリーニング段階が存在せず、ターゲットの位置座標と分類確率が直接回帰されることです。一般的に使用される 1 段階アルゴリズムは次のとおりです。

1. YOLOアルゴリズム

2015年、R. Josephらは、ディープラーニング分野における初の1段階アルゴリズムであるYOLO(You Look Only Once)アルゴリズムを提案しました。

名前が示すように、YOLO には 2 段階アルゴリズムにおける候補ボックスの抽出と分類の検証という 2 つのステップがありません。画像をニューラル ネットワークに送るだけで、予測プロセス全体を完了できます。 YOLO アルゴリズムの実装スキームは、まず元の画像をグリッドに分割し、次にグリッドの各セルに基づいてターゲットのカテゴリ確率と位置座標を回帰することです。

1 段階アルゴリズムである YOLO の最大の利点の 1 つは、その高速性です。VOC2007 データセットでは、mAP は 63.4% で、検出アルゴリズムの速度は 45fps に達します。YOLO の高速バージョンでは、mAP は 52.7% で、速度は驚異的な 155fps にも達します。

しかし、YOLO にも欠点があります。ターゲットの位置の精度は 2 段階アルゴリズムよりも低く、特に小さなターゲットの検出では効果が著しく悪くなります。これらの問題のため、YOLO やその他の第 1 段階のアルゴリズムの後続バージョンでは、上記の問題をより適切に解決することに取り組んでいます。

2. SSDアルゴリズム

2015 年に W. Liu らは、ディープラーニング分野で 2 番目の 1 段階アルゴリズムである SSD (Single Shot MultiBox Detector) アルゴリズムを提案しました。

予測にトップレベルの特徴マップのみを使用する方法とは異なり、SSD の最も重要な貢献は、マルチスケールの特徴マップに基づく検出戦略の導入であり、これにより、特に小さなターゲットの検出において、アルゴリズムのパフォーマンスが大幅に向上します。YOLO と比較して、大幅に改善されています。VOC2007 データセットでは、mAP は 76.8% に達しました。

3. Retina-Netアルゴリズム

Retina-Net アルゴリズムの主な目的は、正のサンプルと負のサンプル間の不均衡の問題を解決することです。従来の 1 段階アルゴリズムでトレーニング サンプルを抽出するプロセスでは、背景サンプルの割合がターゲット サンプルの割合よりもはるかに大きくなります。正のサンプルと負のサンプルの極端な不均衡により、モデルはトレーニング中にターゲット サンプルにあまり注意を払わなくなります。これは、1 段階アルゴリズムの精度が 2 段階アルゴリズムの精度よりも低くなる主な理由でもあります。

Retina-Net アルゴリズムは損失関数を導入します。基本的な考え方は、トレーニング中に従来のクロスエントロピー損失に重みを追加して、誤分類されたサンプルによって生じる損失が最終的な損失のより大きな割合を占めるようにすることです。損失関数の導入により、1 段階アルゴリズムの速度の利点を維持しながら、ターゲット検出の精度が保証されます。

4. FCOSアルゴリズム

2019年、Shen Chunhua氏のチームはFCOS(Fully Convolutional One-Stage)アルゴリズムを提案しました。 FCOS は、SSD などの 1 段階アルゴリズムとは異なり、ターゲットの位置を回帰するためにアンカーを事前に設定する必要のない「アンカーフリー」方式です。検出するターゲットのスケールと形態が大きく変化するシナリオで重要な用途があります。

さらに、FCOS アルゴリズムは特定の実装で FPN 戦略も使用しており、マルチスケール ターゲットに対する検出効果が向上します。

著者について: Tu Ming はシニア データ アーキテクトであり、人工知能技術の専門家です。現在は Tencent に勤務しており、以前は Alibaba に勤務していました。ビッグデータ、自然言語処理、画像認識、Python、Javaなどの関連技術について深く研究し、豊富な実践経験を積んでいます。

コンピューター ビジョン アルゴリズムの専門家である Jin Zhiyong 氏は、コンピューター ビジョンの分野に 12 年間携わっています。彼は現在、Baidu で働いており、Alibaba や Samsung などの有名なハイテク企業でも働いたことがあります。事業分野は、拡張現実、顔認識、画像美化、インテリジェント交通、工業品質検査などの分野をカバーしており、アルゴリズムの研究と実装において豊富な経験を持っています。

この記事は「ディープラーニングとオブジェクト検出: ツール、原理、アルゴリズム」から抜粋したもので、出版社の許可を得ています。 (ISBN: 9787111690344)

<<:  2022 年に AI はサイバーセキュリティ分野に何をもたらすでしょうか?

>>:  顔認証決済を使用する理由は何ですか?顔認証決済は安全ですか?

ブログ    
ブログ    

推薦する

...

製造業の未来:AIGCとその他の先進技術

製造業とメタバースMetaverse テクノロジーを製造業に統合すると、企業の運営方法に革命をもたら...

脳に WiFi を入れると麻痺が治る?麻痺したサルが6日で普通に歩けるようになる

インターネットの普及は無線技術の発達に伴い、人々のライフスタイルも変えつつあります。モバイル決済、無...

ニューラルネットワークの動作原理を1つの記事で理解する

この記事では、ディープ ニューラル ネットワークの一般的な概要を説明します。今日では、人工知能につい...

疫病との戦いにおけるドローン:監視、空中管制、そして徹底的な説得

ドローンと聞いて何を思い浮かべますか?おそらくほとんどの人の答えは写真撮影でしょう。しかし、今回の疫...

テンセントは大人のプレイヤーから厳しい批判を受けた!実名認証だけでは不十分、顔認証も必要

[[422724]]今学期の一番の話題は、未成年がゲームをプレーできなくなった平日です!これにより、...

人工知能は私たちの仕事を奪うわけではないが、雇用方法を変えている

[[255694]]プロフェッショナルソフトウェア開発における人工知能 (AI) の急速な発展により...

xAI Twitterライブ放送:GoogleやOpenAIと直接競合する

人工知能の波に直面して、マスク氏はついに再び行動を起こした! 7月15日、マスク氏とxAI創設チーム...

動きながら描くと、2次元の人物になります:リアルタイムインタラクティブビデオスタイル化

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

...

機械学習を超簡単にする 8 つのオープンソース ツール

機械学習開発者には、プロジェクトで使用できるツールを含め、多くの機械学習リソースが必ず必要になります...

AI導入で避けるべき5つの間違い

人工知能と機械学習は、ビジネスの成功にとって貴重な資産となるでしょう。 AI を実装することで、企業...

極端なケースによって引き起こされた議論: アルゴリズムがあなたが死にたいと考えた時...

悲しい話です。2017年、14歳のイギリスの少女モリー・ラッセルが予期せず自殺を選択しました。このよ...

複雑な課題に対するスマートなソリューション: 自動化の成功への道

マッキンゼーの「2022年世界産業用ロボット調査」によると、産業企業は世界的な労働力不足に対処するた...

...