CVPR 2017 論文の解釈: フィーチャーピラミッドネットワーク FPN

CVPR 2017 論文の解釈: フィーチャーピラミッドネットワーク FPN

論文: 物体検出のための特徴ピラミッドネットワーク

論文アドレス: https://arxiv.org/abs/1612.03144

今回紹介するのはFacebookのFeature Pyramid Networks(FPN)です。 FPN は主に物体検出におけるマルチスケールの問題を解決します。ネットワーク接続を変更するだけで、元のモデルの計算の複雑さを基本的に増やすことなく、小さな物体の検出のパフォーマンスを大幅に向上させます。私たちはこの論文を、論文の背景、論文のアイデア、結果、結論という観点から議論します。

物体検出では、計算負荷が制限されている場合、ネットワークの深さ(受容野に相当)とストライドは通常矛盾します。一般的に使用されるネットワーク構造に対応するストライドは一般的に大きい(32など)のに対し、画像内の小さな物体はストライドのサイズよりも小さい場合もあり、その結果、小さな物体の検出性能が急激に低下します。この問題を解決するための従来のアプローチには、図1(a)に示すように、(1)画像ピラミッドとも呼ばれるマルチスケールトレーニングとテストが含まれます。現在、ImageNet および COCO 検出タスクで良好な結果を達成したほぼすべての方法は、画像ピラミッド法を使用しています。ただし、この方法は、時間がかかり、計算量が多いため、実際に適用するのは困難です。 (2)特徴の層別化、すなわち各層は対応するスケール解像度の検出結果を予測する。図1(c)に示すように。 SSD 検出フレームワークも同様の考え方を採用しています。このアプローチの問題点は、異なるレイヤーに同じ意味情報を学習させることです。畳み込みニューラル ネットワークの場合、異なる深さは異なるレベルの意味的特徴に対応します。浅いネットワークは解像度が高く、より詳細な特徴を学習しますが、深いネットワークは解像度が低く、より多くの意味的特徴を学習します。

したがって、マルチスケールのオブジェクト検出が直面する主な課題は次のとおりです。

  1. 強力な意味情報を持つマルチスケールの特徴表現を学習するにはどうすればよいでしょうか?
  2. オブジェクト検出における複数のサブ問題を解決するための一般的な特徴表現を設計するにはどうすればよいでしょうか?オブジェクトの提案、ボックスのローカリゼーション、インスタンスのセグメンテーションなど。
  3. マルチスケール特徴表現を効率的に計算するにはどうすればよいでしょうか?

これらの問題に対処するために、本論文では、図 1(d) に示すように、特徴ピラミッド ネットワーク (FPN) を提案します。このネットワークは、元の単一のネットワークを直接変更します。各解像度の特徴マップは、要素ごとの追加のために、次の解像度で 2 倍にスケーリングされた特徴マップを導入します。このような接続を通じて、各レイヤーでの予測に使用される特徴マップは、異なる解像度と意味強度の特徴を融合し、異なる解像度の融合された特徴マップは、対応する解像度サイズのオブジェクトを検出するために使用されます。これにより、各レイヤーに適切な解像度と強力なセマンティック機能が備わります。同時に、この方法では元のネットワークに基づいて追加のクロスレイヤー接続を追加するだけなので、実際のアプリケーションでは追加の時間と計算はほとんど発生しません。次に著者らは、FPN を Faster RCNN に適用した場合のパフォーマンスを実験し、COCO 上で最先端の単一モデル精度を達成しました。

具体的には、FPN はそれぞれ RPN ステップと Fast RCNN ステップで役割を果たします。 RPN と Fast RCNN はそれぞれリコール率と陽性検出率に重点を置いています。ここで比較する指標は、平均リコール (AR) と平均精度 (AP) です。異なるスケールのオブジェクトの検出を比較し、小さい、中くらいの、大きいオブジェクトはそれぞれ s、m、l で表されます。

RPNでは、オリジナルの特徴マップ上に異なるスケールと比率のアンカーを直接設定するオリジナル論文とは異なり、この論文のスケール情報は対応する特徴マップに対応しており(領域はそれぞれ32^2、64^2、128^2、256^2、512^2に設定されています)、比率はオリジナルの方法と同様に{1:2、1:1、、2:1}に設定されています。 RPN と同様に、FPN は分類と回帰予測のために、各特徴マップ レイヤーに 3*3 畳み込みと 2 つの隣接する 1*1 畳み込みを追加します。 RPN では、実験により、FPN の異なるレイヤーで特徴マップの畳み込みパラメータが共有されているかどうかを比較し、共有しても良好なパフォーマンスが得られることがわかりました。これは、特徴ピラミッドによって異なるレイヤーが同じレベルの意味的特徴を学習できることを示しています。 RPN ネットワークの実験結果は次のとおりです。

ここで、FPN のリコール率は、conv4 および conv5 から最初に取得された RPN ネットワーク (a)(b) と比較して大幅に向上しており、特に中型および小型のオブジェクト (c) では顕著です。さらに、著者らは変数比較実験を行った。例えば、水平接続(d)、つまり特徴階層化ネットワークのみを保持すると、パフォーマンスは元のRPNとほぼ同じになる。その理由は、異なる層間の意味的特徴がかなり異なるためである。さらに、水平接続を切断し、トップダウンの拡大特徴マップのみを予測結果に保持する実験 (e) と、最終的な特徴マップ レイヤーのみを使用する実験 (f) を行いました。どちらも、小型物体検出 AR の完全な FPN ネットワークよりも約 10 ポイント低い結果となりました。これは、ピラミッドの特徴表現と横方向の接続の両方が重要な役割を果たしていることを示しています。

Fast RCNN を実験する場合、FPN + RPN によって抽出された提案結果を固定する必要があります。 Fast RCNN では、FPN は主に、ROI プーリングのために抽出する特徴マップのレイヤーを選択するために使用されます。特徴ピラミッドの結果は画像ピラミッドの結果に対応すると想定されます。異なる特徴マップ セットを {P2、P3、P4、P5} として定義します。ネットワークに入力された元の画像の ROI w*h の場合、選択された特徴マップは Pk です (224 は ImageNet 入力画像のサイズです)。

RPN 実験と同様に、元のネットワークと異なる FPN 構造を持つ Fast RCNN 実験を比較しました。実験結果は次のとおりです。

実験では、FPN スクリーニング ROI 領域によって Fast RCNN の小さな物体の検出精度も大幅に向上することが示されています。同時に、FPN のすべてのステップが重要です。

***、FPN を Faster RCNN 全体と比較した実験結果は次のとおりです。

他の単一モデル方式と比較すると、結果は次のようになります。

***FPN をベースに、RPN と Fast RCNN の機能を共有しています。オリジナルの Faster CNN と同様に、精度がわずかに向上しています。

FPN + Faster RCNN メソッドは、最終的に COCO データセットで最高の単一モデル精度を達成しました。

要約すると、本論文では独創的な特徴ピラミッド接続法を提案しており、これは実験的に物体検出に非常に効果的であることが検証されており、小さな物体検出のパフォーマンスを大幅に向上させています。同時に、元の画像ピラミッドマルチスケール検出アルゴリズムと比較して、速度も大幅に向上しています。

CVPR オンサイト QA:

1. アップサンプリング後に異なる深度の特徴マップを直接追加できるのはなぜですか?

A: その理由は、エンドツーエンドのトレーニングを行ったためだと著者は説明しています。異なるレイヤーのパラメータは固定されておらず、異なるレイヤーが同時にエンドツーエンドのトレーニングのために監視されているため、加法的なトレーニングにより、浅い情報と深い情報をより効果的に統合できます。

2. ディープ フィーチャ アップサンプル (ボトムアップ ピラミッド) を削除する場合と比較して、FPN によって小さなオブジェクトの検出が大幅に改善されるのはなぜですか? (RPN ステップ AR は 30.5 から 44.9、Fast RCNN ステップ AP は 24.9 から 33.9)

A: この質問に対する答えはポスターに記載されています。

小さな物体の場合、一方では、小さな領域の情報にもっと注意を払うために高解像度の特徴マップが必要です。他方では、写真のショルダーバッグのように、ショルダーバッグの存在と位置をより正確に判断するためには、より多くのグローバル情報が必要です。

3. 時間を考慮しない場合、画像ピラミッドの方が機能ピラミッドよりもパフォーマンスが向上する可能性はありますか?

A: 著者はトレーニングを微調整すれば可能だと考えていますが、画像ピラミッドの主な問題は時間とスペースがかかりすぎることです。一方、特徴ピラミッドは追加の計算をほとんど行わずにマルチスケール検出の問題を解決できます。

この記事は Machine Intelligence から転載したもので、著者は Momenta のシニア R&D エンジニアである Li Jun です。

<<:  人工知能オンライン機能システムのデータアクセス技術

>>:  ハンシのシリーズB資金調達は、「安全とインテリジェンス」ブランドをアピールすることで注目を集めている

ブログ    
ブログ    
ブログ    

推薦する

このレポートを読めば、人工知能に関するあなたの常識は基本的に正しいものとなるでしょう。

[[266878]]中国における人工知能に関する議論の多くは体系化されておらず、断片的であり、人工...

雲智盛 梁 嘉恩: インテリジェントインタラクション技術とモノのインターネットアプリケーション

[51CTO.comより引用] 2017年7月21日から22日まで、51CTO主催の人工知能をテーマ...

取り残された子どもたちを教育するのは難しい。AI教育はこの問題の解決に役立つだろうか?

[[251968]]最近、湖南省の12歳少年が母親を殺害したというニュースが報道され、遺児の教育問...

XiaoIce がクローンを正式にリリース: すでに年間 100 万元を稼いだ人もいます!

AIの助けを借りれば、月に10万元、年に100万元稼ぐことができます。想像できますか?信じないでく...

人工知能:未来への道を切り開く

[51CTO.com クイック翻訳]デジタル経済が世界を席巻する中、人工知能は今日私たちが知っている...

騒動を巻き起こしたディープマインドの論文は万能ではない

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

教師あり学習の一般的なアルゴリズムは何ですか?どのように適用されますか?

教師あり学習とは何ですか?教師あり学習は機械学習のサブセットであり、機械学習モデルの入力データにラベ...

AIはサイバーセキュリティにおいて人間に取って代わるでしょうか?両者は対立していない

近年、サイバーセキュリティ業界では人工知能技術が話題になっています。セキュリティ オーケストレーショ...

私の国は自動運転のための最初の閉鎖された高速道路テスト環境を構築しました

1月21日、公安部交通管理科学研究所は、工業情報化部、公安部、江蘇省人民政府が共同で建設する「国家イ...

...

2024年に期待するAI関連ニュース5選

OpenAIが2022年11月にChatGPTをリリースした後、GPT-4やEU AI法案からAI検...

PHPソートアルゴリズムの完全実装

PHP を学習しているときに、PHP のソート問題に遭遇することがあります。ここでは、PHP のソー...

正義がアルゴリズムを採用したとき、最後に笑うのは正義か、それともテクノロジーか?

2017年4月11日、米国のロバーツ最高裁判所長官は、ニューヨークのレンセラー工科大学の学長との会...