導入ディープラーニングによる物体検出、特に顔検出では、解像度が低い、画像がぼやけている、情報が少ない、ノイズが多いなどの理由で、小さな物体や小さな顔の検出は常に実用的で一般的な困難な問題でした。 しかし、近年の開発では、小さなターゲットの検出性能を向上させるソリューションがいくつか登場しています。この記事では、これらのソリューションを分析、整理、要約します。 議論を歓迎します。この記事は継続的にメンテナンスされます。 実験プラットフォーム該当なし 従来の画像ピラミッドとマルチスケールスライディングウィンドウ検出ディープラーニング手法が普及する前は、異なるスケールのターゲットに対しては、通常、元の画像を使用して異なる解像度の画像ピラミッドを構築し、入力解像度が固定された分類器を使用してピラミッドの各層をスライドしてターゲットを検出し、ピラミッドの底部にある小さなターゲットを検出していました。または、元の画像を 1 つだけ使用し、異なる解像度の分類器を使用して元の画像上のターゲットを検出し、比較的小さなウィンドウ分類器で小さなターゲットを検出していました。 有名な顔検出器MTCNN (https://arxiv.org/abs/1604.02878) では、画像ピラミッド法を使用して、さまざまな解像度の顔ターゲットを検出します。 ただし、この方法は低速です (画像ピラミッドの構築は、通常、畳み込みカーネルの分離や単純なサイズ変更によって高速化できますが、それでも複数の特徴抽出が必要です)。その後、誰かがそのアイデアを借りて、異なるレイヤーから特徴を取得して融合する特徴ピラミッド ネットワーク FPN を考案しました。必要なのは 1 回の順方向計算のみで、画像のスケーリングは必要ありません。また、この記事の後半で説明する小さなターゲットの検出にも使用されています。 シンプルで、原始的で、信頼性の高いデータ拡張ディープラーニングの効果は、ある意味では大量のデータによってもたらされます。トレーニング セット内の小さなターゲット サンプルの種類と数を増やすことで、小さなターゲットの検出のパフォーマンスも向上します。 「ディープラーニングにおける不均衡なサンプルの処理」[2]という記事では、多くのデータ拡張スキームが紹介されています。これらのスキームは主に、異なるカテゴリのサンプル数の不均衡の問題を解決することを目的としていますが、データセット内の小さなサンプルの数が大きなサンプルの数に比べて少ないために、小さなオブジェクトの検出が困難になることもあります。したがって、これらのスキームの多くは、小さなサンプルデータの強化に使用できるため、ここでは詳しく説明しません。さらに、19 年の論文「小さな物体検出のための拡張」 (https://arxiv.org/abs/1902.07296) では、2 つの単純で大まかな方法も提案されています。 1. COCO データセットに小さな物体の写真が少ないという問題に対処するために、オーバーサンプリング戦略が使用されます。 2. 同じ画像内に小さなターゲットが少数存在する問題を解決するには、セグメンテーション マスクを使用して画像内の小さなターゲット画像を切り取り、コピー アンド ペースト方式を使用します (もちろん、回転やスケーリングも多少追加され、他のターゲットをブロックしないように注意する必要があります)。 同じ画像内に小さなオブジェクトが多数ある場合、アンカー戦略ではより多くの陽性サンプルが一致します。 機能融合FPN異なる段階の特徴マップは異なる受容野に対応しており、表現される情報の抽象化の程度も異なります。 浅い特徴マップの受容野は小さく、小さなターゲットの検出に適しています (大きなターゲットを検出する場合、大きなターゲットの一部しか「見えず」、有効な情報が不十分です)。深い特徴マップの受容野は大きく、大きなターゲットの検出に適しています (小さなターゲットを検出する場合、背景ノイズが多すぎて、冗長ノイズが多すぎます)。そこで、異なる段階の特徴マップを統合してターゲット検出のパフォーマンスを向上させることを提案した人がいます。これが特徴ピラミッド ネットワークFPN (https://arxiv.org/abs/1612.03144) です。 顔認識の分野では、より優れたパフォーマンスを発揮する手法のほとんどが FPN の考え方を採用しています。最も代表的なのは、 RetinaFace : Single-stage Dense Face Localisation in the Wild (https://arxiv.org/pdf/1905.00641.pdf) です。 別のアイデア: 異なる解像度の特徴マップを融合して、特徴の豊富さと情報量を向上させ、さまざまなサイズのターゲットを検出できるため、高解像度の特徴マップ (浅い特徴) のみを使用して小さな顔を検出し、中解像度の特徴マップ (中程度の特徴) を使用して大きな顔を検出し、最後に低解像度の特徴マップ (深い特徴) を使用して小さな顔を検出すると推測する人もいます。たとえば、顔検出におけるSSH (https://arxiv.org/pdf/1708.03979.pdf)。 適切なトレーニング方法 SNIP、SNIPER、SAN機械学習において重要なポイントは、モデルの事前トレーニングの分布がテスト入力の分布にできるだけ近くなる必要があるということです。したがって、大きな解像度 (一般的な 224 x 224 など) でトレーニングされたモデルは、元々解像度が低かった画像を拡大してモデルに取り込んだ場合の検出には適していません。入力が低解像度画像の場合、モデルは低解像度画像でトレーニングする必要があります。それがうまくいかない場合は、高解像度画像でトレーニングされたモデルに低解像度画像を使用してモデルを微調整する必要があります。最悪のシナリオは、高解像度画像を直接使用して低解像度画像(アップサンプリングによって拡大)を予測することです。しかし、これは理想的な状況(トレーニング サンプルの数と豊富さは同じですが、実際には多くのデータ セットで小さなサンプルが著しく不足しています)の場合であるため、実際には、入力画像を拡大し、事前トレーニングに高解像度の画像を使用してから小さな画像で微調整する方が、小さなターゲット専用の分類器をトレーニングするよりも優れています。
SNIPER は SNIP の実用的なアップグレード版ですが、ここでは詳しく紹介しません。 より高密度のアンカーサンプリングとマッチング戦略 S3FD、FaceBoxes前の「データ拡張」セクションで述べたように、小さなターゲットを画像内の複数の場所にコピーすると、小さなターゲットに一致するアンカー ボックスの数が増え、小さなターゲットのトレーニングの重みが増加し、大きなターゲットに対するネットワークの偏りが軽減されます。同様に、逆に考えれば、データセットが決まっている場合は、トレーニング中に小さなターゲットの学習をより包括的にするために、小さなターゲットを担当するアンカーの設定戦略を増やすこともできます。たとえば、顔検出におけるFaceBoxes (https://arxiv.org/abs/1708.05234) の貢献の 1 つは、アンカーの高密度化戦略です。Inception3 のアンカーには 3 つのスケール (32、64、128) があり、32 スケールはスパースであるため、4 回高密度化する必要があり、64 スケールは 2 回高密度化する必要があります。 S3FD顔検出方法では、等比率間隔原理を使用して、画像内の異なるサイズのアンカーの密度がほぼ等しくなるようにし、大きな顔と小さな顔に一致するアンカーの数もほぼ等しくなるようにします。 さらに、小さなターゲット アンカーに対して、より緩いマッチング戦略 (IoU > 0.4 など) を使用することも一般的な方法です。 まず増幅された特徴を生成し、次にそれを検出するGAN知覚GANはGANを利用して、大きなターゲットと非常によく似た小さなターゲットの超解像特徴を生成し(下図参照)、この超解像特徴を小さなターゲットの元の特徴マップに重ね合わせる(下図参照)ことで、小さなターゲットの特徴表現を強化し、小さなターゲット(論文では信号機)の検出性能を向上させます。 コンテキスト情報を使用した関係ネットワークとピラミッドボックス小さな物体、特に顔のような物体は、画像に単独では表示されません (頭、肩、体が写っていない顔だけが画像に表示されたら、恐ろしいでしょう)。 PyramidBox (https://arxiv.org/abs/1803.07737) メソッドと同様に、頭や肩などのコンテキスト情報を追加すると、ターゲットが大きくなり、コンテキスト情報によって検出が容易になります。 ここで、一般的なターゲット検出にコンテキスト情報を追加する別のアイデア、 Relation Networks (https://arxiv.org/abs/1711.11575) について触れておきたいと思います。これは、小さなターゲット検出に特化しているというよりは、主に認識性能の向上と重複検出のフィルタリングに使用されますが、前述の PyramidBox のアイデアと非常によく似ています。どちらもコンテキスト情報を使用して検出性能を向上させるものであり、Context に分類できます。 要約するこの記事では、一般的なターゲット検出と特殊な顔検出の分野における一般的な小型ターゲット検出ソリューションを詳細にまとめています。後ほど、顔の分野特有の問題(ROP の側面顔、RIP の 360 度顔など)と、学術界における現在のソリューションについて説明します。 |
>>: 「未来ロボット」が1億元の資金調達を完了。自動物流が次の「阿修羅場」となるか?
ロシア衛星ネットワークによると、最近、ロシアの「3Dバイオプリンティングソリューションズ」社のマネー...
2023年は、生成AIテクノロジーが大きな進歩を遂げる年です。ChatGPTなどのAIツールはテク...
2019年にインターネット上で爆発的に広まった「ZAO」と呼ばれる顔を変えるソフトウェアなど、20...
【原文は51CTO.comより】このほど、工業情報化部中国電子情報産業発展研究所が指導し、51CTO...
1. 人工知能と機械学習記事を始める前に、下の図 1.1 に示すように、人工知能、機械学習、ディープ...
[[416815]]東京オリンピックが閉幕しました。中国選手団は金メダル38個、銀メダル32個、銅...
[[330619]]テクノロジーとエコロジーの継続的な進化、およびアプリケーション シナリオの継続的...
Google は、「Semantic Experiences」という新しい Web サイトを立ち上げ...
上記のコースで、経験豊富な Web 開発者である Alon Burg と出会い、偶然にも同じような興...
01 GNN: アーリーアダプターから急成長へ今年以来、グラフニューラルネットワーク (GNN) 技...
[[415593]] 8月5日、外国メディアの報道によると、米軍は世界中のセンサーデータをタイムリ...
サイバーセキュリティは AI と ML の進歩の恩恵を受けています。今日のセキュリティ チームは、疑...
人工知能は常に人々に非常に高級感を与えます。人々に役立つものの意味と価値を理解する必要があります。 ...