Transformerを廃止すれば、完全な畳み込みネットワークでもE2E検出を実現できる。

Transformerを廃止すれば、完全な畳み込みネットワークでもE2E検出を実現できる。

研究者は最近、ターゲット検出のための Transformer の使用を熱心に研究していますが、この論文では、完全な畳み込みネットワークを使用しても、優れたエンドツーエンドのターゲット検出を実現できるという新しい視点を提案しています。

オブジェクト検出は、各画像に事前定義されたクラス ラベルを使用して境界ボックスを予測する、コンピューター ビジョンの基本的な研究トピックです。主流の検出器のほとんどは、アンカーベースのラベル割り当てや非最大抑制 (NMS) などの手動設計を使用しています。最近、多くの研究者が、距離を考慮した分布ベースのラベル分類を通じて、事前定義されたアンカー ボックス セットを排除する方法を提案しています。これらの方法は目覚ましい進歩と優れたパフォーマンスを達成していますが、手作業による NMS 後処理を破棄すると、完全なエンドツーエンドのトレーニングが妨げられる可能性があります。

これらの問題に基づいて、研究者は、重複排除効果を改善できる Learnable NMS、Soft NMS、CenterNet を次々と提案してきましたが、依然として効果的なエンドツーエンドのトレーニング戦略を提供することはできません。その後、FacebookのAI研究者が提案したDETRは、ターゲット検出タスクでTransformerを使用し、Faster R-CNNに匹敵する結果を達成しました。しかし、DETR のトレーニング時間は非常に長く、小さなオブジェクトに対するパフォーマンスは比較的低くなります。

そのため、本論文では、Megvii Technology と西安交通大学の研究者が、「完全畳み込みネットワークは、エンドツーエンドで優れた物体検出結果を達成できるのか?」という新たな疑問を提起しました。この質問は、ラベル割り当てとネットワーク アーキテクチャという 2 つの側面から回答および検証されます。

論文リンク: https://arxiv.org/pdf/2012.03544.pdf

プロジェクト コード: https://github.com/Megvii-BaseDetection/DeFCN (内部コード移行 + 審査中、後日リリース)

具体的には、研究者らは FCOS に基づいて、完全な畳み込み構造を使用して、NMS 後処理なしで高密度予測の E2E を初めて実現しました。研究者らはまず、一般的な高密度予測手法(RetinaNet、FCOS、ATSSなど)を分析し、1対多のラベル割り当てがNMSに依存する鍵であると考えました。 DETR に触発されて、研究者は予測を考慮した 1 対 1 の割り当て方法を設計しました。

さらに、研究者らは、局所領域の特徴の表現能力を高めるために 3D Max フィルタリングを提案し、収束を加速するために 1 対多の補助損失を使用することを提案しました。提案手法は、基本的にモデル構造を変更せず、より長いトレーニング時間を必要とせず、既存の高密度予測手法に基づいてスムーズに移行することができます。 NMS がない場合、私たちの方法は COCO データセットで NMS を使用した FCOS と同等のパフォーマンスを達成します。密集したシーンを表す CrowdHuman データセットでは、私たちの方法の再現率は NMS に依存する方法の理論上の上限を超えています。

全体的な方法のフローを次の図に示します。

1対多と1対1

アンカーフリー方式の登場以来、ネットワーク内の最後のヒューリスティックリンクとしての NMS は、E2E 高密度予測を実現する上で最大の障害となってきました。しかし実際には、RPN、SSD、RetinaNet などから始めて、誰もが次のようなプロセスに従っていることがわかります。まず、各ターゲットに対して複数の予測を生成し (1 対多)、次に複数の予測を重複排除します (多対 1)。そのため、前ステップのラベル割り当てを変更しない場合は、重複排除処理を保持する必要があります。重複排除方式がNMSでない場合も、NMSの代替(RelationNet、CenterNetのmax poolingなど)になります。

1対1の割り当てを直接実行する方法はありますか?実は、そうです。昔はMultiBoxという手法があり、各ターゲットと各予測に対して二部マッチングを行っていました。DETRは実際にこの手法のネットワークをTransformerに置き換えました。よく知られている方法としてYOLOがあります。YOLOも各ターゲットに対して1つのグリッドのみをマッチングしますが[1]、マッチングには中心点を使用し、無視領域があります。

予測を考慮した1対1

そこで次の疑問は、高密度予測に 1 対 1 のラベル割り当てのみに依存して、NMS を完全に除去できるかどうかです。研究者らはまずFCOSの中心性ブランチを削除し、ネットワーク構造とトレーニング方法を統一し、Focal Loss + GIoU Lossを使用して以下の分析実験を実施しました。

研究者らは、RetinaNet(アンカーボックスベース)とFCOS(中心点ベース)をそれぞれ模倣した、手作業による1対1の割り当て方法を2つ設計し、変更を可能な限り最小限に抑え、NMSの有無によるmAPギャップを4ポイント以内に狭めることができることを発見しました。

しかし、研究者たちは、手動で設計されたラベル割り当てルールが 1 対 1 のパフォーマンスに大きく影響すると考えています。たとえば、中心ルールは偏心したオブジェクトには適しておらず、この場合、1 対 1 ルールは 1 対多ルールよりも堅牢性が低くなります。したがって、ルールは予測を考慮したものでなければならないと考えられています。研究者らはまず、損失を二部マッチングのコストとして直接使用するDETRのアイデアを試し[2]、絶対的なパフォーマンスとNMSの使用とNMSの使用の違いの両方がさらに改善されることを発見しました。

しかし、損失とメトリックはしばしば矛盾しており、最適化の問題(重み付けなど)に対して何らかの妥協が必要になることが多々あることがわかっています。言い換えれば、損失は必ずしも二部マッチングにとって最善のコストではありません。そこで研究者たちは非常に単純なコストを提案しました。

少し複雑に見えますが、実際には、ネットワーク出力のprobを使用して分類を表し、ネットワーク出力のIoUとgtを使用して回帰を表し、加重幾何平均を実行し、gtボックス内と同様の空間事前分布を追加します。加重幾何平均と空間事前分布は後で除去されます。

これは研究者らが提案したPOTO戦略であり、NMSなしでパフォーマンスをさらに向上させ、損失が必ずしも最善のコストではないことを間接的に検証します[3]。ただし、表 1 からわかるように、POTO のパフォーマンスは、1 対多 + NMS の組み合わせにはまだ匹敵しません。研究者たちは、問題は次の 2 つの側面にあると考えています。

1対1では、ネットワークによって出力される特徴が非常に鮮明である必要があり、CNNに厳しい要件が課せられます(これはTransformerの利点でもあります)。

1 対多により、監視が強化され、収束が速くなります。

したがって、上記の問題を軽減するために、3D Max フィルタリングと 1 対多の補助損失が使用されます。

3D Max フィルタリング

図 3 に示すように、このモジュールは畳み込み、補間、および最大プーリング 3D のみを使用します。非常に高速で、CUDA カーネルを記述する必要がありません。

1対多の補助損失

監督が十分に強力ではなく、収束が遅いという 2 番目の点に対して、研究者は依然として 1 対多の割り当てを使用して監督の補助損失を設計しています。この損失には分類損失のみが含まれ、回帰損失は含まれません。課題自体については特に言うことはありませんが、付録の実験でもさまざまなアプローチが機能することがわかります。ここで、補助損失の働きの鍵となる図 2 の乗算に注目していただきたいと思います。 1 対多の補助損失は乗算の前に追加され、1 対 1 の通常の損失は乗算の後に追加されます。 1*0=0 かつ 1*1=1 なので、1 対 1 の割り当てにおける正のサンプルが 1 対多の割り当てにおいても正のサンプルであることを大まかに確認するだけで済みます。

実験

主な実験結果は表 1 に示されていますが、さらにいくつかのアブレーション実験もあります。

以下にいくつかのハイライトを紹介します:

αが低いほど分類の重みが大きくなり、NMSと非NMSの差は小さくなりますが、絶対的なパフォーマンスも低下します[4]。αが高すぎるのも良くないので、以降のすべての実験ではα=0.8を使用します。

αが妥当な場合、空間事前分布は不要ですが、マッチング中に不良領域を除外し、絶対的なパフォーマンスを向上させるのに役立ちます。研究者は、COCO実験では中心サンプリング半径= 1.5を使用し、CrowdHuman実験ではgtボックス内を使用しました[5]。

加重幾何平均(Mul)[6]は加重算術平均(Add)[7]よりも優れています。

NMS を削除したことによる最大のメリットは、実は COCO ではうまく反映されていない群衆シーンです。そこで私はCrowdHumanで次のような別の実験を行いました。

CrowdHuman の ground-truth は、NMS しきい値 = 0.6 の場合に 95.1% のリコールしか持たないことに注意してください。これは、NMS メソッドの理論上の上限でもあります。しかし、本論文の手法ではNMSを使用しないため、この上限を簡単に超えてしまいます。

研究者らは他の実験や分析も行いました。原文をお読みください。

視覚化

上記の改善により、研究者らは 1 対 1 のパフォーマンスを 1 対多 + NMS 方式に匹敵するレベルまで向上させることに成功しました。さらに、スコアマップが視覚化されており、FCNが非常に鋭い表現を学習できることがわかり、これも研究者を驚かせた点です。

結果グラフのより明らかな改善は、複数のピークがある場合に現れます。たとえば、2 つのオブジェクトに一定の重なりがある場合 (ただし、特に重なっているわけではない)、1 対多 + NMS 方式では、各オブジェクトのボックスに加えて、2 つのオブジェクト間にボックスが生成されることがよくあります。このボックスと最初の 2 つのボックス間の IoU は、NMS しきい値に達するほど高くはありませんが、信頼度は比較的高くなります。この種の典型的なマルチピークの問題は、POTO では大幅に軽減されます。

その他

潜在意識では密予測の二部マッチングは非常に遅くなるはずなので、トレーニング時間をより心配する人もいるかもしれません。ただし、scipy の linear_sum_assignment の最適化により、実際のトレーニング時間は約 10% しか短縮されませんでした。

それでも時間に敏感な場合は、二部マッチングの代わりにtopk(k = 1)を使用できます。密な予測では、top1は実際には二部マッチングの近似解です[8]。同様に、k>1 の場合は、1 対多への新しいアプローチに対応します。研究者もこれについていくつかの研究を行っており、後で公開される可能性があります。

参照する

興味のある方は、YOLO から NMS を削除してみると、30mAP に近づくことができます。

なお、ここではDETRのCE+GIoU+L1の組み合わせは使用せず、損失そのもの(Focal+GIoU)が直接使用されます。研究者たちは、これは損失をコストとして利用するというDETRの本来の意図に沿ったものであると考えています。

実は、ここに皆さんのためのアイデアがあります。コストを微分化する必要がないので、AP をコストとして直接計算することもできます。

これは、検出タスクにおいて分類と回帰の間の矛盾が重要であることを間接的に証明しています。

理由は簡単です。CrowdHuman には深刻な遮蔽の問題があり、中央の領域が完全に遮蔽されることがよくあります。

実際、加重幾何平均の負の対数は CE+IoU 損失ですが、加重算術平均には明らかな物理的な意味はありません。

NoisyAnchor は、assign で同様の式を使用しますが、アンカー IoU を使用します。

より具体的には、top1 (つまり argmin) は、ハンガリー アルゴリズムが最初の反復のみを実行した結果です。密な予測では競合がほとんどないため、1 回の反復が最適な一致に近くなり、ハンガリー アルゴリズムが実際にはここで非常に高速に実行されるのはこのためです。

<<:  モザイクを使用するのは安全ですか? AIがモザイクを除去し、導入から3日間で約7,000個の星を獲得

>>:  清華大学のJiTuアップデート:微分可能レンダリングをサポートし、マルチタスク速度はPyTorchを上回る

ブログ    

推薦する

コードが分かりませんか? AIが人間の言語で翻訳します

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

AIとIoTの統合が加速

人工知能 (AI) とモノのインターネット (IoT) の技術トレンドが融合し始めており、業界ではこ...

...

注目を浴びるAIとゲームは、どんな火花を散らすことができるのでしょうか?

[[202722]] 2005年、JJ Linは「Number 89757」で「人間を模倣した機械...

英国、心臓発作予測の精度向上のため新たな人工知能アルゴリズムを開発

心臓発作を事前に予測することは困難です。 17日のサイエンス誌によると、英国ノッティンガム大学の科学...

人工知能は大腸がんを診断できる:精度は86%にも達する

AIは心臓病の予測やアルツハイマー病の検出など、医療分野で幅広い応用が期待されています。新たな研究に...

XiaoIce がクローンを正式にリリース: すでに年間 100 万元を稼いだ人もいます!

AIの助けを借りれば、月に10万元、年に100万元稼ぐことができます。想像できますか?信じないでく...

...

AIバーチャルアシスタント:私たちはオペレーターの新たなお気に入りです

人工知能が将来のビジネスやデジタル変革の鍵となる可能性が高いことをさまざまな分野の人々が一般的に認識...

機械学習がデータセンター管理をどう変えるか

機械学習はデータセンターの経済性を劇的に変え、将来の改善への道を開きます。機械学習と人工知能がデータ...

...

Windows Update で使用される指数アルゴリズムにより、XP マシンの速度が大幅に低下する

[[92385]] Windows XP ユーザーは、現在の XP が 2001 年にリリースされた...

人工知能の「ホットテクノロジー」をどう応用するか

人工知能が詩と連句を作曲、神経医学人工知能研究の最新の進歩、人工知能交通融合認識とデジタルツインソリ...

AIがデータセンターを管理するのに時間がかかる理由

ハイパースケーラーはすでに業務改善のために AI を活用していますが、他のほとんどのデータセンターで...

...