30% のトークンで SOTA パフォーマンスを達成、Huawei Noah 軽量ターゲット検出器 Focus-DETR が効率を 2 倍に

現在、DETR モデルはターゲット検出の主流のパラダイムとなっています。しかし、DETRアルゴリズムモデルは複雑性が高く、推論速度が遅いため、エンドサイドデバイスへの高精度ターゲット検出モデルの展開に重大な影響を及ぼし、学術研究と産業応用の間のギャップを広げています。

Huawei Noahと華中科技大学の研究者たちは、この問題を解決するために新しい軽量DETRモデルFocus-DETRを設計しました。

論文アドレス: https://arxiv.org/abs/2307.12612
コードアドレス - mindspore: https://github.com/linxid/Focus-DETR
コードアドレス - torch: https://github.com/huawei-noah/noah-research/tree/master/Focus-DETR

モデルのパフォーマンスとコンピューティングリソースの消費、ビデオメモリの消費、および推論の遅延のバランスをとるために、Focus-DETR は、ターゲット検出に関連性の高い特徴の正確なスクリーニングを実現するために慎重に設計されたフォアグラウンド特徴選択戦略を使用します。次に、Focus-DETR は、スクリーニングされた特徴に対する注意強化メカニズムをさらに提案し、Deformable Attention の長距離情報相互作用の不足を補います。業界のフル入力SOTAモデルと比較すると、APは0.5未満削減され、計算量は45％削減され、FPSは41％増加し、複数のDETRのようなモデルに採用されています。

著者らは、図 1 に示すように、複数の DETR 型検出器の GFLOP と待ち時間の比較分析を実施しました。図から、Deformable-DETR と DINO では、エンコーダの計算量はデコーダの計算量のそれぞれ 8.8 倍と 7 倍であることがわかります。同時に、エンコーダのレイテンシはデコーダのレイテンシの約 4 ～ 8 倍になります。これは、エンコーダの効率を向上させることが重要であることを示しています。

図1: 複数のDETR検出器の計算の複雑さと遅延の比較分析

ネットワーク構造

Focus-DETR は、バックボーン、デュアルアテンションで構成されるエンコーダー、およびデコーダーで構成されています。フォアグラウンドトークンセレクターは、バックボーンとエンコーダーの間にあります。これは、クロスマルチスケール機能に基づくトップダウンスコア変調であり、トークンがフォアグラウンドに属するかどうかを判断します。デュアルアテンションモジュールは、マルチカテゴリスコアリングメカニズムを通じてより細かいターゲットトークンを選択し、それをセルフアテンションモジュールに入力して、トークンの相互作用情報の不足を補います。

計算削減: 見込み客スクリーニング戦略

パフォーマンスを向上させるためにフォアグラウンドトークンを削減する方法はすでにいくつかあります。例えば、Sparse DETR（ICLR2022）では、デコーダーのDAM（デコーダーアテンションマップ）を監督情報として使用することを提案しました。しかし、著者らは、図 3 に示すように、Sparse DETR によってフィルタリングされたトークンのすべてが前景領域であるとは限らないことを発見しました。著者は、これは Sparse DETR がフォアグラウンドトークンを監視するために DAM を使用し、DAM がトレーニング中にエラーを導入するためであると考えています。 Focus-DETR は、グラウンドトゥルース (ボックスとラベル) を使用して、フォアグラウンドトークンのスクリーニングを監視します。

前景フィルタをより適切にトレーニングするために、著者らは、図 4 に示すように、FCOS の前景と背景のラベル割り当て戦略を最適化しました。著者らはまず、さまざまな特徴マップの境界ボックスのサイズ範囲を設定しました。従来のマルチスケール特徴ラベル割り当て方法とは異なり、隣接する 2 つの特徴スケール間の範囲の重複を許可して、境界付近の予測能力を強化します。ステップサイズの各特徴について、マルチスケール特徴を表すレベル番号は 2 次元特徴マップ上の位置座標を表します。著者は、元の画像上の特徴のマッピング位置をと定義します。そのため、特徴に対応するラベルは次のようになります。

このうち、は座標と真値ボックスの中心との間の最大チェス盤距離を表し、は真値ターゲットボックスを表し、はレイヤー特徴マップによって予測されるターゲットのスケールの最大値と最小値を表します。スケールの重複設定により、。

さらに、異なる特徴マップからの特徴選択の違いも無視されるため、最も適切な解像度から特徴を選択する可能性が制限されます。このギャップを埋めるために、Focus-DETR は、図 5 に示すように、マルチスケール特徴マップに基づくトップダウンスコア調整モジュールを構築します。マルチスケール特徴マップ間の意味的関連性を最大限に活用するために、まず多層パーセプトロン (MLP)モジュールを使用して、各特徴マップのマルチカテゴリ意味スコアを予測します。高レベルの意味的特徴にはより豊富な意味的情報が含まれていることを考慮して、著者らは、高レベルの特徴マップのトークン重要度スコアを補足情報として使用し、低レベルの特徴マップの予測結果を調整します。

きめ細かな機能強化戦略

Focus-DETR は、初期段階で設計された前景フィルタに頼って比較的正確な前景特徴を取得した後、効果的な操作を使用してより細かい特徴を取得し、これらの細かい特徴を使用してより優れた検出パフォーマンスを取得します。直感的には、このシナリオではより細かいカテゴリ情報を導入することが有益であると仮定します。この動機に基づいて、著者らは、細粒度の特徴と前景の特徴をより有効に活用するために、前景の特徴選択と組み合わせた新しい注意メカニズムを提案しました。

図2に示すように、背景トークンの冗長な計算を避けるために、著者らは位置情報とカテゴリ意味情報の両方を考慮したスタッキング戦略を採用しました。具体的には、前景スコアと予測器によって計算されたカテゴリスコアの積（・）が、注目度の計算に関係する細かい特徴を決定するための著者の最終基準として使用されます。

ここで、およびはそれぞれフォアグラウンドスコアとクラス確率を表します。

2 段階 Deformable DETR のクエリ選択戦略とは異なり、Focus-DETR のマルチクラス確率には背景クラス (∅) が含まれません。このモジュールは、きめ細かい特徴に対して強化された計算を実行する自己注意モジュールと見なすことができます。強化された特徴は、元の前景の特徴に分散され、更新されます。

実験結果

主な結果

表 1 に示すように、著者らは COCO 検証セットで Focus-DETR のパフォーマンスを他のモデルと比較しています。 DINO に基づいても、トークンを 30% のみ使用した場合、Focus-DETR は Sparse DETR を 2.2 AP 上回ることがわかります。オリジナルの DINO と比較すると、AP は 0.5 しか失われませんが、計算の複雑さは 45% 削減され、推論速度は 40.8% 向上します。

モデルパフォーマンス分析

図 6 では、さまざまなモデルの精度と計算の複雑さの関係から、Focus-DETR が精度と計算の複雑さの間で最適なバランスを実現していることがわかります。全体的に、他のモデルと比較して、SOTA パフォーマンスが達成されました。

アブレーション実験

表2に示すように、著者らはモデル設計に関するアブレーション実験を実施し、著者らが提案したアルゴリズムの有効性を検証した。

表2 本研究で提案した前景特徴刈り込み戦略と細粒度特徴自己注意強化モジュールの実験性能への影響

1. 前景特徴選択戦略の影響

フォアグラウンドスコアを直接使用して AP を予測すると、47.8 になります。ラベル割り当て戦略によって生成されたラベルを監督として追加すると、AP が 1.0 向上します。トップダウン変調戦略を追加すると、マルチスケール特徴マップ間の相互作用が改善され、AP が 0.4 向上します。これは、提案された戦略が精度の向上に非常に効果的であることを示しています。図 7 の視覚化に示されているように、Focus-DETR はマルチスケールの特徴上の前景トークンを正確に選択できます。異なるスケールで検出可能なオブジェクト間に重なりがあることがわかります。これは、Focus-DETR で使用される重なり設定によって発生します。

図7 マルチスケール特徴保存トークン

2. トップダウンの評価調整戦略の影響

表 3. マルチスケール特徴マップの前景スコアの相関方法。著者らはトップダウンとボトムアップの変調を試みた。

著者らは、トップダウン変調戦略とボトムアップ変調戦略の影響を比較しました。比較結果から、著者らが提案したトップダウン変調戦略の方が優れたパフォーマンスを達成できることがわかりました。

3. 前景保持率が実験パフォーマンスに与える影響

表4. Focus-DETR、Sparse DETR、DINO+Sparse DETRで保持されるフォアグラウンドトークンの割合

著者らは、異なる剪定比率のパフォーマンスを比較しました。実験結果から、同じ剪定比率では Focus-DETR の方が優れた結果を達成したことがわかります。

要約する

Focus-DETR は、フォアグラウンドトークンの 30% のみを使用することで同様のパフォーマンスを実現し、計算効率とモデル精度の間のトレードオフを改善します。 Focus-DETR のコアコンポーネントは、位置情報とセマンティック情報の両方を考慮した、マルチレベルのセマンティック機能に基づくフォアグラウンドトークンセレクターです。 Focus-DETR は、前景と細粒度の特徴を正確に選択し、細粒度の特徴を意味的に強化することで、モデルの複雑さと精度のバランスを改善します。

<<: この論文では、688件の大規模モデル論文を分析し、LLMの現在の課題と応用について検討する。

>>: 偉大な人物が学界に復帰：何開明氏がMITへの入学を発表