30% のトークンで SOTA パフォーマンスを達成、Huawei Noah 軽量ターゲット検出器 Focus-DETR が効率を 2 倍に

30% のトークンで SOTA パフォーマンスを達成、Huawei Noah 軽量ターゲット検出器 Focus-DETR が効率を 2 倍に

現在、DETR モデルはターゲット検出の主流のパラダイムとなっています。しかし、DETRアルゴリズムモデルは複雑性が高く、推論速度が遅いため、エンドサイドデバイスへの高精度ターゲット検出モデルの展開に重大な影響を及ぼし、学術研究と産業応用の間のギャップを広げています。

Huawei Noahと華中科技大学の研究者たちは、この問題を解決するために新しい軽量DETRモデルFocus-DETRを設計しました。

  • 論文アドレス: https://arxiv.org/abs/2307.12612
  • コードアドレス - mindspore: https://github.com/linxid/Focus-DETR
  • コードアドレス - torch: https://github.com/huawei-noah/noah-research/tree/master/Focus-DETR

モデルのパフォーマンスとコンピューティング リソースの消費、ビデオ メモリの消費、および推論の遅延のバランスをとるために、Focus-DETR は、ターゲット検出に関連性の高い特徴の正確なスクリーニングを実現するために慎重に設計されたフォアグラウンド特徴選択戦略を使用します。次に、Focus-DETR は、スクリーニングされた特徴に対する注意強化メカニズムをさらに提案し、Deformable Attention の長距離情報相互作用の不足を補います。業界のフル入力SOTAモデルと比較すると、APは0.5未満削減され、計算量は45%削減され、FPSは41%増加し、複数のDETRのようなモデルに採用されています。

著者らは、図 1 に示すように、複数の DETR 型検出器の GFLOP と待ち時間の比較分析を実施しました。図から、Deformable-DETR と DINO では、エンコーダの計算量はデコーダの計算量のそれぞれ 8.8 倍と 7 倍であることがわかります。同時に、エンコーダのレイテンシはデコーダのレイテンシの約 4 ~ 8 倍になります。これは、エンコーダの効率を向上させることが重要であることを示しています。

図1: 複数のDETR検出器の計算の複雑さと遅延の比較分析

ネットワーク構造

Focus-DETR は、バックボーン、デュアルアテンションで構成されるエンコーダー、およびデコーダーで構成されています。フォアグラウンド トークン セレクターは、バックボーンとエンコーダーの間にあります。これは、クロスマルチスケール機能に基づくトップダウン スコア変調であり、トークンがフォアグラウンドに属するかどうかを判断します。デュアル アテンション モジュールは、マルチ カテゴリ スコアリング メカニズムを通じてより細かいターゲット トークンを選択し、それをセルフ アテンション モジュールに入力して、トークンの相互作用情報の不足を補います。

計算削減: 見込み客スクリーニング戦略

パフォーマンスを向上させるためにフォアグラウンド トークンを削減する方法はすでにいくつかあります。例えば、Sparse DETR(ICLR2022)では、デコーダーのDAM(デコーダーアテンションマップ)を監督情報として使用することを提案しました。しかし、著者らは、図 3 に示すように、Sparse DETR によってフィルタリングされたトークンのすべてが前景領域であるとは限らないことを発見しました。著者は、これは Sparse DETR がフォアグラウンド トークンを監視するために DAM を使用し、DAM がトレーニング中にエラーを導入するためであると考えています。 Focus-DETR は、グラウンド トゥルース (ボックスとラベル) を使用して、フォアグラウンド トークンのスクリーニングを監視します。

前景フィルタをより適切にトレーニングするために、著者らは、図 4 に示すように、FCOS の前景と背景のラベル割り当て戦略を最適化しました。著者らはまず、さまざまな特徴マップの境界ボックスのサイズ範囲を設定しました。従来のマルチスケール特徴ラベル割り当て方法とは異なり、隣接する 2 つの特徴スケール間の範囲の重複を許可して、境界付近の予測能力を強化します。ステップサイズ の特徴についてマルチスケール特徴を表すレベル番号は 2 次元特徴マップ上の位置座標を表します。著者は、元の画像上の特徴のマッピング位置を と定義しますそのため、特徴に対応するラベルは次のようになります。

このうち、 は座標と真値ボックスの中心との間の最大チェス盤距離を表し、 は真値ターゲットボックスを表し、はレイヤー特徴マップによって予測されるターゲットのスケールの最大値と最小値を表します。 スケールの重複設定により、

さらに、異なる特徴マップからの特徴選択の違いも無視されるため、最も適切な解像度から特徴を選択する可能性が制限されます。このギャップを埋めるために、Focus-DETR は、図 5 に示すように、マルチスケール特徴マップに基づくトップダウン スコア調整モジュールを構築します。マルチスケール特徴マップ間の意味的関連性を最大限に活用するために、まず多層パーセプトロン (MLP)モジュールを使用して、各特徴マップのマルチカテゴリ意味スコアを予測します。高レベルの意味的特徴にはより豊富な意味的情報が含まれていることを考慮して、著者らは、高レベルの特徴マップのトークン重要度スコアを補足情報として使用し、低レベルの特徴マップの予測結果を調整します。

きめ細かな機能強化戦略

Focus-DETR は、初期段階で設計された前景フィルタに頼って比較的正確な前景特徴を取得した後、効果的な操作を使用してより細かい特徴を取得し、これらの細かい特徴を使用してより優れた検出パフォーマンスを取得します。直感的には、このシナリオではより細かいカテゴリ情報を導入することが有益であると仮定します。この動機に基づいて、著者らは、細粒度の特徴と前景の特徴をより有効に活用するために、前景の特徴選択と組み合わせた新しい注意メカニズムを提案しました。

図2に示すように、背景トークンの冗長な計算を避けるために、著者らは位置情報とカテゴリ意味情報の両方を考慮したスタッキング戦略を採用しました。具体的には、前景スコアと予測器によって計算されたカテゴリスコアの積(・)が、注目度の計算に関係する細かい特徴を決定するための著者の最終基準として使用されます

ここで、およびはそれぞれフォアグラウンドスコアとクラス確率を表します。

2 段階 Deformable DETR のクエリ選択戦略とは異なり、Focus-DETR のマルチクラス確率には背景クラス (∅) が含まれません。このモジュールは、きめ細かい特徴に対して強化された計算を実行する自己注意モジュールと見なすことができます。強化された特徴は、元の前景の特徴に分散され、更新されます。

実験結果

主な結果

表 1 に示すように、著者らは COCO 検証セットで Focus-DETR のパフォーマンスを他のモデルと比較しています。 DINO に基づいても、トークンを 30% のみ使用した場合、Focus-DETR は Sparse DETR を 2.2 AP 上回ることがわかります。オリジナルの DINO と比較すると、AP は 0.5 しか失われませんが、計算の複雑さは 45% 削減され、推論速度は 40.8% 向上します。

モデルパフォーマンス分析

図 6 では、さまざまなモデルの精度と計算の複雑さの関係から、Focus-DETR が精度と計算の複雑さの間で最適なバランスを実現していることがわかります。全体的に、他のモデルと比較して、SOTA パフォーマンスが達成されました。

アブレーション実験

表2に示すように、著者らはモデル設計に関するアブレーション実験を実施し、著者らが提案したアルゴリズムの有効性を検証した。

表2 本研究で提案した前景特徴刈り込み戦略と細粒度特徴自己注意強化モジュールの実験性能への影響

1. 前景特徴選択戦略の影響

フォアグラウンド スコアを直接使用して AP を予測すると、47.8 になります。ラベル割り当て戦略によって生成されたラベルを監督として追加すると、AP が 1.0 向上します。トップダウン変調戦略を追加すると、マルチスケール特徴マップ間の相互作用が改善され、AP が 0.4 向上します。これは、提案された戦略が精度の向上に非常に効果的であることを示しています。図 7 の視覚化に示されているように、Focus-DETR はマルチスケールの特徴上の前景トークンを正確に選択できます。異なるスケールで検出可能なオブジェクト間に重なりがあることがわかります。これは、Focus-DETR で使用される重なり設定によって発生します。

図7 マルチスケール特徴保存トークン

2. トップダウンの評価調整戦略の影響

表 3. マルチスケール特徴マップの前景スコアの相関方法。著者らはトップダウンとボトムアップの変調を試みた。

著者らは、トップダウン変調戦略とボトムアップ変調戦略の影響を比較しました。比較結果から、著者らが提案したトップダウン変調戦略の方が優れたパフォーマンスを達成できることがわかりました。

3. 前景保持率が実験パフォーマンスに与える影響

表4. Focus-DETR、Sparse DETR、DINO+Sparse DETRで保持されるフォアグラウンドトークンの割合

著者らは、異なる剪定比率のパフォーマンスを比較しました。実験結果から、同じ剪定比率では Focus-DETR の方が優れた結果を達成したことがわかります。

要約する

Focus-DETR は、フォアグラウンド トークンの 30% のみを使用することで同様のパフォーマンスを実現し、計算効率とモデル精度の間のトレードオフを改善します。 Focus-DETR のコア コンポーネントは、位置情報とセマンティック情報の両方を考慮した、マルチレベルのセマンティック機能に基づくフォアグラウンド トークン セレクターです。 Focus-DETR は、前景と細粒度の特徴を正確に選択し、細粒度の特徴を意味的に強化することで、モデルの複雑さと精度のバランスを改善します。

<<:  この論文では、688件の大規模モデル論文を分析し、LLMの現在の課題と応用について検討する。

>>:  偉大な人物が学界に復帰:何開明氏がMITへの入学を発表

ブログ    
ブログ    
ブログ    

推薦する

レポート:中国の人工知能都市ランキングで北京が1位に

[[431347]]中国新聞社、北京10月26日(記者 夏斌)「2021年人工知能コンピューティング...

...

AI に物語を伝える: シーンを想像するように教えるにはどうすればよいでしょうか?

[[282830]]視覚的な想像力は人間が生まれながらに持っているものです。AI は同様の能力を持...

人工知能の仮想火災は死体の山を残した

ハリウッドのSF大作では、人工知能は常に、将来の人類の生存を脅かす自己認識機械として定義されています...

Xuelang Cloudは、世界人工知能会議アルゴリズムコンテストのBPAA産業トラックで世界トップ10に輝きました!

2021年7月6日、世界人工知能大会組織委員会事務局主催の第1回BPAA応用アルゴリズム実践モデル...

...

...

多言語自然言語処理 (NLP) で言語の壁を打ち破ります!

自然言語処理は言語の壁を打ち破り、人間と機械間の相互作用とコミュニケーションを強化します。自然言語処...

AIによる顔を変える技術によって危害を受けるのではないかと心配ですか?怖がらないで!ディープフェイク偽造対策チームが到着

ディープフェイクは登場以来、人間性の暗い側面へと向かっています。 Bステーションのユーザーは、陸小玲...

AI はどのようにしてよりスマートな建物を作り出すのでしょうか?

[[405913]]センサー、ビッグデータ、人工知能 (AI) を融合したスマート ビルの出現は、...

金融業界は AI を活用してデータを強化する準備ができているでしょうか?

金融業界は国民経済の生命線です。モバイルインターネットやオンライン決済の普及により、データは企業にと...

...

第一AI教会は閉館しました!トランプ大統領に恩赦を受けた元グーグルエンジニアはかつてAIを神としていた

Googleの自動運転部門の創設者であり、かつてはAIの神とまで言われた、元Googleエンジニアの...

...

スマート シティ: 誇大広告と現実を切り離す!

スマート シティをめぐる熱狂はかつてないほど高まっていますが、この熱狂の中で、スマート シティが私た...