何凱明氏のグループによる新しい論文：ViTをバックボーンとして単独で使用しても、ターゲット検出に優れたパフォーマンスを発揮できる

研究概要

論文リンク: https://arxiv.org/pdf/2203.16527.pdf

現在のオブジェクト検出器は通常、検出タスクに依存しないバックボーン特徴抽出器と、検出固有の事前知識を含む首と頭のセットで構成されています。ネック/ヘッドの共通コンポーネントには、関心領域 (RoI) 操作、領域提案ネットワーク (RPN) またはアンカー、特徴ピラミッドネットワーク (FPN) などが含まれます。特定のタスクのための首/頭のデザインが胴体のデザインから切り離されている場合、それらは並行して進化することができます。経験的に、物体検出の研究は、汎用バックボーンと検出専用モジュールの両方に対する多数の独立した調査から恩恵を受けています。長い間、畳み込みネットワークの実際の設計により、これらのバックボーンはマルチスケールの階層化アーキテクチャになっており、マルチスケール（FPN など）のオブジェクト検出用のネック/ヘッドの設計に重大な影響を及ぼしています。

過去 1 年間で、Visual Transformer (ViT) は視覚認識における強力な主力となりました。典型的な ConvNet とは異なり、オリジナルの ViT は、常に単一スケールの特徴マップを維持する、シンプルで非階層的なアーキテクチャです。「ミニマリズム」の追求は、ターゲット検出に適用すると課題に直面します。たとえば、上流で事前トレーニングされた単純なバックボーンを介して、下流のタスクでマルチスケールのオブジェクトをどのように処理できるでしょうか。単純な ViT は高解像度の画像検出には非効率すぎるのでしょうか?この追求を断念する 1 つの解決策は、バックボーンに階層化設計を再導入することです。 Swin Transformer やその他のネットワークなどのソリューションは、ConvNet ベースの検出器設計を継承することができ、成功を収めています。

この研究で、He らは、共通の非階層型バックボーンのみを使用するオブジェクト検出器を調査するという、異なる方向性を追求しました。この方向性が成功すれば、本来の ViT バックボーンのみを使用して物体検出を行うことが可能になります。この方向では、事前トレーニング設計は微調整要件から切り離され、ConvNet ベースの研究と同様に、上流タスクと下流タスクの独立性が維持されます。この方向性は、共通機能を追求するプロセスにおける帰納的バイアスを減らすという ViT の考え方にもある程度従っています。非局所的な自己注意計算は並進等変特徴を学習できるため、何らかの形の監督または自己監督事前トレーニングからスケール等変特徴も学習できます。

研究者らは、この研究の目的は新しい部品を開発することではなく、最小限の調整で上記の課題を克服することだと述べた。具体的には、彼らの検出器は、通常の ViT バックボーンの最後の特徴マップのみから単純な特徴ピラミッドを構築します (図 1 を参照)。この方式では、FPN 設計と階層型バックボーンの要件が不要になります。高解像度の画像から特徴を効率的に抽出するために、検出器は単純な重複しないウィンドウアテンション（シフトなし）を使用します。少数のクロスウィンドウブロックを使用して、グローバルアテンションまたは畳み込みなどの情報を伝播します。これらの調整は微調整中にのみ行われ、事前トレーニングは変更されません。

このシンプルなデザインは驚くべき結果を生み出します。プレーンなViTバックボーンを使用する場合、FPNの設計は必要なく、大きなストライド（16）と単一スケールのマップから構築された単純なピラミッドによってFPNの利点を効果的に得ることができることがわかりました。また、少数のレイヤーでウィンドウ全体に情報がうまく伝播できる限り、ウィンドウアテンションで十分であることもわかりました。

さらに驚くべきことに、研究者らが開発した「ViTDet」と呼ばれる共通バックボーン検出器は、主要な階層型バックボーン検出器（Swin、MViT など）と競合できる場合もあります。マスクオートエンコーダ (MAE) の事前トレーニングにより、バニラバックボーン検出器は、ImageNet-1K/21K での教師あり事前トレーニングを備えた階層化検出器よりも優れたパフォーマンスを発揮します (下の図 3 を参照)。

大型モデルでは、この利点はさらに顕著になります。この検出器の優れたパフォーマンスは、Mask R-CNN、Cascade Mask R-CNN、およびそれらの拡張バージョンを含むさまざまなオブジェクト検出器フレームワークで確認されています。

COCO データセットの実験結果によると、共通の ViT-Huge バックボーンを持つラベルなし ImageNet-1K で事前トレーニングされた ViTDet 検出器は、AP^box 61.3 を達成できます。彼らはまた、ロングテール LVIS 検出データセットにおける ViTDet の競争力のある結果を実証しました。これらの強力な結果は、MAE 事前トレーニングの有効性に部分的に起因している可能性がありますが、この研究は、単純なバックボーン検出器が有望であり、オブジェクト検出における階層型バックボーンの定着した地位に挑戦する可能性があることを示しています。

方法の詳細

この研究の目的は、バックボーンネットワーク上の階層化された制約を取り除き、オブジェクト検出に共通のバックボーンネットワークを使用することです。したがって、この研究の目的は、微調整中に最小限の変更を加えて、単純なバックボーンネットワークをオブジェクト検出タスクに適応させることです。この変更後、原理的には任意の検出器ヘッドを適用できるようになり、研究者は Mask R-CNN とその拡張機能を使用することを選択しました。

シンプルな機能ピラミッド

FPN は、オブジェクト検出用のネットワーク内ピラミッドを構築するための一般的なソリューションです。バックボーンネットワークが階層化されている場合、FPN の目的は、初期段階の高解像度の特徴と後期段階のより強力な特徴を組み合わせることです。これは、図 1 の左に示すように、FPN ではトップダウン接続と横方向接続を通じて実現されます。

バックボーンネットワークが階層化ネットワークでない場合、バックボーンネットワーク内のすべての特徴マップの解像度が同じになるため、FPN の動機付けの根拠はなくなります。この研究では、バックボーンネットワークの最後の特徴マップのみを使用します。これは、最も強力な特徴を持つと考えられるためです。

研究者は、一連の畳み込みまたは逆畳み込みを最後の特徴マップに並行して適用し、マルチスケールの特徴マップを生成します。具体的には、図 1 の右側に示すように、スケール 1/16 (ストライド = 16) のデフォルトの ViT 特徴マップを使用しました。このプロセスは、「シンプル特徴ピラミッド」と呼ばれます。

単一の特徴マップからマルチスケールの特徴マップを構築する戦略は SSD の戦略に関連していますが、この研究のシナリオでは、深く低解像度の特徴マップをアップサンプリングします。階層型バックボーンネットワークでは、アップサンプリングは通常、横方向の接続によって補助されますが、研究者は実験を通じて、通常の ViT バックボーンネットワークでは横方向の接続は必要なく、単純なデコンボリューションで十分であることを発見しました。これは、ViT が位置をエンコードするために位置埋め込みに依存でき、高次元の ViT パッチ埋め込みが必ずしも情報を破棄するわけではないためだと推測されます。

下の図に示すように、この研究では、この単純な機能ピラミッドを、共通のバックボーンネットワーク上に構築された 2 つの FPN バリアントと比較しています。最初のバリエーションでは、階層型バックボーンネットワークのステージを模倣するためにバックボーンネットワークを人工的に複数のステージに分割し、横方向およびトップダウンの接続を適用します（図2（a））。 2番目のバリエーションは最初のバリエーションと似ていますが、最後の特徴マップのみを使用します（図2（b））。この研究は、これらの FPN 変異体が必須ではないことを示唆しています。

バックボーンネットワーク調整

オブジェクト検出器は高解像度の入力画像から恩恵を受けますが、バックボーンネットワーク全体でグローバルな自己注意を計算すると、メモリを大量に消費し、処理が遅くなります。この研究は、バックボーンネットワークを事前トレーニングしてグローバルな自己注意を実行し、その後微調整中に高解像度の入力に適応するというシナリオに焦点を当てています。これは、バックボーンの事前トレーニングを使用して注意計算を直接変更する最近のアプローチとは対照的です。この研究のシナリオにより、研究者は事前トレーニング済みのアーキテクチャを再設計することなく、元の ViT バックボーンネットワークを検出に使用できるようになります。

この研究では、ウィンドウブロック全体にわたるウィンドウ注意の使用を調査しました。微調整中、高解像度の特徴マップが与えられると、それを重複しない規則的なウィンドウに分割します。自己注意は各ウィンドウ内で計算され、これは元の Transformer では「制限付き」自己注意と呼ばれます。

Swin とは異なり、この方法ではウィンドウをレイヤー間で「シフト」しません。情報の伝播を可能にするために、この研究では、ウィンドウにまたがる非常に少数のブロック（デフォルトでは 4 つ）を使用しました。研究者らは、事前トレーニング済みのバックボーンネットワークを 4 つのブロックのサブセットに均等に分割し (たとえば、24 ブロックの ViT-L の場合、各サブセットには 6 つのブロックが含まれます)、各サブセットの最後のブロックに伝播戦略を適用しました。研究者たちは次の2つの戦略を分析しました。

グローバルな伝播。この戦略は、各サブセットの最後のブロックでグローバルな自己注意を実行します。グローバルブロックの数が少ないため、メモリと計算コストは実現可能です。これは、（Li et al.、2021）でFPNと組み合わせて使用されるハイブリッドウィンドウアテンションに似ています。
畳み込み伝播。この戦略では、代替として、各サブセットの後に追加の畳み込みブロックを追加します。畳み込みブロックは、1 つ以上の畳み込みと恒等ショートカットで構成される残差ブロックです。このブロックの最後のレイヤーはゼロに初期化されるため、ブロックの初期状態は恒等状態になります。ブロックをアイデンティティに初期化すると、バックボーンネットワークの初期状態を破壊することなく、事前トレーニング済みのバックボーンネットワーク内の任意の位置にブロックを挿入できるようになります。

このバックボーンの調整は非常にシンプルで、検出の微調整をグローバル自己注意事前トレーニングと互換性を持たせることができるため、事前トレーニングアーキテクチャを再設計する必要がなくなります。

実験結果

アブレーション研究

アブレーション研究において、研究者らは次のような結論を得ました。

1. シンプルな機能ピラミッドで十分です。表 1 では、図 2 に示した機能ピラミッド構築戦略を比較しています。

2. ウィンドウアテンションは、複数の伝播ブロックの助けを借りれば十分です。表 2 は、本論文で提案されたバックボーン調整方法をまとめたものです。つまり、さまざまな伝播方法により、ウィンドウアテンションのみを使用し、ウィンドウ間伝播ブロックを使用しないベースライン (図では「なし」) と比較して、大幅な利益が得られる可能性があります。

3. マスクされたオートエンコーダーは、強力な事前トレーニング済みのバックボーンを提供できます。表4は主な介入トレーニング戦略を比較したものです。