Transformer は最近、さまざまな視覚タスクで優れたパフォーマンスを発揮しており、受容野により CNN よりも強力な表現能力が Transformer に与えられています。しかし、単に受容野を拡大するだけでは、いくつかの問題が発生します。一方では、密なアテンション(ViT など)を使用すると、メモリと計算コストが過剰になり、特徴が関心領域外の無関係な部分の影響を受ける可能性があります。一方、PVT または Swin Transformer で採用されているスパース アテンションはデータから独立しており、長距離関係をモデル化する機能が制限される可能性があります。 これらの問題を軽減するために、清華大学、AWS AI、北京人工知能学院の研究者らは、自己注意におけるキーと値のペアの位置がデータに依存して選択される、新しい変形可能な自己注意モジュールを提案しました。この柔軟なスキームにより、自己注意モジュールは関連する領域に焦点を当て、より有益な特徴をキャプチャできるようになります。 これを基に、この研究では、画像分類や高密度予測タスクに適した、変形可能な注意を備えた一般的なバックボーン ネットワーク モデルである Deformable Attention Transformer (DAT) を提案しました。この研究では、多数のベンチマーク実験を通じてモデルのパフォーマンス向上が実証されました。 論文アドレス: https://arxiv.org/abs/2201.00520v1 変形可能な注意力トランスフォーマー既存の階層型ビジュアル Transformer、特に PVT および Swin Transformer は、過度の注意の課題に対処しようとします。前者のダウンサンプリング技術は重大な情報損失につながり、後者の Swin アテンションは受容野の成長を非常に遅くし、大きなオブジェクトのモデリングの可能性を制限します。したがって、関連する特徴を柔軟にモデル化するためにデータ依存のスパースアテンションが必要となり、これがDCN[9]で最初に提案された変形可能なメカニズムにつながります。 ただし、Transformer モデルで DCN を実装することは簡単な問題ではありません。 DCN では、特徴マップ上の各要素がオフセットを個別に学習します。H ×W ×C 特徴マップ上の 3 × 3 変形可能畳み込みの空間複雑度は 9 HWC です。同じメカニズムをアテンション モジュールに直接適用すると、空間複雑度は N_qN_kC に急激に上昇します。ここで、N_q、N_k はクエリとキーの数であり、通常は特徴マップ サイズ HW と同じスケールであるため、複雑度は 2 次式に近くなります。 Deformable DETR[54]は、各スケールでN_k = 4のキーをより少なく設定することでこのオーバーヘッドを削減し、検出ヘッドとしてうまく機能していますが、バックボーンネットワークでこのような少数のキーに焦点を当てると、許容できない情報損失のためにうまく機能しません(詳細な比較については付録を参照)。同時に、[3,52]の観察では、異なるクエリが視覚的注意モデルにおいて同様の注意マップを持つことが示されています。そのため、この研究では、効率的なトレードオフを実現するために、各クエリのシフトキーと値を共有するという、よりシンプルなソリューションを選択しました。 モデルアーキテクチャこの研究では、Transformer(式(4))内の変形可能な注意にバニラMHSAを置き換え、それをMLP(式(5))と組み合わせて、変形可能な視覚Transformerブロックを構築します。ネットワークアーキテクチャの観点から見ると、DATは[7、26、31、36]と同様のピラミッド構造を共有しており、マルチスケールの特徴マップを必要とするさまざまな視覚タスクに広く適用できます。下の図3に示すように、H×W×3の形状の入力画像は、まずストライド4の4×4の重複しない畳み込みによって埋め込まれ、次に正規化層を使用して パッチ埋め込み。 階層的な機能ピラミッドを構築するために、バックボーンは徐々にストライドが増加する 4 つのステージで構成されます。連続する 2 つのステージの間には、重複しない 2×2 畳み込みがストライド 2 で実行され、特徴マップがダウンサンプリングされて、空間サイズが半分になり、特徴次元が 2 倍になります。 分類タスクでは、まず最終段階で出力された特徴マップを正規化し、次にプールされた特徴を持つ線形分類器を採用して対数を予測します。オブジェクト検出、インスタンスセグメンテーション、およびセマンティックセグメンテーションタスクでは、DAT は統合視覚モデルのバックボーンの役割を果たして、マルチスケールの特徴を抽出します。この研究では、各段階の特徴に正規化レイヤーを追加し、それをオブジェクト検出のFPN[23]やセマンティックセグメンテーションのデコーダーなどの後続のモジュールに入力します。 実験この研究では、提案された DAT の有効性を検証するために 3 つのデータセットで実験を実施しました。この研究では、ImageNet-1K [10]分類、COCO物体検出、ADE20Kセマンティックセグメンテーションタスクの結果を示しています。さらに、この研究では、この方法の有効性をさらに実証するために、アブレーション研究と可視化結果を提供します。 ImageNet-1K 分類ImageNet-1K [10]データセットには、トレーニング用に128万枚の画像と検証用に5万枚の画像が含まれています。トレーニング分割で DAT の 3 つのバリアントをトレーニングし、他の Vision Transformer モデルと比較して、検証分割でのトップ 1 精度を報告します。 この研究では、300 回のトレーニング エポックの結果を以下の表 2 に示します。他の SOTA ビジュアル Transformer モデルと比較すると、DAT は同様の計算の複雑さで Top-1 精度の大幅な向上を実現します。 DATは、3つの尺度すべてにおいてSwin Transformer [26]、PVT [36]、DPT [7]、DeiT [33]よりも優れています。 Transformerブロックに畳み込みを挿入することなく[13, 14, 35]、またはパッチ埋め込みで重複畳み込みを使用することなく[6, 11, 45]、DATはSwin Transformer [26]に対して+0.7、+0.7、+0.5のゲインを達成します。 384 × 384 の解像度で微調整すると、モデルは Swin Transformer よりも 0.3 優れたパフォーマンスを発揮し続けます。 COCO オブジェクト検出COCO オブジェクト検出およびインスタンス セグメンテーション データセットには、118,000 枚のトレーニング イメージと 5,000 枚の検証イメージが含まれています。この研究では、RetinaNet [24]、Mask R-CNN [17]、Cascade Mask R-CNN [2]フレームワークのバックボーンとしてDATを使用し、この方法の有効性を評価しました。この研究では、ImageNet-1Kデータセットで300エポックのモデルを事前トレーニングし、Swin Transformer [26]で同様のトレーニング戦略に従って、方法を公平に比較しました。この研究では、1 倍および 3 倍のトレーニング スケジュールでの RetinaNet モデルの DAT を報告します。下の表 3 に示すように、DAT は極小モデルと小型モデルの両方で Swin Transformer より 1.1 mAP と 1.2 mAP 優れています。 2 段階検出器 (例: Mask R-CNN、Cascade Mask R-CNN) に実装すると、DAT モデルは、以下の表 4 に示すように、さまざまなサイズの Swin Transformer モデルよりも一貫した改善を実現します。 以下の表 5 は、検証セットにおけるさまざまな方法の mIoU スコアを示しています。 アブレーション実験DAT モデルの主要コンポーネントの設計の有効性を検証するために、本研究ではアブレーション実験を実施し、DAT-T に基づく ImageNet-1K 分類結果を報告しました。幾何学的情報の利用については、本研究ではまず、提案された変形可能なオフセットと変形可能な相対位置の埋め込みの有効性を以下の表6に示すように評価します。 異なる段階での変形可能な注意については、本研究ではSwin Transformer [26]のシフトされたウィンドウ注意を異なる段階での変形可能な注意に置き換えた。下の表 7 に示すように、注意の最後のステージのみを置き換えるとパフォーマンスが 0.1 向上し、最後の 2 つのステージを置き換えるとパフォーマンスが 0.7 向上します (全体的な精度は 82.0 になります)。ただし、初期段階でより変形可能な注意に置き換えると、精度がわずかに低下します。 視覚化本研究では、DAT で学習した変形位置の例を視覚化し、その方法の有効性を検証します。下の図 4 に示すように、サンプリングされたポイントはオブジェクト検出ボックスとインスタンス分割マスクの上に表示され、これらのポイントがターゲット オブジェクトに転送されたことがわかります。 |
<<: TensorFlow 2.8.0が正式にリリースされ、多くのバグが修正され、50以上の脆弱性パッチがリリースされました
>>: メタバース軍団を結成しよう! 「Google Lab」が生まれ変わる、700人超の謎のチームのメンバーは?
TL;DR (長すぎるので読まないでください)現在の制限アルゴリズム: カウンター、スライディング...
この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...
9月4日、ChatGPT Plusサブスクリプションサービスで独自のCanvaプラグインがリリースさ...
[51CTO.com からのオリジナル記事] インターネットの継続的な更新と反復により、ネットワーク...
Q: S/MIME プロトコルでは 3DES 対称暗号化はどのように実装されていますか? A:実際...
[[286589]]概要いわゆる LRU (Least Recently Used) アルゴリズムの...
アドバンテックは、2018年11月1日~2日に開催されたアドバンテックIoT共創サミットにおいて、プ...
急速に進化するテクノロジーの世界では、イノベーションこそが私たちを持続可能な未来へと導く原動力となり...
ジェイ・チョウの『本草綱目』のメロディーにのせて、劉恒紅の健康指導が再び始まった。 7日間でフォロワ...
2021 年 10 月、Jeff Dean が新しい機械学習アーキテクチャである Pathways ...
5月15日、マイクロソフトの人工知能およびIoT研究所が上海張江で正式に業務を開始し、第一陣として国...