ビジュアルトランスフォーマーのより深い理解: ビジュアルトランスフォーマーの解剖学

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転載したものです。転載については出典元にお問い合わせください。

前に書いた && 著者の個人的な理解

現在、Transformer構造に基づくアルゴリズムモデルは、コンピュータービジョン（CV）の分野で大きな影響力を発揮しています。これらは、多くの基本的なコンピュータービジョンタスクにおいて、以前の畳み込みニューラルネットワーク (CNN) アルゴリズムモデルを上回っています。以下は、さまざまな基本的なコンピュータービジョンタスクで見つけた最新の LeaderBoard ランキングリストです。LeaderBoard を通じて、Transformer アルゴリズムモデルがさまざまなコンピュータービジョンタスクで優位に立っていることがわかります。

画像分類タスク

まず、ImageNet のリーダーボードです。このリストから、上位 5 つのモデルのうち、各モデルは Transformer 構造を使用しており、CNN 構造は部分的にしか使用されていないか、Transformer と組み合わせて使用されていることがわかります。

画像分類タスクのリーダーボード

物体検出タスク

次は、COCO test-dev のリーダーボードです。このリストから、上位 5 つのうち半分以上が DETR などのアルゴリズム構造に基づいて拡張されていることがわかります。

ターゲット検出タスクのリーダーボード

セマンティックセグメンテーションタスク

最後に、ADE20K val のリーダーボードを見てみましょう。このリストから、Transformer 構造が依然として上位数位の主力であることがわかります。

セマンティックセグメンテーションタスクのリーダーボード

Transformer は大きな発展の見通しを示していますが、現在のコンピュータービジョンコミュニティは、Vision Transformer の内部動作やその意思決定の根拠 (出力予測結果) をまだ十分に理解していないため、その解釈可能性の必要性が徐々に顕著になってきました。なぜなら、そのようなモデルがどのように意思決定を行うかを理解することによってのみ、モデルのパフォーマンスを向上させるだけでなく、AI システムへの信頼を構築できるからです。

したがって、この記事の主な目的は、Vision Transformer のさまざまな解釈方法を調査し、さまざまなアルゴリズムを研究の動機、構造タイプ、およびアプリケーションシナリオに応じて分類し、レビュー記事を作成することです。

ビジョントランスフォーマーの分析

前述したように、Vision Transformer の構造は、さまざまな基本的なコンピュータービジョンタスクで非常に優れた結果を達成しています。そこで、コンピュータービジョンコミュニティでは、解釈可能性を高めるためのさまざまな方法を考案しました。この記事では、主に分類タスクに焦点を当て、一般的な帰属方法、注意ベースの方法、剪定ベースの方法、本質的に説明可能な方法、およびその他のタスクの 5 つの側面から最新および古典的な研究を選択して紹介します。論文に掲載されているマインドマップはこちらです。興味のある内容に応じて、さらに詳しく読むことができます。

この記事のマインドマップ

一般的な帰属方法

属性ベースの説明の出発点は通常、モデルの入力機能がどのようにして最終出力結果を段階的に得るかを説明することです。このタイプの方法は主に、モデルの予測結果と入力機能間の相関関係を測定するために使用されます。

これらの方法のうち、 Grad-CAMおよびIntegrated Gradientsアルゴリズムは、視覚的な Transformer ベースのアルゴリズムに直接適用されます。 SHAP やLayer-Wise Relevance Propagation (LRP)などの他の方法も、ViT ベースのアーキテクチャを調査するために使用されてきました。しかし、SHAP などの方法の計算コストは非常に高いため、最近のViT Shapelyアルゴリズムは ViT 関連のアプリケーション研究に適応するように設計されました。

注意に基づく方法

Vision Transformer は、アテンションメカニズムにより強力な特徴抽出機能を備えています。注意ベースの解釈可能性法では、注意重みの結果を視覚化することは非常に効果的な方法です。この記事では、いくつかの視覚化手法を紹介します。

Raw Attention : 名前の通り、ネットワークモデルの中間層から取得した注意重みマップを視覚化し、モデルの効果を分析します。
注意ロールアウト: この手法は、ネットワークのさまざまなレイヤーにわたって注意の重みを拡張することにより、入力トークンから中間埋め込みへの情報の転送を追跡します。
注意フロー: この方法では、注意マップをフローネットワークと見なし、最大フローアルゴリズムを使用して、中間埋め込みから入力トークンまでの最大フロー値を計算します。
partialLRP : この方法は、各注意ヘッドの重要性も考慮しながら、Vision Transformer のマルチヘッド注意メカニズムを視覚化するために提案されています。
Grad-SAM : この方法は、モデル予測を説明するために生の注意行列のみに依存することの制限を軽減するために使用され、研究者が生の注意重みの勾配を使用するように促します。
直感を超えて: この方法も注意を説明するために使用される方法で、注意の知覚と推論のフィードバックという 2 つの段階が含まれます。

最後に、さまざまな解釈方法の注意点の視覚化図を示します。さまざまな視覚化方法の違いを自分で感じることができます。

異なる視覚化手法を用いた注目マップの比較

剪定ベースの方法

プルーニングは非常に効果的な方法であり、変圧器構造の効率と複雑さを最適化するために広く使用されています。プルーニング法は、冗長な情報や役に立たない情報を削除することで、モデルパラメーターの数と計算の複雑さを削減します。プルーニングアルゴリズムはモデルの計算効率の向上に重点を置いていますが、モデルの解釈可能性も実現できます。

この記事では、Vision-Transformer に基づく剪定方法を、明示的に説明可能、暗黙的に説明可能、およびおそらく説明可能の 3 つのカテゴリに大まかに分類できます。

明示的に説明可能
プルーニングベースの方法の中には、よりシンプルで解釈しやすいモデルを提供できるカテゴリがいくつかあります。

IA-RED^2 : この方法の目的は、計算効率とアルゴリズムモデルの解釈可能性の間の最適なバランスを実現することです。このプロセスでは、元の ViT アルゴリズムモデルの柔軟性が維持されます。
X-Pruner : この方法は、特定のクラスを予測する際の各顕著性単位の貢献度を測定する解釈可能な知覚マスクを作成することにより、顕著性単位を刈り込む方法です。
Vision DiffMask : このプルーニング方法では、各 ViT レイヤーにゲーティングメカニズムを追加し、入力をマスクしながらモデルの出力を維持できるようにします。さらに、アルゴリズムモデルは残りの画像のサブセットを明確にトリガーできるため、モデルの予測をより深く理解できます。

暗黙的に説明可能
プルーニングベースの方法の中には、暗黙的な解釈可能なモデルのカテゴリに分類できる古典的な方法もいくつかあります。
動的 ViT : この方法では、軽量の予測モジュールを使用して、現在の機能に基づいて各トークンの重要度を推定します。この軽量モジュールは、ViT のさまざまなレイヤーに追加され、階層的に冗長なトークンを削減します。最も重要なのは、この方法では、分類に最も貢献する主要な画像部分を徐々に特定することで、解釈可能性が向上することです。
Efficient Vision Transformer (EViT) : この方法の中心的なアイデアは、トークンを再編成することで EViT を高速化することです。 EViT は注目度スコアを計算することで、最も関連性の高いトークンを保持し、関連性の低いトークンを他のトークンにマージします。同時に、EViT の解釈可能性を評価するために、論文の著者らは複数の入力画像に対するトークン認識プロセスを視覚化しました。
説明可能かもしれない
このクラスの方法はもともと ViT の解釈可能性を向上させるために設計されたものではありませんが、モデルの解釈可能性に関するさらなる研究に大きな可能性を秘めています。
パッチスリミング: トップダウンアプローチにより、画像内の冗長なパッチに焦点を当てることで ViT を高速化します。このアルゴリズムは、重要な視覚的特徴を強調するキーパッチの機能を選択的に保持し、それによって解釈可能性を高めます。
階層型ビジュアルトランスフォーマー (HVT) : この方法は、ViT のスケーラビリティとパフォーマンスを向上させるために導入されました。モデルの深さが増すにつれて、シーケンスの長さは徐々に短くなります。さらに、ViT ブロックを複数のステージに分割し、各ステージでプーリング操作を適用することで、計算効率が大幅に向上します。モデルの最も重要なコンポーネントに徐々に焦点が当てられるようになると、解釈可能性と説明可能性の向上に対する潜在的な影響を調査する機会が生まれます。

本質的に説明可能な方法

さまざまな解釈可能性アプローチの中で、1 つのカテゴリは、本質的に説明可能なアルゴリズムモデルの開発に重点を置いています。ただし、これらのモデルは、より複雑なブラックボックスモデルと同じレベルの精度を達成するのに苦労することがよくあります。したがって、解釈可能性とパフォーマンスの間で慎重なバランスを考慮する必要があります。次に、いくつかの古典的な作品を簡単に紹介します。

ViT-CX : この方法は、ViT モデル用にカスタマイズされたマスクベースの説明方法です。このアプローチは、パッチ埋め込みとそれがモデル出力に与える影響に焦点を当てるのではなく、それらに依存します。この方法は、マスク生成とマスク集約の 2 つの段階で構成されており、より意味のある顕著性マップを提供します。
ViT-NeT : この方法は、ツリー構造とプロトタイプを通じて意思決定プロセスを記述する新しいニューラルツリーデコーダーです。同時に、アルゴリズムは結果の視覚的な説明も提供できます。
R-Cut : この方法は、関係性の重み付けとカットを通じて ViT の解釈可能性を高めます。この方法には、Relationship Weighted Out モジュールと Cut モジュールという 2 つのモジュールが含まれます。前者は中間層からクラス固有の情報を抽出することに重点を置き、関連する機能を強調します。後者は細粒度の固有値分解を実行します。 2 つのモジュールを統合することで、クラス固有の高密度な解釈可能性マップを生成できます。

その他のタスク

記事の冒頭で述べたように、分類に加えて、他の CV タスクに対する ViT ベースのアーキテクチャの解釈可能性もまだ調査中です。他のタスクに特化した解釈可能性手法もいくつか提案されています。次に、関連分野の最新の研究を紹介します。

eX-ViT : このアルゴリズムは、弱く監視されたセマンティックセグメンテーションに基づく、新しい解釈可能なビジュアルトランスフォーマーです。さらに、解釈可能性を向上させるために、属性ガイド損失モジュールが導入されました。このモジュールには、グローバルレベルの属性ガイド損失、ローカルレベルの属性識別可能性損失、および属性多様性損失の 3 つの損失が含まれています。前者は注意マップを使用して解釈可能な機能を作成し、後者の 2 つは属性学習を強化します。
DINO : この方法は、ラベルのない単純な自己教師あり法と自己蒸留法です。最終的に学習された注意マップは、画像の意味領域を効果的に保存できるため、解釈の目的を達成できます。
Generic Attention モデル: この方法は、Transformer アーキテクチャに基づいた予測のためのアルゴリズムモデルです。この方法は、最も一般的に使用される 3 つのアーキテクチャ、つまり純粋な自己注意、自己注意と共注意の組み合わせ、およびエンコーダー/デコーダー注意に適用されます。モデルの解釈可能性を調べるために、著者らは視覚的な質問応答タスクを使用しましたが、このモデルは物体検出や画像セグメンテーションなどの他の CV タスクにも適用できます。
ATMAN : これは、アテンションメカニズムを利用して、出力予測に対する入力の相関マップを生成する、モダリティに依存しない摂動法です。この方法は、メモリ効率の高い注意操作を通じて変形予測を理解しようとします。
コンセプトトランスフォーマー: このアルゴリズムは、ユーザー定義の高レベル概念の注目スコアを強調表示することでモデル出力の説明を生成し、信頼性と信頼性を確保します。

今後の展望

Transformer アーキテクチャに基づくアルゴリズムモデルは、さまざまなコンピュータービジョンタスクで優れた結果を達成しています。しかし、特に ViT アプリケーションにおいて、解釈可能性手法の利点を活用してモデルのデバッグと改善を容易にし、モデルの公平性と信頼性を向上させる方法についての重要な研究が不足しています。

そのため、この記事では、画像分類タスクから始めて、Vision Transformer に基づいて既存の解釈可能なアルゴリズムモデルを分類し、そのようなモデルのアーキテクチャをよりよく理解できるようにします。皆様のお役に立てれば幸いです。

オリジナルリンク: https://mp.weixin.qq.com/s/URkobeRNB8dEYzrECaC7tQ

<<: コンパクトなBEVインスタンス予測フレームワーク: PowerBEV

>>: