この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転載したものです。転載については出典元にお問い合わせください。 前に書いた && 著者の個人的な理解現在、Transformer構造に基づくアルゴリズムモデルは、コンピュータービジョン(CV)の分野で大きな影響力を発揮しています。これらは、多くの基本的なコンピューター ビジョン タスクにおいて、以前の畳み込みニューラル ネットワーク (CNN) アルゴリズム モデルを上回っています。以下は、さまざまな基本的なコンピューター ビジョン タスクで見つけた最新の LeaderBoard ランキング リストです。LeaderBoard を通じて、Transformer アルゴリズム モデルがさまざまなコンピューター ビジョン タスクで優位に立っていることがわかります。
まず、ImageNet のリーダーボードです。このリストから、上位 5 つのモデルのうち、各モデルは Transformer 構造を使用しており、CNN 構造は部分的にしか使用されていないか、Transformer と組み合わせて使用されていることがわかります。 画像分類タスクのリーダーボード
次は、COCO test-dev のリーダーボードです。このリストから、上位 5 つのうち半分以上が DETR などのアルゴリズム構造に基づいて拡張されていることがわかります。 ターゲット検出タスクのリーダーボード
最後に、ADE20K val のリーダーボードを見てみましょう。このリストから、Transformer 構造が依然として上位数位の主力であることがわかります。 セマンティックセグメンテーションタスクのリーダーボード Transformer は大きな発展の見通しを示していますが、現在のコンピューター ビジョン コミュニティは、Vision Transformer の内部動作やその意思決定の根拠 (出力予測結果) をまだ十分に理解していないため、その解釈可能性の必要性が徐々に顕著になってきました。なぜなら、そのようなモデルがどのように意思決定を行うかを理解することによってのみ、モデルのパフォーマンスを向上させるだけでなく、AI システムへの信頼を構築できるからです。 したがって、この記事の主な目的は、Vision Transformer のさまざまな解釈方法を調査し、さまざまなアルゴリズムを研究の動機、構造タイプ、およびアプリケーション シナリオに応じて分類し、レビュー記事を作成することです。 ビジョントランスフォーマーの分析前述したように、Vision Transformer の構造は、さまざまな基本的なコンピューター ビジョン タスクで非常に優れた結果を達成しています。そこで、コンピューター ビジョン コミュニティでは、解釈可能性を高めるためのさまざまな方法を考案しました。この記事では、主に分類タスクに焦点を当て、一般的な帰属方法、注意ベースの方法、剪定ベースの方法、本質的に説明可能な方法、およびその他のタスクの 5 つの側面から最新および古典的な研究を選択して紹介します。論文に掲載されているマインドマップはこちらです。興味のある内容に応じて、さらに詳しく読むことができます。 この記事のマインドマップ 一般的な帰属方法属性ベースの説明の出発点は通常、モデルの入力機能がどのようにして最終出力結果を段階的に得るかを説明することです。このタイプの方法は主に、モデルの予測結果と入力機能間の相関関係を測定するために使用されます。 これらの方法のうち、 Grad-CAMおよびIntegrated Gradientsアルゴリズムは、視覚的な Transformer ベースのアルゴリズムに直接適用されます。 SHAP やLayer-Wise Relevance Propagation (LRP)などの他の方法も、ViT ベースのアーキテクチャを調査するために使用されてきました。しかし、SHAP などの方法の計算コストは非常に高いため、最近のViT Shapelyアルゴリズムは ViT 関連のアプリケーション研究に適応するように設計されました。 注意に基づく方法Vision Transformer は、アテンション メカニズムにより強力な特徴抽出機能を備えています。注意ベースの解釈可能性法では、注意重みの結果を視覚化することは非常に効果的な方法です。この記事では、いくつかの視覚化手法を紹介します。
最後に、さまざまな解釈方法の注意点の視覚化図を示します。さまざまな視覚化方法の違いを自分で感じることができます。 異なる視覚化手法を用いた注目マップの比較 剪定ベースの方法プルーニングは非常に効果的な方法であり、変圧器構造の効率と複雑さを最適化するために広く使用されています。プルーニング法は、冗長な情報や役に立たない情報を削除することで、モデル パラメーターの数と計算の複雑さを削減します。プルーニング アルゴリズムはモデルの計算効率の向上に重点を置いていますが、モデルの解釈可能性も実現できます。 この記事では、Vision-Transformer に基づく剪定方法を、明示的に説明可能、暗黙的に説明可能、およびおそらく説明可能の 3 つのカテゴリに大まかに分類できます。
本質的に説明可能な方法さまざまな解釈可能性アプローチの中で、1 つのカテゴリは、本質的に説明可能なアルゴリズム モデルの開発に重点を置いています。ただし、これらのモデルは、より複雑なブラック ボックス モデルと同じレベルの精度を達成するのに苦労することがよくあります。したがって、解釈可能性とパフォーマンスの間で慎重なバランスを考慮する必要があります。次に、いくつかの古典的な作品を簡単に紹介します。
その他のタスク記事の冒頭で述べたように、分類に加えて、他の CV タスクに対する ViT ベースのアーキテクチャの解釈可能性もまだ調査中です。他のタスクに特化した解釈可能性手法もいくつか提案されています。次に、関連分野の最新の研究を紹介します。
今後の展望Transformer アーキテクチャに基づくアルゴリズム モデルは、さまざまなコンピューター ビジョン タスクで優れた結果を達成しています。しかし、特に ViT アプリケーションにおいて、解釈可能性手法の利点を活用してモデルのデバッグと改善を容易にし、モデルの公平性と信頼性を向上させる方法についての重要な研究が不足しています。 そのため、この記事では、画像分類タスクから始めて、Vision Transformer に基づいて既存の解釈可能なアルゴリズム モデルを分類し、そのようなモデルのアーキテクチャをよりよく理解できるようにします。皆様のお役に立てれば幸いです。 オリジナルリンク: https://mp.weixin.qq.com/s/URkobeRNB8dEYzrECaC7tQ |
<<: コンパクトなBEVインスタンス予測フレームワーク: PowerBEV
ありがたいことに、倉庫のピッキング作業で荷物を手作業で扱う時代は終わりつつあります。コンベアを使用す...
この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...
[[327384]] 5月24日、メディアの報道によると、香港科技大学の研究者らがネイチャー誌に発表...
人工知能業界の主要上場企業:現在、国内の人工知能業界の上場企業は主に百度(BAIDU)、テンセント(...
最近、プリンストン大学の研究者らは、世界初の高品質ミクロンスケール光学イメージングデバイス「ニューラ...
次の技術変化が始まる前に、将来の発展の方向を予測・判断し、技術変化に伴う可能性のある困難を軽減する必...
[51CTO.comより引用] 現在、AIの幕が開き、人類世界は蒸気時代、電気時代、情報化時代に続く...
新型コロナウイルス肺炎の流行は社会全体の生産と生活に影響をもたらしています。企業は、感染拡大の影響を...
経路探索アルゴリズムは、コンピュータグラフィックスや人工知能の分野で一般的に使用されるアルゴリズムの...
自動運転車は未来を象徴しているが、運転手が全てを完全に機械に任せることはできないかもしれない。おそら...
マイクロソフトのサティア・ナデラCEOは10月23日、メディアのインタビューで、同社はこれまで4つの...