この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転載したものです。転載については出典元にお問い合わせください。 前に書いた && 著者の個人的な理解現在、Transformer構造に基づくアルゴリズムモデルは、コンピュータービジョン(CV)の分野で大きな影響力を発揮しています。これらは、多くの基本的なコンピューター ビジョン タスクにおいて、以前の畳み込みニューラル ネットワーク (CNN) アルゴリズム モデルを上回っています。以下は、さまざまな基本的なコンピューター ビジョン タスクで見つけた最新の LeaderBoard ランキング リストです。LeaderBoard を通じて、Transformer アルゴリズム モデルがさまざまなコンピューター ビジョン タスクで優位に立っていることがわかります。
まず、ImageNet のリーダーボードです。このリストから、上位 5 つのモデルのうち、各モデルは Transformer 構造を使用しており、CNN 構造は部分的にしか使用されていないか、Transformer と組み合わせて使用されていることがわかります。 画像分類タスクのリーダーボード
次は、COCO test-dev のリーダーボードです。このリストから、上位 5 つのうち半分以上が DETR などのアルゴリズム構造に基づいて拡張されていることがわかります。 ターゲット検出タスクのリーダーボード
最後に、ADE20K val のリーダーボードを見てみましょう。このリストから、Transformer 構造が依然として上位数位の主力であることがわかります。 セマンティックセグメンテーションタスクのリーダーボード Transformer は大きな発展の見通しを示していますが、現在のコンピューター ビジョン コミュニティは、Vision Transformer の内部動作やその意思決定の根拠 (出力予測結果) をまだ十分に理解していないため、その解釈可能性の必要性が徐々に顕著になってきました。なぜなら、そのようなモデルがどのように意思決定を行うかを理解することによってのみ、モデルのパフォーマンスを向上させるだけでなく、AI システムへの信頼を構築できるからです。 したがって、この記事の主な目的は、Vision Transformer のさまざまな解釈方法を調査し、さまざまなアルゴリズムを研究の動機、構造タイプ、およびアプリケーション シナリオに応じて分類し、レビュー記事を作成することです。 ビジョントランスフォーマーの分析前述したように、Vision Transformer の構造は、さまざまな基本的なコンピューター ビジョン タスクで非常に優れた結果を達成しています。そこで、コンピューター ビジョン コミュニティでは、解釈可能性を高めるためのさまざまな方法を考案しました。この記事では、主に分類タスクに焦点を当て、一般的な帰属方法、注意ベースの方法、剪定ベースの方法、本質的に説明可能な方法、およびその他のタスクの 5 つの側面から最新および古典的な研究を選択して紹介します。論文に掲載されているマインドマップはこちらです。興味のある内容に応じて、さらに詳しく読むことができます。 この記事のマインドマップ 一般的な帰属方法属性ベースの説明の出発点は通常、モデルの入力機能がどのようにして最終出力結果を段階的に得るかを説明することです。このタイプの方法は主に、モデルの予測結果と入力機能間の相関関係を測定するために使用されます。 これらの方法のうち、 Grad-CAMおよびIntegrated Gradientsアルゴリズムは、視覚的な Transformer ベースのアルゴリズムに直接適用されます。 SHAP やLayer-Wise Relevance Propagation (LRP)などの他の方法も、ViT ベースのアーキテクチャを調査するために使用されてきました。しかし、SHAP などの方法の計算コストは非常に高いため、最近のViT Shapelyアルゴリズムは ViT 関連のアプリケーション研究に適応するように設計されました。 注意に基づく方法Vision Transformer は、アテンション メカニズムにより強力な特徴抽出機能を備えています。注意ベースの解釈可能性法では、注意重みの結果を視覚化することは非常に効果的な方法です。この記事では、いくつかの視覚化手法を紹介します。
最後に、さまざまな解釈方法の注意点の視覚化図を示します。さまざまな視覚化方法の違いを自分で感じることができます。 異なる視覚化手法を用いた注目マップの比較 剪定ベースの方法プルーニングは非常に効果的な方法であり、変圧器構造の効率と複雑さを最適化するために広く使用されています。プルーニング法は、冗長な情報や役に立たない情報を削除することで、モデル パラメーターの数と計算の複雑さを削減します。プルーニング アルゴリズムはモデルの計算効率の向上に重点を置いていますが、モデルの解釈可能性も実現できます。 この記事では、Vision-Transformer に基づく剪定方法を、明示的に説明可能、暗黙的に説明可能、およびおそらく説明可能の 3 つのカテゴリに大まかに分類できます。
本質的に説明可能な方法さまざまな解釈可能性アプローチの中で、1 つのカテゴリは、本質的に説明可能なアルゴリズム モデルの開発に重点を置いています。ただし、これらのモデルは、より複雑なブラック ボックス モデルと同じレベルの精度を達成するのに苦労することがよくあります。したがって、解釈可能性とパフォーマンスの間で慎重なバランスを考慮する必要があります。次に、いくつかの古典的な作品を簡単に紹介します。
その他のタスク記事の冒頭で述べたように、分類に加えて、他の CV タスクに対する ViT ベースのアーキテクチャの解釈可能性もまだ調査中です。他のタスクに特化した解釈可能性手法もいくつか提案されています。次に、関連分野の最新の研究を紹介します。
今後の展望Transformer アーキテクチャに基づくアルゴリズム モデルは、さまざまなコンピューター ビジョン タスクで優れた結果を達成しています。しかし、特に ViT アプリケーションにおいて、解釈可能性手法の利点を活用してモデルのデバッグと改善を容易にし、モデルの公平性と信頼性を向上させる方法についての重要な研究が不足しています。 そのため、この記事では、画像分類タスクから始めて、Vision Transformer に基づいて既存の解釈可能なアルゴリズム モデルを分類し、そのようなモデルのアーキテクチャをよりよく理解できるようにします。皆様のお役に立てれば幸いです。 オリジナルリンク: https://mp.weixin.qq.com/s/URkobeRNB8dEYzrECaC7tQ |
<<: コンパクトなBEVインスタンス予測フレームワーク: PowerBEV
マッキンゼー・グローバル・インスティテュートは最近の報告書で、テクノロジーの進歩により、将来世界で約...
今年 7 月、OpenAI は強力なプラグインである Code Interpreter をリリースし...
ラボガイドロボットがゲームの分野でもスーパーマスターになれると想像したことがありますか?あなたの夢を...
この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...
[[423975]]独自のクラウドクラスターを構築するこれらは 50 ドル未満の小型コンピュータで...
Llama、Llama 2 から Mixtral 8x7B まで、オープンソース モデルのパフォーマ...
データ分野では、多くの人が機械学習について語っていますが、それが何であるかを明確に説明できる人はごく...
今日は、世界的に人気のAIツール「ChatGPT+Midjourney」を使った絵本の制作過程をご紹...
1. 機械学習とサーバーレス学習1.1. 機械学習 (ML) はアプリケーション シナリオでどのよ...
このチュートリアルでは、OpenAI の Whisper と GPT-4 モデルを使用して自動会議議...
翻訳者 |ブガッティレビュー | Chonglou AgentGPT Web は、ユーザーがカスタマ...
「21世紀で最も成功した手術」として知られる人工股関節全置換術(THA)では、まもなく最新のAI技...