AIによる決定をどのように説明するのでしょうか?この記事では、アルゴリズムの適用シナリオと解釈可能性を整理します。

英国の情報コミッショナー事務局（ICO）とアラン・チューリング研究所は共同で「AIによる説明決定」ガイドを発表した。このガイドは、機関や組織に実用的なアドバイスを提供し、AI によって提供または支援される手順、サービス、決定をそれらの影響を受ける個人に説明するとともに、機関や組織が EU GDPR などの個人情報保護に関連するポリシー要件に準拠できるように支援することを目的としています。このガイドは、パート 1: 説明可能な AI の基礎、パート 2: 説明可能な AI の実践、パート 3: 機関/組織にとっての説明可能な AI の重要性の 3 つのパートに分かれています。最後に、このガイドでは、主流の AI アルゴリズム/モデルに適用可能なシナリオと、これらのアルゴリズム/モデルの解釈可能性分析を提供します。これは、適用シナリオの特性に基づいて、実際のタスクでドメイン要件を満たすことができる解釈可能な AI アルゴリズム/モデルを選択するためのリファレンスとして使用できます。

この記事では、「AI による説明決定」ガイドを組み合わせて、アルゴリズムの適用シナリオと説明可能性分析の概要に焦点を当てます。さらに、解釈可能な方法に関する最新の研究の進歩を理解するために、医療分野における解釈可能な方法に関する最近の論文「薬物有害事象予測における注意および SHAP ベースの時間的説明の臨床的有効性の評価」も解釈しました。

1. アルゴリズムの適用シナリオと解釈可能性の分析

ガイド「AI による説明決定」では、主流の AI アルゴリズム/モデルに適用可能なシナリオと、これらのアルゴリズム/モデルの解釈可能性分析が提供されています。著者は、主流のモデルの解釈可能性を要約しています。

アルゴリズムの種類	考えられる用途	説明する
線形回帰 (LR)	計算や監視が簡単なため、金融（信用スコアリングなど）やヘルスケア（ライフスタイルや既存の健康状態に基づいて病気のリスクを予測する）などの規制の厳しい業界では有利です。	直線性と単調性により、高い解釈可能性を備えています。特徴の数が増えると（つまり、高次元になると）、解釈可能性は低下します。
ロジスティック回帰	線形回帰と同様に、これは規制が厳しく安全性が重要な分野では利点があり、特にリスク、信用、病気に関するはい/いいえの決定などの分類問題に基づくユースケースでは利点があります。	解釈可能性は良好ですが、特徴がロジスティック関数によって変換され、確率結果との関係が加法ではなく対数的であるため、LR ほど良好ではありません。
正規化回帰（LASSO と Ridge）	線形回帰と同様に、結果が理解可能で、アクセス可能で、透明性が求められる、規制が厳しく安全性が重要な分野では利点があります。	より優れた特徴選択手順によりモデルのスパース性が向上したため、解釈可能性が高まりました。
一般化線形モデル (GLM)	ターゲット変数に指数族分布セットを必要とする制約があるユースケースに適しています (たとえば、ターゲット変数に人数、時間単位、または結果の確率が含まれる場合、結果は負でない値である必要があります)。	優れたレベルの解釈可能性、LR の利点を追及しながら、さらなる柔軟性も導入します。リンク機能があるため、特徴の重要性の決定は、追加的な特徴を持つ単純な LR ほど直接的ではない可能性があり、ある程度の透明性が失われます。
一般化加法モデル (GAM)	予測変数と応答変数の関係が線形ではない (つまり、入力と出力の関係が異なる時間に異なる速度で変化する) が、最適な解釈可能性が必要なユースケースに適しています。	GAM は、非線形関係が存在する場合でも、予測変数が応答変数に与える影響をグラフィカルかつ明確に表すことができるため、解釈性に優れています。
決定木	DT 結果を生成するステップバイステップのロジックは、技術に詳しくないユーザーにも簡単に理解できるため (ノード/機能の数によって異なります)、このアプローチは、透明性が求められる高リスクで安全性が重要な意思決定支援の状況や、関連する機能の数がかなり少ない他の多くのユースケースで使用できます。	DT が適度に小さく保たれ、ロジックを最初から最後まで追跡できる場合、解釈可能性の度合いは高くなります。 LR と比較した場合、DT の利点は、解釈可能性を維持しながら非線形性と可変の相互作用に適応できることです。
ルール/決定リストとセット	DT と同様に、ルールリストとルールセットを生成するロジックは非技術者でも簡単に理解できるため、このアプローチは、透明性が求められるリスクの高い安全性重視の意思決定支援状況や、結果を明確かつ完全に透明性をもって説明する必要がある他の多くのユースケースで使用できます。	ルールリストとルールセットは、最高のパフォーマンスと不透明なアルゴリズム手法の中でも、最も高いレベルの解釈可能性を備えています。しかし、ルールのリストが長くなったり、ルールセットが大きくなったりすると、理解可能性が失われるという DT と同じ可能性も存在します。
事例ベース推論 (CBR)/プロトタイプと批評	CBR は、経験が基礎となるあらゆる分野に適用できます。意思決定に推論が使用されるあらゆる分野。たとえば、医療においては、同様の症例での過去の成功経験から意思決定者が推奨する治療アプローチが示される場合、その治療アプローチは CBR に基づいて推奨されます。 CBR をプロトタイピングおよび批評手法に拡張することで、複雑なデータ分布の理解が容易になり、データマイニングの洞察力、実行可能性、解釈可能性が向上します。	CBR は設計によって説明可能です。説明可能な設計から抽出した例を使用します。人間の知識から抽出した例を使用して、入力の特徴を人間が認識できる表現に同化します。まばらな特徴と使い慣れたプロトタイプを通じて、モデルの解釈可能性を維持します。
スーパースパース線形整数モデル (SLIM)	SLIM は、迅速で簡素化されながらも極めて正確な臨床意思決定が求められる医療アプリケーションで使用されてきました。リスク調整SLIM（RiskSLIM）と呼ばれるバージョンは刑事司法分野に適用されており、そのスパース線形アプローチは、現在使用されているいくつかの不透明なモデルと同様に、環境犯罪の予測に効果的であることが示されています。	SLIM は、そのスパース性と理解しやすさの特性により、人間中心の意思決定サポートに最適な解釈可能性を提供します。手動で完了するスコアリングシステムであるため、それを実装するファシリテーターユーザーの積極的な参加も保証されます。
ナイーブベイズ	この手法は、非現実的な特徴独立性の仮定のため単純であると考えられていますが、非常に効果的であることが知られています。高速な計算時間とスケーラビリティにより、高次元の特徴空間でのアプリケーションに適しています。一般的なアプリケーションには、スパムフィルタリング、レコメンデーションシステム、感情分析などがあります。	ナイーブベイズ分類器は、各特徴のクラスメンバーシップ確率が独立して計算されるため、解釈可能性が高くなります。しかし、独立変数の条件付き確率が統計的に独立しているという仮定も、特徴の相互作用が考慮されていないため、弱点となります。
K近傍法（KNN）	KNN はシンプルで直感的、そして幅広い用途に使える多目的な技術ですが、小規模なデータセットで最も効果的に機能します。ノンパラメトリック（基礎となるデータ分布について何も仮定しない）であるため、解釈可能性を失うことなく非線形データに対して適切に機能します。一般的なアプリケーションには、推奨システム、画像認識、顧客の評価とランキングなどがあります。	KNN は、依存するデータポイントが、同様のカテゴリや結果を生成したデータポイントにどれだけ近いかを調べることで、カテゴリや結果を予測できるという仮定に基づいて機能します。近似/近さの重要性に関するこの直感は、すべての KNN の結果の説明となります。このような説明は、特徴空間が小さく保たれ、インスタンス間の類似性が得られる場合、より説得力があります。
SVM	SVM は複雑な分類タスクに非常に汎用的です。これらは、画像内のオブジェクトの存在（顔/顔なし、猫/猫なし）を検出したり、テキストの種類（スポーツ記事/芸術記事）を分類したり、バイオインフォマティクスで興味のある遺伝子を識別したりするために使用できます。	次元特徴空間に応じて、解釈可能性のレベルは低くなります。コンテキストが決定したら、SVM の使用を補助的な解釈ツールで補完する必要があります。
アン	ANN は、高次元の特徴空間、つまり非常に大きな入力ベクトルがある場合に、さまざまな分類および予測タスクを実行するのに最適です。それらの用途としては、コンピュータービジョン、画像認識、売上および天気予報、新薬の発見および株価予測、機械翻訳、病気の診断および詐欺の検出などが考えられます。	曲線の傾向（極端な非線形性）と入力変数の高次元性により、ANN の解釈可能性は非常に低くなります。 ANN は「ブラックボックス」技術の典型と考えられています。適切な場合には、ANN の使用を支援するために解釈ツールを導入する必要があります。
ランダムフォレスト	ランダムフォレストは、単一の決定木のパフォーマンスを効果的に向上させ、エラー率を改善し、過剰適合を減らすためによく使用されます。これらはゲノム医療などの高次元の問題分野で非常に人気があり、計算言語学、計量経済学、予測リスクモデリングでも広く使用されています。	ランダムフォレストメソッドは、決定木のアンサンブルがバギングされたデータとランダムな特徴に基づいてトレーニングされる方法、特定のフォレスト内のツリーの数、および 1 つのツリーに数百または数千のノードが含まれる可能性があることにより、解釈可能性が非常に低くなる可能性があります。
収集方法	アンサンブル法には幅広い用途があり、学習モデルを構成する際の潜在的な用途が追跡されています (DT、KNN、ランダムフォレスト、NaiveBayes などを含む)。	アンサンブル法の解釈可能性は、使用される方法によって異なります。たとえば、データのランダムなサブセットでトレーニングされた学習者からの複数の推定値を平均化するバギング手法を使用するモデルは、説明が難しい場合があります。これらの手法の解釈の必要性は、それらを構成する学習者の状況に応じて個別に考慮される必要があります。

2. 薬物有害事象予測における注意ベースおよびSHAP時間的説明の臨床的有効性を評価する

説明可能な機械学習は、ブラックボックス分類モデルの決定をより人間的な方法で理解できるようにすることを目指す新興分野です。特に医療分野では、オープンで透明性のある分析と法的な意思決定結果を提供するために説明可能性が非常に重要です。説明可能性があれば、最前線の医療関係者はモデルの決定を信頼し、適切な行動を取ることができます。さらに、包括的な説明可能性により、医療行為のユーザーは、EU 一般データ保護規則 (GDPR) に基づく「説明を受ける権利」などの規制上の権利を行使できるようになります。

医療分野では、ディープラーニングモデルが電子健康記録 (EHR) データに適用され、良好な結果が得られています。たとえば、リカレントニューラルネットワーク (RNN) は、EHR 内の時間依存の異種データの複雑さを効果的に捉えることができます。しかし、RNN の大きな欠点は、固有の解釈可能性が欠如していることです。これまでの研究過程では、RETAIN を使用するなど、モデル自体の解釈性を高めるための注意メカニズムを導入するなど、RNN の解釈性を高めるためのいくつかの方法が生み出されてきました。また、事後解釈フレームワーク (SHAP など) を適用して、RNN の時間的説明を概説することもできます。

RETAIN[2]：EHRデータを分析して患者の将来の心不全リスクを予測するために使用されます。 RETAIN は注意メカニズムからヒントを得ています。2 層のニューラル注意モデルを使用し、EHR データを逆順にシステムに入力します。患者のニーズを満たし、患者の記録を分析する際に、医師が患者の過去の医療記録にある特定の特別な臨床情報とリスク要因に焦点を当てるプロセスをシミュレートします。予測結果の正確性を確保しながら、結果の解釈可能性も確保します。

SHAP[3]：ゲーム理論の原理から派生したSHAP（SHapley Additive exPlanations）は、特徴に特定の予測重要度値を割り当てます。特徴の重要度の統一された尺度として、現代の機械学習におけるほとんどのブラックボックスモデルを説明し、各特徴の機械学習モデルへの貢献を定量化できます。現在の固有値のセットが与えられた場合、実際の予測と平均予測の差に対する固有値の寄与が推定シャプレー値となります。

しかし、医療予測の分野における RNN の解釈可能な技術によって提供される時間的説明の品質に関しては、研究のギャップが存在します。説明方法として注意を使用することについては賛否両論があり、注意スコアを使用すると、個々の特徴が予測にどのように影響するかを説明するのに十分な透明性が得られることを示す証拠もあります。注意値と特徴の重要性のより直感的な尺度との相関が弱いため、注意メカニズムの有効性を疑問視する証拠もいくつかあります。実際には、モデル解釈のための視覚化プラットフォームは、注目度スコアを活用して医療予測の説明を提供することに成功しています。ただし、アテンション値を使用することの全体的な有用性については、特に SHAP などの他の解釈可能な方法を活用することと比較して、さらなる検証が必要です。

この論文の主な目的は、本質的に解釈可能な RNN が注意メカニズムを介して臨床的に互換性のある時間的説明を提供できる範囲を調査し、SHAP などの事後手法をブラックボックス RNN に適用することで、そのような説明をどのように補足または置き換えるべきかを評価することです。この記事では、特に薬物有害事象 (ADE) 予測の医学的文脈でこの問題を検討します。この記事では、私たちが解釈した「AI による決定の説明」ガイドと併せて、非線形統計手法を適用する必要がある典型的な状況について説明します。前の章では、ガイドラインで「曲線の傾向（極端な非線形性）と入力変数の高次元性により、ANN の解釈可能性は非常に低い。ANN は「ブラックボックス」技術の典型であると考えられている。適切な場合は、ANN の使用を支援する説明ツールを導入する必要がある」と明確に述べました。そこで本稿では、医療分野で応用されているANN手法に適した補助説明ツール（注目メカニズムとSHAP時間説明）を紹介する。もちろん、前の解釈で分析したように、一部のアプリケーションシナリオでは、単純なホワイトボックスモデル/方法ではアプリケーションのニーズを満たすことができません。より高い精度/予測率を確保するには、ブラックボックスアルゴリズム/モデルを使用する必要がある場合があります。次の論文では、このような状況でモデル/システムのユーザーが解釈をよりよく理解できるように、補助的な解釈ツールを導入する方法を詳しく説明します。

2.1 方法の紹介

ε = {P1, ..., Pn}がn人の患者のデータベースを表すものとします。 Pj は K 個の患者訪問データレコード Pj = {x_1, . . . , x_k} を表します。ここで、x_k は時点 t_k に発生し、診断と治療を説明する一連の医療変数を含みます。時点 t-1 における j 番目の患者の病歴データ Pj={x_1, . . . , x_t-1} を考慮して、時点 t における ADE の発生を予測し、患者の病歴の時間的構造全体がこの ADE の予測に使用される理由を正確に説明することが私たちの課題です。この問題に対処するために、本論文では、RNN モデルと解釈可能性技術を組み合わせ、グローバルおよびローカルの説明方法の比較および臨床的に検証された分析を実施します。

SHAP フレームワークは、モデルに依存しない解釈を提供するための加法的な特徴重要度メソッドのクラスを識別します。 SHAP は、グローバルに一貫した説明など、いくつかの望ましい特性を備えているため、人気のあるモデル解釈方法になりました。これは、ローカルに定義された予測がグローバルモデルの予測と一致しない可能性がある他の事後手法では提供されません。 SHAP は、ゲーム理論の Shapley 値の使用に基づいており、特定の特徴値が選択された予測に与える影響は、異なる特徴をリーグ内の異なるプレーヤーとして扱うことによって計算されます。これらの特性はそれぞれ、予測に対する相対的な貢献として見ることができ、可能な同盟全体の限界貢献を平均化することでシャプレー値として計算できます。

Shapley 値 (φ_ij と表記) は、各サンプル i および特徴 j の各固有値 x_ij の予測がデータセットの平均予測からどの程度逸脱するかを表すものとして理解できます。この研究では、各医療変数のシャプレー値を病歴の各時点について計算し、各医療変数が予測に与える影響が背景データセットに基づく予測の平均値を上回るか下回るかを説明しました。

リカレントニューラルネットワーク (RNN) は、連続データの処理に使用されるフィードフォワードニューラルネットワークモデルの一般化です。RNN は、j 個の隠れユニット h_j で構成される連続内部状態 h_t を持ち、連続状態間の依存関係を処理するメモリメカニズムとして機能します。この場合、RNN は、特に、時点をまたがる患者の診断および治療情報を指します。

この論文では、基本的な RNN アーキテクチャと SHAP を組み合わせて使用し、解釈可能性の過度な追求によってモデル自体のパフォーマンスに影響を与えることなく、RETAIN に匹敵するパフォーマンスレベルを達成して、有効性の説明方法を直接比較できるようにしたいと考えています。具体的には、本論文の基本的な RNN モデルの内部状態は、次の式を反復することによって定義されるゲート付き再帰ユニット (GRU) で構成されます。

ここで、r_j は、ある状態における各 j 番目の隠しユニットの前の状態がどの程度無視されるかを決定するリセットゲートです。h_t-1 は、前の隠し内部状態です。W と U は、ネットワークによって学習されたパラメータの重みを含む行列です。z_j は、隠し状態を新しい状態 h_new に更新する方法を決定する更新ゲートです。(h_j)^t は、隠しユニット h_j の活性化関数を表します。sigm() はシグモイド関数を表します。◦ は、アダマール積です。

この論文では、SHAPと組み合わせたGRUアーキテクチャを採用しています。このアーキテクチャには、128ユニットの2つの積み重ねられたGRU隠し層、それに続くドロップアウト層、最後にソフトマックス関数を通じて出力分類確率 ˆy を生成する完全接続層が含まれます。

本論文では、注目度に基づく時間的説明を収集するために、RETAIN の RNN アーキテクチャを採用しています。予測段階では、注目度に基づく貢献スコアを個々の医療変数のレベルで決定できます。この RNN は、まず入力ベクトル x_i の線形埋め込みで構成されます。

v_i∈R^mはバイナリ入力ベクトルx_i∈R^Vの埋め込み、W_emb∈R^(m xV)は埋め込み重みベクトル、mはV個の医療変数の埋め込み次元です。 2 つの RNN、RNNa と RNNb は、それぞれ訪問レベルと変数レベルの注意ベクトル α と β を生成するために使用されます。注意ベクトルは、RNN を時間的に逆方向に実行することによって生成されます。つまり、RNNα と RNNβ はどちらも埋め込みを逆の順序で訪問することを検討します。最後に、i 回目の診察前の各患者の状況ベクトル c_i を取得します。

最終的な予測は次のように計算されます。

注目度に基づく貢献スコアは、特定の予測に最も貢献する訪問および医療変数を識別できます。スコアは次のように計算されます。

この研究では、元の SHAP 実装の修正されたコードベースを使用して、RNN-GRU モデルに基づいて SHAP を修正しました。著者らは、1000 個のランダムサンプルからの背景データを使用して、予想される勾配に基づいて各予測の Shapley 値の近似値を提供する、深層学習モデルの勾配解釈法を採用しました。著者らは、この特定の近似は SHAP のすべての特性を保証するものではないが、この論文の目的には適していると指摘しています。

2.2 検証方法の紹介

この研究で使用されたデータベースは、ストックホルム大学のスウェーデン健康記録研究バンク (HealthBank) の 1,314,646 人の患者の診断、投薬、テキスト記録で構成されていました。この匿名化された患者記録データベースは、もともとスウェーデンのストックホルムにあるカロリンスカ大学病院の TakeCare CGM 患者記録システムから派生したものです。診断は、疾病及び関連保健問題の国際統計分類第 10 版 (ICD-10) の標準化されたコードで構成されます。薬剤は、解剖学的治療化学分類システム (ATC) に従ってコード化されます。質問の複雑さを軽減し、患者の匿名性を高めるために、ADEICD-10 以外のコードと ATC コードは、各コードの最初の 3 文字を選択して取得された上位レベルの階層カテゴリに縮小されました。さらに、訪問は月単位で定義されていたため、暦月内に患者に割り当てられたすべてのコードと薬剤の組み合わせが 1 つの訪問記録を構成していました。患者は少なくとも 3 か月分のデータに相当する、少なくとも 3 つのこのような記録を持っている必要があります。 ADE に関連する Bag-of-Words の特徴もバイナリ医療変数として抽出されました。この研究では、1,692 個の ICD-10 コード、109 個の ATC コード、および 12 個のキーワード機能を含む 1,813 個の医療変数を使用しました。

評価実験では、データはそれぞれ 0.7、0.1、0.2 の比率でトレーニングセット、検証セット、テストセットにランダムに分割されました。検証セットで最高の AUC を示したトレーニングエポックに対応するモデル構成がテストセットに展開されました。各患者には、前回の診察時に ADE があったかどうかを示すバイナリラベルが割り当てられました。各患者サンプルは、医療変数を含む一連の訪問で構成され、最後の訪問記録は削除されます。 ADE の相対的な希少性によって引き起こされるクラスの不均衡の問題に対応するために、著者らはトレーニングセット全体をランダムに分割して多数派クラスをアンダーサンプリングし、バランスの取れたトレーニングセットを作成しました。モデルの動作の変動性を考慮するために、著者は 3 つのランダムモデルとデータ分割構成の平均を使用して最終結果を生成しました。直接的なパフォーマンス比較では、RNN-GRU は RETAIN と同じ多対 1 形式で構成され、トランスエントロピー損失関数を使用してトレーニングされます。デフォルトでは、0.5 を超えるモデル出力は正の ADE 予測にマップされます。

調査された解釈可能な方法を評価するための臨床的根拠を確立するために、実験中に医学の学位を持ち、臨床薬理学の豊富な経験を持つ合計 5 人の医療専門家が採用されました。第一段階の構造化調査では、これらの専門家に、SHAP 法と注意法によって特定された全体的な医療変数を評価するよう依頼し、最終的に各方法の上位 20 個の変数が含められました。スコアは、0 を除く - 5 から 5 までの整数で構成されます。- 5 は、変数が ADE が発生しない可能性と非常に高い関連性があることを表し、5 は、変数が ADE が発生する可能性と非常に高い関連性があることを表します。次に、臨床医変数スコアの平均を計算しました。次に、実験では、両方の RNN によって正しく予測された ADE の直前に発生した医療変数の履歴を含む 10 件の代表的な個別患者記録の医療変数に対して、医療専門家に同じ評価を行うよう依頼しました。これは、被験者がアレルギー関連のADE T78.4、T78.3、およびT78.2の発生に関連する変数を評価するケーススタディタスクでした。さらに、被験者には、変数自体の重要性、他の変数との相互作用、アレルギー疾患の発症までの期間を考慮するよう求められました。時間を考慮するアプローチは、同じ医療変数の履歴記録を月ごとのウィンドウとして RNN モデルに入力することです。臨床医によって提供された平均スコアは、同じバッチ（10）の患者記録に対して説明可能性法によって提供された説明を評価するためのグラウンドトゥルースとして使用されました。

Top-k Jaccard 指数を使用して、2 つの解釈可能な方法の類似性を臨床専門家のスコアと比較します。Top-k Jaccard 指数は、共通部分のサイズを元のセットの上位 k 位のサブセットの和集合のサイズで割ったものとして定義されます。ランキングは、臨床専門家の回答の平均、または解釈可能性法によって返される Shapley 値または注目度貢献スコアから計算された降順の絶対スコアに基づいて定義されます。最後に、医療専門家に説明方法を視覚化する方法の例を示し、これらの説明が実際の臨床状況に適用できるかどうかについて考えるように依頼しました。

2.3 検証結果

表 1 は、AUC と F1 スコアの観点から見た RETAIN と RNN-GRU 構成のパフォーマンス比較を示しています。表 1 の結果から、説明を生成するために使用されるモデルのパフォーマンスは 2 つのモデルで同様であり、RETAIN のパフォーマンスがわずかに優れていることがわかります。

表1. 多対1予測構成で選択されたアーキテクチャに対して指定されたADE予測のROC曲線の下の実験テストセット領域とマイクロF1スコア

2.3.1 グローバル特徴重要度

図 1 と 2 は、2 つの方法による医療変数の上位 20 のグローバル重要度ランキングであり、データテストセット内の上位の特徴の平均絶対 SHAP 値と平均絶対注目度値を示しています。図 3 は、医療変数のスコアリングに説明したステークホルダーエンゲージメントアプローチによって生成された臨床専門家の平均絶対スコアを示しています。明確にするために、著者らは、すべての患者診察を通じて特定の医療変数が出現した各事例について寄与係数スコアの平均絶対値を計算することにより、注目寄与スコアの全体的な重要性を報告しています。

図 1. RETAIN モデルの平均注目度貢献スコアによる上位の医療変数。 ATCコードには「M」が先頭に付きます

図 2. 平均 SHAP 値に基づく RNN-GRU モデルの出力への影響に基づく上位の医療変数。 ATC コードの先頭には「M」が付きます。 KWord* としてマークされたキーワード機能

図 3. 臨床専門家によって定義されたスコアによる上位の医療変数。 ATCコードには「M」が先頭に付きます

表 2 は、SHAP と注目度ランキングを医療専門家ランキングと比較した上位 k の Jaccard 指数の結果を示しています。表 2 から、注目度ランキングと比較して、SHAP は各 k 値で医療専門家に対してより類似した全体的な説明を提供していることがわかります。

表2. 解釈可能性手法と臨床専門家による最も重要な医療変数のランキング間のトップkジャカード類似度の比較

2.3.2 アレルギー性有害事象の個別的解釈に関する事例研究

表 3 は、アレルギー ADE のケーススタディの結果を示しており、10 件の代表的なケースの平均臨床専門家スコアランキングと、ATTENTION および SHAP によって提供される同等の説明スコアランキングを比較しています。各 Jaccard 指数について、臨床スコアに最も類似する注目度ベースのスコアの上位 k% が選択されました。

表3. 単一の患者記録における最も重要な医療変数に対する解釈可能性手法と臨床専門家の平均Top-k% Jaccard類似度の比較

2.3.3 臨床問題の視覚的説明に対するフィードバック

図4はSHAPの時間的説明を示し、表4は対応する注意メカニズムの時間的説明を示しています。 SHAP の解釈は、SHAP の特徴加法特性を通じて提供され、各時点での Shapley 値の合計を通じて、医学的特徴の有無が予測をどのように定義するかを直感的に確認できます。注意の解釈では、貢献値は相対的な重要性のみを反映するため、このような視覚化は不可能です。

被験者には 2 つのアプローチの説明が与えられ、どちらの説明を好むか、説明を理解する上でどのような課題に直面したか、説明を改善するための提案について回答するよう求められました。まず、5 人の専門家のうち 4 人が、SHAP による説明を好みました。これは、注意の説明よりも ADE リスクのより完全な見解を提供できる、よりシンプルな説明だったためです。第二に、参加者の主な懸念は、説明で提供された情報が多すぎてほとんどの臨床状況で使用できず、変数の不在がどのようにリスクにつながるのかを直感的に説明できないことでした。改善の提案としては、解釈の理解の効率を高めるために、可能な場合は医療変数を少なく表示すること、そして、そのような解釈を使用する臨床医が詳細なトレーニングを受けられるようにすることです。

図 4. 臨床専門家に提示された SHAP の説明。 ADE の真陽性予測の例。SHAP を使用して評価された 7 回の患者訪問にわたる ADE リスクの推移を示しており、最後の訪問で ADE が示されています。値 = 0 と = 1 は、それぞれリスクの原因となる変数が存在しない、または存在することを示します。

表 4. 図 4 に対応する真陽性の ADE 説明の例 (薬剤、診断、テキストデータを含む RETAIN モデルを使用)。アクセススコアと予測スコアは、対応する ADE コードのソフトマックス確率を参照します。

2.4 記事の議論

まず、私たちの実験では、RETAIN モデルと RNN-GRU モデルの予測パフォーマンス結果が類似していることがわかりました。この発見は、特定の方法によって生成された説明が、説明方法自体ではなくモデルのパフォーマンスが低いために臨床的に妥当性が低くなるというバイアスを誘発したくないため、臨床的妥当性の評価にとって重要です。さらに、図 1 および 2 の全体的な特徴の説明を、図 3 の臨床専門家のランキングと比較すると、両方のランキングは独特であり、医学における ADE とほぼ一致しています。

SHAPは、TOP-K Jaccardインデックスごとに、より臨床的に検証されたグローバル解釈を提供します。これは、注意ランキングに表示されないテキスト機能のランキングの大部分に大きく影響されます。個々の説明の観点から、注意は各TOP-K Jaccardインデックスに対して最も臨床的に有効な説明を提供し、関連するドメインの知識をキャプチャして活用する能力のために、注意を解釈可能な方法として却下すべきではないことを示唆しています。

最後に、図4と表4の説明に関する医療専門家のフィードバックから学んだ重要な教訓は、SHAPが予測への特徴の寄与を視覚化する際の加算性のため、よりコンパクトで効率的な説明を提供することです。このコンパクトさは、効率が優先事項であるリアルタイムの臨床相談にとって重要です。一方、注意メカニズムは同じコンパクト性や添加剤を提供しないため、時間が制限されていない詳細なオフライン解釈や臨床的相談には好ましい場合があります。

3. まとめ

ICOとAlan-Turing Instituteが共催する「AIで行われたAIで行われた決定」（2020）は、AIシステムを使用した組織における説明責任と透明性要件の実用的な翻訳の広範な調査です。

過去10年ほどで、AIアルゴリズム/モデルは途方もない開発を達成し、「ホワイトボックス」から「ブラックボックス」に継続的に改善しました。国内外でのデジタル経済の発展により、アルゴリズム/モデルの公平性、透明性、説明可能性、説明責任にますます注目されています。人間がアルゴリズムにますます奴隷にされるようにするのではなく、テクノロジーをより良い人類にサービスを提供するために、AIの決定は、将来、より効果的で実現可能な説明方法の出現を楽しみにしている問題であると考えられています。

<<: AIからドローンまで: 4Gと5Gが未来の工場をどう変えるのか

>>: 形式言語を認識する能力が不十分で、不完全なトランスフォーマーは自己注意の理論的欠陥を克服する必要がある