英国の情報コミッショナー事務局(ICO)とアラン・チューリング研究所は共同で「AIによる説明決定」ガイドを発表した。このガイドは、機関や組織に実用的なアドバイスを提供し、AI によって提供または支援される手順、サービス、決定をそれらの影響を受ける個人に説明するとともに、機関や組織が EU GDPR などの個人情報保護に関連するポリシー要件に準拠できるように支援することを目的としています。このガイドは、パート 1: 説明可能な AI の基礎、パート 2: 説明可能な AI の実践、パート 3: 機関/組織にとっての説明可能な AI の重要性の 3 つのパートに分かれています。最後に、このガイドでは、主流の AI アルゴリズム/モデルに適用可能なシナリオと、これらのアルゴリズム/モデルの解釈可能性分析を提供します。これは、適用シナリオの特性に基づいて、実際のタスクでドメイン要件を満たすことができる解釈可能な AI アルゴリズム/モデルを選択するためのリファレンスとして使用できます。 この記事では、「AI による説明決定」ガイドを組み合わせて、アルゴリズムの適用シナリオと説明可能性分析の概要に焦点を当てます。さらに、解釈可能な方法に関する最新の研究の進歩を理解するために、医療分野における解釈可能な方法に関する最近の論文「薬物有害事象予測における注意および SHAP ベースの時間的説明の臨床的有効性の評価」も解釈しました。 1. アルゴリズムの適用シナリオと解釈可能性の分析ガイド「AI による説明決定」では、主流の AI アルゴリズム/モデルに適用可能なシナリオと、これらのアルゴリズム/モデルの解釈可能性分析が提供されています。著者は、主流のモデルの解釈可能性を要約しています。
2. 薬物有害事象予測における注意ベースおよびSHAP時間的説明の臨床的有効性を評価する説明可能な機械学習は、ブラックボックス分類モデルの決定をより人間的な方法で理解できるようにすることを目指す新興分野です。特に医療分野では、オープンで透明性のある分析と法的な意思決定結果を提供するために説明可能性が非常に重要です。説明可能性があれば、最前線の医療関係者はモデルの決定を信頼し、適切な行動を取ることができます。さらに、包括的な説明可能性により、医療行為のユーザーは、EU 一般データ保護規則 (GDPR) に基づく「説明を受ける権利」などの規制上の権利を行使できるようになります。 医療分野では、ディープラーニング モデルが電子健康記録 (EHR) データに適用され、良好な結果が得られています。たとえば、リカレントニューラルネットワーク (RNN) は、EHR 内の時間依存の異種データの複雑さを効果的に捉えることができます。しかし、RNN の大きな欠点は、固有の解釈可能性が欠如していることです。これまでの研究過程では、RETAIN を使用するなど、モデル自体の解釈性を高めるための注意メカニズムを導入するなど、RNN の解釈性を高めるためのいくつかの方法が生み出されてきました。また、事後解釈フレームワーク (SHAP など) を適用して、RNN の時間的説明を概説することもできます。
しかし、医療予測の分野における RNN の解釈可能な技術によって提供される時間的説明の品質に関しては、研究のギャップが存在します。説明方法として注意を使用することについては賛否両論があり、注意スコアを使用すると、個々の特徴が予測にどのように影響するかを説明するのに十分な透明性が得られることを示す証拠もあります。注意値と特徴の重要性のより直感的な尺度との相関が弱いため、注意メカニズムの有効性を疑問視する証拠もいくつかあります。実際には、モデル解釈のための視覚化プラットフォームは、注目度スコアを活用して医療予測の説明を提供することに成功しています。ただし、アテンション値を使用することの全体的な有用性については、特に SHAP などの他の解釈可能な方法を活用することと比較して、さらなる検証が必要です。 この論文の主な目的は、本質的に解釈可能な RNN が注意メカニズムを介して臨床的に互換性のある時間的説明を提供できる範囲を調査し、SHAP などの事後手法をブラックボックス RNN に適用することで、そのような説明をどのように補足または置き換えるべきかを評価することです。この記事では、特に薬物有害事象 (ADE) 予測の医学的文脈でこの問題を検討します。この記事では、私たちが解釈した「AI による決定の説明」ガイドと併せて、非線形統計手法を適用する必要がある典型的な状況について説明します。前の章では、ガイドラインで「曲線の傾向(極端な非線形性)と入力変数の高次元性により、ANN の解釈可能性は非常に低い。ANN は「ブラック ボックス」技術の典型であると考えられている。適切な場合は、ANN の使用を支援する説明ツールを導入する必要がある」と明確に述べました。そこで本稿では、医療分野で応用されているANN手法に適した補助説明ツール(注目メカニズムとSHAP時間説明)を紹介する。もちろん、前の解釈で分析したように、一部のアプリケーション シナリオでは、単純なホワイト ボックス モデル/方法ではアプリケーションのニーズを満たすことができません。より高い精度/予測率を確保するには、ブラック ボックス アルゴリズム/モデルを使用する必要がある場合があります。次の論文では、このような状況でモデル/システムのユーザーが解釈をよりよく理解できるように、補助的な解釈ツールを導入する方法を詳しく説明します。 2.1 方法の紹介ε = {P1, ..., Pn}がn人の患者のデータベースを表すものとします。 Pj は K 個の患者訪問データ レコード Pj = {x_1, . . . , x_k} を表します。ここで、x_k は時点 t_k に発生し、診断と治療を説明する一連の医療変数を含みます。時点 t-1 における j 番目の患者の病歴データ Pj={x_1, . . . , x_t-1} を考慮して、時点 t における ADE の発生を予測し、患者の病歴の時間的構造全体がこの ADE の予測に使用される理由を正確に説明することが私たちの課題です。この問題に対処するために、本論文では、RNN モデルと解釈可能性技術を組み合わせ、グローバルおよびローカルの説明方法の比較および臨床的に検証された分析を実施します。 SHAP フレームワークは、モデルに依存しない解釈を提供するための加法的な特徴重要度メソッドのクラスを識別します。 SHAP は、グローバルに一貫した説明など、いくつかの望ましい特性を備えているため、人気のあるモデル解釈方法になりました。これは、ローカルに定義された予測がグローバル モデルの予測と一致しない可能性がある他の事後手法では提供されません。 SHAP は、ゲーム理論の Shapley 値の使用に基づいており、特定の特徴値が選択された予測に与える影響は、異なる特徴をリーグ内の異なるプレーヤーとして扱うことによって計算されます。これらの特性はそれぞれ、予測に対する相対的な貢献として見ることができ、可能な同盟全体の限界貢献を平均化することでシャプレー値として計算できます。 Shapley 値 (φ_ij と表記) は、各サンプル i および特徴 j の各固有値 x_ij の予測がデータ セットの平均予測からどの程度逸脱するかを表すものとして理解できます。この研究では、各医療変数のシャプレー値を病歴の各時点について計算し、各医療変数が予測に与える影響が背景データセットに基づく予測の平均値を上回るか下回るかを説明しました。 リカレント ニューラル ネットワーク (RNN) は、連続データの処理に使用されるフィードフォワード ニューラル ネットワーク モデルの一般化です。RNN は、j 個の隠れユニット h_j で構成される連続内部状態 h_t を持ち、連続状態間の依存関係を処理するメモリ メカニズムとして機能します。この場合、RNN は、特に、時点をまたがる患者の診断および治療情報を指します。 この論文では、基本的な RNN アーキテクチャと SHAP を組み合わせて使用し、解釈可能性の過度な追求によってモデル自体のパフォーマンスに影響を与えることなく、RETAIN に匹敵するパフォーマンス レベルを達成して、有効性の説明方法を直接比較できるようにしたいと考えています。具体的には、本論文の基本的な RNN モデルの内部状態は、次の式を反復することによって定義されるゲート付き再帰ユニット (GRU) で構成されます。 ここで、r_j は、ある状態における各 j 番目の隠しユニットの前の状態がどの程度無視されるかを決定するリセット ゲートです。h_t-1 は、前の隠し内部状態です。W と U は、ネットワークによって学習されたパラメータの重みを含む行列です。z_j は、隠し状態を新しい状態 h_new に更新する方法を決定する更新ゲートです。(h_j)^t は、隠しユニット h_j の活性化関数を表します。sigm() はシグモイド関数を表します。◦ は、アダマール積です。 この論文では、SHAPと組み合わせたGRUアーキテクチャを採用しています。このアーキテクチャには、128ユニットの2つの積み重ねられたGRU隠し層、それに続くドロップアウト層、最後にソフトマックス関数を通じて出力分類確率 ˆy を生成する完全接続層が含まれます。 本論文では、注目度に基づく時間的説明を収集するために、RETAIN の RNN アーキテクチャを採用しています。予測段階では、注目度に基づく貢献スコアを個々の医療変数のレベルで決定できます。この RNN は、まず入力ベクトル x_i の線形埋め込みで構成されます。 v_i∈R^mはバイナリ入力ベクトルx_i∈R^Vの埋め込み、W_emb∈R^(m xV)は埋め込み重みベクトル、mはV個の医療変数の埋め込み次元です。 2 つの RNN、RNNa と RNNb は、それぞれ訪問レベルと変数レベルの注意ベクトル α と β を生成するために使用されます。注意ベクトルは、RNN を時間的に逆方向に実行することによって生成されます。つまり、RNNα と RNNβ はどちらも埋め込みを逆の順序で訪問することを検討します。最後に、i 回目の診察前の各患者の状況ベクトル c_i を取得します。 最終的な予測は次のように計算されます。 注目度に基づく貢献スコアは、特定の予測に最も貢献する訪問および医療変数を識別できます。スコアは次のように計算されます。 この研究では、元の SHAP 実装の修正されたコード ベースを使用して、RNN-GRU モデルに基づいて SHAP を修正しました。著者らは、1000 個のランダム サンプルからの背景データを使用して、予想される勾配に基づいて各予測の Shapley 値の近似値を提供する、深層学習モデルの勾配解釈法を採用しました。著者らは、この特定の近似は SHAP のすべての特性を保証するものではないが、この論文の目的には適していると指摘しています。 2.2 検証方法の紹介この研究で使用されたデータベースは、ストックホルム大学のスウェーデン健康記録研究バンク (HealthBank) の 1,314,646 人の患者の診断、投薬、テキスト記録で構成されていました。この匿名化された患者記録データベースは、もともとスウェーデンのストックホルムにあるカロリンスカ大学病院の TakeCare CGM 患者記録システムから派生したものです。診断は、疾病及び関連保健問題の国際統計分類第 10 版 (ICD-10) の標準化されたコードで構成されます。薬剤は、解剖学的治療化学分類システム (ATC) に従ってコード化されます。質問の複雑さを軽減し、患者の匿名性を高めるために、ADEICD-10 以外のコードと ATC コードは、各コードの最初の 3 文字を選択して取得された上位レベルの階層カテゴリに縮小されました。さらに、訪問は月単位で定義されていたため、暦月内に患者に割り当てられたすべてのコードと薬剤の組み合わせが 1 つの訪問記録を構成していました。患者は少なくとも 3 か月分のデータに相当する、少なくとも 3 つのこのような記録を持っている必要があります。 ADE に関連する Bag-of-Words の特徴もバイナリ医療変数として抽出されました。この研究では、1,692 個の ICD-10 コード、109 個の ATC コード、および 12 個のキーワード機能を含む 1,813 個の医療変数を使用しました。 評価実験では、データはそれぞれ 0.7、0.1、0.2 の比率でトレーニング セット、検証セット、テスト セットにランダムに分割されました。検証セットで最高の AUC を示したトレーニング エポックに対応するモデル構成がテスト セットに展開されました。各患者には、前回の診察時に ADE があったかどうかを示すバイナリ ラベルが割り当てられました。各患者サンプルは、医療変数を含む一連の訪問で構成され、最後の訪問記録は削除されます。 ADE の相対的な希少性によって引き起こされるクラスの不均衡の問題に対応するために、著者らはトレーニング セット全体をランダムに分割して多数派クラスをアンダーサンプリングし、バランスの取れたトレーニング セットを作成しました。モデルの動作の変動性を考慮するために、著者は 3 つのランダム モデルとデータ分割構成の平均を使用して最終結果を生成しました。直接的なパフォーマンス比較では、RNN-GRU は RETAIN と同じ多対 1 形式で構成され、トランスエントロピー損失関数を使用してトレーニングされます。デフォルトでは、0.5 を超えるモデル出力は正の ADE 予測にマップされます。 調査された解釈可能な方法を評価するための臨床的根拠を確立するために、実験中に医学の学位を持ち、臨床薬理学の豊富な経験を持つ合計 5 人の医療専門家が採用されました。第一段階の構造化調査では、これらの専門家に、SHAP 法と注意法によって特定された全体的な医療変数を評価するよう依頼し、最終的に各方法の上位 20 個の変数が含められました。スコアは、0 を除く - 5 から 5 までの整数で構成されます。- 5 は、変数が ADE が発生しない可能性と非常に高い関連性があることを表し、5 は、変数が ADE が発生する可能性と非常に高い関連性があることを表します。次に、臨床医変数スコアの平均を計算しました。次に、実験では、両方の RNN によって正しく予測された ADE の直前に発生した医療変数の履歴を含む 10 件の代表的な個別患者記録の医療変数に対して、医療専門家に同じ評価を行うよう依頼しました。これは、被験者がアレルギー関連のADE T78.4、T78.3、およびT78.2の発生に関連する変数を評価するケーススタディタスクでした。さらに、被験者には、変数自体の重要性、他の変数との相互作用、アレルギー疾患の発症までの期間を考慮するよう求められました。時間を考慮するアプローチは、同じ医療変数の履歴記録を月ごとのウィンドウとして RNN モデルに入力することです。臨床医によって提供された平均スコアは、同じバッチ(10)の患者記録に対して説明可能性法によって提供された説明を評価するためのグラウンドトゥルースとして使用されました。 Top-k Jaccard 指数を使用して、2 つの解釈可能な方法の類似性を臨床専門家のスコアと比較します。Top-k Jaccard 指数は、共通部分のサイズを元のセットの上位 k 位のサブセットの和集合のサイズで割ったものとして定義されます。ランキングは、臨床専門家の回答の平均、または解釈可能性法によって返される Shapley 値または注目度貢献スコアから計算された降順の絶対スコアに基づいて定義されます。最後に、医療専門家に説明方法を視覚化する方法の例を示し、これらの説明が実際の臨床状況に適用できるかどうかについて考えるように依頼しました。 2.3 検証結果表 1 は、AUC と F1 スコアの観点から見た RETAIN と RNN-GRU 構成のパフォーマンス比較を示しています。表 1 の結果から、説明を生成するために使用されるモデルのパフォーマンスは 2 つのモデルで同様であり、RETAIN のパフォーマンスがわずかに優れていることがわかります。 表1. 多対1予測構成で選択されたアーキテクチャに対して指定されたADE予測のROC曲線の下の実験テストセット領域とマイクロF1スコア 2.3.1 グローバル特徴重要度 図 1 と 2 は、2 つの方法による医療変数の上位 20 のグローバル重要度ランキングであり、データ テスト セット内の上位の特徴の平均絶対 SHAP 値と平均絶対注目度値を示しています。図 3 は、医療変数のスコアリングに説明したステークホルダー エンゲージメント アプローチによって生成された臨床専門家の平均絶対スコアを示しています。明確にするために、著者らは、すべての患者診察を通じて特定の医療変数が出現した各事例について寄与係数スコアの平均絶対値を計算することにより、注目寄与スコアの全体的な重要性を報告しています。 図 1. RETAIN モデルの平均注目度貢献スコアによる上位の医療変数。 ATCコードには「M」が先頭に付きます 図 2. 平均 SHAP 値に基づく RNN-GRU モデルの出力への影響に基づく上位の医療変数。 ATC コードの先頭には「M」が付きます。 KWord* としてマークされたキーワード機能 図 3. 臨床専門家によって定義されたスコアによる上位の医療変数。 ATCコードには「M」が先頭に付きます 表 2 は、SHAP と注目度ランキングを医療専門家ランキングと比較した上位 k の Jaccard 指数の結果を示しています。表 2 から、注目度ランキングと比較して、SHAP は各 k 値で医療専門家に対してより類似した全体的な説明を提供していることがわかります。 表2. 解釈可能性手法と臨床専門家による最も重要な医療変数のランキング間のトップkジャカード類似度の比較 2.3.2 アレルギー性有害事象の個別的解釈に関する事例研究 表 3 は、アレルギー ADE のケース スタディの結果を示しており、10 件の代表的なケースの平均臨床専門家スコア ランキングと、ATTENTION および SHAP によって提供される同等の説明スコア ランキングを比較しています。各 Jaccard 指数について、臨床スコアに最も類似する注目度ベースのスコアの上位 k% が選択されました。 表3. 単一の患者記録における最も重要な医療変数に対する解釈可能性手法と臨床専門家の平均Top-k% Jaccard類似度の比較 2.3.3 臨床問題の視覚的説明に対するフィードバック 図4はSHAPの時間的説明を示し、表4は対応する注意メカニズムの時間的説明を示しています。 SHAP の解釈は、SHAP の特徴加法特性を通じて提供され、各時点での Shapley 値の合計を通じて、医学的特徴の有無が予測をどのように定義するかを直感的に確認できます。注意の解釈では、貢献値は相対的な重要性のみを反映するため、このような視覚化は不可能です。 被験者には 2 つのアプローチの説明が与えられ、どちらの説明を好むか、説明を理解する上でどのような課題に直面したか、説明を改善するための提案について回答するよう求められました。まず、5 人の専門家のうち 4 人が、SHAP による説明を好みました。これは、注意の説明よりも ADE リスクのより完全な見解を提供できる、よりシンプルな説明だったためです。第二に、参加者の主な懸念は、説明で提供された情報が多すぎてほとんどの臨床状況で使用できず、変数の不在がどのようにリスクにつながるのかを直感的に説明できないことでした。改善の提案としては、解釈の理解の効率を高めるために、可能な場合は医療変数を少なく表示すること、そして、そのような解釈を使用する臨床医が詳細なトレーニングを受けられるようにすることです。 図 4. 臨床専門家に提示された SHAP の説明。 ADE の真陽性予測の例。SHAP を使用して評価された 7 回の患者訪問にわたる ADE リスクの推移を示しており、最後の訪問で ADE が示されています。値 = 0 と = 1 は、それぞれリスクの原因となる変数が存在しない、または存在することを示します。 表 4. 図 4 に対応する真陽性の ADE 説明の例 (薬剤、診断、テキスト データを含む RETAIN モデルを使用)。アクセス スコアと予測スコアは、対応する ADE コードのソフトマックス確率を参照します。 2.4 記事の議論まず、私たちの実験では、RETAIN モデルと RNN-GRU モデルの予測パフォーマンス結果が類似していることがわかりました。この発見は、特定の方法によって生成された説明が、説明方法自体ではなくモデルのパフォーマンスが低いために臨床的に妥当性が低くなるというバイアスを誘発したくないため、臨床的妥当性の評価にとって重要です。さらに、図 1 および 2 の全体的な特徴の説明を、図 3 の臨床専門家のランキングと比較すると、両方のランキングは独特であり、医学における ADE とほぼ一致しています。 SHAPは、TOP-K Jaccardインデックスごとに、より臨床的に検証されたグローバル解釈を提供します。これは、注意ランキングに表示されないテキスト機能のランキングの大部分に大きく影響されます。個々の説明の観点から、注意は各TOP-K Jaccardインデックスに対して最も臨床的に有効な説明を提供し、関連するドメインの知識をキャプチャして活用する能力のために、注意を解釈可能な方法として却下すべきではないことを示唆しています。 最後に、図4と表4の説明に関する医療専門家のフィードバックから学んだ重要な教訓は、SHAPが予測への特徴の寄与を視覚化する際の加算性のため、よりコンパクトで効率的な説明を提供することです。このコンパクトさは、効率が優先事項であるリアルタイムの臨床相談にとって重要です。一方、注意メカニズムは同じコンパクト性や添加剤を提供しないため、時間が制限されていない詳細なオフライン解釈や臨床的相談には好ましい場合があります。 3. まとめICOとAlan-Turing Instituteが共催する「AIで行われたAIで行われた決定」(2020)は、AIシステムを使用した組織における説明責任と透明性要件の実用的な翻訳の広範な調査です。 過去10年ほどで、AIアルゴリズム/モデルは途方もない開発を達成し、「ホワイトボックス」から「ブラックボックス」に継続的に改善しました。国内外でのデジタル経済の発展により、アルゴリズム/モデルの公平性、透明性、説明可能性、説明責任にますます注目されています。人間がアルゴリズムにますます奴隷にされるようにするのではなく、テクノロジーをより良い人類にサービスを提供するために、AIの決定は、将来、より効果的で実現可能な説明方法の出現を楽しみにしている問題であると考えられています。 |
<<: AIからドローンまで: 4Gと5Gが未来の工場をどう変えるのか
>>: 形式言語を認識する能力が不十分で、不完全なトランスフォーマーは自己注意の理論的欠陥を克服する必要がある
すでに、いくつかの日常的または退屈な作業がロボットや自動化によって置き換えられていますが、それによっ...
7月24日、C#とTypeScriptの父であるAnders Hejlsberg氏が、ユーザーがAI...
待望の2020年世界インターネット会議が先日、烏鎮で開催されました。中国サイバースペースアカデミーが...
ビッグデータダイジェスト制作編集:ダイジェスト近年、コンピュータービジョン(CV)の発展は止められず...
[51CTO.comからのオリジナル記事]最近、UiPathとSF Supply Chainは共同オ...
[[225687]]近年、人工知能と機械学習のツールと技術が急速に進歩していることは驚くべきことで...
さまざまなスマート電子製品の普及により、ほとんどの人が知能についてある程度理解するようになりました。...
7月5日、マサチューセッツ工科大学(MIT)とマイクロソフトの研究者らは、GPT-4モデルには優れ...
[[442725]]この記事はWeChatの公開アカウント「Python Technology」から...
[[256519]] 2019年1月現在の人工知能の現状は?最近の調査では、AI の人気、測定可能な...
今年の「テクノロジー スプリング フェスティバル ガラ」CES で最も注目を集めたものは何かと聞かれ...
GPT をゼロから構築するには 60 行のコードが必要ですか?最近、開発者が Numpy コードを使...