モデルの解釈可能性に関する詳細な考察: それはどこから来て、どこに向かうのか?

この記事の著者である Cody Marie Wild は、機械学習分野のデータサイエンティスト (現在は phos で勤務) であるだけでなく、猫を飼っています。彼女は言語とシンプルでエレガントなシステムが大好きです。同時に、Cody Marie Wild は専門的な知識探求者でもあると主張しています。

[[230124]]

最近、Cody Marie Wild は、機械学習の分野におけるいくつかのホットな話題について考え始めました。それは、一般的なインテリジェントアクターを学習することの可能性と限界、アルゴリズムの公平性に関する微妙かつ真に形式化された課題、そして現在のホットな話題である、モデルが人間にとって説明可能で理解可能であるとはどういう意味か、という話題です。 Cody Marie Wild さんが自身の考えを紹介する記事を書いており、以下にそれをまとめて翻訳しました。

人々の新しいアイデアがますます複雑化するモデルアーキテクチャに置き換えられ、何層にも重なるモデルの重みでほとんど失われつつあるため、機械学習の解釈可能性にさらに注目するよう求める声が高まっています。過去 2 年間、NIPS は関連トピックに関するセミナーを開催し、DARPA (国防高等研究計画局) も説明可能な AI プロジェクトに資金を提供しています。同時に、欧州諸国の AI プロジェクトも、欧州連合の新しい要件に対応するために急いでいます。すべてのプロジェクトで、AI モデルによって行われた「重要な決定」は例外なくユーザーに説明されると述べています。

[[230125]]

なんてこった！このピクセルの重要度熱強度は幽霊の顔のように見える

Cody Marie Wild は、「モデルの解釈可能性」に関する議論は通常、3 つの主要な派閥に分かれていることを発見しました。

モデルの安定性に対する不安。この思考モードに関して最も心配なのは、モデルが下した決定を反映する能力が欠如しており、最終的にはモデルがさまざまな方法で不適切なパターンを学習する可能性があることです。これはよくあるケースです。病院の戦略では、喘息患者を毎回集中治療室に送ることになっているため（患者は重篤な状態であり、すぐに治療が必要です）、モデルは喘息患者の死亡リスクが低いと信じるようになりました。主要なシナリオで使用する場合、モデルには、シナリオの「キー」の背後にある原則をどのように学習するかをテストする機能もあります。多くの場合、これらのモデルは経験豊富な専門家によって導入されますが、彼ら自身が保証できないモデルを導入することは決してありません。
人間は、これらの説明できないモデルから新しい知識を抽出したいと考えています。このようにして、世界についての新しい理解を得ることができます。応用科学で機械学習を使用するほとんどの人は、この観点から考えています。ここで、「モデルの解釈可能性」は付加価値と見なされます。なぜなら、機械の抽象化を意味のある人間の概念に変換できれば、人間はこれらの概念を既存の知識ネットワークに再編成し、それを使用してさらなる研究を推進できる可能性があるからです。
モデルが私たちに関係のある決定を下すとき、私たちはその背後にある論理的な理由を知る権利があると感じます。これは説明するのが少し難しいですが、強い感情が伴います。これは機械の偏りに関する議論にも関連しており、確かにブラックボックス内のモデルは社会的情報を不適切に使用していると主張する人が多く、その観点から議論しています。しかし著者は、モデルと比較して、人間社会は公平性の概念をより広く理解していると考えています。たとえば、人が決定（融資や審問）を下すときは、説得力のある理由を示した場合にのみ納得できます。相手が決断や行動の理由を話してくれたら、その理由を使って、それに基づいて相手と議論することもできます。同様に、モデルによって圧制され、矛盾した不透明な決定を下されたときに無防備な気持ちになる気持ちも理解できます。可能であれば、他の人がこのモデルのロジックを使用することを確実に防止するでしょう。

モデルの複雑なアーキテクチャによってモデルの解釈可能性が低下するのはなぜでしょうか?

ResNet モデルが解釈できないのはなぜですか?この質問は少々決まり文句のように聞こえるかもしれません。モデルに欠けている基本的な特性は何ですか?これは、システム自体が完全に決定論的であるという事実に関係しています。モデルがトレーニングされると、モデル内のすべての量を他のすべての量に関連付ける方程式を記述できるためです。著者は、モデルが解釈可能性を欠く根本的な理由は、モデル自体の欠陥とはほとんど関係がなく、むしろ人間の認知的欠陥に関係していると考えています。人間が「考える」とき、脳は関連する意味のある概念をそれぞれ単位として使ってアイデアを形成し、通常、それらの概念を抽象化、一般化、そして時には圧縮して処理しやすくする必要があります。人間が物語エッセイを与えられた場合と、3 つの重み付けされたモデルマトリックスを与えられた場合、2 つのまったく異なるレベルの説明が得られます。これは、人間がモデルマトリックスに含まれるすべての情報を一度に脳に記録することは不可能であるためです。これは現実的でも不可能でもあります。これにより、著者は「モデルの解釈可能性」の重要な概念に気付きました。複雑なモデルの解釈可能な表現は、大まかに言って、それ自体の圧縮された表現と見なされることが多いということです。

この概念は真の解釈可能性のために必要な概念であり、ディープラーニングモデルの不明瞭さに囚われているすべての人にとっての扉を開きます。理解が難しい理由の一部は、モデル自体の複雑なアーキテクチャによるものであることは確かです。しかし、著者は、この問題の一部は、ディープラーニングが歴史的に非常に生の入データも効率的に処理できたという事実によるものだとも指摘したい。対照的に、人が経済センサスデータを入力特徴として使用する必要がある場合、特徴を計算する因果関係の連鎖は、人間が意味があり価値があると考える方向に従うため、このように定義された特徴も、人間が意味があると考える概念を表します。ピクセル値などの非常に生の入力データの場合、個々の入力値がどの概念とも関連付けられていないという問題が発生します。モデルがどのレベルの高レベル抽象化を使用するかに関係なく、これらはモデルが独自に学習した抽象化であり、人間がシステムに入力した概念ではありません。ニューロンや層の視覚化を行うと、モデルが意味を探し回っているのがわかります。そして、機械の抽象化が人間の心にうまく埋め込まれることを期待するのは誤解を招くとある程度わかっているにもかかわらず、このモデルは人間の目を認識し、別のモデルは建物を認識するなど、私たちは必然的に人間の概念をモデルに結び付けようとします。

モデルの解釈可能性にはどのような種類がありますか?

モデルの解釈可能性の問題を提起することを意図した LIME、Shapley 値、Neuron Visualization などの論文を読んでいると、著者はそれらが次のカテゴリに分類できることを発見しました。

特徴の帰属 VS 内部ロジック:著者の意見では、最も意味のある分類は、さまざまな解釈可能性の方法を 2 つのカテゴリに分けることです。1 つのカテゴリは特徴に帰属値を割り当てようとし、もう 1 つのカテゴリはモデルの真の内部動作ロジックを明らかにしようとします。 Shapley値とLIME法は最初のカテゴリに分類できます。主な目的は、モデルの動作を元の入力機能セットにマッピングすること（またはオプションの入力機能を人工的に作成すること）であり、モデルの複雑な意思決定プロセスでは、影響力の大きい機能に大きな重みが割り当てられます。対照的に、レイヤーテンプレートの視覚化などの方法は後者のカテゴリに属し、最終的な答えに至る過程の媒体としてモデルが作成する抽象化を理解しようとします。ある意味では、これらのアプローチは両方とも「モデルの解釈可能性」に対処していますが、著者の意見では、「モデルの解釈可能性」のこれらのさまざまなサブ目標に名前を付けるために、いくつかの明確な名前を広く採用することは価値があります。

シミュレーションを通じて得られた知識と内省を通じて得られた知識: 2 番目の、あまり明確ではない区別は、特定の解釈可能性方法の目標とは関係なく、むしろその目標を達成するために使用される技術によって決まります。シミュレーションベースの知識とは、何らかの形式のシミュレートされたデータを生成し、それらのデータポイントでモデルがどのように動作するかをキャプチャし、それを理解のために使用することで、モデルを理解することを意味します。この分類は、以前の分類とは方向性が異なります。LIME（ローカルデータサンプルをシミュレートし、ローカルカーネルを使用する）やニューロン可視化（ピクセルを数値的に最適化して内部状態を高い活性化値にする）も、この分類では「シミュレーション方法」側に分類されます。対照的に、内省的な知識の獲得は、モデルの固定された方向を適用し、前者のシミュレーションを実行することなくそれらを使用して知識を獲得することから生まれます。この 2 番目のカテゴリのモデルの例としては、線形モデルの基本特徴重要度 (線形項と定数項は、特徴重要度を解析的に計算できることを意味します) と、ランダムフォレストアンサンブルモデルのジニ係数低減特徴重要度が挙げられます。これらはどちらもトレーニング済みモデルのプロパティです。しかし、一般的には、それにもかかわらず、著者らは後者のカテゴリーの方法はより複雑なモデルには適用できないと考えており、そのため「モデルの解釈可能性」に関する新たに発表された論文のほとんどは前者のカテゴリーに属しています。

人間が完全に理解できない（そして完全に制御できないかもしれない）システムを構築することは、本質的に誇大妄想狂を生み出すのと同じだという非難が、最近の複雑なモデラーに対してよく向けられています。しかし、機械化や自動化に強く反対した英国の職人（ラッダイト運動）の場合のように、モデルを完全に理解したいという人間の欲求が時折挫折することもある一方で、モデル適用の信頼性とモデルの内部表現の脆弱性のテストという点で最も顕著となる、この研究分野が潜在的にやりがいのある研究分野であることを示唆する説得力のある理由があると著者らは考えています。さらに、著者は記事全体を通じて間接的に、一連の期待される目標とモデルの解釈可能性の基本的な動機をごちゃ混ぜにしてまとめるべきではない、という訴えも表明している。そうすると、この問題に関する議論がさらに混乱するだけだ。

<<: 人工知能バブルの次のラウンドは、消費者向けロボットによって引き起こされるかもしれません。

>>: 説明可能なAI: 機械が自らを説明できるようにし、アルゴリズムによって生成されるバイアスを減らす