ニューラルネットワーク？決定木？できないよ！説明可能な AI を解決できるのは誰か?

この記事は公開アカウント「Reading Core Technique」（ID: AI_Discovery）から転載したものです。

正確性と説明可能性は同時に達成できるのでしょうか? IEEE の研究者 Cuntai Guan 氏はそう考えています。「機械の決定の多くはまだ十分に理解されていません。」ほとんどの論文では、正確性と解釈可能性を厳密に区別することを提案しています。

ニューラルネットワークは正確ですが解釈可能ではありません。一方、コンピュータービジョンでは、決定木は解釈可能ですが正確ではありません。説明可能な AI (XAI) はこの隔たりを埋めようとしますが、以下で説明するように、「XAI はモデルを直接説明せずに決定を正当化します。」

つまり、金融や医療などの応用分野の専門家は、解釈不可能だが正確なモデルを選択するか、不正確だが解釈可能なモデルを選択するかというジレンマに陥ることになります。

「説明可能」とは何でしょうか?

コンピュータービジョンにおける解釈可能性の定義は困難です。画像などの高次元入力の分類を説明するとはどういう意味でしょうか。以下で説明するように、2 つの一般的な定義には顕著性マップと決定木が含まれますが、どちらにも欠点があります。

説明可能なAIが説明できないこと

顕著性マップ:

多くの XAI 手法では、予測に影響する重要な入力ピクセルを強調表示する、サリエンシーマップと呼ばれるヒートマップを生成します。ただし、サリエンシーマップマッピングは入力にのみ焦点を当てており、モデルがどのように決定を下すかを説明することを怠っています。

オリジナル画像をキャプチャ

Grad-CAMと呼ばれる手法を用いたサリエンシーマップ

ガイドバックプロパゲーション法を使用した別の画像

顕著性マップでは説明できないこと

顕著性マップがモデルの予測を完全に説明できない理由を示すために、次の例を示します。次の顕著性マップは同一ですが、予測は異なります。

なぜでしょうか? 両方の顕著性マップが正しいオブジェクトを強調表示しているにもかかわらず、予測の 1 つが間違っています。この質問に答えることはモデルの改善に役立ちますが、以下に示すように、顕著性マップではモデルの意思決定プロセスを説明できません。

[[326022]]

モデルは鳥に耳があると予測します。

[[326023]]

モデルは鳥に角があると予測します。

これらは、ResNet18 モデルで Grad-CAM メソッドを使用して Caltech-UCSDBirds-200-2011 (略して CUB 2011) データセットを使用して得られた結果です。顕著性マップは非常によく似ていますが、モデルの予測は異なります。したがって、顕著性マップでは、モデルが最終的な予測にどのように到達したかは説明されません。

決定木

もう 1 つのアプローチは、ニューラルネットワークを解釈可能なモデルに置き換えることです。ディープラーニングが登場する前は、決定木が正確性と解釈可能性のゴールドスタンダードでした。以下は、各予測を一連の決定に分解することによって機能する決定ツリーの解釈可能性のデモンストレーションです。

上記の決定木は、「大きなハンバーガー」や「ワッフル」を単に予測するのではなく、最終的な予測につながる一連の決定を出力します。これらの中間決定は、個別に検証したり、異議を申し立てたりすることができます。したがって、従来の機械学習では、このようなモデルを「解釈可能」と呼びます。

しかし、精度の点では、画像分類データセット² では、決定木はニューラルネットワークより最大 40% 遅れをとっています。ニューラルネットワークと決定木のハイブリッドアルゴリズムのパフォーマンスも低く、以下に示すような 32 x 32 の小さな画像を含む CIFAR10 データセットのニューラルネットワークに匹敵することさえできませんでした。

[[326024]]

この例では、32x32 がいかに小さいかを示しています。これは CIFAR10 データセットからのサンプルです。

この精度のギャップは解釈可能性を損ないます。高精度のニューラルネットワークを説明するには、高精度で解釈可能なモデルが必要です。

ニューラルネットワークを活用した決定木の登場

私たちは、解釈可能かつ正確なモデルを構築することで、この誤った二分法を改善します。重要なのは、ニューラルネットワークと決定木を組み合わせ、低レベルの意思決定にニューラルネットワークを使用しながら、高レベルの解釈可能性を維持することです。

以下に示すように、これらのモデルをニューラルバック決定木 (NBDT) と呼び、決定木の解釈可能性を維持しながらニューラルネットワークの精度に匹敵できることを実証します。

この図では、各ノードにニューラルネットワークが含まれています。この図では、そのようなノード 1 つと、その内部のニューラルネットワークのみが強調表示されています。ニューラルパワーの決定木では、高レベルの解釈可能性を維持するために、決定木を通じて予測が行われます。

ただし、決定木の各ノードは、低レベルの決定を行うニューラルネットワークです。上記のニューラルネットワークによって行われる「低レベル」の決定は、「ソーセージがある」か「ソーセージがない」かです。

NBDT は決定木と同様に解釈可能です。

今日のニューラルネットワークとは異なり、NBDT は中間決定を出力して予測を行うことができます。たとえば、画像が与えられると、ニューラルネットワークは Dog を出力できます。ただし、NBDT は Dog と Animal、Chordate、Carnivore を同時に出力できます (下の図を参照)。

この図では、各ノードにニューラルネットワークが含まれています。この図では、そのようなノード 1 つと、その内部のニューラルネットワークが強調表示されています。ニューラルパワーの決定木では、高レベルの解釈可能性を維持するために、決定木を通じて予測が行われます。

ただし、決定木の各ノードは、低レベルの決定を行うニューラルネットワークです。上記のニューラルネットワークによって行われる「低レベル」の決定は、「ソーセージがある」か「ソーセージがない」かです。上記の写真は、Pexels ライセンスに基づいて pexels.com から取得されました。

NBDT はニューラルネットワークの精度を実現します。

他の決定木ベースの方法とは異なり、NBDT は 3 つの画像分類データセットでニューラルネットワークの精度と一致します (差は 1% 未満)。 NBDT は、120 万の 224 x 224 画像を含む最大規模の画像分類データセットの 1 つである ImageNet 上で、ニューラルネットワークの 2% 以内の精度を達成することもできます。

さらに、NBDT は解釈可能なモデルに新たな最先端の精度をもたらします。 NBDT は 75.30% の ImageNet 精度を達成し、競合する最良の決定木ベースの方法よりも 14% も高い精度を達成しました。この精度の向上を文脈に沿って考えると、解釈不可能なニューラルネットワークで同様の 14% の向上を達成するには 3 年の研究が必要でした。

ニューラルネットワークを活用した決定木は何をどのように説明できるか

個人的な予測の理由

最も洞察力のある正当化は、モデルがこれまで見たことのないオブジェクトに基づいています。たとえば、NBDT (以下) を検討し、Zebra で推論を実行します。モデルはシマウマを見たことがないにもかかわらず、以下に示す中間決定は正しいです。シマウマは動物であり、有蹄類でもあります。目に見えない物体に対して単一の予測が正しいことを保証する能力は非常に重要です。

NBDT は、目に見えないオブジェクトに対しても正確な中間決定を下すことができます。ここで、モデルは CIFAR10 でトレーニングされており、これまでシマウマを見たことがありませんでした。それにもかかわらず、NBDT はシマウマを動物であると同時に有蹄類であると正しく識別しました。上記の写真は、Pexels ライセンスに基づいて pexels.com から取得されました。

モデルの動作の正当性

さらに、NBDT を使用することで解釈の精度が向上することがわかりました。これは、導入部の二分法に反しています。NBDT は、正確性と解釈可能性を備えているだけでなく、正確性と解釈可能性を同じ目標としています。

ResNet10 階層

WideResNet 階層

前者では、「猫」、「カエル」、「飛行機」は同じサブツリーの下にあります。対照的に、WideResNet 階層では、動物と車両がそれぞれの側できれいに分割されます。上記の画像は CIFAR10 データセットからのものです。

たとえば、精度の低い ResNet⁶ 階層でカエル、猫、飛行機をグループ化しても意味がありません。これは、3 つのカテゴリすべてに共通する明らかな視覚的特徴を見つけるのが難しいため、「あまり賢明ではない」と言えます。

対照的に、より高精度の WideResNet 階層は、動物と車両を完全に分離するため、より理にかなっています。したがって、精度が高いほど、NBDT の解釈が容易になります。

[[326025]]

画像ソース: unsplash

意思決定ルールを理解する

低次元の表形式データを使用する場合、決定木の決定ルールは簡単に解釈できます。たとえば、皿にパンがある場合は、次に示すように適切なノードを選択します。しかし、高次元画像のような入力の場合、決定ルールはそれほど単純ではありません。

この例では、低次元の表形式データを使用して意思決定ルールを簡単に解釈する方法を示します。右側は、いくつかのプロジェクトの表形式データの例です。左側はこのデータでトレーニングされた決定木です。

この時点で、決定ルール (青) は「パンはありますか?」です。パンがあるすべてのアイテム (オレンジ) は最上位ノードに送信され、パンがないすべてのアイテム (緑) は最下位ノードに送信されます。モデルの決定ルールは、オブジェクトの種類だけでなく、コンテキスト、形状、色にも基づいています。

決定ルールを定量的に説明するために、WordNet7 と呼ばれる既存の階層が使用されました。この階層を通じて、クラス間で最も具体的に共有される意味を見つけることができます。たとえば、Cat と Dog のカテゴリが指定されている場合、WordNet は Mammal を提供します。下の図に示すように、これらの WordNet の仮定は定量的に検証されています。

左のサブツリー (赤い矢印) の WordNet 仮説は Vehicle です。右側の WordNet 仮説 (青い矢印) は Animal です。これらの意味を定性的に検証するために、NBDT を未知のオブジェクトのカテゴリでテストしました。

トレーニング中に表示されなかった画像を見つけます。
仮説に基づいて、各画像がどのノードに属するかを判断します。たとえば、象は動物なので、* は正しいサブツリーを見つけることができます。
ここで、正しいノードに渡される画像の数を確認することで、仮説を評価できます。たとえば、「動物」サブツリーに送信された象の画像の数を確認します。

これらの分類の精度は右側に表示されており、見えない動物 (青) と見えない乗り物 (赤) の両方で精度が高くなっています。

10 クラスの小さなデータセット (CIFAR10 など) では、すべてのノードに対して WordNet 仮説が見つかることに注意してください。ただし、1000 個のカテゴリを持つ大規模なデータセット (ImageNet など) では、ノードのサブセットに対して WordNet 仮説のみが見つかります。

1分でNBDTを試す

今すぐ NBDT を試してみませんか? さらに多くのサンプル出力をオンラインで表示したり、ソフトウェアをインストールせずに Web サンプルを試したりすることもできます。または、コマンドラインユーティリティを使用して推論を実行します ( pip install nbdt を使用してインストールします)。猫の写真について推測してみましょう。

 nbdthttps://images.pexels.com/photos/126407/pexels-photo-126407.jpeg? auto = compressed & cs = tinysrgb & dpr = 2 & w = 32 # これはローカル画像へのパスにもなります

これにより、クラス予測とすべての中間決定が出力されます。

予測: 猫 // 決定: 動物 (99.47%)、脊索動物 (99.20%)、肉食動物 (99.42%)、猫 (99.86%)

わずか数行の Python コードで、事前トレーニング済みの NBDT をロードすることも可能です。いくつかのニューラルネットワークとデータセットをサポートする次のものを使用して開始します。

 nbdt.model から HardNBDT をインポートします。nbdt.models からimportwrn28_10_cifar10model = wrn28_10_cifar10() model = HardNBDT ( pretrained = True 、 dataset = 'CIFAR10' 、 arch = 'wrn28_10_cifar10' 、 model model =model)

参考までに、上で実行したコマンドラインツールのスクリプトを参照してください。入力を変換して推論を実行するには、約 20 行しかかかりません。

仕組み

ニューラルネットワークに基づく決定木のトレーニングと推論のプロセスは、4 つのステップに分けられます。

NBDT のトレーニングは 2 つの段階に分かれています。まず、決定木の階層を構築します。次に、特別な損失項を使用してニューラルネットワークをトレーニングします。推論を実行するには、ニューラルネットワークバックボーンにサンプルを入力します。最後に、最後の完全に接続されたレイヤーが、一連の決定ルールとして実行されます。

意思決定ツリーの階層を構築します。この階層により、NBDT がどのクラス間で決定を下す必要があるかが決まります。この階層は帰納的階層と呼ばれます。
この階層により、ツリー教師あり損失5と呼ばれる特定の損失関数が生成されます。この新しい損失関数をそのまま使用して、元のニューラルネットワークをトレーニングします。
推論は、ニューラルネットワークバックボーンにサンプルを入力することから始まります。バックボーンとは、最終的な完全接続層の前のすべてのニューラルネットワーク層です。
推論は、最終的な完全に接続された層を、埋め込み決定ルールと呼ばれる決定ルールのシーケンスとして扱うことによって実現されます。これらの決定によって最終的な予測が形成されます。

説明可能な AI では、ニューラルネットワークが予測に到達する方法を完全に説明することはできません。既存の方法では、画像がモデルの予測に与える影響は説明できますが、意思決定プロセスは説明できません。決定木はこの問題を解決しますが、その正確性には依然として課題が残ります。

したがって、ニューラルネットワークと決定木が組み合わされます。同じハイブリッド設計を使用する先行技術とは異なり、ニューラルバック決定木 (NBDT) は次の問題を同時に解決します。