ニューラルネットワーク?決定木?できないよ!説明可能な AI を解決できるのは誰か?

ニューラルネットワーク?決定木?できないよ!説明可能な AI を解決できるのは誰か?

この記事は公開アカウント「Reading Core Technique」(ID: AI_Discovery)から転載したものです。

正確性と説明可能性は同時に達成できるのでしょうか? IEEE の研究者 Cuntai Guan 氏はそう考えています。「機械の決定の多くはまだ十分に理解されていません。」ほとんどの論文では、正確性と解釈可能性を厳密に区別することを提案しています。

ニューラル ネットワークは正確ですが解釈可能ではありません。一方、コンピューター ビジョンでは、決定木は解釈可能ですが正確ではありません。説明可能な AI (XAI) はこの隔たりを埋めようとしますが、以下で説明するように、「XAI はモデルを直接説明せずに決定を正当化します。」

つまり、金融や医療などの応用分野の専門家は、解釈不可能だが正確なモデルを選択するか、不正確だが解釈可能なモデルを選択するかというジレンマに陥ることになります。

「説明可能」とは何でしょうか?

コンピューター ビジョンにおける解釈可能性の定義は困難です。画像などの高次元入力の分類を説明するとはどういう意味でしょうか。以下で説明するように、2 つの一般的な定義には顕著性マップと決定木が含まれますが、どちらにも欠点があります。

説明可能なAIが説明できないこと

顕著性マップ:

多くの XAI 手法では、予測に影響する重要な入力ピクセルを強調表示する、サリエンシー マップと呼ばれるヒート マップを生成します。ただし、サリエンシー マップ マッピングは入力にのみ焦点を当てており、モデルがどのように決定を下すかを説明することを怠っています。

オリジナル画像をキャプチャ

Grad-CAMと呼ばれる手法を用いたサリエンシーマップ

ガイドバックプロパゲーション法を使用した別の画像

顕著性マップでは説明できないこと

顕著性マップがモデルの予測を完全に説明できない理由を示すために、次の例を示します。次の顕著性マップは同一ですが、予測は異なります。

なぜでしょうか? 両方の顕著性マップが正しいオブジェクトを強調表示しているにもかかわらず、予測の 1 つが間違っています。この質問に答えることはモデルの改善に役立ちますが、以下に示すように、顕著性マップではモデルの意思決定プロセスを説明できません。

[[326022]]

モデルは鳥に耳があると予測します。

[[326023]]

モデルは鳥に角があると予測します。

これらは、ResNet18 モデルで Grad-CAM メソッドを使用して Caltech-UCSDBirds-200-2011 (略して CUB 2011) データセットを使用して得られた結果です。顕著性マップは非常によく似ていますが、モデルの予測は異なります。したがって、顕著性マップでは、モデルが最終的な予測にどのように到達したかは説明されません。

決定木

もう 1 つのアプローチは、ニューラル ネットワークを解釈可能なモデルに置き換えることです。ディープラーニングが登場する前は、決定木が正確性と解釈可能性のゴールドスタンダードでした。以下は、各予測を一連の決定に分解することによって機能する決定ツリーの解釈可能性のデモンストレーションです。

上記の決定木は、「大きなハンバーガー」や「ワッフル」を単に予測するのではなく、最終的な予測につながる一連の決定を出力します。これらの中間決定は、個別に検証したり、異議を申し立てたりすることができます。したがって、従来の機械学習では、このようなモデルを「解釈可能」と呼びます。

しかし、精度の点では、画像分類データセット² では、決定木はニューラル ネットワークより最大 40% 遅れをとっています。ニューラル ネットワークと決定木のハイブリッド アルゴリズムのパフォーマンスも低く、以下に示すような 32 x 32 の小さな画像を含む CIFAR10 データセットのニューラル ネットワークに匹敵することさえできませんでした。

[[326024]]

この例では、32x32 がいかに小さいかを示しています。これは CIFAR10 データセットからのサンプルです。

この精度のギャップは解釈可能性を損ないます。高精度のニューラル ネットワークを説明するには、高精度で解釈可能なモデルが必要です。

ニューラルネットワークを活用した決定木の登場

私たちは、解釈可能かつ正確なモデルを構築することで、この誤った二分法を改善します。重要なのは、ニューラル ネットワークと決定木を組み合わせ、低レベルの意思決定にニューラル ネットワークを使用しながら、高レベルの解釈可能性を維持することです。

以下に示すように、これらのモデルをニューラル バック決定木 (NBDT) と呼び、決定木の解釈可能性を維持しながらニューラル ネットワークの精度に匹敵できることを実証します。

この図では、各ノードにニューラル ネットワークが含まれています。この図では、そのようなノード 1 つと、その内部のニューラル ネットワークのみが強調表示されています。ニューラル パワーの決定木では、高レベルの解釈可能性を維持するために、決定木を通じて予測が行われます。

ただし、決定木の各ノードは、低レベルの決定を行うニューラル ネットワークです。上記のニューラル ネットワークによって行われる「低レベル」の決定は、「ソーセージがある」か「ソーセージがない」かです。

NBDT は決定木と同様に解釈可能です。

今日のニューラル ネットワークとは異なり、NBDT は中間決定を出力して予測を行うことができます。たとえば、画像が与えられると、ニューラル ネットワークは Dog を出力できます。ただし、NBDT は Dog と Animal、Chordate、Carnivore を同時に出力できます (下の図を参照)。

この図では、各ノードにニューラル ネットワークが含まれています。この図では、そのようなノード 1 つと、その内部のニューラル ネットワークが強調表示されています。ニューラル パワーの決定木では、高レベルの解釈可能性を維持するために、決定木を通じて予測が行われます。

ただし、決定木の各ノードは、低レベルの決定を行うニューラル ネットワークです。上記のニューラル ネットワークによって行われる「低レベル」の決定は、「ソーセージがある」か「ソーセージがない」かです。上記の写真は、Pexels ライセンスに基づいて pexels.com から取得されました。

NBDT はニューラル ネットワークの精度を実現します。

他の決定木ベースの方法とは異なり、NBDT は 3 つの画像分類データセットでニューラル ネットワークの精度と一致します (差は 1% 未満)。 NBDT は、120 万の 224 x 224 画像を含む最大規模の画像分類データセットの 1 つである ImageNet 上で、ニューラル ネットワークの 2% 以内の精度を達成することもできます。

さらに、NBDT は解釈可能なモデルに新たな最先端の精度をもたらします。 NBDT は 75.30% の ImageNet 精度を達成し、競合する最良の決定木ベースの方法よりも 14% も高い精度を達成しました。この精度の向上を文脈に沿って考えると、解釈不可能なニューラル ネットワークで同様の 14% の向上を達成するには 3 年の研究が必要でした。

ニューラルネットワークを活用した決定木は何をどのように説明できるか

個人的な予測の理由

最も洞察力のある正当化は、モデルがこれまで見たことのないオブジェクトに基づいています。たとえば、NBDT (以下) を検討し、Zebra で推論を実行します。モデルはシマウマを見たことがないにもかかわらず、以下に示す中間決定は正しいです。シマウマは動物であり、有蹄類でもあります。目に見えない物体に対して単一の予測が正しいことを保証する能力は非常に重要です。

NBDT は、目に見えないオブジェクトに対しても正確な中間決定を下すことができます。ここで、モデルは CIFAR10 でトレーニングされており、これまでシマウマを見たことがありませんでした。それにもかかわらず、NBDT はシマウマを動物であると同時に有蹄類であると正しく識別しました。上記の写真は、Pexels ライセンスに基づいて pexels.com から取得されました。

モデルの動作の正当性

さらに、NBDT を使用することで解釈の精度が向上することがわかりました。これは、導入部の二分法に反しています。NBDT は、正確性と解釈可能性を備えているだけでなく、正確性と解釈可能性を同じ目標としています。

ResNet10 階層

WideResNet 階層

前者では、「猫」、「カエル」、「飛行機」は同じサブツリーの下にあります。対照的に、WideResNet 階層では、動物と車両がそれぞれの側できれいに分割されます。上記の画像は CIFAR10 データセットからのものです。

たとえば、精度の低い ResNet⁶ 階層でカエル、猫、飛行機をグループ化しても意味がありません。これは、3 つのカテゴリすべてに共通する明らかな視覚的特徴を見つけるのが難しいため、「あまり賢明ではない」と言えます。

対照的に、より高精度の WideResNet 階層は、動物と車両を完全に分離するため、より理にかなっています。したがって、精度が高いほど、NBDT の解釈が容易になります。

[[326025]]

画像ソース: unsplash

意思決定ルールを理解する

低次元の表形式データを使用する場合、決定木の決定ルールは簡単に解釈できます。たとえば、皿にパンがある場合は、次に示すように適切なノードを選択します。しかし、高次元画像のような入力の場合、決定ルールはそれほど単純ではありません。

この例では、低次元の表形式データを使用して意思決定ルールを簡単に解釈する方法を示します。右側は、いくつかのプロジェクトの表形式データの例です。左側はこのデータでトレーニングされた決定木です。

この時点で、決定ルール (青) は「パンはありますか?」です。パンがあるすべてのアイテム (オレンジ) は最上位ノードに送信され、パンがないすべてのアイテム (緑) は最下位ノードに送信されます。モデルの決定ルールは、オブジェクトの種類だけでなく、コンテキスト、形状、色にも基づいています。

決定ルールを定量的に説明するために、WordNet7 と呼ばれる既存の階層が使用されました。この階層を通じて、クラス間で最も具体的に共有される意味を見つけることができます。たとえば、Cat と Dog のカテゴリが指定されている場合、WordNet は Mammal を提供します。下の図に示すように、これらの WordNet の仮定は定量的に検証されています。

左のサブツリー (赤い矢印) の WordNet 仮説は Vehicle です。右側の WordNet 仮説 (青い矢印) は Animal です。これらの意味を定性的に検証するために、NBDT を未知のオブジェクトのカテゴリでテストしました。

  • トレーニング中に表示されなかった画像を見つけます。
  • 仮説に基づいて、各画像がどのノードに属するかを判断します。たとえば、象は動物なので、* は正しいサブツリーを見つけることができます。
  • ここで、正しいノードに渡される画像の数を確認することで、仮説を評価できます。たとえば、「動物」サブツリーに送信された象の画像の数を確認します。

これらの分類の精度は右側に表示されており、見えない動物 (青) と見えない乗り物 (赤) の両方で精度が高くなっています。

10 クラスの小さなデータセット (CIFAR10 など) では、すべてのノードに対して WordNet 仮説が見つかることに注意してください。ただし、1000 個のカテゴリを持つ大規模なデータセット (ImageNet など) では、ノードのサブセットに対して WordNet 仮説のみが見つかります。

1分でNBDTを試す

今すぐ NBDT を試してみませんか? さらに多くのサンプル出力をオンラインで表示したり、ソフトウェアをインストールせずに Web サンプルを試したりすることもできます。または、コマンドライン ユーティリティを使用して推論を実行します ( pip install nbdt を使用してインストールします)。猫の写真について推測してみましょう。

  1. nbdthttps://images.pexels.com/photos/126407/pexels-photo-126407.jpeg? auto = compressed & cs = tinysrgb & dpr = 2 & w = 32 # これはローカル画像へのパスにもなります

これにより、クラス予測とすべての中間決定が出力されます。

  1. 予測: 猫 // 決定: 動物 (99.47%)、脊索動物 (99.20%)、肉食動物 (99.42%)、猫 (99.86%)

わずか数行の Python コードで、事前トレーニング済みの NBDT をロードすることも可能です。いくつかのニューラル ネットワークとデータセットをサポートする次のものを使用して開始します。

  1. nbdt.model から HardNBDT をインポートします。nbdt.models からimportwrn28_10_cifar10model = wrn28_10_cifar10() model = HardNBDT ( pretrained = True dataset = 'CIFAR10' arch = 'wrn28_10_cifar10' model model =model)

参考までに、上で実行したコマンドライン ツールのスクリプトを参照してください。入力を変換して推論を実行するには、約 20 行しかかかりません。

仕組み

ニューラルネットワークに基づく決定木のトレーニングと推論のプロセスは、4 つのステップに分けられます。

NBDT のトレーニングは 2 つの段階に分かれています。まず、決定木の階層を構築します。次に、特別な損失項を使用してニューラル ネットワークをトレーニングします。推論を実行するには、ニューラル ネットワーク バックボーンにサンプルを入力します。最後に、最後の完全に接続されたレイヤーが、一連の決定ルールとして実行されます。

  • 意思決定ツリーの階層を構築します。この階層により、NBDT がどのクラス間で決定を下す必要があるかが決まります。この階層は帰納的階層と呼ばれます。
  • この階層により、ツリー教師あり損失5と呼ばれる特定の損失関数が生成されます。この新しい損失関数をそのまま使用して、元のニューラル ネットワークをトレーニングします。
  • 推論は、ニューラル ネットワーク バックボーンにサンプルを入力することから始まります。バックボーンとは、最終的な完全接続層の前のすべてのニューラル ネットワーク層です。
  • 推論は、最終的な完全に接続された層を、埋め込み決定ルールと呼ばれる決定ルールのシーケンスとして扱うことによって実現されます。これらの決定によって最終的な予測が形成されます。

説明可能な AI では、ニューラル ネットワークが予測に到達する方法を完全に説明することはできません。既存の方法では、画像がモデルの予測に与える影響は説明できますが、意思決定プロセスは説明できません。決定木はこの問題を解決しますが、その正確性には依然として課題が残ります。

したがって、ニューラル ネットワークと決定木が組み合わされます。同じハイブリッド設計を使用する先行技術とは異なり、ニューラル バック決定木 (NBDT) は次の問題を同時に解決します。

  • ニューラル ネットワークは理由を提供できません。
  • 決定木では高い精度を達成できません。

これにより、医療や金融などのアプリケーション向けに、正確で解釈可能な新しいクラスの NBDT が可能になります。

<<:  ビジネスにおいて人工知能との共生関係を築くには?

>>:  人工知能がチップのルネッサンスを推進

ブログ    

推薦する

Midjourneyの隠されたスキルをアンロックする:プロンプトを変更すると、4つの正方形のグリッドが「分裂」します

Midjourney は多くの人が使用するグラフィック デザイン ツールです。最近アップデートされた...

...

GPT-3は創造性に欠けるにもかかわらず、わずか20分で合格できる大学論文を書いた。

GPT-3で書かれた論文は通過したのでしょうか?教育リソースウェブサイトEduRefがこれに関する...

...

今後10年間の主要な投資の方向性を予測して、あなたは未来に向けて準備ができていますか?

古代から今日のモバイルインターネット時代に至るまで、人類の誕生以来、世界に影響を与えてきたあらゆる破...

ソフトウェア開発プロセスの近代化における生成AIの役割

近年、ソフトウェア エンジニアリングでは、自動化の強化と開発プロセスの合理化に向けて大きな変化が見ら...

学術界の巨人たちのブラックテクノロジー:人工知能のダークマターについて聞いたことがありますか?

北京大学の公式サイトの最新情報によると、元UCLA(カリフォルニア大学ロサンゼルス校)教授の朱松春...

2018年のAI革命で何が起こったか、何が起こらなかったか

[[253051]] 2018 年を振り返ると、人工知能はデジタル分野で急速な成長を続け、あらゆる業...

IDC: 欧州の人工知能への支出は2022年に220億ドルに達する

インターナショナル・データ・コーポレーション(IDC)の新しい世界人工知能支出ガイドでは、ヨーロッパ...

Docker が Generative AI スタックと Docker AI をリリース

10月12日、DockerはロサンゼルスでDockercon 23カンファレンスを開催し、新しいDo...

...

CPUのみを使用して1000FPSで実行できます。これはオープンソースのC++クロスプラットフォーム顔検出プロジェクトです。

さまざまな依存環境によって常に荒廃していますか?コンピューターと携帯電話の両方で実行できる、C++ ...

自由に歩き回るロボット掃除機は密かにあなたを監視しているかもしれない

一日中懸命に働いた労働者たちは、疲れた体を引きずりながら家に戻り、ついに「解放された農奴が歌う」生活...

年末総括:2020年の顔認識業界の注目イベント一覧

「顔スキャン」時代の到来が加速するにつれ、人々が旅行したり、出勤記録を取ったり、医療の予約を取ったり...