人工知能システムにおける不確実性の定量化

翻訳者 | 朱仙中

校正 | 梁哲、孫淑娟

まとめ

人工知能 (AI) ベースのシステムは大きな可能性を秘めており、さまざまな複雑なタスクを支援するためにますます使用されるようになっています。ただし、不確実性という課題があるため、結果は完全に信頼できるものではありません。不確実性の定量化 (UQ) は、最適化および意思決定プロセスにおける不確実性を軽減する上で重要な役割を果たし、科学、ビジネス、エンジニアリングにおけるさまざまな実用的なアプリケーションに対処するために使用できます。

本稿では、不確実性の概念、発生源、種類、測定方法を簡単に紹介し、ベイズ技術を使用した多数の UQ 手法を要約し、既存の文献の問題点とギャップを指摘し、さらなる開発の方向性を提案し、人工知能による金融犯罪対策の応用事例を要約します。

導入

近年、イベントや環境の変化に応じて自動的にアクションを実行する、プロアクティブな性質を持つ AI ベースのシステムを使用するニーズが高まっています。これらのシステムは、アクティブなデータベースから、今日の企業の中核となるビジネスプロセスを推進するアプリケーションまで、さまざまな領域にわたります。ただし、多くの場合、システムが応答する必要があるイベントは監視ツールによって生成されるのではなく、複雑な時間的述語に基づいて他のイベントから推測される必要があります。機械学習 (ML) モデルは、トレーニングデータに基づいて最適なソリューションを生成します。多くのアプリケーションでは、このような推論は本質的に非決定的です。ただし、データとモデルパラメータの不確実性が考慮されていない場合、この最適なソリューションは、実際の展開では失敗するリスクが依然として高くなります。

一般的な AI ベースのシステムパイプラインには、データの収集、データの前処理、データから学習するモデルの選択、モデルをトレーニングするための学習アルゴリズムの選択、学習したモデルからの推論の導出が含まれます。しかし、これらの各ステップは本質的に不確実です。たとえば、データの不確実性は、現実世界のデータを確実に収集または表現できないことから生じる可能性があります。凝固、クリーニング、ラベル付けなどのデータの前処理における不完全さも、データの不確実性の一因となる可能性があります。モデルは現実世界の代理としてのみ機能し、学習および推論アルゴリズムはさまざまな単純化された仮定に依存しているため、モデリングと推論に不確実性が生じます。

AI システムによる予測は、これらすべての不確実性の原因の影響を受けやすく、信頼性の高い不確実性評価は、AI システムの開発者とユーザーにとって重要な判断基準となります。たとえば、データの不確実性が高い場合は、データ記述プロセスを改善する必要がある可能性があり、モデルの不確実性が高い場合は、より多くのデータを収集する必要がある可能性があります。ユーザーにとって、正確な不確実性は、特に効果的なコミュニケーション戦略と組み合わせると、AI 支援による意思決定を改善するために不可欠な透明性と信頼の重要な層を追加できます。 AI システムにこのような信頼を与えることは、医療、金融、社会科学などの重要なアプリケーションで AI システムを信頼性高く導入するために不可欠です。

AI システムにおける UQ を改善するために多くの方法が提案されていますが、特定の UQ 方法の選択は、ベースモデル、機械学習タスクの種類 (回帰、分類、セグメンテーション)、データの特性、機械学習モデルの透明性、最終目標など、多くの要因によって異なります。不適切に使用すると、特定の UQ 方法によって不正確な不確実性の推定値が生成され、ユーザーに誤解を与える可能性があります。さらに、不確実性の推定値が非常に正確であっても、適切に伝達されなければ誤解を招く可能性があります。

この論文では、不確実性の種類とその原因について詳しく説明し、UQ アプローチについて説明し、不確実性モデリングを形式化し、複雑なシステムにおけるその概念について説明します。この記事では、ベイズ手法を使用して ML における不確実性を定量化するさまざまなアプローチの概要を説明します。さらに、不確実性尺度の評価は、分類、回帰、セグメンテーションなどのさまざまな機械学習タスクでも注目されています。この論文では、UQ アプローチのキャリブレーション用語を提供することで文献のギャップを埋め、金融犯罪分野における UQ の実際の応用を実証し、そのようなシステムの一般的な評価フレームワークを開発します。

恣意的な不確実性

偶然性不確実性 (「統計的不確実性」とも呼ばれる) は、同じ実験を実行するたびに異なる未知の量を表します。偶然性不確実性とは、確率の変動性から生じる固有の不確実性を指します。基礎となる変数には常に変動性があるため、このタイプの不確実性は軽減できません。これらの不確実性は確率分布によって特徴付けられます。たとえば、機械式の弓から発射された矢は、毎回の射撃でまったく同じ（同じ加速度、高度、方向、最終速度）になり、矢の軸のランダムで複雑な振動によりターゲットの同じ点に当たることはありません。また、このような知識は、結果として生じる着弾点の分散を排除するのに十分なほど決定することはできません。

認識論的不確実性

認識論的不確実性（「体系的不確実性」とも呼ばれる）とは、原理的には知ることができるが、実際には知らない事柄を指します。認識論的不確実性とは、限られたデータと知識から生じるプロセスモデルにおける科学的な不確実性です。認識論的不確実性は代替モデルによって特徴付けられます。離散ランダム変数の場合、認識論的不確実性は代替確率分布を使用してモデル化されます。このような不確実性の原因の一例として、地球の表面近くの重力による加速度を測定するために設計された実験が挙げられます。一般的に使用される重力加速度 9.8 m/s² は空気抵抗の影響を無視していますが、物体の空気抵抗を測定してそれを実験に組み込むことで、重力加速度の計算における不確実性を減らすことができます。

恣意性と認識論的不確実性が相互作用する

偶然性不確実性と認識論的不確実性は、単一の用語内で同時に発生することもあります。たとえば、実験パラメータが偶然性不確実性を示し、これらの実験パラメータがコンピューターシミュレーションに入力される場合などです。不確実性の定量化に使用する場合は、ガウス過程や多項式カオス展開など、コンピュータ実験で知られている代替モデルが使用されます。このような代替モデルは、実験パラメータの偶然性不確実性に依存するか、または相互作用する認識論的不確実性を示します。この不確実性は、もはや恣意性または認識性のいずれかだけに分類することはできず、より一般的な推論の不確実性です。実際のアプリケーションでは、両方のタイプの不確実性が存在します。不確実性の定量化は、これら 2 種類の不確実性を個別に明示的に表現することを目的としています。

偶然性不確実性の定量化は比較的単純であり、伝統的な（頻度主義的）確率が最も基本的な形式です。よく使われる手法にはモンテカルロ法があります。認識論的不確実性を評価するには、システム、プロセス、またはメカニズムに関する知識の欠如を理解しようとする必要があります。認識論的不確実性は、多くの場合、ベイズ確率の観点から理解されます。確率は、合理的な人が特定の主張についてどの程度確信を持っているかを示すものとして解釈されるためです。

モデルとデータの不確実性

モデルの不確実性には、モデルの不完全性によって引き起こされる不確実性が含まれます。これは、トレーニング中に不適切なモデル構造を使用することによって発生したエラー、または未知のサンプルやトレーニングデータセットの不十分なカバレッジによって発生した知識不足が原因である可能性があります。対照的に、データの不確実性は、データから直接生じる不確実性に関係します。データの不確実性は、現実世界を表現する際やデータサンプル内の分布を表現する際に情報が失われることによって発生します。モデルの不確実性には、モデルの不完全性によって引き起こされる不確実性が含まれます。これは、トレーニングプロセスのエラー、不十分なモデル構造、または未知のサンプルやトレーニングデータセットの不十分なカバレッジによる知識不足が原因である可能性があります。対照的に、データの不確実性は、データから直接生じる不確実性に関係します。データの不確実性は、現実世界を表現する際の情報の損失とデータサンプル内の分布によって発生します。

たとえば、回帰タスクでは、入力とターゲットの測定値のノイズにより、ネットワークが修正する方法を学習できないデータの不確実性が発生する可能性があります。分類タスクでは、サンプルに含まれる情報がカテゴリを 100% の確実性で識別するのに十分でない場合、予測データに不確実性が生じます。情報損失は、たとえば、現実世界の情報を表すために特定の解像度の画像ピクセルを使用したり、ラベル付けプロセスでエラーが発生したりすることによって、測定システムの結果発生します。

理論的には、アーキテクチャ、学習プロセス、またはトレーニングデータセットを改善することでモデルの不確実性を減らすことは可能ですが、データの不確実性は考慮されません。

予測の不確実性

入力データ領域に基づいて、予測の不確実性は次の 3 つの主要なカテゴリに分類できます。

ドメイン内不確実性:トレーニングデータ分布と等しいと想定されるデータ分布から抽出された入力に関連する不確実性を表します。ドメイン内の不確実性は、ディープニューラルネットワークがドメイン内の知識が不足しているためにドメイン内のサンプルを解釈できないという事実から生じます。モデラーの観点から見ると、ドメイン内の不確実性は、設計エラー (モデルの不確実性) と問題の複雑さ (データの不確実性) から生じます。ドメイン内の不確実性の原因に応じて、トレーニングデータ (セット) またはトレーニングプロセスの品質を改善することで不確実性を軽減できます。
ドメインシフトの不確実性:トレーニング分布の転送バージョンから抽出された入力に関連する不確実性を表します。この分布の変化は、トレーニングデータの範囲が不十分であることと、現実世界の状況に固有の変動性によって生じます。 DNN はトレーニング中にサンプルベースのドメインシフトサンプルを解釈できないため、ドメインシフトによって不確実性が増す可能性があります。ドメインシフトの不確実性につながるいくつかのエラーをモデル化することで、対応するエラーを削減できます。
ドメイン外の不確実性:未知のデータサブスペースからの入力に関連する不確実性を表します。未知のデータの分布はトレーニング分布とは大きく異なります。たとえば、ドメインシフトの不確実性は犬のぼやけた画像などの現象を説明しますが、ドメイン外の不確実性は、猫と犬を分類することを学習するネットワークに鳥を予測するように求められた場合に当てはまります。領域外不確実性の原因は、領域外知識が不足しているため、ディープニューラルネットワーク (DNN) が領域外サンプルを解釈できないことです。モデラーの観点から見ると、ドメイン外の不確実性は、ネットワークがトレーニングデータに対して予測を行うことを意図していなかった入力サンプル、または十分なトレーニングデータが利用できなかった入力サンプルによって発生します。

図1: 不確実性の種類

不確実性と変動性

技術専門家は、不確実な量の「範囲」を推定するよう求められることがよくあります。変動性の範囲を示すよう求められているのか、不確実性の範囲を示すよう求められているのかを区別することが重要です。同様に、モデル作成者にとっては、変動性または不確実性のどちらをモデル化しているのか、また、それらの関係（もしあれば）がどのようなものかを理解することが重要です。

不確実性の源

パラメータの不確実性:数学モデルに入力されるモデルパラメータから生じますが、その正確な値は実験者に知られておらず、物理的な実験では制御できず、統計的手法ではその値を正確に推測できません。たとえば、落下物体実験における局所的な自由落下加速度の計算には、パラメータの不確実性が含まれます。
パラメータの変動性:モデル入力変数の変動性から生じます。たとえば、データ内の次元が想定される次元とまったく同じではない場合があり、高次元データセットでトレーニングされたモデルのパフォーマンスに変化が生じます。
構造的不確実性:モデルの不十分さ、モデルの偏り、モデルの不一致とも呼ばれ、問題の根本的な物理法則や原理に対する理解不足から生じます。モデルはほぼ常に現実に近いことを考慮すると、数学モデルが現実のシステムをどれだけ正確に記述するかに依存します。たとえば、自由落下モデルを使用して落下物体のプロセスをモデル化する場合、空気摩擦が常に存在するため、モデル自体は不正確になります。この場合、モデルには未知のパラメータが存在しないにもかかわらず、モデルと実際の物理現象の間には依然として差異が存在します。構造的不確実性は、モデルの機能形式が不確実であるため、モデルの出力が不確実な場合に発生します。
アルゴリズムの不確実性:数値の不確実性、または離散的な不確実性とも呼ばれます。このタイプは、各コンピュータモデルに実装されている数値誤差と数値近似から生じます。ほとんどのモデルは複雑すぎるため、正確に解くことはできません。たとえば、有限要素法または有限差分法を使用して偏微分方程式の解を近似することができます (数値誤差が発生します)。
実験の不確実性:観測誤差とも呼ばれます。それは実験測定の変動性から生じます。実験の不確実性は避けられませんが、すべての入力/変数に対してまったく同じ設定を使用して複数の反復測定を実行することで明らかにすることができます。
補間の不確実性:これは、モデルシミュレーションや実験測定から収集された利用可能なデータが不足しているために発生します。シミュレーションデータや実験測定が利用できないその他の入力設定については、対応する応答データを予測するために補間または外挿を実行する必要があります。

質問タイプ

不確実性の定量化には、主に 2 つのタイプの問題があります。1 つは不確実性の順方向伝播 (さまざまな不確実性の原因がモデルを通じて伝播され、システム応答の全体的な不確実性が予測される)、もう 1 つはモデル不確実性とパラメータ不確実性の逆評価 (テストデータを使用してモデルパラメータを同時に調整する) です。

不確実性の前方伝播

不確実性の伝播とは、不確実性を入力に伝播するシステムの出力における不確実性を定量化することです。不確実性の原因に記載されているパラメータの変動が出力に与える影響に焦点を当てています。不確実性伝播解析の目的は次のとおりです。

出力の低次のモーメント、つまり平均と分散を評価する
出力の信頼性を評価する
出力の完全な確率分布を評価する

モデルの不確実性とパラメータの不確実性の逆評価

システムのいくつかの実験測定データとその数学モデルのいくつかのコンピューターシミュレーション結果が利用可能な場合、逆不確実性定量化は、実験と数学モデル間の差（バイアス補正と呼ばれる）とモデル内に存在する未知のパラメータ値（パラメータキャリブレーションまたは単にキャリブレーションと呼ばれる）の両方を推定します。一般に、これは前方不確実性伝播よりもはるかに難しい問題ですが、モデル更新プロセス中に実装されることが多いため、非常に重要です。

逆不確実性定量化にはいくつかのケースがあります。

バイアス補正のみ:バイアス補正は、モデルの不十分さ、つまり実験と数学モデルとの差を定量化します。
パラメータキャリブレーションのみ:パラメータキャリブレーションでは、数学モデル内の 1 つ以上の未知のパラメータの値を推定します。
バイアス補正とパラメータ調整: 1 つ以上の未知のパラメータを持つ不正確なモデルを考慮すると、モデル更新式はこれら 2 つを組み合わせます。これは、最大限の努力で対処する必要がある不確実性の考えられるすべての原因を含む、最も包括的なモデル更新式です。

図2: 不確実性の定量化における問題の種類

数学的表現

先ほど述べたように (図 1)、予測の不確実性は認識論的不確実性と偶然性不確実性の 2 つの部分で構成されており、これら 2 つの部分の合計として次のように表すことができます。

認識論的不確実性は、モデルパラメータ上の確率分布として表現できます。

作る：

次の入力を持つトレーニングデータセットを表します。

対応するカテゴリー:

ここで、C はカテゴリの数を表します。目標は、目的の出力を生成する次の関数の ω パラメータを最適化することです。

これを実現するために、ベイズアプローチを使用してモデルの尤度関数が定義されます。

分類には、次のソフトマックス尤度関数を使用できます。

方程式1

回帰の場合、ガウス尤度を仮定できます。

式2

上記の式では、τ はモデルの精度を表します。そして事後分布は次のようになります。

与えられたデータセット（ωのトレーニング）の場合：

ベイズの定理を適用すると、次のように書くことができます。

式3

与えられたサンプルx*に対して、p(ω|x,y)の分類ラベルは次のように予測できます。

式4

このプロセスは推論または限界化と呼ばれます。しかし：

解析的に計算することはできませんが、変分パラメータを使用して近似することができます。

目標は、モデルによって得られた事後分布に近い分布を近似することです。したがって、精度τに関するKullback-Leibler（KL）ダイバージェンスを最小限に抑える必要があります。これら 2 つの分布の類似性は次のように測定できます。

式5

予測分布は、次のように KL ダイバージェンスを最小化することで近似できます。

式6

で：

ターゲットを表します。 KL ダイバージェンス最小化は、証拠下限 (ELBO) 最大化として再構成することもできます。

式7

で：

最初の項を最大化することでデータを適切に記述でき、2 番目の項を最小化することで前者にできるだけ近づくことができます。このプロセスは変分推論 (VI) と呼ばれます。ドロップアウト変分推論は最も一般的に使用される方法の 1 つであり、複雑なモデルでの近似推論に広く使用されてきました。最小化の目標は次のとおりです。

式8

ここで、N と P はそれぞれサンプル数と破棄確率を表します。データに関連する不確実性を取得するには、上記の式 2 の精度 τ をデータの関数として表すことができます。認識論的不確実性を得る 1 つの方法は、2 つの関数を混合することです。で、

予測平均関数はfθ(x)、モデル精度関数はgθ(x)です。

この場合、尤度関数は次のように記述できます。

モデルの重みに事前分布を適用し、特定のデータサンプルに対して重みがどれだけ変化するかを計算します。ユークリッド距離損失関数は次のように調整できます。

式9

予測分散は次のように得られます。

式10

オプションの方法

不確実性の定量化の問題に対処するために多くの研究が行われてきましたが、そのほとんどは不確実性の伝播の問題を扱っています。過去 10 ～ 20 年の間に、逆不確実性定量化の多くの手法も開発され、ほとんどの小規模および中規模の問題に有効であることが証明されています。

図3: 不確実性の定量化に対する選択的アプローチ

前方伝播

シミュレーションベースの方法:モンテカルロシミュレーション、重要度サンプリング、適応サンプリングなど。
一般的なエージェントベースの方法:非侵襲的な方法では、学習したエージェントモデルを使用して、実験やシミュレーションの代わりに安価で高速な近似を実現できます。エージェントベースの方法は、完全にベイジアン方式で使用することもできます。このアプローチは、サンプリングコストが法外な場合 (計算コストの高いシミュレーションなど) に特に効果的です。
局所展開に基づく方法：テイラー級数、摂動法などこれらの方法は、比較的小さな入力変数と、それほど非線形性を示さない出力を処理する場合に利点があります。これらの線形または線形化された方法については、不確実性の伝播に関する記事で詳しく説明されています。
関数展開に基づく方法:ノイマン展開、直交展開またはカルーネン・レーベ展開 (KLE)、特殊なケースとして多項式カオス展開 (PCE) およびウェーブレット展開。
最確点 (MPP) に基づく方法:一次信頼性法 (FORM) と二次信頼性法 (SORM)。
数値積分に基づく方法:完全階乗数値積分 (FFNI) と次元削減 (DR)。

非確率的手法としては、区間分析、ファジー理論、可能性理論、証拠理論などが最も広く使用されている手法です。

確率的アプローチは意思決定分析理論と一致しているため、エンジニアリング設計における最も厳密な不確実性分析方法と考えられています。その基礎となるのは、サンプリング統計の確率密度関数の計算です。変数のガウス変換によって得られるランダム変数の場合、これを厳密に行うことで正確な信頼区間を得ることができます。

逆不確実性

1. 頻度主義:パラメータ推定値の標準誤差は簡単に取得でき、信頼区間に拡張できます。

2. ベイズ学派:ベイズの枠組みでは、逆不確実性定量化法がいくつかあります。最も複雑な方向は、バイアス補正とパラメータ調整の問題を解決することです。これらの問題の課題には、不適切なモデルやパラメータの不確実性の影響だけでなく、コンピューターシミュレーションや実験からのデータの不足も含まれます。よくある状況としては、実験とシミュレーションでは入力環境が異なることが挙げられます。もう一つの一般的な状況は、実験から得られたパラメータがシミュレーションに入力されることです。計算コストの高いシミュレーションでは、ガウス過程や多項式カオス展開などの代替モデルが必要になることが多く、これにより逆問題を定義して、問題を最もよくシミュレートする代替モデルを見つけることができます。

3. モジュラー法：逆不確実性定量化の方法は、モジュラーベイズ法です。モジュラーベイジアンアプローチは、4 つのモジュールプロセスからその名前が付けられています。現在利用可能なデータに加えて、未知のパラメータの事前分布も指定する必要があります。

モデルのガウス過程モデリング:シミュレーション結果の不足に対処するために、コンピュータモデルはガウス過程(GP)モデルに置き換えられました。
差分関数のガウス過程モデリング：同様に、最初のモジュールでは、差分関数をGPモデルに置き換えます。
未知のパラメータの事後分布:ベイズの定理は未知のパラメータの事後分布を計算するために使用されます。
実験的応答と差分関数の予測

4. 完全法:完全ベイズ法では、未知のパラメータに事前確率を割り当てるだけでなく、他のハイパーパラメータにも事前確率を割り当てます。

図4: ベイズ法を用いた不確実性の定量化

機械学習における不確実性の定量化

図5: 機械学習における不確実性定量化の分類

評価分類

分類タスクにおけるデータの不確実性の測定:予測が与えられると、確率ベクトルは分類分布を表します。つまり、各クラスに確率を割り当てて、正しい予測を作成します。予測は明示的なクラスとしてではなく確率分布として与えられるため、不確実性の推定値は予測から直接導き出すことができます。一般的に、このようなポイントごとの予測は、データの不確実性を推定するものと見なすことができます。ただし、モデルによるデータの不確実性の推定はモデルの不確実性の影響を受けるため、個別に考慮する必要があります。予測データの不確実性の量を評価するには、最大分類確率またはエントロピー測定を適用できます。最大確率は確実性の直接的な表現を表しますが、エントロピーはランダム変数内の情報の平均レベルを表します。それでも、単一の予測から、モデルの不確実性がその特定の予測にどの程度影響するかを判断することはできません。
分類タスクにおけるモデルの不確実性の測定:モデルパラメータのおおよその事後分布を学習すると、より正確な不確実性の推定値を得ることができます。この事後分布を使用すると、ランダム変数の変動性、つまり不確実性を評価することができます。最も一般的な尺度は、相互情報量 (MI)、期待カルバック・ライブラー距離 (EKL)、および予測分散です。基本的に、これらのメトリックはすべて、ランダム出力と期待される出力間の予想される差を計算します。 MI は、モデルパラメータに関する知識が最終予測に情報を追加しない場合に最小になります。したがって、MI はモデルの不確実性の尺度として解釈できます。カルバック・ライブラーダイバージェンスは、与えられた 2 つの確率分布間のダイバージェンスを測定します。 EKL は、可能な出力間の (予想される) 差を測定するために使用でき、モデル出力の不確実性の尺度として解釈することもできるため、モデルの不確実性を表します。解析的に記述された分布の場合でも、予測におけるパラメータの不確実性の伝播はほとんどの場合に扱いにくいため、モンテカルロ近似を使用して近似する必要があります。

図6: 分類モデルのモデル可視化と分布の不確実性

分類タスクにおける分布の不確実性の測定:これらの不確実性の尺度は、ベイジアンニューラルネットワークからの複数の予測間の変動性を捉えるために広く使用されていますが、アンサンブル法では、入力データまたは分布外のサンプルの分布のシフトを捉えることができず、推論プロセスに偏りが生じ、誤った信頼性の結果が生じる可能性があります。すべての予測子が高確率質量を同じ（間違った）クラスラベルに帰属させると、推定値間の変動性が低くなります。したがって、システムは予測については確信を持っているように見えますが、予測自体の不確実性は以下で評価されます。

図7: 分類モデルのモデル可視化と分布の不確実性

完全なデータセットのパフォーマンスメトリック:上記のメトリックは単一の予測のパフォーマンスを評価するために使用され、他のメトリックは一連の例に対するこれらのメトリックの使用を評価するために使用されます。不確実性の尺度は、正しく分類されたサンプルと誤分類されたサンプル、またはドメイン内のサンプルと分布外のサンプルを区別するために使用できます。この目的のために、サンプルはドメイン内と分布外、または正しく分類されたグループと誤分類されたグループなどの 2 つのグループに分割されます。最も一般的な 2 つは、受信者動作特性 (ROC) 曲線と適合率再現率 (PR) 曲線です。どちらの方法も、基礎となるメトリックの異なるしきい値に基づいて曲線を生成します。 ROC 曲線と PR 曲線はどちらも、検討対象の 2 つのテストケースを分離するのに基本メトリックがどの程度適しているかを直感的に示しますが、定性的な尺度は示しません。これを達成するには、曲線下面積 (AUC) を評価することができます。簡単に言えば、AUC は、ランダムに選択された陽性サンプルが、ランダムに選択された陰性サンプルよりも高い測定値をもたらす確率値を示します。

回帰の評価

回帰予測におけるデータの不確実性の測定:分類タスクと比較すると、回帰タスクはデータの不確実性を考慮することなく、ポイントごとの推定値のみを予測します。この問題に対処する一般的なアプローチは、ネットワークに確率分布のパラメータ（たとえば、正規分布の不確実性の平均ベクトルと標準偏差）を予測させることです。これにより、データの不確実性を直接測定できます。標準偏差の予測により、特定の範囲内での（未知の）真の値を分析的に記述することができます。予測分布が正しいと仮定して、一定の確率で真の値をカバーする区間は、累積確率関数の逆である分位関数です。与えられた確率値に対して、分位関数は境界を与えます。分位数は、何らかの確率分布を想定し、与えられた予測をその分布の期待値として解釈します。

対照的に、他のアプローチでは、予測の存在が想定される、いわゆる予測区間 (PI) を直接予測します。このような間隔では、特定の予測を与えるのではなく、不確実性が均一な分布として現れます。名前が示すように、この方法の確実性は予測区間のサイズによって直接測定できます。平均予測区間幅 (MPIW) は、モデルの平均確実性を評価するために使用できます。予測区間の正確性を評価するには、予測区間カバレッジ確率 (PICP) を適用できます。 PCIP は、予測区間内に含まれるテスト予測の割合を表します。

回帰予測におけるモデルの不確実性の測定:モデルの不確実性は、主にモデルの構造、トレーニングプロセス、およびトレーニングデータ内の過小評価されている領域によって発生します。したがって、回帰タスクと分類タスクの間では、モデルの不確実性の原因と結果に実際の違いはありません。そのため、回帰タスクにおけるモデルの不確実性は、分類タスクについてすでに説明したのと同様に、たとえば、ほとんどの場合、平均予測を近似し、個々の予測間の差を測定することによって、同等に測定できます。

図8: 回帰モデルのモデル可視化と分布の不確実性

図9: 回帰モデルのモデル可視化と分布の不確実性

セグメンテーションタスクにおける不確実性の評価:セグメンテーションタスクにおける不確実性の評価は、分類問題における不確実性の評価と非常に似ています。セグメンテーションタスクにおける不確実性は、ベイズ推論の近似法を使用して推定されます。セグメンテーションのコンテキストでは、ピクセルレベルのセグメンテーションにおける不確実性は、信頼区間、予測分散、予測エントロピー、または相互情報量 (MI) を使用して測定されます。構造推定値の不確実性は、すべてのピクセルの不確実性推定値を平均することによって得られます。ボリュームの不確実性の質は、変動係数、平均ダイススコア、または和集合上の交差を評価することによって評価されました。これらの指標は、エリアの重複に関して複数の推定値間の一致をペアワイズ方式で測定します。理想的には、誤ったセグメンテーションにより、ピクセルと構造の不確実性が増大します。これが当てはまるかどうかを検証するには、異なる不確実性しきい値での保持ピクセルの誤検出率とROC曲線と同様に、ピクセルレベルの真の正速度と、評価する必要があります。

較正

派生予測信頼が実際の正確性の確率の適切な近似を表す場合、予測は十分に調整されると言われています。したがって、不確実性の定量化方法を使用するには、システムが十分に調整されていることを確認する必要があります。回帰タスクの場合、予測される信頼区間がデータセットから経験的に計算された信頼区間と一致する必要があるキャリブレーションを定義できます。

通常、キャリブレーションエラーは、モデルの不確実性に関連する要因によって引き起こされます。データの不確実性が根本的な不確実性を表しているため、これは直感的に理解しやすいです。つまり、入力xとターゲットyは同じ実際の情報を表します。次に、データの不確実性が正しく予測されていると、完全に較正されたシステムにつながります。これは、これらの方法がそれぞれモデルとデータの不確実性を定量化し、予測のモデルの不確実性を減らすことを目指しているため、明らかです。モデルの不確実性を減らすことでキャリブレーションを改善する方法に加えて、大規模で成長している文献は、キャリブレーションエラーを明示的に削減する方法を調査します。次のセクションでは、キャリブレーションエラーを定量化するためのこれらの方法と測定について説明します。これらの方法はモデルの不確実性を減らすのではなく、モデルの不確実性をデータの不確実性の表現に伝播することに注意することが重要です。

たとえば、バイナリ分類器が過剰にフィットし、テストセットのすべてのサンプルを確率1のクラスAとして予測する場合、テストサンプルの半分は実際にはクラスBです。再調整方法は、ネットワーク出力を0.5にマッピングして信頼できる信頼スコアを取得する可能性があります。 0.5の確率はデータの不確実性に等しくありませんが、予測データの不確実性に伝播されるモデルの不確実性を表します。

キャリブレーション方法

キャリブレーション方法は、アプリケーションの手順に基づいて3つの主要なカテゴリに分類できます。

トレーニング段階で適用される規範的方法：これらの方法は、目的、最適化、および/または規範的プロセスを変更して、本質的に調整されたシステムとネットワークを構築します。
モデルのトレーニングプロセスの後に適用される後処理方法：これらの方法では、再調整の予測スコアを調整するために、保留アウトキャリブレーションデータセットが必要です。左翼検証セットの分布が推論の基礎となる分布に等しいと仮定した場合にのみ機能することに注意することが重要です。したがって、検証データセットのサイズもキャリブレーションの結果に影響します。
ニューラルネットワークの不確実性推定方法：ニューラルネットワーク信頼予測のモデルの不確実性を減らす方法を使用することにより、より良い較正された予測も生成されます。これは、残りの予測データの不確実性が予測の実際の不確実性をよりよく表しているためです。このような方法は、たとえば、ベイジアンのアプローチや深いアンサンブルに基づいています（図4）。

現実世界のアプリケーション

Nice Actimizeは、地域および世界の金融機関、政府規制当局に対するさまざまな金融犯罪、リスク、コンプライアンスソリューションのプロバイダーです。同社は、リアルタイムのクロスチャネル詐欺防止、マネーロンダリング防止検出およびトランザクション監視ソリューションを提供して、支払い詐欺、サイバー犯罪、制裁監視、市場乱用、顧客デューデリジェンス、インサイダー取引に対処するのに役立ちます。

AIベースのシステムと高度な分析ソリューションは、盗難、詐欺、規制の罰則、制裁からの財政的損失を排除するよりも早く、より早く異常な行動を検出できます。これにより、企業や組織はさまざまな損失を減らし、調査員の効率を高め、法的コンプライアンスと監督の質を向上させるのに役立ちます。

金融犯罪におけるAIベースのシステムの使用が成長するにつれて、不確実性を定量化して対処することがますます重要になります。一方で、不確実性の定量化は、詐欺防止に必要なリスク最小化に重要な役割を果たします。一方、詐欺調査に関する追加の洞察を提供するいくつかの挑戦的なデータソースがありますが、これらのデータを検証することは困難です。これにより、信頼できる「グラウンドトゥルース」が非常に挑戦的な作業になります。

Actimizeの一般的な評価フレームワーク

上記の問題に対処するために、さまざまな特定のベースラインデータセットと評価メトリックを含む評価プロトコルをアクティブ化し、あらゆる種類の不確実性をカバーし、不確実性の定量化研究を促進するのに役立ちます。さらに、彼らはリスク回避と最悪の評価の問題を考慮しました。この共通のプロトコルにより、データサイエンティストは、確立されたベンチマークと実際のデータセットとさまざまなタイプの方法を簡単に比較できます。

結論は

不確実性の定量化（UQ）は、AIベースのシステムと意思決定プロセスの重要な部分の1つであり、さまざまな実際のアプリケーションの不確実性を評価するのにますます一般的になっています。現在、不確実性は従来の機械と深い学習方法の不可欠な部分になっているため、この記事では、従来の機械学習と深い学習における最も重要なUQの概念と方法の比較的包括的な概要も提供します。

翻訳者紹介

Zhu Xianzhong 氏は、51CTO のコミュニティエディターであり、51CTO の専門ブロガー兼講師であり、濰坊の大学のコンピューター教師であり、フリーランスプログラミングコミュニティのベテランです。初期にはさまざまな Microsoft テクノロジに注力し (ASP.NET AJX および Cocos 2d-X に関連する 3 冊の技術書を編纂)、オープンソースの世界に 10 年近く携わってきました (人気のフルスタック Web 開発テクノロジに精通)。OneNet/AliOS+Arduino/ESP32/Raspberry Pi をベースとした IoT 開発テクノロジや、Scala+Hadoop+Spark+Flink などのビッグデータ開発テクノロジを理解しています。

オリジナルタイトル：人工知能ベースのシステムにおける不確実性の定量化、著者：Danny Butvinik

<<: 金融業界における AI とビッグデータのトップ 10 トレンド

>>: いくつかの文章を入力すると、分子を生成できます。分子を見ると、説明文も生成されます。謎に包まれた Google X により、マルチモーダル AI がブラックテクノロジーになりました。