信頼できる機械学習モデルを作成するにはどうすればよいでしょうか?まず不確実性を理解する

「不確実性」の概念は、人工知能の安全性、リスク管理、ポートフォリオの最適化、科学的測定、保険などについて話すときによく言及されます。不確実性を伴う言語が使用される例をいくつか示します。

「機械学習モデルに、知らないことを知ってもらいたいのです。」
「患者の診断と治療法の処方を任されたAIは、その推奨にどれほど自信があるかを私たちに伝えるべきだ。」
「科学計算における有意値は、測定の不確実性を表します。」
「私たちは、自動化エージェントが（報酬や予測について）不確実な領域を探索し、まばらな報酬を発見できるようにしたいと考えています。」
「ポートフォリオの最適化では、リスクを制限しながらリターンを最大化したいと考えています。」
「地政学的不確実性が高まったため、米国株は2018年を失望のうちに終えた。」

では、「不確実性」とは一体何なのでしょうか?

不確実性の尺度はランダム変数の分散を反映します。言い換えれば、ランダム変数がどれだけ「ランダム」であるかを反映するスカラーです。金融の世界では、これを「リスク」と呼ぶことが多いです。

不確実性は単一の形式をとるわけではなく、分散を測定する方法は多数あります。標準偏差、分散、リスク値 (VaR)、エントロピーはすべて適切な測定基準です。ただし、単一のスカラー値では「ランダム性」の全体像を描くことはできないことを覚えておくことが重要です。そのためには、ランダム変数全体を渡す必要があるからです。

それでも、最適化と比較の目的では、ランダム性を 1 つの数値に圧縮すると便利です。一般的に、「不確実性が高い」ということは「悪い」と見なされることが多いことに注意してください (シミュレートされた RL 実験を除く)。

不確実性の種類

統計機械学習は、モデル p(θ|D) の推定に重点を置いており、モデル p(y|x) は未知のランダム変数 p(y|x) を推定します。不確実性にはさまざまな形があります。不確実性の概念の中には、私たちが期待できる固有のランダム性（コイントスの結果など）を説明するものもあれば、モデルパラメータに関する最善の推測に対する信頼の欠如を説明するものもあります。

これをより具体的にするために、毎日の気圧計の測定値のシーケンスに基づいて、その日の降雨量を予測する必要があるリカレントニューラルネットワーク (RNN) があると仮定しましょう。気圧計は大気圧を検出することができ、大気圧の低下は降雨の前兆となることがよくあります。下の図は、降雨予測モデルとさまざまな種類の不確実性をまとめたものです。

図1

図 1: 一連の気圧計の測定値から毎日の降雨量を予測しようとする単純な機械学習モデルが考慮する可能性のある不確実性。偶然性の不確実性はデータ収集プロセスから発生し、減らすことのできないランダム性です。認識論的不確実性は、モデルが正しい予測を行うという信頼度を反映します。最後に、分布外誤差とは、モデルの入力がトレーニングデータと異なる場合に発生する不確実性を指します (太陽温度などのその他の異常など)。

偶然の出来事の不確実性

偶然性の不確実性は、ラテン語の語源である aleatorius に由来しており、「創造のプロセスに偶然性を組み込む」という意味です。これは、データ生成プロセス自体から生じるランダム性、つまり、単にデータを収集するだけでは除去できないノイズを表します。それは結果を予測できないコインを投げるようなものです。

降雨量予報の例えでは、偶然の不確実性は気圧計の不正確さから生じます。このデータ収集方法では観測されない重要な変数もあります。昨日の降雨量はどれくらいでしたか? 気圧を測定しているのは現代のものか、それとも最終氷河期のものか? これらの未知数はデータ収集方法に固有のものであり、このシステムでより多くのデータを収集しても、この不確実性を排除することはできません。

偶然性の不確実性は、モデルの予測に対する入力から伝播します。正規分布x∼N(0,1)から入力される単純なモデルy=5xがあるとします。この場合、y∼N(0,5)なので、この予測分布の偶然の不確実性はσ=5と記述できます。もちろん、入力データ x のランダム構造が不明な場合、予測結果の偶然の不確実性を推定することはより困難になります。

偶発的な出来事の不確実性は減らすことができないので、それについては何もできず、無視するべきだと考える人もいるかもしれません。これはよくありません。モデルをトレーニングするときは、偶然のイベントの不確実性を正しく表す出力表現を選択するように注意する必要があります。標準的な LSTM は確率分布を生成しないため、コイン投げの結果を学習するときには平均にのみ収束します。対照的に、言語生成モデルは、さまざまなクラス分布（単語または文字）を推測することができ、文完成タスクに固有の曖昧さを組み込むことができます。

認識論的不確実性

「良いモデルはどれも似ていますが、悪いモデルはどれも異なります。」

認識論的不確実性は、知識に関連するギリシャ語の語源である epistēmē に由来します。これは、正しいモデルパラメータに関する無知から生じる正しい予測に関する無知を測定します。

下の図は、単純な 1 次元データセットのガウス過程回帰モデルを示しています。その信頼区間は認識論的不確実性を反映しており、トレーニングデータの認識論的不確実性はゼロです (赤い点)。トレーニングデータポイントから離れるほど、モデルは予測分布に高い標準偏差を割り当てる必要があります。偶然の不確実性とは異なり、認識論的不確実性は、より多くのデータを収集し、モデルの入力のうち知識が不足している領域を「削除」することで軽減できます。

図 2: トレーニングセット外の入力に関する認識論的不確実性を示す 1 次元ガウス過程回帰モデル。

ディープラーニングとガウス過程の間には豊富なつながりがあります。ガウス過程の不確実性を認識する性質が、ニューラルネットワークの表現力を通じて拡張されることが期待されます。残念ながら、ガウス過程は大規模なデータセットの均一ランダムミニバッチ設定にうまく適応できず、このアプローチは大規模なモデルやデータセットを扱う研究者の間では好まれなくなっています。

モデルファミリを選択する際に最大限の柔軟性が必要な場合、不確実性を推定するためにアンサンブルアプローチを使用するのがよい選択肢です。これは実質的に「複数の独立して学習されたモデル」を使用するものです。ガウス過程モデルは予測分布を解析的に定義しますが、アンサンブル法は予測の経験的分布を計算するために使用されます。

どのモデルでも、トレーニング中に発生するランダム化バイアスにより、多少の誤差が生じます。アンサンブルアプローチでは、他のモデルは、正しい予測については同意しながらも、単一のモデルに固有のエラーを明らかにする傾向があるため、アンサンブルモデルは非常に強力です。

アンサンブルモデルを構築するために、モデルをランダムにサンプリングするにはどうすればよいでしょうか。ブートストラップ集約を使用してアンサンブルモデルを構築する場合、サイズ N のトレーニングデータセットから開始し、元のトレーニングセットからサイズ N の M 個のデータをサンプリングします (各データセットがデータセット全体を占有しないように置換します)。これらのデータセットに対してそれぞれ M 個のモデルがトレーニングされ、それらの予測結果が組み合わされて経験的予測分布が得られます。

複数のモデルをトレーニングするとコストがかかりすぎる場合は、ドロップアウトトレーニングを使用してモデルアンサンブルを近似することもできます。ただし、ドロップアウトを導入すると、追加のハイパーパラメータが必要になり、単一モデルのパフォーマンスが低下する可能性もあります (これは、キャリブレーションの不確実性の推定が精度に比べて二次的な重要性しかない実際のアプリケーションでは受け入れられないことがよくあります)。

したがって、大規模なコンピューティングリソースにアクセスできる場合 (Google など)、モデルの複数のコピーを再トレーニングする方がはるかに簡単な場合がよくあります。これにより、パフォーマンスを犠牲にすることなく、アンサンブルアプローチの利点も得られます。このディープインテグレーションペーパーでは、このアプローチが使用されています: https://arxiv.org/pdf/1612.01474.pdf。この論文の著者らは、異なる重みの初期化によってもたらされるランダムなトレーニングダイナミクスは、ブートストラップ集約によってトレーニングセットの多様性を低下させることなく、多様なモデルセットを取得するのに十分であると述べています。実用的なエンジニアリング開発の観点からは、モデルのパフォーマンスに影響を与えないリスク推定方法や、研究者が試してみたい他の方法に賭けるのが賢明です。

分布を超えた不確実性

降雨量予測器に気圧計の読み取り値のシーケンスを提供する代わりに、太陽の温度を提供したらどうなるでしょうか。すべてゼロのシーケンスを提供したらどうなるでしょうか。あるいは、別の単位で記録された気圧計の読み取り値を提供したらどうなるでしょうか。RNN は引き続き処理を進め、予測を提供しますが、結果はおそらく無意味なものになるでしょう。

このモデルは、トレーニングセットの作成に使用されたプロセスとは異なるプロセスによって生成されたデータに基づいて予測を行うことはまったくできません。これは、ベンチマーク主導の機械学習研究の世界では見落とされがちな障害モードです。これは通常、トレーニングセット、検証セット、テストセットがすべて完全に独立した同一に分散されたデータで構成されていると想定しているためです。

入力が「有効」かどうかを判断することは、機械学習の実際の展開で直面する深刻な問題であり、Out of Distribution (OoD) 問題としても知られています。 OoD は、「モデル誤指定エラー」および「異常検出」と同義です。

異常検出は、機械学習システムをより堅牢にするために重要であるだけでなく、それ自体が非常に有用な技術でもあります。たとえば、異常な病理学的パターンを事前に確認しなくても、健康な人のバイタルサインを監視し、異常が発生したときにアラートを送信するシステムを構築したい場合があります。また、異常検出を使用してデータセンターの「健全性」を管理し、異常な事態（ディスクがいっぱい、セキュリティ侵害、ハードウェア障害など）が発生したときに通知を受け取ることもできます。

OoD 入力はテスト時にのみ表示されるため、モデルが遭遇する異常の分布を事前に知っているとは想定しないでください。まさにここが OoD 検出が難しいところです。トレーニング中に見たことのない入力に対してモデルを強化する必要があります。これはまさに敵対的機械学習で説明されている標準的な攻撃シナリオです。

機械学習モデルが OoD 入力を処理する方法は 2 つあります。1) モデルに到達する前に不正な入力を識別すること、2) モデルの予測の「奇妙さ」を利用して、問題のある可能性のある入力を特定することです。

最初のアプローチでは、下流の機械学習タスクについては何も仮定せず、入力がトレーニング分布内にあるかどうかという問題のみを考慮します。これはまさに、生成的敵対的ネットワーク (GAN) の識別器の役割です。ただし、単一の識別器は、真のデータ分布とジェネレータによって取得された分布を区別することしかできないため、完全に堅牢ではありません。どちらの分布にも属さない入力に対しては、任意の予測を行う可能性があります。

判別器に加えて、カーネル密度推定器などの分布内のデータの密度モデルを構築したり、正規化フローを使用してデータを適合させたりすることもできます。 Hyunsun Choi と私は最近この問題に取り組みました。最新の生成モデルを使用した OoD 検出に関する最近の論文をご覧ください: https://arxiv.org/abs/1810.01392

2 番目の OoD 検出アプローチでは、タスクモデルの予測的 (認識論的) 不確実性を使用して、どの入力が OoD であるかを識別します。理想的には、モデルは誤った入力を受け取ったときに「奇妙な」予測分布 p(y|x) を取得するはずです。たとえば、Hendrycks と Gimpel (https://arxiv.org/abs/1610.02136) は、OoD 入力の最大化されたソフトマックス確率 (予測クラス) は、分布内入力の確率よりも低いことが多いことを示しました。ここで、不確実性は最大ソフトマックス確率モデルの「信頼性」に反比例します。ガウス過程のようなモデルは、構築によってこれらの不確実性の推定値を提供したり、ディープアンサンブルを通じて認識論的不確実性を計算したりすることができます。

強化学習の分野では、OoD 入力はエージェントがまだ処理方法を知らない世界への入力であるため、実際には良いものであると考えられています。ポリシーが独自の OoD 入力を見つけることを奨励すると、「本質的な好奇心」によって、モデルの予測が不十分な領域を探索できるようになります。これはすべて結構なことですが、好奇心に駆られたこのエージェントが、センサーが簡単に壊れたり、その他の実験上の異常が発生したりする可能性のある現実世界に導入されたらどうなるのか、興味があります。ロボットはどのようにして「目に見えない状態」（良い）と「損傷したセンサーの状態」（悪い）を区別できるのでしょうか？これにより、最大限の新規性を生み出すために、感知メカニズムと対話することを学習できるエージェントが生まれるのでしょうか？

番犬の監視は誰がするのでしょうか？

前のセクションで述べたように、OoD 入力から身を守る 1 つの方法は、モデル入力を「ウォッチドッグのように」監視する尤度モデルを用意することです。このアプローチは、OoD 入力問題をタスクモデル内の認識論的および偶発的な不確実性から分離するため、私はこのアプローチを好みます。エンジニアリング開発の観点から見ると、これにより分析が容易になります。

しかし、この尤度モデルも関数近似値であり、独自の OoD エラーが発生する可能性があることを忘れてはなりません。生成アンサンブルに関する最近の研究 (生成アンサンブル、https://arxiv.org/abs/1810.01392、DeepMind による同時研究 https://arxiv.org/abs/1810.09136 も参照) では、CIFAR 尤度モデルを使用すると、SVHN からの自然な画像の方が、CIFAR 分布自体からの画像よりも実際に可能性が高いことが示されています。

図3

図 3: 尤度推定には関数近似器が関与しますが、関数近似器自体も OoD 入力の影響を受けやすい可能性があります。 CIFAR 尤度モデルは、CIFAR テスト画像よりも SVHN 画像に高い確率を割り当てます。

しかし、希望はあります! 研究により、尤度モデルにおける認識論的不確実性は、尤度モデル自体の優れた OoD 検出器であることがわかっています。認識論的不確実性の推定と密度の推定を組み合わせることで、モデルに依存しない方法で尤度モデルのアンサンブルを使用して、機械学習モデルを OoD 入力から保護できます。

キャリブレーション: 次の大きな出来事?

警告: モデルが予測結果の信頼区間を決定できるからといって、その信頼区間が現実の結果の実際の確率を正確に反映しているわけではありません。

信頼区間 (2σ など) は、予測分布がガウス分布であると暗黙的に想定していますが、予測する分布が多峰性または裾が重い場合、モデルは適切に調整されません。

降雨量予測 RNN が今日の降雨量が N(4,1) インチになると予測したとします。モデルが調整されていれば、同じ条件下でこの実験を何度も繰り返すと (おそらくそのたびにモデルを再トレーニングする)、実際の降雨量分布がまさに N(4,1) であることが分かります。

現在、学術界で開発されている機械学習モデルのほとんどは、テスト精度や特定の適合関数に合わせて最適化されています。研究者がモデル選択を行う方法は、モデルを繰り返し展開して較正誤差を測定することではないため、当然のことながら、私たちのモデルは較正が不十分になる傾向があります。https://arxiv.org/abs/1706.04599 を参照してください。

今後、現実世界に導入される機械学習システム（ロボット、医療システムなど）を信頼するつもりなら、モデルが世界を正しく理解していることを証明するはるかに強力な方法は、統計的較正に対してモデルをテストすることだと私は思います。適切なキャリブレーションは適切な精度も意味するため、これはより厳密で高度な最適化メトリックです。

不確実性はスカラーであるべきでしょうか?

スカラーの不確実性は有用ですが、それらが記述するランダム変数ほど有益ではありません。また、粒子フィルタリングや分布強化学習などの方法は、分布全体に対して動作するアルゴリズムであるため、不確実性を追跡するために単純な正規分布に頼る必要がなくなり、非常に優れていると思います。「不確実性」と呼ばれる単一のスカラー量を使用して機械学習ベースの意思決定を形成することに加えて、何をすべきかを決定する際に分布の全体的な構造を照会することもできるようになりました。

Dabney らによる Implicit Quantile Networks の論文 (https://arxiv.org/pdf/1806.06923.pdf) では、報酬の分配に基づいて「リスクに敏感なエージェント」を構築する方法について詳しく説明されています。環境によっては、人々は未知のものを探索する傾向のある機会主義的な戦略を好む場合があります。一方、他の環境では、未知のものは安全ではない可能性があり、避けるべきです。リスクメトリックの選択によって、本質的には、リターンの分布をスカラー量にマッピングし、この量に基づいて最適化する方法が決まります。すべてのリスク指標は分布から計算できるため、分布全体を予測することで、複数のリスク定義を簡単に組み合わせることができます。さらに、柔軟な予測分布をサポートすることは、モデルのキャリブレーションを改善するための良い方法であると思われます。

図4

図 4: Atari ゲームにおけるさまざまなリスクメトリックのパフォーマンス (IQN 論文より): https://arxiv.org/abs/1806.06923

リスク測定は金融資産管理者にとって非常に重要な研究テーマです。純粋なマーコウィッツポートフォリオの目的は、ポートフォリオリターンの加重分散を最小限に抑えることです。しかし、金融の文脈では、分散は「リスク」として直感的に選択できるものではありません。ほとんどの投資家は期待を上回るリターンをまったく気にしておらず、小さなリターンや損失の可能性を最小限に抑えたいだけなのです。このため、「悪い」結果の確率のみに焦点を当てた Value-at-Risk、Shortfall Probability、Target Semivariance などのリスク測定は、より有用な最適化目標となります。

残念ながら、分析もより困難です。分布強化学習、モンテカルロ法、柔軟な生成モデルの研究によって、ポートフォリオ最適化装置とうまく連携するリスク尺度の微分可能な緩和を構築できるようになることを願っています。金融業界で働いている場合は、IQN 論文の「強化学習におけるリスク」のセクションを読むことを強くお勧めします。

要約する

この記事の重要なポイントは次のとおりです。

不確実性/リスクの尺度は、「ランダム性」のスカラー尺度です。最適化と数学的計算の便宜上、ランダム変数は単一の値に凝縮されます。
予測の不確実性は、偶然の不確実性 (データ収集プロセスからの削減不可能なノイズ)、認識論的不確実性 (真のモデルの無知)、および分布外の不確実性 (テスト時の入力の問題) に分解できます。
認識論的不確実性は、ソフトマックス予測閾値設定またはアンサンブル法によって軽減できます。
OoD の不確実性を予測に伝播させる代わりに、タスクに依存しないフィルタリングメカニズムを使用して「問題のある入力」を除外できます。
密度モデルは、テスト時に入力をフィルタリングするのに適しています。ただし、密度モデルは真の密度関数の近似値に過ぎず、分布外の入力の影響を受ける可能性があることを認識することが重要です。
自己プラギング: 生成アンサンブル法は尤度モデルの認識論的不確実性を低減できるため、OoD 入力の検出に使用できます。
キャリブレーションは重要ですが、研究モデルでは過小評価されています。
特定のアルゴリズム (分散強化学習) は、機械学習アルゴリズムを拡張して、柔軟な分布を生成するモデルを作成し、単一のリスクメトリックよりも多くの情報を提供できます。

オリジナル URL: https://blog.evjang.com/2018/12/uncertainty.html

[この記事は51CTOコラム「Machine Heart」、WeChatパブリックアカウント「Machine Heart（id:almosthuman2014）」によるオリジナル翻訳です]

この著者の他の記事を読むにはここをクリックしてください

<<: エンジニアリングだけではありません!人間の認知バイアスが原因の AI 研究における 12 の盲点

>>: SSDエラー訂正アルゴリズムの過去と現在