トロント大学のデュヴノーチームは確率微分方程式を組み合わせて、無限深ベイズニューラルネットワークを提案した。

[[433557]]

ニューラルネットワークの制限を無限の数の残差層の組み合わせとして見ると、その出力を常微分方程式 (ODE) の解として暗黙的に定義する方法が提供されます。連続的な深度パラメータ化により、モデルの仕様とその計算が切り離されます。パラダイムの複雑さは増しますが、このアプローチにはいくつかの利点があります。(1)適応計算の誤差許容値を指定することにより、計算コストをきめ細かく精度と交換できます。(2)バックプロパゲーションに必要な中間状態の活性化関数を再構築するために時間を遡って動的に実行することにより、トレーニングのメモリコストを大幅に削減できます。

一方、ニューラルネットワークのベイズ処理では、一般的なトレーニングパイプラインが変更され、点推定は実行されなくなり、代わりにパラメーターの分布が推測されるようになります。このアプローチは複雑さを増しますが、モデルの不確実性を自動的に考慮します。これにより、特に分布外データの場合、過剰適合に対処し、モデルの平均化を通じてモデルのキャリブレーションを改善できます。

最近、トロント大学とスタンフォード大学の研究により、ベイジアン連続深層ニューラルネットワークの代替構築にはいくつかの追加の利点があることが示され、連続深層ベイジアンニューラルネットワークでの近似推論の実用的な方法が開発されました。論文の第一著者は、トロント大学ベクター研究所の学部生である Winnie Xu 氏です。第二著者は、NeurIPS 2018 の最優秀論文の第一著者である Tianqi Chen 氏です。彼らの指導教官である David Duvenaud 氏も論文の著者の一人です。

無限深度ベイジアンニューラルネットワーク">

論文アドレス: https://arxiv.org/pdf/2102.06559.pdf
プロジェクトアドレス: https://github.com/xwinxu/bayesian-sde

具体的には、無限深ベイズニューラルネットワークの各層に未知の重みがあるという制限を考慮し、SDE-BNN（SDE-ベイズニューラルネットワーク）と呼ばれるモデルを提案しました。この研究は、Li et al. (2020) が説明したスケーラブルな勾配ベースの変分推論スキームを使用して、近似推論を効率的に実行できることを実証しています。

このアプローチでは、出力層の状態はブラックボックスの適応型確率微分方程式 (SDE) ソルバーによって計算され、モデルは変分下限を最大化するようにトレーニングされます。次の図は、このニューラル SDE パラメータ化と標準ニューラル ODE アプローチを比較したものです。このアプローチでは、ベイジアンニューラル ODE のトレーニングの適応型計算と一定のメモリコストが維持されます。

無限に深いベイジアンニューラルネットワーク（BNN）

標準的な離散深層残差ネットワークは、次の形式のレイヤーの組み合わせとして定義できます。

無限深度ベイジアンニューラルネットワーク">

ここでtはレイヤーインデックスであり、

無限深度ベイジアンニューラルネットワーク">

隠されたT層を表す

ユニット活性化ベクトルを非表示にし、h_0 = xを入力します。

無限深度ベイジアンニューラルネットワーク">

離散設定における層tのパラメータを表す

無限深度ベイジアンニューラルネットワーク">

この研究は

無限深度ベイジアンニューラルネットワーク">

そして制限

設定

無限深度ベイジアンニューラルネットワーク">

残差ネットワークの連続深度バリアントを構築します。これにより、深さ t の関数として隠れユニットの進化を記述する微分方程式が生成されます。標準残差ネットワークの各層は異なる重みを使用してパラメータ化されるため、この研究ではw_tを使用してt番目の層の重みを表します。さらに、この研究では、深さと現在の重みの関数として重みの変化を指定するハイパーネットワーク f_w を導入しています。隠れユニットの活性化関数と重みの変化は、次の微分方程式に結合されます。

無限深度ベイジアンニューラルネットワーク">

重み事前プロセス: この研究では、ドリフトと拡散を伴う SDE を特徴とする Ornstein-Uhlenbeck (OU) プロセスを重み事前として使用します。

無限深度ベイジアンニューラルネットワーク">

加重近似事後分布は、次のドリフト関数を持つ別の SDE を使用して暗黙的にパラメータ化されます。

無限深度ベイジアンニューラルネットワーク">

次に、この研究では、与えられた入力の下でネットワークに必要な周辺化重みと隠れユニットの軌跡を評価しました。これは、事後プロセスから重みパス {w_t} をサンプリングし、サンプリングされた重みと入力に基づいてネットワーク活性化関数 {h_t} を評価するという単純なモンテカルロ法で実行できます。どちらのステップでも微分方程式を解く必要があり、拡張状態 SDE の単一の SDE ソルバーを呼び出すことによって同時に実行できます。

無限深度ベイジアンニューラルネットワーク">

ネットワークをデータに適合させるために、この研究では無限次元ELBOによって与えられた限界尤度の下限を最大化します。

無限深度ベイジアンニューラルネットワーク">

サンプリング重み、隠しアクティベーション関数、およびトレーニングターゲットはすべて、適応型 SDE ソルバーへの 1 回の呼び出しで同時に計算されます。

分散を低減した勾配推定

この研究では、SDE 設定に適応するために、パス空間 KL 内の元の推定値を STL (sticking the landing) 推定値に置き換えます。

無限深度ベイジアンニューラルネットワーク">

式（12）の2番目の項はマルチンゲールであり、期待値はゼロである。以前の研究では、研究者らは最初の項に対してのみモンテカルロ推定を実行しましたが、この方法では必ずしも勾配の分散が減少するわけではないことがわかりました（下の図 4 を参照）。

無限深度ベイジアンニューラルネットワーク">

この研究で提案された近似事後分布は任意に表現できるため、研究者らは、パラメータ化されたネットワーク f_w の表現力が十分に強力であれば、この方法はトレーニング終了時に任意に低い勾配分散を達成できると推測しています。

図 4 は、STL と「フルモンテカルロ」推定値を比較した複数の勾配推定値の分散を示しています。図 4 は、指数ブラウン運動を一致させる場合、STL が他の方式よりも低い分散を実現することを示しています。下の表 4 はトレーニングパフォーマンスの向上を示しています。

無限深度ベイジアンニューラルネットワーク">

実験

この研究の実験設定は、以下の表に示されています。この研究では、MNIST と CIFAR-10 でおもちゃの回帰と画像分類タスクを実施しました。さらに、分布外一般化タスクも研究しました。

無限深度ベイジアンニューラルネットワーク">

随伴ソルバーのバックプロパゲーションを比較するために、研究者らは固定ステップサイズと適応ステップサイズの SDE ソルバーと、Li らが提案したランダム随伴ソルバーを比較しました。図 5 は、2 つの方法が同様の収束を示すことを示しています。

無限深度ベイジアンニューラルネットワーク">

1D回帰

この研究では、1D回帰問題におけるSDE-BNNのパフォーマンスを初めて検証しました。拡散プロセスのサンプルに基づいて、1D SDE-BNN からの各サンプルは、入力から出力への双方向マッピングになります。これは、1D SDE-BNN からサンプリングされたすべての関数が単調であることを意味します。非単調関数のサンプリングを可能にするために、この研究では、ゼロに初期化された 2 つの追加次元で状態を拡張します。図 2 は、モデルが合成非単調 1D データセットでかなり柔軟な近似事後分布を学習することを示しています。

無限深度ベイジアンニューラルネットワーク">

画像分類

表 1 に画像分類実験の結果を示します。 SDE-BNN は一般にベースラインよりも優れたパフォーマンスを発揮し、結果によると、連続ディープニューラル ODE (ODEnet) モデルは標準残差ネットワークで同様の分類パフォーマンスを達成できるものの、キャリブレーションが不十分であることが示されています。

無限深度ベイジアンニューラルネットワーク">

図 6a は SDE-BNN のパフォーマンスを示しており、図 6b はニューラル ODE キャリブレーションと同様の精度ですが、それよりも優れた結果を示しています。

無限深度ベイジアンニューラルネットワーク">

表 1 は、予想されるキャリブレーション誤差を使用してモデルのキャリブレーションを定量化したものです。 SDE-BNN は、Neural ODE および Mean Field ResNet ベースラインよりも適切に調整されているようです。

無限深度ベイジアンニューラルネットワーク">

下の図 7 は、破損したテストセット上の破損していないデータと比較したエラーを示しており、摂動の重大度レベルが増加するにつれて mCE が着実に増加し、表 1 にまとめられている全体的なエラーメトリックも増加していることを示しています。 CIFAR10 および CIFAR10-C では、SDE-BNN および SDE -BNN + STL モデルは、ベースラインよりも全体的なテストエラーが低くなり、キャリブレーションが向上します。

無限深度ベイジアンニューラルネットワーク">

標準ベースライン (ResNet32 および MF ResNet32) と比較すると、SDE-BNN の絶対破損エラー (CE) は約 4.4% 減少します。ドメイン外入力に対する不確実性の学習の有効性は、SDE-BNN が複数の形式の破損についてトレーニングされていないにもかかわらず、観測の摂動に対してもより堅牢であることを示しています。

<<: JVM 世代別ガベージコレクションメカニズムとガベージコレクションアルゴリズム

>>: ディープラーニング Pytorch フレームワーク Tensor