トロント大学のデュヴノーチームは確率微分方程式を組み合わせて、無限深ベイズニューラルネットワークを提案した。

トロント大学のデュヴノーチームは確率微分方程式を組み合わせて、無限深ベイズニューラルネットワークを提案した。

[[433557]]

ニューラル ネットワークの制限を無限の数の残差層の組み合わせとして見ると、その出力を常微分方程式 (ODE) の解として暗黙的に定義する方法が提供されます。連続的な深度パラメータ化により、モデルの仕様とその計算が切り離されます。パラダイムの複雑さは増しますが、このアプローチにはいくつかの利点があります。(1)適応計算の誤差許容値を指定することにより、計算コストをきめ細かく精度と交換できます。(2)バックプロパゲーションに必要な中間状態の活性化関数を再構築するために時間を遡って動的に実行することにより、トレーニングのメモリコストを大幅に削減できます。

一方、ニューラル ネットワークのベイズ処理では、一般的なトレーニング パイプラインが変更され、点推定は実行されなくなり、代わりにパラメーターの分布が推測されるようになります。このアプローチは複雑さを増しますが、モデルの不確実性を自動的に考慮します。これにより、特に分布外データの場合、過剰適合に対処し、モデルの平均化を通じてモデルのキャリブレーションを改善できます。

最近、トロント大学とスタンフォード大学の研究により、ベイジアン連続深層ニューラル ネットワークの代替構築にはいくつかの追加の利点があることが示され、連続深層ベイジアン ニューラル ネットワークでの近似推論の実用的な方法が開発されました。論文の第一著者は、トロント大学ベクター研究所の学部生である Winnie Xu 氏です。第二著者は、NeurIPS 2018 の最優秀論文の第一著者である Tianqi Chen 氏です。彼らの指導教官である David Duvenaud 氏も論文の著者の一人です。

無限深度ベイジアンニューラルネットワーク">
  • 論文アドレス: https://arxiv.org/pdf/2102.06559.pdf
  • プロジェクトアドレス: https://github.com/xwinxu/bayesian-sde

具体的には、無限深ベイズニューラルネットワークの各層に未知の重みがあるという制限を考慮し、SDE-BNN(SDE-ベイズニューラルネットワーク)と呼ばれるモデルを提案しました。この研究は、Li et al. (2020) が説明したスケーラブルな勾配ベースの変分推論スキームを使用して、近似推論を効率的に実行できることを実証しています。

このアプローチでは、出力層の状態はブラックボックスの適応型確率微分方程式 (SDE) ソルバーによって計算され、モデルは変分下限を最大化するようにトレーニングされます。次の図は、このニューラル SDE パラメータ化と標準ニューラル ODE アプローチを比較したものです。このアプローチでは、ベイジアン ニューラル ODE のトレーニングの適応型計算と一定のメモリ コストが維持されます。

無限に深いベイジアンニューラルネットワーク(BNN)

標準的な離散深層残差ネットワークは、次の形式のレイヤーの組み合わせとして定義できます。

無限深度ベイジアンニューラルネットワーク">

ここでtはレイヤーインデックスであり、

無限深度ベイジアンニューラルネットワーク">

隠されたT層を表す

ユニット活性化ベクトルを非表示にし、h_0 = xを入力します。

無限深度ベイジアンニューラルネットワーク">

離散設定における層tのパラメータを表す

無限深度ベイジアンニューラルネットワーク">

この研究は

無限深度ベイジアンニューラルネットワーク">

そして制限

設定

無限深度ベイジアンニューラルネットワーク">

残差ネットワークの連続深度バリアントを構築します。 これにより、深さ t の関数として隠れユニットの進化を記述する微分方程式が生成されます。 標準残差ネットワークの各層は異なる重みを使用してパラメータ化されるため、この研究ではw_tを使用してt番目の層の重みを表します。さらに、この研究では、深さと現在の重みの関数として重みの変化を指定するハイパーネットワーク f_w を導入しています。隠れユニットの活性化関数と重みの変化は、次の微分方程式に結合されます。

無限深度ベイジアンニューラルネットワーク">

重み事前プロセス: この研究では、ドリフトと拡散を伴う SDE を特徴とする Ornstein-Uhlenbeck (OU) プロセスを重み事前として使用します。

無限深度ベイジアンニューラルネットワーク">

加重近似事後分布は、次のドリフト関数を持つ別の SDE を使用して暗黙的にパラメータ化されます。

無限深度ベイジアンニューラルネットワーク">

次に、この研究では、与えられた入力の下でネットワークに必要な周辺化重みと隠れユニットの軌跡を評価しました。これは、事後プロセスから重みパス {w_t} をサンプリングし、サンプリングされた重みと入力に基づいてネットワーク活性化関数 {h_t} を評価するという単純なモンテカルロ法で実行できます。どちらのステップでも微分方程式を解く必要があり、拡張状態 SDE の単一の SDE ソルバーを呼び出すことによって同時に実行できます。

無限深度ベイジアンニューラルネットワーク">

ネットワークをデータに適合させるために、この研究では無限次元ELBOによって与えられた限界尤度の下限を最大化します。

無限深度ベイジアンニューラルネットワーク">

サンプリング重み、隠しアクティベーション関数、およびトレーニング ターゲットはすべて、適応型 SDE ソルバーへの 1 回の呼び出しで同時に計算されます。

分散を低減した勾配推定

この研究では、SDE 設定に適応するために、パス空間 KL 内の元の推定値を STL (sticking the landing) 推定値に置き換えます。

無限深度ベイジアンニューラルネットワーク">

式(12)の2番目の項はマルチンゲールであり、期待値はゼロである。以前の研究では、研究者らは最初の項に対してのみモンテカルロ推定を実行しましたが、この方法では必ずしも勾配の分散が減少するわけではないことがわかりました(下の図 4 を参照)。

無限深度ベイジアンニューラルネットワーク">

この研究で提案された近似事後分布は任意に表現できるため、研究者らは、パラメータ化されたネットワーク f_w の表現力が十分に強力であれば、この方法はトレーニング終了時に任意に低い勾配分散を達成できると推測しています。

図 4 は、STL と「フル モンテ カルロ」推定値を比較した複数の勾配推定値の分散を示しています。図 4 は、指数ブラウン運動を一致させる場合、STL が他の方式よりも低い分散を実現することを示しています。下の表 4 はトレーニング パフォーマンスの向上を示しています。

無限深度ベイジアンニューラルネットワーク">

実験

この研究の実験設定は、以下の表に示されています。この研究では、MNIST と CIFAR-10 でおもちゃの回帰と画像分類タスクを実施しました。さらに、分布外一般化タスクも研究しました。

無限深度ベイジアンニューラルネットワーク">

随伴ソルバーのバックプロパゲーションを比較するために、研究者らは固定ステップ サイズと適応ステップ サイズの SDE ソルバーと、Li らが提案したランダム随伴ソルバーを比較しました。図 5 は、2 つの方法が同様の収束を示すことを示しています。

無限深度ベイジアンニューラルネットワーク">

1D回帰

この研究では、1D回帰問題におけるSDE-BNNのパフォーマンスを初めて検証しました。拡散プロセスのサンプルに基づいて、1D SDE-BNN からの各サンプルは、入力から出力への双方向マッピングになります。これは、1D SDE-BNN からサンプリングされたすべての関数が単調であることを意味します。非単調関数のサンプリングを可能にするために、この研究では、ゼロに初期化された 2 つの追加次元で状態を拡張します。図 2 は、モデルが合成非単調 1D データセットでかなり柔軟な近似事後分布を学習することを示しています。

無限深度ベイジアンニューラルネットワーク">

画像分類

表 1 に画像分類実験の結果を示します。 SDE-BNN は一般にベースラインよりも優れたパフォーマンスを発揮し、結果によると、連続ディープ ニューラル ODE (ODEnet) モデルは標準残差ネットワークで同様の分類パフォーマンスを達成できるものの、キャリブレーションが不十分であることが示されています。

無限深度ベイジアンニューラルネットワーク">

図 6a は SDE-BNN のパフォーマンスを示しており、図 6b はニューラル ODE キャリブレーションと同様の精度ですが、それよりも優れた結果を示しています。

無限深度ベイジアンニューラルネットワーク">

表 1 は、予想されるキャリブレーション誤差を使用してモデルのキャリブレーションを定量化したものです。 SDE-BNN は、Neural ODE および Mean Field ResNet ベースラインよりも適切に調整されているようです。

無限深度ベイジアンニューラルネットワーク">

下の図 7 は、破損したテスト セット上の破損していないデータと比較したエラーを示しており、摂動の重大度レベルが増加するにつれて mCE が着実に増加し、表 1 にまとめられている全体的なエラー メトリックも増加していることを示しています。 CIFAR10 および CIFAR10-C では、SDE-BNN および SDE -BNN + STL モデルは、ベースラインよりも全体的なテスト エラーが低くなり、キャリブレーションが向上します。

無限深度ベイジアンニューラルネットワーク">

標準ベースライン (ResNet32 および MF ResNet32) と比較すると、SDE-BNN の絶対破損エラー (CE) は約 4.4% 減少します。ドメイン外入力に対する不確実性の学習の有効性は、SDE-BNN が複数の形式の破損についてトレーニングされていないにもかかわらず、観測の摂動に対してもより堅牢であることを示しています。

<<:  JVM 世代別ガベージコレクションメカニズムとガベージコレクションアルゴリズム

>>:  ディープラーニング Pytorch フレームワーク Tensor

推薦する

...

...

機械学習がデータセンター管理をどう変えるか

機械学習はデータセンターの経済性を劇的に変え、将来の改善への道を開きます。機械学習と人工知能がデータ...

AIに「子犬」を認識させますか? Facebookは変化を感知できるAIを構築

[[388981]]今まで見たことのない犬種や色であっても、私たちは一目見てその犬を認識することがで...

298.2億ドル規模のロボット市場がなぜこれほど不振なのか?

以前、マッキンゼー・グローバル・インスティテュートは、2030年までに約70%の企業が少なくとも1つ...

ロボット兵士はもはやSFではない

ロボット兵士はまもなく現実のものとなり、戦争作戦の遂行において人間の兵士を支援し、負傷した兵士に医療...

ハーバード大学の科学者がシャコの「バネ仕掛けの拳」機構を模倣したマイクロロボットを開発

海外メディアの報道によると、シャコは世界で最も速い動物種の一つだが、シャコがどのようにしてこのような...

AI画像合成技術の新たな波:Stable Diffusion 3とSoraアーキテクチャのブレークスルー

人工知能の黄金時代を迎え、画像合成技術はかつてない速さで発展しています。単純な画像編集から複雑なシー...

ハイパーオートメーション — AIの新時代における自動化

ハイパーオートメーションとは何か、そして AI 主導のオートメーションが製品プロセスを改善してより迅...

AIが世界に登場しようとしています。機械は人間の倫理を破壊するのでしょうか?

AIがますます普及するにつれて、倫理的な問題をどのように解決できるでしょうか? AIという言葉は近...

...

もう一つの(深層)学習:自己教師あり学習は次の大きなものになるでしょうか?

自己教師あり学習入門[[251602]]確かに、ディープラーニングは、特に画像認識タスクにおいて、機...

アートデザインにおける人工知能

AdobeやCelsysなどのソフトウェア企業は近年、デジタルデザインソフトウェアに人工知能機能を追...

GPU 価格の急激な下落はチップ不足が終わった兆候でしょうか?

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...

...