ディープニューラルネットワークの数学的基礎は難しすぎますか?

ディープフィードフォワードネットワーク

統計学から始めると、自然に関数 f を定義し、データサンプルは ⟨Xi,f(Xi)⟩ で与えられます。ここで、Xi は典型的な高次元ベクトルであり、f(Xi) は {0,1} または実数の値を取ることができます。私たちの目標は、与えられたデータを（過剰適合なしで）最もよく表す関数 f∗ を見つけて、正確な予測を行うことです。

ディープラーニングでは、これは通常、パラメータ統計のサブセットです。つまり、関数のファミリ f(X;θ) があり、ここで X は入力データ、θ はパラメータ (通常は高次行列) です。目標は、与えられたデータを記述するのに最も適したf(X;θ∗)となるような最適なパラメータθ∗のセットを見つけることです。

フィードフォワードニューラルネットワークでは、θ はニューラルネットワークであり、d 個の関数で構成されます。

ほとんどのニューラルネットワークは高次元であるため、次の構造図で表現することもできます。

ここで、はベクトル値関数 f(i) の要素、つまりニューラルネットワークの i 番目の層の要素であり、それぞれはの関数です。上記の構造図において、各層関数f(i)の成分数はレベルiの幅とも呼ばれ、レベル間の幅は異なる場合があります。ニューラルネットワークの層の数 d をネットワークの深さと呼びます。 d 層目のニューラルネットワークが前の層と異なることに注意することが重要です。これは出力層です。上記の構造図では、出力層の幅は 1 です。つまり、f=f(d) はスカラー値です。通常、統計学者は線形関数を最も好みますが、ニューラルネットワーク内の関数 f(i) が線形関数であると規定すると、全体的な組み合わせ関数 f は線形関数しか使用できず、高次元の複雑なデータにはまったく適合できなくなります。したがって、通常は活性化関数として非線形関数を使用します。

最も一般的に使用される活性化関数は、各細胞が複数の信号を受信するが、シナプスは入力に基づいて特定の電位を活性化するかしないかのみを選択できる神経科学モデルにヒントを得ています。入力は次のように特徴付けられるからです。

ある非線形関数 g に対して、サンプルによって励起される関数は次のように定義できます。

ここでg⊗は線形関数を独立変数とする非線形関数を定義します。

通常、関数 g は非線形関数である必要があり、また微分化が容易であることも必要です。したがって、一般的にはReLU（正規化線形単位）関数g(z)=max(0,z)を使用します。他の種類の活性化関数 g には、ロジスティック関数: や双曲正接関数: などがあります。

これら 2 つの活性化関数が ReLU よりも優れている点は、どちらも境界関数であることです。

前述したように、最終出力層は以前の層とは異なります。まず、これは通常スカラー値であり、次に、通常は何らかの統計的解釈があります。

これは通常、古典的な統計モデルのパラメータと見なすことができ、d-1 層の出力は出力層活性化関数の入力を構成します。出力層の活性化関数には線形関数を使用できます。

この線形関数は、ガウス分布の条件付き平均を出力します。他にはσ(wTh+b)を使うこともできる。ここでσはシグモイド関数を表し、

シグモイド関数は出力をベルヌーイ試行として扱います。ここで P(y) は exp(yz) です。より一般化されたソフトマックス関数は次のように表すことができます。

で。

ここで、z の成分は可能な出力値に対応し、softmax(z)i は出力値 i の確率を表します。たとえば、画像がニューラルネットワークに入力され、出力 (softmax(z)1、softmax(z)2、softmax(z)1) は、さまざまなカテゴリ (猫、犬、オオカミなど) の確率として解釈できます。

畳み込みネットワーク

畳み込みネットワークは線形演算子を持つニューラルネットワークです。つまり、いくつかの隠された幾何行列がローカル畳み込み演算子として使用されます。たとえば、ニューラルネットワークの k 番目の層は、m*m 行列として表現できます。

k+1 層の関数を、ニューラルネットワークの前の層で畳み込みを実行し、非線形関数 g を適用する 2*2 行列として定義します。

。

パラメータa(k)、b(k)、c(k)、d(k)は、特定の要素i、jではなく、さまざまなレベルのフィルタの設定にのみ依存します。この制約は広い意味では必須ではありませんが、マシンビジョンなどの一部のアプリケーションでは合理的です。このタイプのネットワークは、パラメータの共有に有利であることに加えて、関数 h の定義により、自然にスパースで優れた特性を示します。

畳み込みニューラルネットワークのもう 1 つの一般的なコンポーネントは、プーリング操作です。畳み込みを実行し、行列インデックス関数に g を適用した後、現在の関数を周囲の関数の平均または最大値に置き換えることができます。つまり、次のように設定します。

この手法は次元削減操作にも適用できます。

モデルと最適化

次に、ニューラルネットワークパラメータを取得する方法、つまり、どのような θ を取るべきか、θ をどのように評価するかを理解する必要があります。この目的のために、通常は確率モデリング手法を使用します。つまり、ニューラルネットワークのパラメーター θ によって確率分布 P(θ) が決定され、条件付き確率 Pθ(y|x) が最大値に達するように θ を見つけることが期待されます。これは関数を最小化することと同じです。

対数尤度関数は期待値に置き換えることができます。たとえば、平均 f(x;θ) と単位共分散行列を持つガウス分布に y を当てはめるとします。平均誤差を最小限に抑えることができます。

それでは、損失関数 J を最適化して最高のパフォーマンスを達成するにはどうすればよいでしょうか。まず、最適化には主に 4 つの困難があることを知っておく必要があります。

データと特徴の次元が高すぎる
データセットが大きすぎる
損失関数Jは非凸関数である
パラメータが多すぎる（過剰適合）

これらの課題に直面した場合、自然な解決策は勾配降下法を使用することです。私たちのディープニューラルネットワークの場合、より良いアプローチは、微分の連鎖律に基づくバックプロパゲーション法を使用することです。この方法では、誤差を減らすために偏微分を動的に計算し、バックプロパゲーションを行って重みを更新します。

もう一つの非常に重要な技術は正規化です。正則化はモデルの過剰適合の問題を解決できます。つまり、通常、モデルの過剰適合を防ぐために、各機能に対してペナルティ項を適用します。畳み込みニューラルネットワークは、パラメータの共有を通じて過剰適合問題の解決策を提供します。正規化は別の解決策を提供します。J(θ)を最適化する代わりに、J(θ)=J(θ)+Ω(θ)を最適化します。

ここで、Ω は「複雑さの尺度」です。本質的に、Ω は「複雑な機能」または「巨大なパラメータ」に対してペナルティを導入します。一部の Ω 正規化項では、L2 または L1、あるいは凸関数である L0 を使用できます。ディープラーニングでは、過剰適合の問題を解決する他の方法があります。 1 つはデータ拡張で、既存のデータを使用してより多くのデータを生成することです。たとえば、写真が与えられた場合、写真に対してトリミング、変形、回転などの操作を実行して、より多くのデータを生成できます。もう 1 つはノイズです。これは、データまたはパラメータにノイズを追加して新しいデータを生成することです。

生成モデル: ディープボルツマンマシン

ディープラーニングでは多くの確率モデルが適用されます。最初に説明するモデルはグラフです。グラフィカルモデルは、重み付けされたグラフを使用して確率分布を表すモデルであり、各エッジは確率を使用してノード間の相関関係または因果関係を測定します。このようなディープネットワークは、各エッジに重み付けされた確率を持つグラフであるため、グラフィカルモデルとして表現するのが自然です。ディープボルツマンマシンは、結合分布が指数関数として表現されるグラフィカルモデルです。

ここで、構成のエネルギー E は次の式で与えられます。

一般に、中間レベルは実数値のベクトルであり、最上位レベルと最下位レベルは離散値または実数値です。

ボルツマンマシンのグラフモデルは典型的な二部グラフであり、各層に対応する頂点は、その直上の層と直下の層にのみ接続されます。

このマルコフ特性は、h1 の下では、v 成分の分布が h2、…、hd および v の他の成分から独立していることを意味します。 v が離散的である場合:

他の条件付き確率についても同様です。

残念ながら、グラフィカルモデルでサンプリングや最適化を行う方法がわからないため、深層学習におけるボルツマンマシンの応用は大きく制限されます。

ディープビリーフネットワーク

ディープビリーフネットワークは、定義がより複雑ですが、計算的にはより単純です。これらの「ハイブリッド」ネットワークは本質的にはd層の有向グラフであるが、最初の2層は無向である。P(h(d−1),h(d))は次のように定義される。

他のレイヤーについては、

これは前とは逆方向であることに注意してください。ただし、暗黙の変数は次の条件を満たします。

式(1)で定義されるが、式(2)も満たす。

上記の式を使用して、他のレイヤーを条件として最下層を直接サンプリングする方法はわかっていますが、推論を実行するには、入力が与えられた場合の出力の条件付き分布も必要です。

最後に、ディープボルツマンマシンの k 番目のレイヤーは k+1 レイヤーと k-1 レイヤーに依存しますが、ディープビリーフネットワークでは、k+1 レイヤーのみを条件付けすれば、(他のレイヤーを条件付けせずに) k 番目のレイヤーを正確に生成できることを強調します。

レッスンプラン

このコースで議論する主なトピックは次のとおりです。

表現の深さ
計算上の問題
シンプルで分析可能な生成モデル

最初のトピックでは、ニューラルネットワークの表現力、つまりニューラルネットワークによってどのような種類の関数を近似できるかに重点を置きます。議論する予定の論文は次のとおりです。

Cybenko、「加法活性化関数の近似」（89）。
Hornik、「多層フィードフォワードネットワークの近似力」（91）。
テルガルスキーの「ディープフォワードネットワークの表現上の利点」（15）。
SafranとShamir、「ReLUネットワークの深層分離」（16）。
Cohen、Or、Shashua、「深層学習の表現力について：テンソル解析」（15）。

最初の 2 つの論文 (コースの後半で詳しく説明します) では、1 つのレイヤーだけで何でも表現できるという考え方を実証します。しかし、その後のいくつかの論文では、この単一の層は非常に広くなければならないことが示されており、この論文の後半でその議論を紹介します。

2 番目のトピックに関して、このコースで複雑性の結果に関して議論する内容には次のようなものが含まれます。

Livni、Shalev Schwartz、Shamir、「ニューラルネットワークのトレーニングの計算効率について」（14）。
ダニエリとシャレフ・シュワルツ、「DNF学習における複雑性理論的限界」（16）。
シャミア、「ニューラルネットワーク学習の分布特有の複雑性」（16）。

アルゴリズムに関して：

Janzamin、Sedghi、Anandkumar、「テンソル法を用いたニューラルネットワークの効率的なトレーニング」（16）。
ハート、レヒト、シンガー、「より速いトレーニング、より良い一般化」（16）。
最後に、生成モデルに関して読む論文には以下のものがあります。
Arora 他 (2014)「いくつかの深層表現における証明可能な制約の学習」
Mossel (2016)「ディープラーニングと生成階層モデル」

今日は、最初のトピックに関する最初の 2 つの論文、Cybenko と Hornik による論文を見ていきます。

サイベンコとホルニクの理論

1989 年の論文で、サイベンコは次のことを証明しました。

[サイベンコ（89）]σをlimt→–∞σ(t)=0およびlimt→+∞σ(t)=1の極限を持つ連続関数とする。（例えば、σは活性化関数であり、σ(t)=1/(1+e−t)）この場合、f(x)=∑αjσ(wTjx+bj)の形式の関数族はCn([0,1])に稠密である。

このうち、Cn([0,1])=C([0,1]n)は[0,1]nから[0,1]までの連続関数の空間であり、d(f,g)=sup|f(x)−g(x)|が成り立ちます。

ホルニクはサイベンコの次の導関数を証明した。

[Hornik(91)] 上記の定理によって定義される関数族を考えるが、σには条件がない。

σ が有界かつ非連続である場合、関数の族は空間 Lp(μ) で稠密です。ここで、μ は Rk 上の任意の有限測度です。

σ が条件付き連続である場合、関数の族は空間 C(X) で稠密です。ここで、C(X) は X 上のすべての連続関数の空間であり、X⊂Rk は有限開被覆 (コンパクトセット) を満たす集合です。

σ∈Cm(Rk)を加えると、関数族は空間Cm(Rk)とC^{m,p}(μ)に稠密となり、任意の有限μに対して有限開被覆条件を満たします。

σのm次の追加微分が有界である場合、Rk上の任意の有限測度μに対して、関数の族はC^{m,p}(μ)において稠密です。

上記の理論では、Lp(μ)空間は、d(f,g)=(∫|f−g|pdμ)1/pで、∫|f|pdμ<∞を満たす関数fの空間です。証明を始める前に、関数解析を簡単に復習する必要があります。

ハーン・バナッハ拡張定理

Vが線型部分空間Uとz∈V∖U¯を持つ標準ベクトル空間である場合、L:V→Kが存在し、L(x) = 0、すべてのx∈Uに対してL(z) = 1、‖L‖≤d(U,z)を満たす。

この定理はなぜ役に立つのでしょうか? Cybenko と Hornik の結果は、Hahn-Bach の拡張定理を使用した背理法によって証明されました。 {Σαjσ(wTjx + bj)}によって与えられる部分空間Uを考え、矛盾によりU¯が関数空間全体ではないと仮定します。我々は、関数空間上に、U¯ 上でゼロに制限されるが、常にゼロであるとは限らない連続線型写像 L が存在すると結論付けます。言い換えれば、U 上でゼロとなる任意の連続線型写像 L は必ずゼロ写像であることを示すだけで十分であり、これによって目的の結果が証明されます。

さて、関数解析の古典的な結果によれば、Lp(μ)上の連続線型関数Lは次のように表される。

g∈Lq(μ)の場合、1/p + 1/q = 1です。 C(X)上の連続線形関数Lは次のように表される。

ここで、μ は X 上の有限の記号測度です。

Cybenko と Hornik の定理で考慮されているものと同様の線形関数表現を他の空間でも見つけることができます。

一般的な証明に進む前に、関数空間がLp(μ)でσ(x) = 1 (x ≥ 0)である(簡単な)ケースを考えます。定理によって定義された集合内のすべての f が L(f) = 0 を満たす場合、L に関連付けられた関数 g∈Lq(μ) は常にゼロになる必要があることを証明するにはどうすればよいでしょうか。変換により、σから任意の区間のインデックスを取得します。つまり、任意のa < bに対して、∫bagdμ = 0であることを示すことができます。 μ は有限なので（σ は必要に応じて有限）、g はゼロでなければなりません。この例を使用して、Cybenko の定理の一般的なケースを検討します。私たちが見せたいのは

これはμ = 0を意味します。まず、次のフーリエ解析のトリックを使って次元を1に減らします。測度μaを次のように定義します。

私たちは観察しました

さらに、任意のaに対してμa≡0ならばμ≡0（「測度はそのすべての射影によって定義される」）であることを示すことができれば、

(ここでは μ の有限性が使用されていることに注意してください)。次元を 1 に減らした後、もう 1 つの非常に便利なトリック (これも μ の有限性を使用します)、つまり畳み込みトリックを使用します。 μ を小さなガウスカーネルで畳み込むと、密度を持つ尺度、つまりルベーグ測度が得られます。それでは、残りの証明に進みます。畳み込み技術を使うと、

そして密度 h = 0 であることを証明したいと考えています。変数を変えると、条件(3)は次のように書き直される。

h = 0 であることを証明するために、フーリエ解析の次の抽象的なツールを使用します。 Iをh(wt+b)のすべての拡張線型空間の閉集合とする。 I 関数の不変性により、畳み込みに対して不変です。抽象フーリエ解析では、I は畳み込みの理想的な状態です。 Z(I)がI上で消えるすべての関数のすべてのフーリエ変換ωの集合を表すとします。すると、Z(I)は集合Rまたは{0}になります。なぜなら、g(t)が理想であれば、w≠0に対してg(tw)も理想だからです。 Z(I) = R の場合、理想的な状態ではすべての関数は定数 0 となり、これが証明となります。それ以外の場合、Z(I) = {0} のとき、フーリエ解析により、I は f^ = 0 となるすべての関数、つまりすべての非定数関数の集合になります。しかし、σ がすべての非定数関数に直交する場合、σ = 0 となります。 Z(I) = R、つまりh = 0であることが証明で完了します。

オリジナルリンク: http://elmos.scripts.mit.edu/mathofdeeplearning/2017/03/09/mathematics-of-deep-learning-lecture-1/

<<: 機械学習アルゴリズムの実践: 決定木

>>: 上位 10 の古典的なソートアルゴリズムの JS バージョン