なぜディープラーニングは非パラメトリックなのでしょうか?

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式サイトにアクセスして許可を申請してください。

本日、皆さんにお伝えしたいのは、ディープニューラルネットワークがどのように機能するか、そしてそれが「従来の」機械学習モデルとどう違うのかということです。私の計画は次のとおりです。

まず、分類という形で問題を設定する方法について簡単に考えてみましょう。
次に、バイアス-分散分解を検討し、VC次元とノンパラメトリックの観点からバイアス-分散トレードオフの文脈でそれについて説明します。
補間ニューラルネットワークと二重降下法に関する文献をいくつか研究します。
記事の最後では、なぜ二重の衰退現象が起こるのかを直感的に説明するために、グラフィックを使った非常に簡単な実験を行います。

1 機械学習の問題を形式的に設定

もう少し面白くするために、問題を設定してみましょう。まずはデータから始めましょう。ラベル付きデータ、つまり入力データx (画像など) と分布Px 、 yを満たすラベルy があるとします。つまり次のようになります:

分布Px 、 yは固定されており、未知です。 i = 1...N の場合、サンプルが利用可能です。
数学的分析では通常、サンプルが独立していると仮定します。
一般的に言えば、ラベルyと入力xの間にはy = y となるような機能的な関係があり、つまりラベルが正確で曖昧でないと仮定する必要がありますが、常にそうであるとは限りません。

私たちが「訓練」したいのは、何らかの関数f : x ↦ y 、またはより一般的には条件付き分布P ( y ∣ x ) を推定することです。候補関数はパラメータセット F={ fθ | θ∈Θ } から取得されます。ここで、 θ はパラメータを表します。この目標を達成するために、損失関数 (またはリスク関数) を設定し、概念的には、期待損失を最小限に抑えることを目指します。

通常、最初の試みは、経験的リスクまたは経験的損失を最小限に抑えることです。損失関数が負の対数尤度である場合、それを最小化するということは最大尤度推定値を計算することを意味します。

バイアス分散分解とバイアス分散バランスの簡単な紹介

最も基本的な回帰推定量である最小二乗損失L = ( f ( x ) − y ) ²の場合、期待損失をその構成要素に分解するのは簡単です。ここでのポイントは、トレーニングデータ自体がn 積分布からサンプリングされたランダム変数であり、トレーニングするモデル f がと表記される D に依存することを認識する必要があることです。 ( x , y )とDの独立性を巧みに追加して利用することで、予測の期待二乗誤差を次のように分解できます。

ノイズの最後の項はモデルに依存しません。ここで、予測に対して良好な期待二乗誤差を得るためには、モデル出力のバイアス (第 1 項) と分散 (第 2 項) の合計が小さいことに注意する必要があります。ここでのすべての項は非負であることに注意してください。バイナリ分類器の期待精度についても、同様ですがより複雑な分解がありますが、モデル選択が同様に機能すると想像できますが、他の損失関数は一般に分解が困難です。バイアス/分散を 0 に等しくするか、または 0 に非常に近づけることは比較的簡単なので、この分解により、バイアスと分散の間でトレードオフを行うことができます。D 内の各データポイントのサンプル平均を推定値として使用することにより、バイアスを非常に小さくすることができ、関数が Lipschitz であるか、少なくとも一様に連続していると仮定するためのきちんとした規則性の議論を与えることができます。これは極端な過剰適合です。たとえば、D に依存しない関数を予測することで、分散をゼロにすることができますが、これは極端なアンダーフィッティングです。

平均二乗誤差のバイアス分散分解は、数学的な定理 (または少なくとも補題) によって成立する方程式であるため、一般に適用可能であり、条件を必要としないことに注意してください。

2. 硬直性からの解放、自由な構造の実現

ある意味では、上記のような極端な状況からより穏やかな状況への移行は、私たちが実際に何ができるかを示すものでもあります。

候補関数のセットを増やす

1 つのアプローチは、候補関数の非常に制限されたセットから始めて、候補関数の空間を意味のある形で拡張し、(ネストされていると想定される) シーケンス F0⊂F1⊂… を取得することです。重要な考え方は、さらに探索を進めることでモデルがデータに適合するようになるので、いつ停止するかを知る必要があるということです。 Vapnik と Chervonenkis の構造的リスク最小化原理はこれを実行しますが、バイアス分散分解を使用する代わりに、D の期待損失 (リスク) と観測損失 (経験的リスク) の境界と、トレーニングデータセットNのサイズと関数セットのサイズ、またはその VC 次元に依存する項を使用します。ここでの典型的なケースは、 N ≥ VC-dim サンプルが必要であるが、 N ≤ 20 VC-dim サンプルを持つ可能性があるということです。ただし、ここでのパラメータの数は標準の一部ではないことに注意してください (ただし、VC ディメンションに影響する可能性があります)。

最後に、赤池情報量基準などの従来の基準は、低い負の対数尤度を達成するためにパラメータにどれだけ「投資」すべきかを伝えようとします。しかし、ビショップは序文の中で、これらの方法はあまり効果的ではないと述べています。

ノンパラメトリック推定：正則化

古典的なノンパラメトリック推定は、もう一方の極端から始まります。弱導関数を持つソボレフ関数空間などの関数空間を取ると（使用される測度が x の分布であろうと入力のルベーグ測度であろうと関係なく）、任意の有限サンプル D 上のすべての点のサンプル平均を一致させることができるため、ゼロ点バイアスが得られますが、経験的リスクを最小化することは条件が悪く、無限の解を持ちます。

次に行うことは正規化です。おそらく最も有名な例は、ノルム項を追加してティホノフ正規化をもたらすもので、損失は次のようになります。

これをバイアス-分散の観点から見ると、バイアス（ λ → 0 のときはバイアスはないが、これは悪条件化につながる）と分散（ λ → ∞ のときは。正規化項は単なる半ノルムなので、分散を 0 にしたくありません）のバランスをとることができます。もちろん、Grace Wahba の正規化回帰に関する研究は、バイアスと分散の適切なバランスを維持すること、特にlambdaの適切な値を見つけることに特に関連しています。前のセクションの仮定関数は、与えられた λ に対して、の最小値が、における経験的最小二乗損失 (最初の項) を最小化する必要がある半ノルム値を持つことを観察することによって、埋め込み空間 Fi に関連付けることができます。したがって、重みが増加するシーケンスからのノルムが減少するシーケンスによって、ネストされた Ansatz 空間が得られます。

多くの一般的な正規化回帰法 (Lasso など) は、このタイプのフレームワークに適合します。

VCコミュニティへの賞賛

VC の世界に戻って、直感を助けるためにもう少し正式な話にしましょう。重要な確率境界は精度（または0-1リスク）である

分析してみましょう。外側の部分は「1−η 以上の確率」と書かれていますが（より正確に言う必要があります）、確率 η は小さすぎると考えられます。つまり、得られるのは確率の境界だけであり、「ほぼ確実」な保証ではないということです。

内側の部分は基本的に、完全な確率分布の精度がトレーニングセットの精度に非常に近いことを示しています。つまり、N が非常に大きくなると、差がゼロに近づく正確な境界が得られます。

表面的には、これはリスクや精度について何かを教えてくれますが、モデルについては何を示しているのでしょうか。私の意見では、重要なメッセージは、モデルが非常に厳密であるため、テストセットで発生するすべてのこと (より正確には、完全なPx 、 y分布で発生するすべてのこと) がトレーニングセットですでに発生していることがわかるということです。

ベイジアンはさておき

ベイズの設定では、正規化は最大事後確率 (MAP) 推定として解釈できます。または、事前確率を定義する手間をかける場合は、推定値をすべての f∈F にわたって統合することもできます。

3 これはディープラーニングについて何を教えてくれるでしょうか?

ディープラーニングは、model.parameters() (ここでは PyTorch を使用しています) をオプティマイザーに渡すと、パラメーター化されるように見えます。しかし、そうではありません。この正規化方法は、ディープラーニングが機能する理論的枠組みであるようですが、十分に理解されていないこともあります。

私たちのモデルは「道徳的に」非パラメトリックになるほど大きく、まだ完全には理解していませんが、私たちが行っていることのほとんど（拡張、ノルムレイヤー、ドロップアウトなど）は実際には正規化です。

これは、M. Belkin らによる「現代の機械学習の実践とバイアスと分散のトレードオフの調和」のテーマでもあり、一般化パフォーマンスの鍵となるのは、特定の関数空間のノルムによって測定される関数の規則性または滑らかさであるという、彼らの以前の研究のテーマでもあります。

M. Belkin らによる二重降下現象の説明を詳しく見ることは価値があります (これが初めてだったと思います)。

ここで注意すべき点がいくつかあります:

M. Belkin らは、条件の中で「古典的」や「現代的」などの修飾語を引用符で囲みました。「現代的な」条件付けは、非常に非パラメトリックな種類の学習であり、ある種の正規化を伴いますが、これについてはさらに深く理解する必要があります。
マルチパラメータのコンテキストでは、バイアスと分散の考え方は依然として完全に適用可能であるように思われますが、ノンパラメトリック回帰は、「限られた容量」の候補セットよりも優れた参照フレームである可能性があります。

二重降下現象に関する一般的な理解は、P. Nakkiran らによる論文「Deep Double Descent」に基づいているようです。これは、論文の優秀さと、OpenAI がこれらのトピックをより幅広い聴衆に広める能力の証です。彼らは、より現実的なネットワーク（M. Belkin らはより浅いネットワークを引用）を使用して体系的な実験を実施しました。私にとって重要な結論の 1 つは、損傷したラベルを使用した 2 つの実験条件ではダブルディップ現象が「でこぼこ」しているのに対し、きれいなラベルを使用した実験で得られた結果ははるかに滑らかで「でこぼこ」が少ないと報告されていることです。

彼らは、破損したラベルを持つ CIFAR10 でトレーニングされた修正された ResNet18 の、一定数のエポックでのテストエラーを示すグラフを提示しています。変更とは、チャンネル数を元の数の k 分の 1 (k は 64 から 1 の範囲) に減らすことを意味します (つまり、元の ResNet18 の 64 分の 1 から実験を開始し、徐々に増やしていき、最終的に元の数に到達するということです)。データセット内でラベルの破損が発生し (すべてのエポックではなく、単一のエポックで)、ラベルの 15% がランダムに間違ったクラスに切り替えられます。これは大きな誤解であると解釈されました。

4 VC 理論は、ノイズの多いラベルを持つモデルをフィッティングする際にどのような影響を与えますか?

上記の説明から、モデルが VC 境界が有効な限定された条件にある場合 (たとえば、小さなモデルが「従来の」条件にある場合)、トレーニングデータ D が元のデータと同じ分布Px 、 yからのものであれば、テストセットのテスト精度は (おそらく) トレーニング精度に近くなることがわかります。言い換えれば、この条件は、 Px 、 y の損傷の程度（および損傷の種類）が同じであると仮定することを意味します。しかし、これは、モデルが学習し、破損したトレーニングデータにあまり気を取られないように学習した場合、つまり、トレーニングデータ内で、正しいラベルが破損したラベルを排除することを意味します。

5つの機能と学習

ディープラーニングを直感的に理解することが難しい理由の 1 つは、Ansatz フィールドの適応的な性質です。私が言いたいのは、特徴に学習を適用する固定の特徴抽出器（手動で構築され、カーネルマシンで使用されるカーネルファミリによって提供される）がないということです。通常、最後のレイヤーへの入力を特徴 (word2vet スタイルの損失、プロトタイプネットワーク、ベースラインの教師なし学習などによって学習されたベクトル表現) として扱うか、MLP 分類器ヘッドの前の畳み込みレイヤーの最後で畳み込みネットワークを分割する場合があります。

従来のアプローチでは、学習した分類器を固定された特徴抽出器に配置しますが、E. Hoffer らは反対の考えを持っています。彼らは分類器を固定すること、つまり特徴抽出器のみをトレーニングすることを提案しています。

したがって、特徴を抽出しているふりをして、直感を単純化したいと思うかもしれません。 P. Nakkiran らによるタイトル画像の実験では、t-SNE などの次元削減メカニズムを使用してノイズのないデータから学習した特徴を視覚化する場合、ラベルノイズを追加することは、各クラスに対応する点の塊にノイズを追加することと同じです。これを念頭に置いて、M. Belkin らによる人工データ実験「Understanding Deep Learning」よりもさらに単純な同様の実験を実施することができます。

6 ラベルノイズ、容量、二重降下法、実験テストエラーに関する直感

統計はさておき、P. Nakkiran らの図で説明されているのと同じ現象がプロトタイプネットワークで発生し、その容量が作成できるプロトタイプの数で表されていると仮定すると、何が起こるかについて推測してみましょう。

左端の幅（パラメータ）値が 1 ～ 5 付近では、クラスよりもプロトタイプの数が少なく、モデルがすべてのクラスを表現できないため、モデルが適切に適合していません（アンダーフィッティング）。
幅 5 付近では、プロトタイプは 10 個 (またはそれ以上) ありますが、破損したラベルは各プロトタイプのトレーニング中に除去されるため、これらの破損したラベルは効果がありません。
幅 5 から 10 の範囲で、プロトタイプは壊れたタグを収集します。各プロトタイプには推論フェーズで使用される「影響範囲」があるため、プロトタイプを損傷することがテストに非常に関連するかなり大きな空間があります。
width10 の範囲外に、さらにプリミティブを追加しました。プロトタイプは互いに近づけられ、破損したラベル付きプロトタイプは推論フェーズ中に「押し出される」ため、その「影響範囲」は小さくなります (破損したプロトタイプが 3 つあるよりも、同じクラスの破損していないプロトタイプが 5 つある可能性の方が高いため)。

これはバイアス-分散分解にとって何を意味するのでしょうか? 分解は空間内で点ごとに行われ、以前と同様にさまざまなトレーニングデータセットの分散とバイアスに対して実行されることを思い出してください。

クラスが 2 つしかないと仮定すると、予測とラベルは 0 または 1 になります。次に、プロトタイプは破損したラベルを収集します。これにより、バイアス (ある確率で間違った予測をするため) と分散 (誤った予測の領域は、破損したラベル、つまりどのデータセット D を使用するかによって異なるため) が導入され、誤った予測の領域が小さくなるため、分散とバイアスが削減されます。この直感では、早期停止の役割は、モデルが破損したラベルを収集し始めたことを検出することです。

したがって、現代のニューラルネットワークは本質的に非パラメトリックであり、動作するためにさまざまな種類の正規化に依存しているようです。 M. Belkin らの公式を使用するために、さまざまな手法が特定の関数空間のノルムにどのように作用するかをどの程度理解しているかをより深く理解したいと考えています。「伝統的な」統計が現代の学習が機能しないことを示していると結論付けるのは難しいようです。

Hastie らによる論文「Surprises in High-Dimensional Ridgeless Least Squares Interpolation」では、モデル問題としての最小二乗法の非常に包括的な分析が提供されており、深層学習の現象に対する直感も提供される可能性があります。

補間条件で誤ってラベル付けされたデータを排除する

補間条件の非常に簡単なシミュレーションを行うことができます。 2D 標準単位正規から点を抽出し、水平軸に沿って ±2 シフトして、各クラス分布から点の 25% をサンプリングするバイナリ分類問題を考えてみます。補間条件を得るために、鋭いピークを持つカーネルを使用します。解析的に扱いやすい質量を持ち、それを1に正規化するために、カーネルを使用する。

この原子核は単位質量を持ち、x = 0 で無限大に向かい、原点から離れて崩壊します。

つまり、各クラスの密度をサンプルにおけるカーネルの平均として表すと、次のようになります。

異なるクラスの点が重ならないと仮定すると（ほぼ確実にそうなる）、各点を大きい方の点に基づいて分類するか、各点の確率密度を正規化して確率を取得したい場合、

これにより、補間されたソリューションが得られます。各トレーニングポイントでは、ラベルクラスの密度が無限であるため、そのクラスに属するものとして分類されます。では、ラベル付けエラーは何が起こったのでしょうか? ラベル付けエラーにより、破損したトレーニングポイントの近くの領域が間違ったクラスに割り当てられることがあります。ただし、正しいクラスの近くのポイントが多いほど、誤分類された領域は小さくなります。インタラクティブに試すことができます。ポイント数が増えると、テストエラーは減少します。

これはどういう意味ですか？これは、補間されたソリューションの場合、テスト時間中に適切なトレーニングポイントが適切にラベル付けされていないポイントを排除することを示唆しています。

敵対的例

しかし、データが増えるにつれて、分類が誤っている領域やランダムにサンプリングされたデータがヒットする確率が下がると、ランダムサンプリングポイントから次の不良サンプルまでの距離も短くなります。これは、モデルの連続性の低さ（つまり、入力の小さな変化が抽出された特徴の大きな変化につながる）を利用することに加えて、特徴の小さな変化のみが必要であるため、補間条件によって敵対的サンプルの生成が容易になることを意味します。

特徴ノイズはラベルノイズに似ている

しかし、二重降下はラベルが破損していなくても発生するのではないですか? トレーニングデータには「単に」細心の注意を払う必要があるのでしょうか?

まあ、そんなに単純ではないです。高次元の特徴は、低次元の特徴よりも本質的にノイズが多い場合があります。高次元空間 (d とします) での 2 クラスの線形分類を想像してください。ベクトルとバイアスを持つ分類器があります。入力が与えられた場合、 x⋅v + b≥0のときクラスは1になります。それ以外の場合、クラスは0になります。入力が制限されていることを事前に知っていれば、クラスプロトタイプを見つけて、距離を使用して分類することができます。しかし、後続の線形分類器のd −1次元ヌル空間内のベクトル、つまり、結果を変更せずに入力に追加できるベクトル空間は、この距離に大きく寄与する可能性があり、より関連性の高い投影距離のノイズの多い推定値になる可能性があります。

2 次元のままにしたい場合は、ノイズ次元を拡大することができます。これで2番目の実験に移ります。「特徴次元」に標準偏差 0.5、「ノイズ次元」に標準偏差 5 の独立したランダム 2D ポイントをプロットしてみましょう。 2 つのクラスは ±1 で区切られます。 EM アルゴリズムを使用して、各次元で標準偏差 1 の K ガウス関数の混合物を各クラスに適合させます。分類は、2 つの適合密度を比較することによって実行されます。 5000 のトレーニングポイントと 1000 のテストポイントを使用します。

これを K の異なる値で 200 回実行し、精度を記録すると、二重降下の凹凸を確認できます。

これらの実験の問題の 1 つは、エラーの分布が偏っていることです。つまり、2 ～ 3 付近でテストエラーが多く発生しますが、10 付近でもエラーが散見されます。この適合度の低い曲線の裾の質は、成分 K の数によって異なり、中間 K の平均誤差の隆起の主な原因であると思われます。

7 結論

それで私たちは何を学んだのでしょうか?

私の意見では、ノイズはトレーニング段階ではなく推論段階で特徴を絞り出す必要があり、これはディープラーニングモデルの性質が非パラメトリックであることを示しています。これは KDE 実験に非常に近いものです。
たとえ適切なラベルがあったとしても (ありますよね?)、ディープラーニングにおける特徴の高次元性は特徴にノイズをもたらし、このノイズはラベルのノイズと同様に動作します。

<<: Kaggle マスターはどのような言語、フレームワーク、モデルを使用していますか?詳細な統計はこちら

>>: 生体認証に関する最大の誤解は何ですか?