なぜディープラーニングは非パラメトリックなのでしょうか?

なぜディープラーニングは非パラメトリックなのでしょうか?

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式サイトにアクセスして許可を申請してください。

本日、皆さんにお伝えしたいのは、ディープ ニューラル ネットワークがどのように機能するか、そしてそれが「従来の」機械学習モデルとどう違うのかということです。私の計画は次のとおりです。

  • まず、分類という形で問題を設定する方法について簡単に考えてみましょう。
  • 次に、バイアス-分散分解を検討し、VC次元とノンパラメトリックの観点からバイアス-分散トレードオフの文脈でそれについて説明します。
  • 補間ニューラル ネットワークと二重降下法に関する文献をいくつか研究します。
  • 記事の最後では、なぜ二重の衰退現象が起こるのかを直感的に説明するために、グラフィックを使った非常に簡単な実験を行います。

1 機械学習の問題を形式的に設定

もう少し面白くするために、問題を設定してみましょう。まずはデータから始めましょう。ラベル付きデータ、つまり入力データx (画像など) と分布Pxyを満たすラベルy があるとします。つまり次のようになります:

  • 分布Pxyは固定されており、未知です。 i = 1...N の場合、サンプルが利用可能です。
  • 数学的分析では通常、サンプルが独立していると仮定します。
  • 一般的に言えば、ラベルyと入力xの間にはy = y となるような機能的な関係があり、つまりラベルが正確で曖昧でないと仮定する必要がありますが、常にそうであるとは限りません。

私たちが「訓練」したいのは、何らかの関数f : xy 、またはより一般的には条件付き分布P ( yx ) を推定することです。候補関数はパラメータセット F={ | θ∈Θ } から取得されます。ここで、 θ はパラメータを表します。この目標を達成するために、損失関数 (またはリスク関数) を設定し、概念的には、期待損失を最小限に抑えることを目指します。

通常、最初の試みは、経験的リスクまたは経験的損失を最小限に抑えることです。損失関数が負の対数尤度である場合、それを最小化するということは最大尤度推定値を計算することを意味します。

バイアス分散分解とバイアス分散バランスの簡単な紹介

最も基本的な回帰推定量である最小二乗損失L = ( f ( x ) − y ) 2の場合、期待損失をその構成要素に分解するのは簡単です。ここでのポイントは、トレーニング データ自体がn 積分布からサンプリングされたランダム変数であり、トレーニングするモデル f が と表記される D に依存することを認識する必要があることです ( x , y )とDの独立性を巧みに追加して利用することで予測の期待二乗誤差を次のように分解できます。

ノイズの最後の項はモデルに依存しません。ここで、予測に対して良好な期待二乗誤差を得るためには、モデル出力のバイアス (第 1 項) と分散 (第 2 項) の合計が小さいことに注意する必要があります。ここでのすべての項は非負であることに注意してください。バイナリ分類器の期待精度についても、同様ですがより複雑な分解がありますが、モデル選択が同様に機能すると想像できますが、他の損失関数は一般に分解が困難です。バイアス/分散を 0 に等しくするか、または 0 に非常に近づけることは比較的簡単なので、この分解により、バイアスと分散の間でトレードオフを行うことができます。D 内の各データ ポイントのサンプル平均を推定値として使用することにより、バイアスを非常に小さくすることができ、関数が Lipschitz であるか、少なくとも一様に連続していると仮定するためのきちんとした規則性の議論を与えることができます。これは極端な過剰適合です。たとえば、D に依存しない関数を予測することで、分散をゼロにすることができますが、これは極端なアンダーフィッティングです。

平均二乗誤差のバイアス分散分解は、数学的な定理 (または少なくとも補題) によって成立する方程式であるため、一般に適用可能であり、条件を必要としないことに注意してください。

2. 硬直性からの解放、自由な構造の実現

ある意味では、上記のような極端な状況からより穏やかな状況への移行は、私たちが実際に何ができるかを示すものでもあります。

候補関数のセットを増やす

1 つのアプローチは、候補関数の非常に制限されたセットから始めて、候補関数の空間を意味のある形で拡張し、(ネストされていると想定される) シーケンス F0⊂F1⊂… を取得することです。重要な考え方は、さらに探索を進めることでモデルがデータに適合するようになるので、いつ停止するかを知る必要があるということです。 Vapnik と Chervonenkis の構造的リスク最小化原理はこれを実行しますが、バイアス分散分解を使用する代わりに、D の期待損失 (リスク) と観測損失 (経験的リスク) の境界と、トレーニング データセットNのサイズと関数セットのサイズ、またはその VC 次元に依存する項を使用します。ここでの典型的なケースは、 N ≥ VC-dim サンプルが必要であるが、 N ≤ 20 VC-dim サンプルを持つ可能性があるということです。ただし、ここでのパラメータの数は標準の一部ではないことに注意してください (ただし、VC ディメンションに影響する可能性があります)。

最後に、赤池情報量基準などの従来の基準は、低い負の対数尤度を達成するためにパラメータにどれだけ「投資」すべきかを伝えようとします。しかし、ビショップは序文の中で、これらの方法はあまり効果的ではないと述べています。

ノンパラメトリック推定:正則化

古典的なノンパラメトリック推定は、もう一方の極端から始まります。弱導関数を持つソボレフ関数空間などの関数空間を取ると(使用される測度が x の分布であろうと入力のルベーグ測度であろうと関係なく)、任意の有限サンプル D 上のすべての点のサンプル平均を一致させることができるため、ゼロ点バイアスが得られますが、経験的リスクを最小化することは条件が悪く、無限の解を持ちます。

次に行うことは正規化です。おそらく最も有名な例は、ノルム項を追加してティホノフ正規化をもたらすもので、損失は次のようになります。

これをバイアス-分散の観点から見ると、バイアス( λ → 0 のときはバイアスはないが、これは悪条件化につながる)と分散( λ → ∞ のときは。正規化項は単なる半ノルムなので、分散を 0 にしたくありません)のバランスをとることができます。もちろん、Grace Wahba の正規化回帰に関する研究は、バイアスと分散の適切なバランスを維持すること、特にlambdaの適切な値を見つけることに特に関連しています。前のセクションの仮定関数は、与えられた λ に対して、の最小値が、 における経験的最小二乗損失 (最初の項) を最小化する必要がある半ノルム値を持つことを観察することによって、埋め込み空間 Fi に関連付けることができます。したがって、重みが増加するシーケンスからのノルムが減少するシーケンスによって、ネストされた Ansatz 空間が得られます。

多くの一般的な正規化回帰法 (Lasso など) は、このタイプのフレームワークに適合します。

VCコミュニティへの賞賛

VC の世界に戻って、直感を助けるためにもう少し正式な話にしましょう。重要な確率境界は精度(または0-1リスク)である

分析してみましょう。外側の部分は「1−η 以上の確率」と書かれていますが(よ​​り正確に言う必要があります)、確率 η は小さすぎると考えられます。つまり、得られるのは確率の境界だけであり、「ほぼ確実」な保証ではないということです。

内側の部分は基本的に、完全な確率分布の精度がトレーニング セットの精度に非常に近いことを示しています。つまり、N が非常に大きくなると、差がゼロに近づく正確な境界が得られます。

表面的には、これはリスクや精度について何かを教えてくれますが、モデルについては何を示しているのでしょうか。私の意見では、重要なメッセージは、モデルが非常に厳密であるため、テスト セットで発生するすべてのこと (より正確には、完全なPxy分布で発生するすべてのこと) がトレーニング セットですでに発生していることがわかるということです。

ベイジアンはさておき

ベイズの設定では、正規化は最大事後確率 (MAP) 推定として解釈できます。または、事前確率を定義する手間をかける場合は、推定値をすべての f∈F にわたって統合することもできます。

3 これはディープラーニングについて何を教えてくれるでしょうか?

ディープラーニングは、model.parameters() (ここでは PyTorch を使用しています) をオプティマイザーに渡すと、パラメーター化されるように見えます。しかし、そうではありません。この正規化方法は、ディープラーニングが機能する理論的枠組みであるようですが、十分に理解されていないこともあります。

私たちのモデルは「道徳的に」非パラメトリックになるほど大きく、まだ完全には理解していませんが、私たちが行っていることのほとんど(拡張、ノルムレイヤー、ドロップアウトなど)は実際には正規化です。

これは、M. Belkin らによる「現代の機械学習の実践とバイアスと分散のトレードオフの調和」のテーマでもあり、一般化パフォーマンスの鍵となるのは、特定の関数空間のノルムによって測定される関数の規則性または滑らかさであるという、彼らの以前の研究のテーマでもあります。

M. Belkin らによる二重降下現象の説明を詳しく見ることは価値があります (これが初めてだったと思います)。

ここで注意すべき点がいくつかあります:

  • M. Belkin らは、条件の中で「古典的」や「現代的」などの修飾語を引用符で囲みました。 「現代的な」条件付けは、非常に非パラメトリックな種類の学習であり、ある種の正規化を伴いますが、これについてはさらに深く理解する必要があります。
  • マルチパラメータのコンテキストでは、バイアスと分散の考え方は依然として完全に適用可能であるように思われますが、ノンパラメトリック回帰は、「限られた容量」の候補セットよりも優れた参照フレームである可能性があります。

二重降下現象に関する一般的な理解は、P. Nakkiran らによる論文「Deep Double Descent」に基づいているようです。これは、論文の優秀さと、OpenAI がこれらのトピックをより幅広い聴衆に広める能力の証です。彼らは、より現実的なネットワーク(M. Belkin らはより浅いネットワークを引用)を使用して体系的な実験を実施しました。私にとって重要な結論の 1 つは、損傷したラベルを使用した 2 つの実験条件ではダブル ディップ現象が「でこぼこ」しているのに対し、きれいなラベルを使用した実験で得られた結果ははるかに滑らかで「でこぼこ」が少ないと報告されていることです。

彼らは、破損したラベルを持つ CIFAR10 でトレーニングされた修正された ResNet18 の、一定数のエポックでのテスト エラーを示すグラフを提示しています。変更とは、チャンネル数を元の数の k 分の 1 (k は 64 から 1 の範囲) に減らすことを意味します (つまり、元の ResNet18 の 64 分の 1 から実験を開始し、徐々に増やしていき、最終的に元の数に到達するということです)。データセット内でラベルの破損が発生し (すべてのエポックではなく、単一のエポックで)、ラベルの 15% がランダムに間違ったクラスに切り替えられます。これは大きな誤解であると解釈されました。

4 VC 理論は、ノイズの多いラベルを持つモデルをフィッティングする際にどのような影響を与えますか?

上記の説明から、モデルが VC 境界が有効な限定された条件にある場合 (たとえば、小さなモデルが「従来の」条件にある場合)、トレーニング データ D が元のデータと同じ分布Pxyからのものであれば、テスト セットのテスト精度は (おそらく) トレーニング精度に近くなることがわかります。言い換えれば、この条件は、 Pxy の損傷の程度(および損傷の種類)が同じであると仮定することを意味します。しかし、これは、モデルが学習し、破損したトレーニング データにあまり気を取られないように学習した場合、つまり、トレーニング データ内で、正しいラベルが破損したラベルを排除することを意味します。

5つの機能と学習

ディープラーニングを直感的に理解することが難しい理由の 1 つは、Ansatz フィールドの適応的な性質です。私が言いたいのは、特徴に学習を適用する固定の特徴抽出器(手動で構築され、カーネル マシンで使用されるカーネル ファミリによって提供される)がないということです。通常、最後のレイヤーへの入力を特徴 (word2vet スタイルの損失、プロトタイプ ネットワーク、ベースラインの教師なし学習などによって学習されたベクトル表現) として扱うか、MLP 分類器ヘッドの前の畳み込みレイヤーの最後で畳み込みネットワークを分割する場合があります。

従来のアプローチでは、学習した分類器を固定された特徴抽出器に配置しますが、E. Hoffer らは反対の考えを持っています。彼らは分類器を固定すること、つまり特徴抽出器のみをトレーニングすることを提案しています。

したがって、特徴を抽出しているふりをして、直感を単純化したいと思うかもしれません。 P. Nakkiran らによるタイトル画像の実験では、t-SNE などの次元削減メカニズムを使用してノイズのないデータから学習した特徴を視覚化する場合、ラベル ノイズを追加することは、各クラスに対応する点の塊にノイズを追加することと同じです。これを念頭に置いて、M. Belkin らによる人工データ実験「Understanding Deep Learning」よりもさらに単純な同様の実験を実施することができます。

6 ラベルノイズ、容量、二重降下法、実験テストエラーに関する直感

統計はさておき、P. Nakkiran らの図で説明されているのと同じ現象がプロトタイプ ネットワークで発生し、その容量が作成できるプロトタイプの数で表されていると仮定すると、何が起こるかについて推測してみましょう。

  • 左端の幅(パラメータ)値が 1 ~ 5 付近では、クラスよりもプロトタイプの数が少なく、モデルがすべてのクラスを表現できないため、モデルが適切に適合していません(アンダーフィッティング)。
  • 幅 5 付近では、プロトタイプは 10 個 (またはそれ以上) ありますが、破損したラベルは各プロトタイプのトレーニング中に除去されるため、これらの破損したラベルは効果がありません。
  • 幅 5 から 10 の範囲で、プロトタイプは壊れたタグを収集します。各プロトタイプには推論フェーズで使用される「影響範囲」があるため、プロトタイプを損傷することがテストに非常に関連するかなり大きな空間があります。
  • width10 の範囲外に、さらにプリミティブを追加しました。プロトタイプは互いに近づけられ、破損したラベル付きプロトタイプは推論フェーズ中に「押し出される」ため、その「影響範囲」は小さくなります (破損したプロトタイプが 3 つあるよりも、同じクラスの破損していないプロトタイプが 5 つある可能性の方が高いため)。

これはバイアス-分散分解にとって何を意味するのでしょうか? 分解は空間内で点ごとに行われ、以前と同様にさまざまなトレーニング データセットの分散とバイアスに対して実行されることを思い出してください。

クラスが 2 つしかないと仮定すると、予測とラベルは 0 または 1 になります。次に、プロトタイプは破損したラベルを収集します。これにより、バイアス (ある確率で間違った予測をするため) と分散 (誤った予測の領域は、破損したラベル、つまりどのデータセット D を使用するかによって異なるため) が導入され、誤った予測の領域が小さくなるため、分散とバイアスが削減されます。この直感では、早期停止の役割は、モデルが破損したラベルを収集し始めたことを検出することです。

したがって、現代のニューラル ネットワークは本質的に非パラメトリックであり、動作するためにさまざまな種類の正規化に依存しているようです。 M. Belkin らの公式を使用するために、さまざまな手法が特定の関数空間のノルムにどのように作用するかをどの程度理解しているかをより深く理解したいと考えています。 「伝統的な」統計が現代の学習が機能しないことを示していると結論付けるのは難しいようです。

Hastie らによる論文「Surprises in High-Dimensional Ridgeless Least Squares Interpolation」では、モデル問題としての最小二乗法の非常に包括的な分析が提供されており、深層学習の現象に対する直感も提供される可能性があります。

補間条件で誤ってラベル付けされたデータを排除する

補間条件の非常に簡単なシミュレーションを行うことができます。 2D 標準単位正規から点を抽出し、水平軸に沿って ±2 シフトして、各クラス分布から点の 25% をサンプリングするバイナリ分類問題を考えてみます。補間条件を得るために、鋭いピークを持つカーネルを使用します。解析的に扱いやすい質量を持ち、それを1に正規化するために、カーネルを使用する。

 

この原子核は単位質量を持ち、x = 0 で無限大に向かい、原点から離れて崩壊します。

つまり、各クラスの密度をサンプルにおけるカーネルの平均として表すと、次のようになります。

異なるクラスの点が重ならないと仮定すると(ほぼ確実にそうなる)、各点を大きい方の点に基づいて分類するか、各点の確率密度を正規化して確率を取得したい場合、

これにより、補間されたソリューションが得られます。各トレーニング ポイントでは、ラベル クラスの密度が無限であるため、そのクラスに属するものとして分類されます。では、ラベル付けエラーは何が起こったのでしょうか? ラベル付けエラーにより、破損したトレーニング ポイントの近くの領域が間違ったクラスに割り当てられることがあります。ただし、正しいクラスの近くのポイントが多いほど、誤分類された領域は小さくなります。インタラクティブに試すことができます。ポイント数が増えると、テストエラーは減少します。

これはどういう意味ですか?  これは、補間されたソリューションの場合、テスト時間中に適切なトレーニング ポイントが適切にラベル付けされていないポイントを排除することを示唆しています。

敵対的例

しかし、データが増えるにつれて、分類が誤っている領域やランダムにサンプリングされたデータがヒットする確率が下がると、ランダムサンプリングポイントから次の不良サンプルまでの距離も短くなります。これは、モデルの連続性の低さ(つまり、入力の小さな変化が抽出された特徴の大きな変化につながる)を利用することに加えて、特徴の小さな変化のみが必要であるため、補間条件によって敵対的サンプルの生成が容易になることを意味します。

特徴ノイズはラベルノイズに似ている

しかし、二重降下はラベルが破損していなくても発生するのではないですか? トレーニング データには「単に」細心の注意を払う必要があるのでしょうか?

まあ、そんなに単純ではないです。高次元の特徴は、低次元の特徴よりも本質的にノイズが多い場合があります。高次元空間 (d とします) での 2 クラスの線形分類を想像してください。ベクトルとバイアスを持つ分類器があります入力が与えられた場合、 x⋅v + b≥0のときクラスは1になります。それ以外の場合、クラス0になります。入力が制限されていることを事前に知っていれば、クラスプロトタイプを見つけて、距離を使用して分類することができます。しかし、後続の線形分類器のd −1次元ヌル空間内のベクトル、つまり、結果を変更せずに入力に追加できるベクトル空間は、この距離に大きく寄与する可能性があり、より関連性の高い投影距離のノイズの多い推定値になる可能性があります

2 次元のままにしたい場合は、ノイズ次元を拡大することができます。これで2番目の実験に移ります。 「特徴次元」に標準偏差 0.5、 「ノイズ次元」に標準偏差 5 の独立したランダム 2D ポイントをプロットしてみましょう。 2 つのクラスは ±1 で区切られます。 EM アルゴリズムを使用して、各次元で標準偏差 1 の K ガウス関数の混合物を各クラスに適合させます。分類は、2 つの適合密度を比較することによって実行されます。 5000 のトレーニング ポイントと 1000 のテスト ポイントを使用します。

これを K の異なる値で 200 回実行し、精度を記録すると、二重降下の凹凸を確認できます。

これらの実験の問題の 1 つは、エラーの分布が偏っていることです。つまり、2 ~ 3 付近でテスト エラーが多く発生しますが、10 付近でもエラーが散見されます。この適合度の低い曲線の裾の質は、成分 K の数によって異なり、中間 K の平均誤差の隆起の主な原因であると思われます。

7 結論

それで私たちは何を学んだのでしょうか?

  • 私の意見では、ノイズはトレーニング段階ではなく推論段階で特徴を絞り出す必要があり、これはディープラーニング モデルの性質が非パラメトリックであることを示しています。これは KDE 実験に非常に近いものです。
  • たとえ適切なラベルがあったとしても (ありますよね?)、ディープラーニングにおける特徴の高次元性は特徴にノイズをもたらし、このノイズはラベルのノイズと同様に動作します。

<<:  Kaggle マスターはどのような言語、フレームワーク、モデルを使用していますか?詳細な統計はこちら

>>:  生体認証に関する最大の誤解は何ですか?

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

Google PaLM モデルも素人によって覚醒したと宣言されましたか?業界関係者:Rational テストは GPT よりわずか 3% 優れている

「汎用人工知能」は、今や2020年代の「水から石油」の技術になりつつあります。ほぼ2週間ごとに、大規...

AIシステムのグレーディングを通じて企業のコスト管理を支援

翻訳者 | 張毅校正 | 梁哲、孫淑娟自動車技術協会(SAE)が自動運転車を分類しているのと同じよう...

...

SQL Server データ マイニング: クラスタリング アルゴリズムとシーケンシャル クラスタリング アルゴリズムの理解

最近、クライアントの開発チームと SQL Server データ マイニングとそのアプリケーションにつ...

OpenAI、ChatGPTのトレーニングで何百万ものユーザー情報を盗んだとして訴訟

有名モデルChatGPTの進路に、ちょっとした紆余曲折が訪れ始めた。カリフォルニアに拠点を置く法律事...

AIの力を借りれば、罠だらけのジムは歴史の舞台から消えるのでしょうか?

[[336650]]驚くべきことに、COVID-19の世界的大流行の中で、フィットネスやエクササイ...

Python の顔認識の優れた教育例、顔認識システムを構築するための 40 行のコード!

[[229034]] Face Id は、高性能な顔認証ソフトウェアです。公式の主張は、「100 ...

初期の携帯電話で使用されていたGPRS暗号化アルゴリズムが意図的に弱められていたことが明らかになった。

[[406364]]ヨーロッパの複数の大学の研究者チームが論文の中で、初期の携帯電話で使用されてい...

北京冬季オリンピックまでのカウントダウン:人工知能は準備完了!あなたも?

「一つの夢」から「共に未来へ」へ2つのオリンピック開催都市、北京オリンピック聖火は今冬も歓迎される...

推奨される 5 つのオープンソースオンライン機械学習環境

[51CTO.com クイック翻訳] 機械学習は、機械が直接プログラムされることなく学習できるように...

ブロックチェーンと人工知能は、どうすればお互いの「ゴールデンパートナー」になれるのでしょうか?

[[247978]]本質的には、「見知らぬ人同士がイベントの共有記録を信頼できるようにするための技...

人工知能はIoTの触媒

世界中の企業がモノのインターネット (IoT) を急速に活用して新しい製品やサービスを生み出し、新た...

小売業界のトレンド: 人工知能からクーポンコードまで

テクノロジーによりシステム効率が大幅に向上し、ビジネス運営のコスト効率と時間効率が向上しました。テク...

...

ルーティングテーブルとルーター選択アルゴリズム

標準ルーティングテーブル1.次駅経路選定の基本的な考え方ルーティング テーブルは、宛先までの完全なパ...