なぜディープラーニングには局所最小値がないのでしょうか?

この記事では主に定量的な質問に答えます。定量的な問題には主に次のような状況が含まれます。

「私の知る限り、各方向で 0 から導出される確率は非常に低いです。これ以外に何か理由があるのでしょうか?」

理論的には、この疑問は検証可能であり、過去数十年にわたって多くの研究者がその検証に取り組んできました。

まず第一に、この問題は実際に検証されているということを指摘したいと思います。この考えは、ルカンが初期の著作の中で初めて提案しました。これについては、David G. Stork、Peter E. Hart、Richard O. Duda が共著した「小さな赤い本」『Graphic Classification』で説明されています。

この問題は、20年前のスピングラス研究による凝縮物質物理学で大部分が説明されました。

最も基本的なプロジェクトは、同様の非現実的な形式の研究を通じてパリシによって開発されました。

TAPの自由エネルギーは静的観点から表現される

その後、ランダム行列理論の正確かつ実行可能な方法が経験的実証に使用されました。 LeCun 氏が話した結果は次のとおりです。

高次元ランドスケープの要点

パリシ氏のアプローチを要約すると次のようになります。

彼はランダムハミルトニアン関数の一種である平均場スピングラス（P スピン球状スピングラスとも呼ばれる）を研究しています。彼は次のことを発見しました:

1. TAP 自由エネルギーの解析式を導出する (T>0 の場合) TAP (Tholis Anderson Palmer) 理論はスピングラスを研究するための一般的な方法であり、RBM に適用できます (「物理化学を使用して RMB を改善する」を参照)

2. 構成の平均情報量を計算できます。さらに、統計理論の方法を使用してキーポイントの数を計算する複雑さの尺度もあります。

3. エネルギーレベル E におけるキーポイントの数を計算するために、この結論を T = 0 におけるエネルギーランドスケープに拡張することができます。パリスが到達した普遍的な結果は、すべての局所最小化エネルギーが地球の表面からわずかに上の小さな領域に「（静的に）集中している」というものである。

これがスピングラスの研究においてなぜ重要な問題なのか、そしてなぜ P 字型の球状スピングラスが研究対象なのかは、それが実証済みのモデルであり、多くのディープラーニング研究者が参考にできる確固たる仮説であるということ以外には説明されていません。

さらに、ディープラーニングの研究では、RBM や VAE などの従来の方法では T = 1 が想定されていますが、T = 0 エネルギービューと T > 0 エネルギービューを区別していません。

最近、ディープラーニング研究に直接適用できる結論が増えています。

局所最小値のないディープラーニング

この結論はさらに、ヘッセ定理の仮定に非常に問題があるために、SGD ソルバーは実際には鞍点と局所最小値の違いを区別できないことを前提としています。 LeCun の最近の数値計算研究はこれを裏付けています。彼の研究により、ヘッセ理論では多くのゼロ値が想定されていることが分かりました。

偏った勾配は下に向かって下降する

私個人としては、この結論は不完全であり、ワリニス・ピーターのような物理化学者にとって、この分野ではまだ多くの研究作業が残されていると考えます。このテーマは、「アダムの肋骨」現象として知られる極低温ガラスの理論と、実際の構造ガラスにおける関連するエントロピー危機において特に不可解な現象です。これはかなり奥深いトピックですが、P スピン球状スピングラスが非常に興味深い理由は、実エネルギーを多く見ることができるシンプルなスピングラスモデルであるという点にあると言えば十分でしょう。それはエントロピー危機を表しています。実際、ディープネットもエントロピー危機を示すと私は考えています。つまり、ディープネットが過剰にトレーニングされると、多くの仮想エントロピーが示されることになります。

過剰トレーニングによるエントロピー危機は、LeCun がエントロピー SGD に関する論文で述べたように、仮想エントロピーから逸脱するにつれて高いピークとして現れます。そして、この現象は最近 RBM でも観察されています。

[1612.01.1717] バイナリシナプスを持つ制限付きボルツマンマシンの非監視特徴の統計力学

これらの漏斗状の構造は、タンパク質の折り畳みで観察できます。