なぜディープラーニングには局所最小値がないのでしょうか?

なぜディープラーニングには局所最小値がないのでしょうか?

この記事では主に定量的な質問に答えます。定量的な問題には主に次のような状況が含まれます。

「私の知る限り、各方向で 0 から導出される確率は非常に低いです。これ以外に何か理由があるのでしょうか?」

理論的には、この疑問は検証可能であり、過去数十年にわたって多くの研究者がその検証に取り組んできました。

まず第一に、この問題は実際に検証されているということを指摘したいと思います。この考えは、ルカンが初期の著作の中で初めて提案しました。これについては、David G. Stork、Peter E. Hart、Richard O. Duda が共著した「小さな赤い本」『Graphic Classification』で説明されています。

この問題は、20年前のスピングラス研究による凝縮物質物理学で大部分が説明されました。

最も基本的なプロジェクトは、同様の非現実的な形式の研究を通じてパリシによって開発されました。

TAPの自由エネルギーは静的観点から表現される

その後、ランダム行列理論の正確かつ実行可能な方法が経験的実証に使用されました。 LeCun 氏が話した結果は次のとおりです。

高次元ランドスケープの要点

パリシ氏のアプローチを要約すると次のようになります。

彼はランダムハミルトニアン関数の一種である平均場スピングラス(P スピン球状スピングラスとも呼ばれる)を研究しています。彼は次のことを発見しました:

1. TAP 自由エネルギーの解析式を導出する (T>0 の場合) TAP (Tholis Anderson Palmer) 理論はスピン グラスを研究するための一般的な方法であり、RBM に適用できます (「物理化学を使用して RMB を改善する」を参照)

2. 構成の平均情報量を計算できます。さらに、統計理論の方法を使用してキーポイントの数を計算する複雑さの尺度もあります。

3. エネルギーレベル E におけるキーポイントの数を計算するために、この結論を T = 0 におけるエネルギーランドスケープに拡張することができます。パリスが到達した普遍的な結果は、すべての局所最小化エネルギーが地球の表面からわずかに上の小さな領域に「(静的に)集中している」というものである。

これがスピングラスの研究においてなぜ重要な問題なのか、そしてなぜ P 字型の球状スピングラスが研究対象なのかは、それが実証済みのモデルであり、多くのディープラーニング研究者が参考にできる確固たる仮説であるということ以外には説明されていません。

さらに、ディープラーニングの研究では、RBM や VAE などの従来の方法では T = 1 が想定されていますが、T = 0 エネルギー ビューと T > 0 エネルギー ビューを区別していません。

最近、ディープラーニング研究に直接適用できる結論が増えています。

局所最小値のないディープラーニング

この結論はさらに、ヘッセ定理の仮定に非常に問題があるために、SGD ソルバーは実際には鞍点と局所最小値の違いを区別できないことを前提としています。 LeCun の最近の数値計算研究はこれを裏付けています。彼の研究により、ヘッセ理論では多くのゼロ値が想定されていることが分かりました。

偏った勾配は下に向かって下降する

私個人としては、この結論は不完全であり、ワリニス・ピーターのような物理化学者にとって、この分野ではまだ多くの研究作業が残されていると考えます。このテーマは、「アダムの肋骨」現象として知られる極低温ガラスの理論と、実際の構造ガラスにおける関連するエントロピー危機において特に不可解な現象です。これはかなり奥深いトピックですが、P スピン球状スピン グラスが非常に興味深い理由は、実エネルギーを多く見ることができるシンプルなスピン グラス モデルであるという点にあると言えば十分でしょう。それはエントロピー危機を表しています。実際、ディープ ネットもエントロピー危機を示すと私は考えています。つまり、ディープ ネットが過剰にトレーニングされると、多くの仮想エントロピーが示されることになります。

過剰トレーニングによるエントロピー危機は、LeCun がエントロピー SGD に関する論文で述べたように、仮想エントロピーから逸脱するにつれて高いピークとして現れます。そして、この現象は最近 RBM でも観察されています。

[1612.01.1717] バイナリシナプスを持つ制限付きボルツマンマシンの非監視特徴の統計力学

これらの漏斗状の構造は、タンパク質の折り畳みで観察できます。

では、ディープラーニングはなぜ機能するのでしょうか?

私は、カリフォルニア大学バークレー校で開催された 2016 年夏の MDDS ディスカッションでこれらの問題について議論しました (元の記事を読んでビデオを見るには、ここをクリックしてください)。

<<:  MITは、ニューラルネットワークトレーニングのブラックボックスを自動的に覗くネットワーク解剖フレームワークを提案

>>:  AESアルゴリズムを簡単に説明すると

ブログ    
ブログ    
ブログ    

推薦する

生成AI: 電子商取引の新たなフロンティア

AI の真の可能性が現れ始めたばかりですが、テクノロジーは電子商取引業界の生産性向上と優れた顧客サー...

人工知能は企業の調達戦略にどのように適合するのでしょうか?

どの大企業にとっても、調達は日々の業務において重要な役割を果たします。 [[317585]]企業は調...

中国気象局:2030年までに、人工知能気象アプリケーションの開発レベルは世界最高レベルに達する

中国気象局は7月29日、「人工知能気象応用作業計画(2023-2030年)」を発表し、国内の人工知能...

...

...

...

...

COVID-19 最新情報: COVID-19 との戦いに役立つトップ 10 のイノベーション

[[320870]]迅速な感染検査から3Dプリントソリューションまで、世界中のテクノロジー企業が協力...

...

...

...

...

ロボットが密かに出産してみんなを驚かせている?

[[439390]]中国国営ラジオの12月7日の北京での「ニュースハイパーリンク」によると、米国の...

新しいAIプログラミング言語はディープラーニングを超える

MIT の研究者チームは、人工知能の分野を初心者にとってよりアクセスしやすいものにするとともに、専門...

...