なぜディープラーニングには局所最小値がないのでしょうか?

なぜディープラーニングには局所最小値がないのでしょうか?

この記事では主に定量的な質問に答えます。定量的な問題には主に次のような状況が含まれます。

「私の知る限り、各方向で 0 から導出される確率は非常に低いです。これ以外に何か理由があるのでしょうか?」

理論的には、この疑問は検証可能であり、過去数十年にわたって多くの研究者がその検証に取り組んできました。

まず第一に、この問題は実際に検証されているということを指摘したいと思います。この考えは、ルカンが初期の著作の中で初めて提案しました。これについては、David G. Stork、Peter E. Hart、Richard O. Duda が共著した「小さな赤い本」『Graphic Classification』で説明されています。

この問題は、20年前のスピングラス研究による凝縮物質物理学で大部分が説明されました。

最も基本的なプロジェクトは、同様の非現実的な形式の研究を通じてパリシによって開発されました。

TAPの自由エネルギーは静的観点から表現される

その後、ランダム行列理論の正確かつ実行可能な方法が経験的実証に使用されました。 LeCun 氏が話した結果は次のとおりです。

高次元ランドスケープの要点

パリシ氏のアプローチを要約すると次のようになります。

彼はランダムハミルトニアン関数の一種である平均場スピングラス(P スピン球状スピングラスとも呼ばれる)を研究しています。彼は次のことを発見しました:

1. TAP 自由エネルギーの解析式を導出する (T>0 の場合) TAP (Tholis Anderson Palmer) 理論はスピン グラスを研究するための一般的な方法であり、RBM に適用できます (「物理化学を使用して RMB を改善する」を参照)

2. 構成の平均情報量を計算できます。さらに、統計理論の方法を使用してキーポイントの数を計算する複雑さの尺度もあります。

3. エネルギーレベル E におけるキーポイントの数を計算するために、この結論を T = 0 におけるエネルギーランドスケープに拡張することができます。パリスが到達した普遍的な結果は、すべての局所最小化エネルギーが地球の表面からわずかに上の小さな領域に「(静的に)集中している」というものである。

これがスピングラスの研究においてなぜ重要な問題なのか、そしてなぜ P 字型の球状スピングラスが研究対象なのかは、それが実証済みのモデルであり、多くのディープラーニング研究者が参考にできる確固たる仮説であるということ以外には説明されていません。

さらに、ディープラーニングの研究では、RBM や VAE などの従来の方法では T = 1 が想定されていますが、T = 0 エネルギー ビューと T > 0 エネルギー ビューを区別していません。

最近、ディープラーニング研究に直接適用できる結論が増えています。

局所最小値のないディープラーニング

この結論はさらに、ヘッセ定理の仮定に非常に問題があるために、SGD ソルバーは実際には鞍点と局所最小値の違いを区別できないことを前提としています。 LeCun の最近の数値計算研究はこれを裏付けています。彼の研究により、ヘッセ理論では多くのゼロ値が想定されていることが分かりました。

偏った勾配は下に向かって下降する

私個人としては、この結論は不完全であり、ワリニス・ピーターのような物理化学者にとって、この分野ではまだ多くの研究作業が残されていると考えます。このテーマは、「アダムの肋骨」現象として知られる極低温ガラスの理論と、実際の構造ガラスにおける関連するエントロピー危機において特に不可解な現象です。これはかなり奥深いトピックですが、P スピン球状スピン グラスが非常に興味深い理由は、実エネルギーを多く見ることができるシンプルなスピン グラス モデルであるという点にあると言えば十分でしょう。それはエントロピー危機を表しています。実際、ディープ ネットもエントロピー危機を示すと私は考えています。つまり、ディープ ネットが過剰にトレーニングされると、多くの仮想エントロピーが示されることになります。

過剰トレーニングによるエントロピー危機は、LeCun がエントロピー SGD に関する論文で述べたように、仮想エントロピーから逸脱するにつれて高いピークとして現れます。そして、この現象は最近 RBM でも観察されています。

[1612.01.1717] バイナリシナプスを持つ制限付きボルツマンマシンの非監視特徴の統計力学

これらの漏斗状の構造は、タンパク質の折り畳みで観察できます。

では、ディープラーニングはなぜ機能するのでしょうか?

私は、カリフォルニア大学バークレー校で開催された 2016 年夏の MDDS ディスカッションでこれらの問題について議論しました (元の記事を読んでビデオを見るには、ここをクリックしてください)。

<<:  MITは、ニューラルネットワークトレーニングのブラックボックスを自動的に覗くネットワーク解剖フレームワークを提案

>>:  AESアルゴリズムを簡単に説明すると

ブログ    
ブログ    
ブログ    

推薦する

Σco Time | AIセキュリティ、インテリジェンスの新時代における双方にメリット

[原文は51CTO.comより]先日、#Σcotimebetween#ライブブロードキャストプラット...

グラフ最適化のためのエンドツーエンドの転送可能な深層強化学習

[[425806]]多様なアクセラレータ セットでトレーニングされた大規模で複雑なニューラル ネット...

2030年までに世界を制覇?ネイチャーが中国のAI開発の現状を深く分析

最近、ネイチャー誌は「中国は2030年までにAIの世界をリードできるか?」と題する記事を掲載した。記...

2022年に注目すべき8つのAIトレンド

1. 5G上のAI 2022年には産業用AIとAI-on-5G IoTアプリケーションが主流になるで...

...

ディープラーニングをもっと有効活用するにはどうすればいいでしょうか?

企業向けにディープラーニングを実装する前に、ビジネスリーダーがこの画期的なテクノロジーの機能と特徴...

AIRankingsが世界の大学AIランキングを発表

今年も大学入試シーズンがやってきました。私が大学受験をしていた頃には、この言葉が流行っていたのを覚え...

...

単語ベクトル計算とテキスト分類ツール fastText の応用原理と実践

FastTextは、Facebookが2016年にオープンソース化した単語ベクトル計算およびテキスト...

...

大規模機械学習のためのプログラミング手法、計算モデル、Xgboost および MXNet の事例

[[191977]]現在、機械学習のトレンドは、従来の方法のシンプルなモデル + 少量データ (手動...

アリババが3D位置マップ圧縮アルゴリズムを革新、その論文結果がトップカンファレンスCVPR 2022に選出

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

MIT テクノロジーレビュー: 6 つの質問が生成 AI の未来を決定する

「生成AIは2023年に世界を席巻します。その未来、そして私たちの未来は、私たちの次の一手によって決...

...

GPT-4: 私が書いたコードを使ってみますか?調査によると、APIの不正使用率は62%を超えている。

言語モデリングの新しい時代が到来し、大規模言語モデル (LLM) は自然言語を理解するだけでなく、ユ...