なぜディープラーニングには局所最小値がないのでしょうか?

なぜディープラーニングには局所最小値がないのでしょうか?

この記事では主に定量的な質問に答えます。定量的な問題には主に次のような状況が含まれます。

「私の知る限り、各方向で 0 から導出される確率は非常に低いです。これ以外に何か理由があるのでしょうか?」

理論的には、この疑問は検証可能であり、過去数十年にわたって多くの研究者がその検証に取り組んできました。

まず第一に、この問題は実際に検証されているということを指摘したいと思います。この考えは、ルカンが初期の著作の中で初めて提案しました。これについては、David G. Stork、Peter E. Hart、Richard O. Duda が共著した「小さな赤い本」『Graphic Classification』で説明されています。

この問題は、20年前のスピングラス研究による凝縮物質物理学で大部分が説明されました。

最も基本的なプロジェクトは、同様の非現実的な形式の研究を通じてパリシによって開発されました。

TAPの自由エネルギーは静的観点から表現される

その後、ランダム行列理論の正確かつ実行可能な方法が経験的実証に使用されました。 LeCun 氏が話した結果は次のとおりです。

高次元ランドスケープの要点

パリシ氏のアプローチを要約すると次のようになります。

彼はランダムハミルトニアン関数の一種である平均場スピングラス(P スピン球状スピングラスとも呼ばれる)を研究しています。彼は次のことを発見しました:

1. TAP 自由エネルギーの解析式を導出する (T>0 の場合) TAP (Tholis Anderson Palmer) 理論はスピン グラスを研究するための一般的な方法であり、RBM に適用できます (「物理化学を使用して RMB を改善する」を参照)

2. 構成の平均情報量を計算できます。さらに、統計理論の方法を使用してキーポイントの数を計算する複雑さの尺度もあります。

3. エネルギーレベル E におけるキーポイントの数を計算するために、この結論を T = 0 におけるエネルギーランドスケープに拡張することができます。パリスが到達した普遍的な結果は、すべての局所最小化エネルギーが地球の表面からわずかに上の小さな領域に「(静的に)集中している」というものである。

これがスピングラスの研究においてなぜ重要な問題なのか、そしてなぜ P 字型の球状スピングラスが研究対象なのかは、それが実証済みのモデルであり、多くのディープラーニング研究者が参考にできる確固たる仮説であるということ以外には説明されていません。

さらに、ディープラーニングの研究では、RBM や VAE などの従来の方法では T = 1 が想定されていますが、T = 0 エネルギー ビューと T > 0 エネルギー ビューを区別していません。

最近、ディープラーニング研究に直接適用できる結論が増えています。

局所最小値のないディープラーニング

この結論はさらに、ヘッセ定理の仮定に非常に問題があるために、SGD ソルバーは実際には鞍点と局所最小値の違いを区別できないことを前提としています。 LeCun の最近の数値計算研究はこれを裏付けています。彼の研究により、ヘッセ理論では多くのゼロ値が想定されていることが分かりました。

偏った勾配は下に向かって下降する

私個人としては、この結論は不完全であり、ワリニス・ピーターのような物理化学者にとって、この分野ではまだ多くの研究作業が残されていると考えます。このテーマは、「アダムの肋骨」現象として知られる極低温ガラスの理論と、実際の構造ガラスにおける関連するエントロピー危機において特に不可解な現象です。これはかなり奥深いトピックですが、P スピン球状スピン グラスが非常に興味深い理由は、実エネルギーを多く見ることができるシンプルなスピン グラス モデルであるという点にあると言えば十分でしょう。それはエントロピー危機を表しています。実際、ディープ ネットもエントロピー危機を示すと私は考えています。つまり、ディープ ネットが過剰にトレーニングされると、多くの仮想エントロピーが示されることになります。

過剰トレーニングによるエントロピー危機は、LeCun がエントロピー SGD に関する論文で述べたように、仮想エントロピーから逸脱するにつれて高いピークとして現れます。そして、この現象は最近 RBM でも観察されています。

[1612.01.1717] バイナリシナプスを持つ制限付きボルツマンマシンの非監視特徴の統計力学

これらの漏斗状の構造は、タンパク質の折り畳みで観察できます。

では、ディープラーニングはなぜ機能するのでしょうか?

私は、カリフォルニア大学バークレー校で開催された 2016 年夏の MDDS ディスカッションでこれらの問題について議論しました (元の記事を読んでビデオを見るには、ここをクリックしてください)。

<<:  MITは、ニューラルネットワークトレーニングのブラックボックスを自動的に覗くネットワーク解剖フレームワークを提案

>>:  AESアルゴリズムを簡単に説明すると

ブログ    

推薦する

機械学習初心者必読: 6 つのシンプルで実用的なアルゴリズムと学習曲線

01 機械学習アルゴリズム1. 分類アルゴリズムこれは教師あり学習法です。 K 最近傍法、決定木、単...

Pytorch Lightning の 6 つのヒントを使用して、ディープラーニング パイプラインを 10 倍高速化します。

[[427508]]この記事はAI新メディアQuantum Bit(公開アカウントID:QbitA...

ジャック・マーとイーロン・マスクは「愛し合い、憎み合っている」:人間とテクノロジーの競争の勝者は誰か?

8月29日、国家発展改革委員会、科学技術部、工業情報化部、中国サイバースペース管理局、中国科学院、...

これらの10の機械学習手法をマスターすれば、あなたはサークルで最も人気のある人になるでしょう

科学研究でも産業界でも、機械学習はホットな話題であり、新しい機械学習手法が次々と登場しています。機械...

AI軍拡競争により、将来のAIハードウェアアーキテクチャの開発に3つの主要な方向性が生まれました。

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...

...

...

GPT-3の良き「パートナー」:この方法はモデルの劣化を軽減し、出力をより自然にします

テキスト生成は、多くの自然言語処理アプリケーションにとって重要です。しかし、ニューラル言語モデルの最...

ポストSORA時代において、CV実践者はどのようにモデルを選択するのでしょうか?畳み込みまたはViT、教師あり学習またはCLIPパラダイム

ImageNet の精度は常にモデルのパフォーマンスを評価するための主要な指標であり、ディープラーニ...

2大音声アシスタントであるAlexaとCortanaの融合の目的は何でしょうか?

[[201743]] BI中国語ウェブサイトが8月31日に報じた。水曜日、アマゾンとマイクロソフト...

CESの半導体大手:自動運転のオープンな競争と5Gの秘密の競争

[[255293]]明らかに、自動運転と5Gはチップビジネスそのものよりもはるかに魅力的です。 AI...

デジタル変革時代の産業用ロボット開発の5大トレンド

適応性は常に成功する組織の基礎となる原則です。過去 2 年間、世界は不確実性に直面してきましたが、こ...

PenFedは人工知能を活用して高度なパーソナライゼーションを実現

米国第2位の信用組合であるPenFedは、人工知能を活用して顧客とのやり取りの方法を変えようとしてい...

情報抽出における画期的な進歩! NLP は大規模に実装されようとしているのでしょうか?

AI におけるブレークスルーには、一般的に 3 つの種類があります。学術ランキングで上位を占め、学...

データ、AI、クラウドを活用してビル運営を変革する方法

CISO、CSO、およびそのチームは毎日、侵害を検出し、リスクを評価し、適切に対応するという課題に直...