ディープラーニングの最適化を理解するにはどうすればよいでしょうか?勾配降下法の軌跡を分析することで

ニューラルネットワークの最適化は本質的に非凸ですが、単純な勾配ベースの方法は常にこのような問題を解決しているように見えます。この現象はディープラーニングの中核となる柱の 1 つであり、私たち理論家の多くが解明しようとしているパズルです。この投稿では、この問題に取り組む最近の研究を要約し、Sanjeev Arora、Noah Golowich、Wei Hu と共同執筆した新しい論文 (arXiv:1810.02281) についても説明します。この論文では、線形速度で大域的最小値に収束することが保証されている深層線形ニューラルネットワーク上の勾配降下法のケースを研究します。

[[249965]]

景観アプローチとその限界

ディープラーニングの最適化に関する多くの論文では、損失ランドスケープの幾何学的特性（特に、勾配が消える臨界点における損失ランドスケープ）が確立されると、損失ランドスケープの厳密な理解が達成されると暗黙的に想定されています。例えば、凝縮系物理学の球状スピングラスモデルとの類推により、Choromanska ら 2015 の議論はディープラーニングの分野では推測となりました。

画像推測: ニューラルネットワークの最適化問題では、最適でない臨界点のヘッセ行列は負の固有値を持つ可能性が非常に高くなります。つまり、悪い局所最小値はほとんど存在せず、ほぼすべての鞍点は厳密です。

この予想の強い形式は、浅い（2 層）モデルを含む単純な問題に対するさまざまな損失ランドスケープに対して証明されています。これらの単純な問題には、行列センシング、行列補完、直交テンソル分解、位相回復、および二次活性化ニューラルネットワークが含まれます。また、画像予想が成り立つ場合に、勾配降下法をグローバル最小値に収束させる方法を研究している研究者もいます。Rong Ge、Ben Recht、Chi Jin、Michael Jordan のブログでは、わかりやすい説明がされています。

http://www.offconvex.org/2016/03/22/saddlepoints/
http://www.offconvex.org/2016/03/24/saddles-again/
http://www.offconvex.org/2016/03/24/saddles-again/

彼らは、すべての厳密な鞍点を回避することによって、勾配降下法がどのようにして 2 次局所最小値 (ヘッセ行列が半正定値となる臨界点) に到達するかを説明し、また、アルゴリズムに摂動が加えられた場合にこのプロセスがどのように効果的であるかについても説明します。これはランドスケープ予想の下にあることに注意してください。ランドスケープ予想とは、悪い局所最小値や厳密でない鞍点が存在しない場合に、2 次局所最小値もグローバル最小値になる可能性があるというものです。

しかし、画像法（および画像推測）をこのように深い（3 層以上）ネットワークに適用することはできないことは明らかです。理由はいくつかあります。 ***、深層ネットワークでは非厳密な鞍点（例えば、すべての重みがゼロになる点、Kawaguchi 2016 を参照）が導入されることが多い。第二に、グラフィカルな観点では、初期化の種類やバッチ正規化など、実際にはディープネットワークの収束に大きな影響を与えるアルゴリズムの側面がほとんど無視されます。 ***、前回の記事で述べたように、Sanjeev Arora と Elad Hazan の研究に基づくと、従来の線形モデルに (冗長な) 線形レイヤーを追加すると、モデルの表現力が向上することなく勾配ベースの最適化が高速化されることがあります。ただし、以前の凸問題に非凸性が導入されます。臨界点の特性のみに依存するグラフィカル分析では、この現象を説明することが困難です。これは、グローバル最小値である単一の臨界点を持つ凸目的関数を最適化することが最も難しいためです。

解決策は?

深層学習の最適化を分析する際のランドスケープアプローチの限界は、重要な詳細があまりにも多く破棄される可能性があることを示唆しています。「グラフアプローチはエレガントか?」という質問よりも、おそらくもっと適切な質問は、「特定の初期化からの特定のオプティマイザーの軌跡の動作は何か?」です。

軌道ベースのアプローチは景観アプローチよりもはるかに面倒に思えるかもしれませんが、かなりの進歩をもたらしました。最近の論文（例：Brutzkus and Globerson 2017、Li and Yuan 2017、Zhong et al. 2017、Tian 2017、Brutzkus et al. 2018、Li et al. 2018、Du et al. 2018、Liao et al. 2018）では、この戦略を採用し、さまざまな種類の浅いモデルを正常に分析しています。さらに、軌跡ベースの分析はグラフ手法を超えて拡張され始めており、線形ニューラルネットワークの場合、任意の深さで勾配降下法がグローバル最小値に収束することを成功裏に確立しました。

深層線形ニューラルネットワークの軌跡ベース解析

線形ニューラルネットワークは、線形アクティベーションを使用するか、またはアクティベーションをまったく使用しない、完全に接続されたニューラルネットワークです。具体的には、入力次元 d_0、出力次元 d_N、および非表示次元 d_1、d_2...d_{N-1} を持つ深さ N の線形ネットワークは、への線形マッピングであり、としてパラメーター化されます。ここで、は j 番目のレイヤーの重み行列です。この表現は単純で自明に見えますが、線形ニューラルネットワークを最適化するのは驚くほど複雑で、複数の最小値と鞍点を持つ非凸トレーニング問題につながります。深層学習における最適化の代替理論として、線形ニューラルネットワークへの勾配ベースのアルゴリズムの適用は、近年大きな注目を集めています。

私の知る限りでは、Saxe et al. 2014 は、白色化データに対して勾配フロー (学習率が非常に小さい勾配降下法) を実行して ℓ2 損失を最小限に抑え、深い (3 層以上) 線形ネットワークに対して軌跡ベースの分析を実行した最初の研究です。この分析は重要な貢献ではありますが、グローバル最小値への収束を正式に確立しておらず、計算の複雑さ（収束に必要な反復回数）の側面も考慮されていません。最近の研究では、Bartlett ら (2018) は、軌跡ベースの手法を適用して線形残差ネットワークの特定のケース、つまりすべての層の幅が均一 (d_0=d_1=...=d_N) で、同じように初期化されている (W_j=I, ∀j) 線形ネットワークの勾配降下法を解析することで、これらのギャップを埋める進歩を遂げました。異なるデータラベル分布（彼らはこれを「ターゲット」と呼んでいる）が与えられた場合、Bartlett らは、勾配降下法が線形速度で大域的最小値に収束することが証明できるケース（反復 ϵ 後に *** に関する損失が ϵ>0 未満になるケース）を示しています。また、収束に失敗するケースも示しています。

Sanjeev Arora、Noah Golowich、Wei Hu と共同執筆した新しい論文では、軌道ベースのアプローチを使用してこれをさらに一歩進めています。具体的には、「ボトルネック層」、つまり、隠れた次元が入力次元と出力次元の間の最小値以上である層を含まない線形ニューラルネットワークの勾配降下軌跡を分析します。また、線形速度でグローバル最小値に収束することを証明します。ただし、初期化では次の 2 つの条件を満たす必要があります: (1) 近似バランス - (2) 不足マージン - 初期損失は、ランク不足のソリューションの損失よりも小さくなります。両方の条件が必要であり、どちらかの条件に違反すると軌道が収束しなくなる可能性があることを示します。線形残差ネットワークの特殊なケースでは、初期化時の近似バランスを満たすのは簡単で、ゼロを中心とした小さなランダムな摂動で初期化するカスタム設定でも同様に簡単に満たすことができます。後者の場合も、正の確率で欠損値マージンが発生します。 d_N=1 (つまり、スカラー回帰) の場合、両方の条件を満たし、一定の確率で線形速度でグローバル最小値に収束するランダム初期化スキームを提供します。

私たちの分析の鍵は、重みがほぼバランスが取れるように初期化されている場合、勾配降下法の反復を通じてその状態が維持されることを確認することです。言い換えれば、最適化手法によって取られる軌道は、特別な特性に従います。

これは、タイムライン全体にわたって、すべてのレイヤーが（ほぼ）同じ特異値セットを持ち、各レイヤーの左の特異値ベクトルが次のレイヤーの右の特異値ベクトルと（ほぼ）一致することを意味します。この規則性は勾配降下法が安定して動作することを意味し、損失ランドスケープが全体的に複雑な場合（多くの非厳密な鞍点を含む）でも、オプティマイザが取る特定の軌道の周りで特に優れたパフォーマンスを発揮する可能性があることを示しています。

要約する

ランドスケープアプローチ、つまりトレーニングに使用されるアルゴリズムに依存しない目的の幾何学的特性を分析することによって、ディープラーニングの最適化問題に取り組むことは、概念的に魅力的です。しかし、この戦略には、目標全体がエレガントである必要があるという、過度に厳しい要件があるため、本質的な制限があります。別のアプローチとしては、オプティマイザーとその初期化を考慮し、結果として得られる軌道に沿ったランドスケープのみに焦点を当てるというものがあります。この代替アプローチはますます注目を集めています。ランドスケープ分析は現在、浅い (2 層) モデルに限定されていますが、軌道ベースの方法は最近、任意の深さのモデルに拡張され、勾配降下法が線形速度でグローバル最小値に収束できることが実証されています。しかし、この成功は線形ニューラルネットワークにのみ適用され、まだやるべき作業はたくさんあります。軌道ベースの方法は、深層非線形ネットワークの勾配ベースの最適化を正式に理解するための鍵にもなると予想しています。

オリジナルリンク: http://www.offconvex.org/2018/11/07/optimization-beyond-landscape/

[この記事は51CTOコラム「Machine Heart」、WeChatパブリックアカウント「Machine Heart（id:almosthuman2014）」によるオリジナル翻訳です]

この著者の他の記事を読むにはここをクリックしてください

<<: 百新銀行と百度クラウドAI+銀行金融技術シンクタンク会議が開催、オープンバンキングについて議論

>>: 画期的なニューラルネットワークが量子AI研究への道を開く可能性