ディープラーニングの最適化を理解するにはどうすればよいでしょうか?勾配降下法の軌跡を分析することで

ディープラーニングの最適化を理解するにはどうすればよいでしょうか?勾配降下法の軌跡を分析することで

ニューラル ネットワークの最適化は本質的に非凸ですが、単純な勾配ベースの方法は常にこのような問題を解決しているように見えます。この現象はディープラーニングの中核となる柱の 1 つであり、私たち理論家の多くが解明しようとしているパズルです。この投稿では、この問題に取り組む最近の研究を要約し、Sanjeev Arora、Noah Golowich、Wei Hu と共同執筆した新しい論文 (arXiv:1810.02281) についても説明します。この論文では、線形速度で大域的最小値に収束することが保証されている深層線形ニューラル ネットワーク上の勾配降下法のケースを研究します。

[[249965]]

景観アプローチとその限界

ディープラーニングの最適化に関する多くの論文では、損失ランドスケープの幾何学的特性(特に、勾配が消える臨界点における損失ランドスケープ)が確立されると、損失ランドスケープの厳密な理解が達成されると暗黙的に想定されています。例えば、凝縮系物理学の球状スピングラスモデルとの類推により、Choromanska ら 2015 の議論はディープラーニングの分野では推測となりました。

画像推測: ニューラル ネットワークの最適化問題では、最適でない臨界点のヘッセ行列は負の固有値を持つ可能性が非常に高くなります。つまり、悪い局所最小値はほとんど存在せず、ほぼすべての鞍点は厳密です。

この予想の強い形式は、浅い(2 層)モデルを含む単純な問題に対するさまざまな損失ランドスケープに対して証明されています。これらの単純な問題には、行列センシング、行列補完、直交テンソル分解、位相回復、および二次活性化ニューラル ネットワークが含まれます。また、画像予想が成り立つ場合に、勾配降下法をグローバル最小値に収束させる方法を研究している研究者もいます。Rong Ge、Ben Recht、Chi Jin、Michael Jordan のブログでは、わかりやすい説明がされています。

  • http://www.offconvex.org/2016/03/22/saddlepoints/
  • http://www.offconvex.org/2016/03/24/saddles-again/
  • http://www.offconvex.org/2016/03/24/saddles-again/

彼らは、すべての厳密な鞍点を回避することによって、勾配降下法がどのようにして 2 次局所最小値 (ヘッセ行列が半正定値となる臨界点) に到達するかを説明し、また、アルゴリズムに摂動が加えられた場合にこのプロセスがどのように効果的であるかについても説明します。これはランドスケープ予想の下にあることに注意してください。ランドスケープ予想とは、悪い局所最小値や厳密でない鞍点が存在しない場合に、2 次局所最小値もグローバル最小値になる可能性があるというものです。

しかし、画像法(および画像推測)をこのように深い(3 層以上)ネットワークに適用することはできないことは明らかです。理由はいくつかあります。 ***、深層ネットワークでは非厳密な鞍点(例えば、すべての重みがゼロになる点、Kawaguchi 2016 を参照)が導入されることが多い。第二に、グラフィカルな観点では、初期化の種類やバッチ正規化など、実際にはディープ ネットワークの収束に大きな影響を与えるアルゴリズムの側面がほとんど無視されます。 ***、前回の記事で述べたように、Sanjeev Arora と Elad Hazan の研究に基づくと、従来の線形モデルに (冗長な) 線形レイヤーを追加すると、モデルの表現力が向上することなく勾配ベースの最適化が高速化されることがあります。ただし、以前の凸問題に非凸性が導入されます。臨界点の特性のみに依存するグラフィカル分析では、この現象を説明することが困難です。これは、グローバル最小値である単一の臨界点を持つ凸目的関数を最適化することが最も難しいためです。

解決策は?

深層学習の最適化を分析する際のランドスケープ アプローチの限界は、重要な詳細があまりにも多く破棄される可能性があることを示唆しています。 「グラフ アプローチはエレガントか?」という質問よりも、おそらくもっと適切な質問は、「特定の初期化からの特定のオプティマイザーの軌跡の動作は何か?」です。

軌道ベースのアプローチは景観アプローチよりもはるかに面倒に思えるかもしれませんが、かなりの進歩をもたらしました。最近の論文(例:Brutzkus and Globerson 2017、Li and Yuan 2017、Zhong et al. 2017、Tian 2017、Brutzkus et al. 2018、Li et al. 2018、Du et al. 2018、Liao et al. 2018)では、この戦略を採用し、さまざまな種類の浅いモデルを正常に分析しています。さらに、軌跡ベースの分析はグラフ手法を超えて拡張され始めており、線形ニューラル ネットワークの場合、任意の深さで勾配降下法がグローバル最小値に収束することを成功裏に確立しました。

深層線形ニューラルネットワークの軌跡ベース解析

線形ニューラル ネットワークは、線形アクティベーションを使用するか、またはアクティベーションをまったく使用しない、完全に接続されたニューラル ネットワークです。具体的には、入力次元 d_0、出力次元 d_N、および非表示次元 d_1、d_2...d_{N-1} を持つ深さ N の線形ネットワークは、 への線形マッピングであり、 としてパラメーター化されます。ここで、 は j 番目のレイヤーの重み行列です。この表現は単純で自明に見えますが、線形ニューラル ネットワークを最適化するのは驚くほど複雑で、複数の最小値と鞍点を持つ非凸トレーニング問題につながります。深層学習における最適化の代替理論として、線形ニューラル ネットワークへの勾配ベースのアルゴリズムの適用は、近年大きな注目を集めています。

私の知る限りでは、Saxe et al. 2014 は、白色化データに対して勾配フロー (学習率が非常に小さい勾配降下法) を実行して ℓ2 損失を最小限に抑え、深い (3 層以上) 線形ネットワークに対して軌跡ベースの分析を実行した最初の研究です。この分析は重要な貢献ではありますが、グローバル最小値への収束を正式に確立しておらず、計算の複雑さ(収束に必要な反復回数)の側面も考慮されていません。最近の研究では、Bartlett ら (2018) は、軌跡ベースの手法を適用して線形残差ネットワークの特定のケース、つまりすべての層の幅が均一 (d_0=d_1=...=d_N) で、同じように初期化されている (W_j=I, ∀j) 線形ネットワークの勾配降下法を解析することで、これらのギャップを埋める進歩を遂げました。異なるデータラベル分布(彼らはこれを「ターゲット」と呼んでいる)が与えられた場合、Bartlett らは、勾配降下法が線形速度で大域的最小値に収束することが証明できるケース(反復 ϵ 後に *** に関する損失が ϵ>0 未満になるケース)を示しています。また、収束に失敗するケースも示しています。

Sanjeev Arora、Noah Golowich、Wei Hu と共同執筆した新しい論文では、軌道ベースのアプローチを使用してこれをさらに一歩進めています。具体的には、「ボトルネック層」、つまり、隠れた次元が入力次元と出力次元の間の最小値以上である層を含まない線形ニューラル ネットワークの勾配降下軌跡を分析します。また、線形速度でグローバル最小値に収束することを証明します。ただし、初期化では次の 2 つの条件を満たす必要があります: (1) 近似バランス - (2) 不足マージン - 初期損失は、ランク不足のソリューションの損失よりも小さくなります。両方の条件が必要であり、どちらかの条件に違反すると軌道が収束しなくなる可能性があることを示します。線形残差ネットワークの特殊なケースでは、初期化時の近似バランスを満たすのは簡単で、ゼロを中心とした小さなランダムな摂動で初期化するカスタム設定でも同様に簡単に満たすことができます。後者の場合も、正の確率で欠損値マージンが発生します。 d_N=1 (つまり、スカラー回帰) の場合、両方の条件を満たし、一定の確率で線形速度でグローバル最小値に収束するランダム初期化スキームを提供します。

私たちの分析の鍵は、重みがほぼバランスが取れるように初期化されている場合、勾配降下法の反復を通じてその状態が維持されることを確認することです。言い換えれば、最適化手法によって取られる軌道は、特別な特性に従います。

これは、タイムライン全体にわたって、すべてのレイヤーが(ほぼ)同じ特異値セットを持ち、各レイヤーの左の特異値ベクトルが次のレイヤーの右の特異値ベクトルと(ほぼ)一致することを意味します。この規則性は勾配降下法が安定して動作することを意味し、損失ランドスケープが全体的に複雑な場合(多くの非厳密な鞍点を含む)でも、オプティマイザが取る特定の軌道の周りで特に優れたパフォーマンスを発揮する可能性があることを示しています。

要約する

ランドスケープ アプローチ、つまりトレーニングに使用されるアルゴリズムに依存しない目的の幾何学的特性を分析することによって、ディープラーニングの最適化問題に取り組むことは、概念的に魅力的です。しかし、この戦略には、目標全体がエレガントである必要があるという、過度に厳しい要件があるため、本質的な制限があります。別のアプローチとしては、オプティマイザーとその初期化を考慮し、結果として得られる軌道に沿ったランドスケープのみに焦点を当てるというものがあります。この代替アプローチはますます注目を集めています。ランドスケープ分析は現在、浅い (2 層) モデルに限定されていますが、軌道ベースの方法は最近、任意の深さのモデルに拡張され、勾配降下法が線形速度でグローバル最小値に収束できることが実証されています。しかし、この成功は線形ニューラル ネットワークにのみ適用され、まだやるべき作業はたくさんあります。軌道ベースの方法は、深層非線形ネットワークの勾配ベースの最適化を正式に理解するための鍵にもなると予想しています。

オリジナルリンク: http://www.offconvex.org/2018/11/07/optimization-beyond-landscape/

[この記事は51CTOコラム「Machine Heart」、WeChatパブリックアカウント「Machine Heart(id:almosthuman2014)」によるオリジナル翻訳です]

この著者の他の記事を読むにはここをクリックしてください

<<:  百新銀行と百度クラウドAI+銀行金融技術シンクタンク会議が開催、オープンバンキングについて議論

>>:  画期的なニューラルネットワークが量子AI研究への道を開く可能性

ブログ    

推薦する

...

...

音声認識技術の開発と応用の概要

[[280529]] [51CTO.com クイック翻訳] コミュニケーションは私たちの生活において...

教育における人工知能の活用方法8つ

AI は教育テクノロジーの分野では以前から使われてきましたが、その導入は遅れています。しかし、COV...

解読: ボストン ダイナミクスがアルゴリズムを使用してアトラス ロボットの感覚世界を構築する方法

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...

人工知能の第三の冬が来るのか?

人工知能については人々の想像力は尽きることがなく、小説や映画でも長い間最もホットな話題となってきまし...

未来 | 人工知能が人間社会を変える24の方法

今こそ、AI の将来を本当に理解するときです。 AI を取り巻く不安は雇用の減少など多岐にわたります...

...

自動運転までどれくらい遠いのでしょうか?

[[412592]] 2021年、北京では初めて規制に従って無人配送車両の公道走行が許可された。写...

Baidu Brain CVサービスでは、100~1000元のクーポンを提供しています。

覚えていますか? 「小都」はかつて「The Brain」の舞台でエネルギー溢れる出場者たちと競い合い...

数百万の量子ビットを実現するにはどうすればよいでしょうか?量子コンピューティング企業がユニバーサル量子コンピューティングソリューションを拡大

光ファイバーを光子のメモリとして使用し、光子メモリを使用してフォールトトレラント量子コンピューティン...

人工知能(AI)はアパレル業界をどのように変えるのでしょうか?

衣服のデザインから将来のファッショントレンドの発見、パーソナルスタイリストになること、そして消費者の...

フォークス写真ツール:顔認識システムを密かに汚染

海外メディアの報道によると、インターネットには数十億枚の写真が溢れており、その多くは放置されたアカウ...

...

AIとセキュリティ:繋がる双子

人工知能とセキュリティは、非常に重要かつ興味深い2つの分野です。それぞれの空間について書かれた本はあ...