魅力的な勾配フリーニューラルネットワーク最適化手法

魅力的な勾配フリーニューラルネットワーク最適化手法

[[336078]]

勾配降下法は、機械学習における最も重要なアイデアの 1 つです。最小化すべきコスト関数が与えられると、アルゴリズムは最大降下勾配のステップを反復的に実行し、理論的には十分な回数の反復後に最小値に到達します。勾配降下法は、1847 年にコーシーによって最初に発見され、1944 年にハスケル・カリーによって非線形最適化問題向けに拡張されて以来、線形回帰からディープ ニューラル ネットワークに至るまで、さまざまなアルゴリズムで使用されてきました。

勾配降下法とバックプロパゲーションの形でのその再利用は機械学習における最大のブレークスルーの 1 つですが、ニューラル ネットワークの最適化は未解決の問題のままです。インターネット上では多くの人が「勾配降下法はダメだ」と断言していますが、それは少し的外れかもしれませんが、勾配降下法には確かに多くの問題があります。

オプティマイザーは十分に深い局所的最小値で行き詰まってしまいました。確かに、最適化プログラムが大きな丘の上を歩けるようにするモメンタムなど、これらの問題を解決できる巧妙な解決策が時々あります。確率的勾配降下法、またはエラー空間を平滑化するバッチ正規化。しかし、局所最小値はニューラル ネットワークにおける多くの分岐問題の根本的な原因のままです。

オプティマイザは局所的最小値に関心があるため、たとえそれができたとしてもそこから抜け出すには長い時間がかかります。勾配降下法は、大規模なデータセットに適応した場合でも、収束が遅いため面倒な方法になることがよくあります (例: バッチ勾配降下法)。

勾配降下法は、オプティマイザーの初期化に特に敏感です。たとえば、オプティマイザーが最初の局所的最小値ではなく 2 番目の局所的最小値の近くで初期化された場合、パフォーマンスは大幅に向上する可能性がありますが、これはすべてランダムに決定されます。

学習率によって、オプティマイザーの信頼性とリスクが決まります。学習率を高く設定しすぎると、グローバル最小値に到達できない可能性があり、低く設定しすぎると、実行時間が停止する可能性があります。この問題を解決するには、学習率が反復とともに減少しますが、学習率を示す多くの変数の中から減少率を選択することは困難です。

勾配降下法では勾配が必要です。つまり、微分不可能な関数を処理できないだけでなく、勾配消失問題や勾配爆発問題などの勾配ベースの問題が発生しやすくなります。

もちろん、勾配降下法は広く研究されており、多くの解決策が提案されています。その中には、GD のバリエーションもあれば、ネットワーク アーキテクチャに基づいたものもあります。勾配降下法が過大評価されているからといって、それが現在利用可能な最善の解決策ではないということではありません。バッチ正規化を使用してエラー空間を平滑化したり、Adam や Adagrad などの洗練されたオプティマイザーを選択したりしても、通常はパフォーマンスが向上しますが、これらの一般的な知識はこの記事の焦点では​​ありません。

代わりに、この記事の目的は、標準的な勾配ベースの方法や、パフォーマンスを向上させる他の手法には適さない、あまり知られていないが決定論的に興味深い最適化手法に、当然の光を当てることです。ニューラル ネットワークは、状況によっては非常に優れたパフォーマンスを発揮しますが、他の状況ではパフォーマンスが低下します。特定のタスクでのパフォーマンスに関係なく、これらはすべて魅力的で創造的であり、機械学習の将来にとって有望な研究分野です。

粒子群最適化 PSO

粒子群最適化は、探索空間を探索して最小値を見つけようとする「粒子」のセットを定義する集団ベースの方法です。 PSO は、何らかの品質メトリックに関して候補ソリューションを反復的に改善します。多数の潜在的な解(「粒子」)を用意し、それらを単純な数学的ルール(粒子の位置や速度など)に従って移動させることで問題を解決します。各粒子の動きは、最適であるとみなされるローカル位置の影響を受けますが、検索位置(他の粒子によって発見された位置)の中で最適な既知の位置によっても引き付けられます。理論的には、グループは最善の解決策を見つけるために複数回の反復作業を実行します。


出典: ウィキ

PSO は興味深いアイデアです。ニューラル ネットワークよりも初期化の影響を受けにくく、特定の発見における粒子間の通信は、まばらな領域と広い領域の両方を検索する非常に効率的な方法であることが証明される可能性があります。

粒子群最適化は勾配ベースではないため (驚いたことに!)、最適化問題が微分可能である必要はありません。したがって、PSO を使用してニューラル ネットワークやその他のアルゴリズムを最適化すると、活性化関数の選択や他の関数間の同等の役割に対する自由度が高まり、影響が少なくなります。さらに、最適化問題についての仮定がほとんどなく、非常に大きな空間でも検索できます。

人口ベースの方法は勾配ベースの最適化方法よりも計算コストがはるかに高くなると考えられますが、必ずしもそうとは限りません。このアルゴリズムは、進化ベースのアルゴリズムが通常そうであるように、非常にオープンかつ非固定であるため、粒子の数、粒子の移動速度、グローバルに共有される情報の量などを制御することができます。ニューラル ネットワークの学習率を調整するのと同じです。

代理最適化は、別の確立された関数を使用して損失関数をモデル化し、最小値を見つけようとする最適化手法です。この手法では、損失関数から「データ ポイント」をサンプリングします。つまり、さまざまなパラメーター値 (x) を試し、損失関数の値 (y) を保存します。十分な数のデータ ポイントが収集された後、収集されたデータに代理関数 (この場合は 7 次多項式) が適合されます。

多項式の最小値を見つけることはよく研究されているトピックであり、導関数を使用して多項式のグローバル最小値を見つけるための非常に効率的な方法が多数あるため、代理関数のグローバル最小値は損失の関数と同じであると想定できます。

代理最適化は技術的には非反復的な方法ですが、代理関数のトレーニングは反復的であることが多いです。さらに、モデル化された関数のグローバル最小値を見つけるための効率的な数学的手法は、多くの場合、導関数に基づいていますが、技術的には勾配のない方法です。ただし、反復特性と勾配ベースの特性はどちらも代替最適化の「二次的」特性であるため、ビッグデータや微分不可能な最適化問題を処理できます。

プロキシ関数を使用した最適化機能は次のとおりです。

  • これは本質的に、真の損失関数の表面を滑らかにし、それによってニューラル ネットワークで余分なトレーニング時間を大幅に増加させるギザギザの局所最小値を削減します。
  • これは、難しい問題をはるかに簡単な問題に投影します。多項式、RBF、GP、MARS、またはその他の代替モデルのいずれであっても、グローバル最小値を見つけるタスクは、数学的知識の助けを借りて達成されます。
  • 代理モデルのオーバーフィッティングは大きな問題ではありません。かなりのオーバーフィッティングがあっても、代理関数は実際の損失関数よりもはるかに滑らかで、ギザギザが少ないからです。単純化された数学的傾向のモデルを構築する以外にも多くの標準的な考慮事項があるため、代替モデルのトレーニングははるかに簡単です。
  • 代替最適化は、次の丘がより深い最小値を持つかどうかについて常に危険な選択をしなければならない勾配降下法とは対照的に、「全体の関数」を見ているため、現在の位置によって制限されません。

代替最適化は、ほとんどの場合、勾配降下法よりも高速ですが、通常は精度が犠牲になります。プロキシ最適化を使用すると、グローバル最小値のおおよその位置を正確に特定することしかできないかもしれませんが、それでも非常に有益です。

もう 1 つのアプローチはハイブリッド モデルです。代替最適化は、ニューラル ネットワーク パラメータを、勾配降下法を使用して正確なグローバル最小値を見つけることができる大まかな位置にするために使用されます。もう 1 つのアプローチは、代理関数が a)「先見性」があり、b)損失関数の特定の変動の影響を受けないため、代理モデルを使用してオプティマイザーの決定を導くことです。

シミュレーテッドアニーリング

シミュレーテッドアニーリングは、冶金学的アニーリングの概念に基づいています。この概念では、材料を再結晶温度以上に加熱して硬度を下げ、その他の物理的特性や場合によっては化学的特性を変え、その後、材料を徐々に冷却して再び硬化させます。

シミュレーテッドアニーリングでは、緩やかな冷却の概念を使用して、ソリューション空間を探索しながら、不良ソリューションを受け入れる確率を徐々に減らします。より悪い解を受け入れると、グローバル最小値をより広範囲に探索できるようになるため (丘を越えて谷を深く進むことを考えてみてください)、シミュレーテッド アニーリングでは、最初の反復で幅広い可能性を適切に表現して探索できることが前提となります。時間の経過とともに、アルゴリズムは探索から活用へと移行します。

シミュレーテッド アニーリング アルゴリズムの動作の概要は次のとおりです。

  • 温度は最初は正の値に設定され、その後徐々にゼロに近づきます。
  • 各タイムステップで、アルゴリズムは現在のソリューションに近いソリューションをランダムに選択し、その品質を測定し、現在の温度 (より良いソリューションまたはより悪いソリューションを受け入れる可能性) に基づいてそのソリューションに移行します。
  • 理想的には、温度がゼロに達すると、アルゴリズムはグローバル最小値ソリューションに収束します。

シミュレーションは、運動方程式またはランダム サンプリング法のいずれかを使用して実行できます。シミュレーテッド アニーリングは、データ ポイントによって表される数百の場所間の最短距離を見つけようとする巡回セールスマン問題を解決するために使用されます。当然、組み合わせは無限にありますが、シミュレーテッドアニーリング(強化学習の効果と組み合わせる)は非常にうまく機能します。


巡回セールスマン問題に対するシミュレーテッドアニーリング法による解法。出典: ウィキ

シミュレーテッド アニーリングは、近似解を短時間で見つける必要がある状況で特に効果を発揮し、勾配降下法の遅い速度よりも優れています。代理最適化と同様に、勾配降下法と組み合わせて使用​​することで、シミュレーテッドアニーリングの速度と勾配降下法の精度の利点を享受できます。

これは、いくつかの非勾配法のサンプルです。パターン検索や多目的最適化など、調査が必要なアルゴリズムは他にも多数あります。私たち人間自身の遺伝的成功の証拠を考慮すると、粒子群最適化などの遺伝的および集団ベースのアルゴリズムは、真に「インテリジェント」なエージェントを作成するのに非常に有望です。

非勾配最適化手法は、その多くが創造性を活用し、勾配の数学的連鎖によって制約されないため、魅力的です。勾配ベースの最適化は多くの問題に対して非常にうまく機能するにもかかわらず、勾配フリーの方法が主流になるとは誰も予想していませんでした。しかし、勾配フリー法と勾配ベース法のパワーをハイブリッド オプティマイザーと組み合わせて使用​​すると、特に計算限界に達している時代には、非常に高い可能性が示されます。

<<:  データ駆動型パーソナライゼーションの時代: AI と ML がデータの読み取りと理解の方法をどのように変えているのか

>>:  データセンターは大量の電力を消費します。しかしAIはエネルギーを大量に消費する必要はない

ブログ    

推薦する

「ディープラーニングは学習ではない」:インテル幹部とAI大手ルカンが罵り合う

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

ChatGPT 1 周年、Altman が OpenAI に復帰!帰国の内幕を明かすイリヤの所在はまだ不明

ChatGPT の 1 周年に、OpenAI は公式発表を行いました: Sam Altman が O...

なぜ「ハイエンド」アルゴリズムエンジニアはデータ移民労働者になったのでしょうか?

まず、Zhihu の「アルゴリズム エンジニアになるのはどんな感じか」という質問に対する私の回答を共...

全国の大学の人工知能学科の一覧がここにあります!今年の大学入試の受験を検討していますか?

学生たちの運命を決める2018年度大学入試が始まりました。多くの受験生が理想的な結果を得られることを...

184.3億ドルを突破! 「中国スピード」が人工知能の分野で再び出現

AlfGOと韓国のプロ囲碁選手、イ・セドルの対局以来、人工知能は幅広い注目を集めているかもしれない。...

人工知能は、優秀な人材が良い就職機会を見つけるのにどのように役立つのでしょうか?

人工知能は、大企業が従業員を管理する方法に大きな影響を与えています。 [[360624]]世界経済は...

ディープラーニングを実践するための7つのステップ

私たちの仕事では、「ディープラーニングの学習はどこから始めればよいですか?」という質問をよく受けます...

...

テレンス・タオ:初心者はAIツールを使って専門家レベルのタスクを実行すべきではないし、GPTは専門家にとってあまり役に立たない

著名な数学者テレンス・タオ氏はここ数か月、ChatGPTなどの大規模モデルAIツールを使用して数学の...

AIを使って死後の意識を蘇らせることは信頼できるのか?デジタル不滅には経済計算が必要

十分なデータがあれば、愛する人が亡くなった後でも、その人の意識を生かし続けることができます。それは何...

Nature: MITの研究者が量子処理と量子通信を組み合わせた巨大原子を作製

量子コンピュータは常に神秘的で「ハイエンド」な存在でした。中国科学院の院士である潘建偉氏はかつて、次...

人工知能はディープラーニングへと移行しており、強力なコンピューティングパワーの構築は重要な指標となっている

報告によると、人工知能の最大の課題の 1 つは、認識率と精度が低いことです。精度を向上させるには、モ...

AIは信頼の危機にどう対処するか

今後 10 年間で AI が改善する必要がある領域が 1 つあります。それは透明性です。しかし、人工...

AIは自メディア記事の質を知っている。これがWeChatの自動評価アルゴリズムだ

セルフメディアの時代において、すべてのパブリックアカウントは、自分の記事をより多くの人に見てもらえる...

認知分析について知っておくべきことすべて

コンテキストを提供し、大量の情報に隠された答えを発見するために、コグニティブ コンピューティングはさ...