勾配降下法は、機械学習における最も重要なアイデアの 1 つです。最小化すべきコスト関数が与えられると、アルゴリズムは最大降下勾配のステップを反復的に実行し、理論的には十分な回数の反復後に最小値に到達します。勾配降下法は、1847 年にコーシーによって最初に発見され、1944 年にハスケル・カリーによって非線形最適化問題向けに拡張されて以来、線形回帰からディープ ニューラル ネットワークに至るまで、さまざまなアルゴリズムで使用されてきました。 勾配降下法とバックプロパゲーションの形でのその再利用は機械学習における最大のブレークスルーの 1 つですが、ニューラル ネットワークの最適化は未解決の問題のままです。インターネット上では多くの人が「勾配降下法はダメだ」と断言していますが、それは少し的外れかもしれませんが、勾配降下法には確かに多くの問題があります。 オプティマイザーは十分に深い局所的最小値で行き詰まってしまいました。確かに、最適化プログラムが大きな丘の上を歩けるようにするモメンタムなど、これらの問題を解決できる巧妙な解決策が時々あります。確率的勾配降下法、またはエラー空間を平滑化するバッチ正規化。しかし、局所最小値はニューラル ネットワークにおける多くの分岐問題の根本的な原因のままです。 オプティマイザは局所的最小値に関心があるため、たとえそれができたとしてもそこから抜け出すには長い時間がかかります。勾配降下法は、大規模なデータセットに適応した場合でも、収束が遅いため面倒な方法になることがよくあります (例: バッチ勾配降下法)。 勾配降下法は、オプティマイザーの初期化に特に敏感です。たとえば、オプティマイザーが最初の局所的最小値ではなく 2 番目の局所的最小値の近くで初期化された場合、パフォーマンスは大幅に向上する可能性がありますが、これはすべてランダムに決定されます。 学習率によって、オプティマイザーの信頼性とリスクが決まります。学習率を高く設定しすぎると、グローバル最小値に到達できない可能性があり、低く設定しすぎると、実行時間が停止する可能性があります。この問題を解決するには、学習率が反復とともに減少しますが、学習率を示す多くの変数の中から減少率を選択することは困難です。 勾配降下法では勾配が必要です。つまり、微分不可能な関数を処理できないだけでなく、勾配消失問題や勾配爆発問題などの勾配ベースの問題が発生しやすくなります。 もちろん、勾配降下法は広く研究されており、多くの解決策が提案されています。その中には、GD のバリエーションもあれば、ネットワーク アーキテクチャに基づいたものもあります。勾配降下法が過大評価されているからといって、それが現在利用可能な最善の解決策ではないということではありません。バッチ正規化を使用してエラー空間を平滑化したり、Adam や Adagrad などの洗練されたオプティマイザーを選択したりしても、通常はパフォーマンスが向上しますが、これらの一般的な知識はこの記事の焦点ではありません。 代わりに、この記事の目的は、標準的な勾配ベースの方法や、パフォーマンスを向上させる他の手法には適さない、あまり知られていないが決定論的に興味深い最適化手法に、当然の光を当てることです。ニューラル ネットワークは、状況によっては非常に優れたパフォーマンスを発揮しますが、他の状況ではパフォーマンスが低下します。特定のタスクでのパフォーマンスに関係なく、これらはすべて魅力的で創造的であり、機械学習の将来にとって有望な研究分野です。 粒子群最適化 PSO 粒子群最適化は、探索空間を探索して最小値を見つけようとする「粒子」のセットを定義する集団ベースの方法です。 PSO は、何らかの品質メトリックに関して候補ソリューションを反復的に改善します。多数の潜在的な解(「粒子」)を用意し、それらを単純な数学的ルール(粒子の位置や速度など)に従って移動させることで問題を解決します。各粒子の動きは、最適であるとみなされるローカル位置の影響を受けますが、検索位置(他の粒子によって発見された位置)の中で最適な既知の位置によっても引き付けられます。理論的には、グループは最善の解決策を見つけるために複数回の反復作業を実行します。 出典: ウィキ PSO は興味深いアイデアです。ニューラル ネットワークよりも初期化の影響を受けにくく、特定の発見における粒子間の通信は、まばらな領域と広い領域の両方を検索する非常に効率的な方法であることが証明される可能性があります。 粒子群最適化は勾配ベースではないため (驚いたことに!)、最適化問題が微分可能である必要はありません。したがって、PSO を使用してニューラル ネットワークやその他のアルゴリズムを最適化すると、活性化関数の選択や他の関数間の同等の役割に対する自由度が高まり、影響が少なくなります。さらに、最適化問題についての仮定がほとんどなく、非常に大きな空間でも検索できます。 人口ベースの方法は勾配ベースの最適化方法よりも計算コストがはるかに高くなると考えられますが、必ずしもそうとは限りません。このアルゴリズムは、進化ベースのアルゴリズムが通常そうであるように、非常にオープンかつ非固定であるため、粒子の数、粒子の移動速度、グローバルに共有される情報の量などを制御することができます。ニューラル ネットワークの学習率を調整するのと同じです。 代理最適化は、別の確立された関数を使用して損失関数をモデル化し、最小値を見つけようとする最適化手法です。この手法では、損失関数から「データ ポイント」をサンプリングします。つまり、さまざまなパラメーター値 (x) を試し、損失関数の値 (y) を保存します。十分な数のデータ ポイントが収集された後、収集されたデータに代理関数 (この場合は 7 次多項式) が適合されます。 多項式の最小値を見つけることはよく研究されているトピックであり、導関数を使用して多項式のグローバル最小値を見つけるための非常に効率的な方法が多数あるため、代理関数のグローバル最小値は損失の関数と同じであると想定できます。 代理最適化は技術的には非反復的な方法ですが、代理関数のトレーニングは反復的であることが多いです。さらに、モデル化された関数のグローバル最小値を見つけるための効率的な数学的手法は、多くの場合、導関数に基づいていますが、技術的には勾配のない方法です。ただし、反復特性と勾配ベースの特性はどちらも代替最適化の「二次的」特性であるため、ビッグデータや微分不可能な最適化問題を処理できます。 プロキシ関数を使用した最適化機能は次のとおりです。
代替最適化は、ほとんどの場合、勾配降下法よりも高速ですが、通常は精度が犠牲になります。プロキシ最適化を使用すると、グローバル最小値のおおよその位置を正確に特定することしかできないかもしれませんが、それでも非常に有益です。 もう 1 つのアプローチはハイブリッド モデルです。代替最適化は、ニューラル ネットワーク パラメータを、勾配降下法を使用して正確なグローバル最小値を見つけることができる大まかな位置にするために使用されます。もう 1 つのアプローチは、代理関数が a)「先見性」があり、b)損失関数の特定の変動の影響を受けないため、代理モデルを使用してオプティマイザーの決定を導くことです。 シミュレーテッドアニーリング シミュレーテッドアニーリングは、冶金学的アニーリングの概念に基づいています。この概念では、材料を再結晶温度以上に加熱して硬度を下げ、その他の物理的特性や場合によっては化学的特性を変え、その後、材料を徐々に冷却して再び硬化させます。 シミュレーテッドアニーリングでは、緩やかな冷却の概念を使用して、ソリューション空間を探索しながら、不良ソリューションを受け入れる確率を徐々に減らします。より悪い解を受け入れると、グローバル最小値をより広範囲に探索できるようになるため (丘を越えて谷を深く進むことを考えてみてください)、シミュレーテッド アニーリングでは、最初の反復で幅広い可能性を適切に表現して探索できることが前提となります。時間の経過とともに、アルゴリズムは探索から活用へと移行します。 シミュレーテッド アニーリング アルゴリズムの動作の概要は次のとおりです。
シミュレーションは、運動方程式またはランダム サンプリング法のいずれかを使用して実行できます。シミュレーテッド アニーリングは、データ ポイントによって表される数百の場所間の最短距離を見つけようとする巡回セールスマン問題を解決するために使用されます。当然、組み合わせは無限にありますが、シミュレーテッドアニーリング(強化学習の効果と組み合わせる)は非常にうまく機能します。 巡回セールスマン問題に対するシミュレーテッドアニーリング法による解法。出典: ウィキ シミュレーテッド アニーリングは、近似解を短時間で見つける必要がある状況で特に効果を発揮し、勾配降下法の遅い速度よりも優れています。代理最適化と同様に、勾配降下法と組み合わせて使用することで、シミュレーテッドアニーリングの速度と勾配降下法の精度の利点を享受できます。 これは、いくつかの非勾配法のサンプルです。パターン検索や多目的最適化など、調査が必要なアルゴリズムは他にも多数あります。私たち人間自身の遺伝的成功の証拠を考慮すると、粒子群最適化などの遺伝的および集団ベースのアルゴリズムは、真に「インテリジェント」なエージェントを作成するのに非常に有望です。 非勾配最適化手法は、その多くが創造性を活用し、勾配の数学的連鎖によって制約されないため、魅力的です。勾配ベースの最適化は多くの問題に対して非常にうまく機能するにもかかわらず、勾配フリーの方法が主流になるとは誰も予想していませんでした。しかし、勾配フリー法と勾配ベース法のパワーをハイブリッド オプティマイザーと組み合わせて使用すると、特に計算限界に達している時代には、非常に高い可能性が示されます。 |
<<: データ駆動型パーソナライゼーションの時代: AI と ML がデータの読み取りと理解の方法をどのように変えているのか
>>: データセンターは大量の電力を消費します。しかしAIはエネルギーを大量に消費する必要はない
清華大学は、世界初の異種融合脳型コンピューティングチップ「天機チップ」を開発しました。このチップで駆...
[[425806]]多様なアクセラレータ セットでトレーニングされた大規模で複雑なニューラル ネット...
クラウドネイティブ アーキテクチャを使用することで、企業はアプリケーションの開発時間を短縮し、低コス...
[[316164]]天才イーロン・マスクについて語るとき、多くの人はまずテスラを思い浮かべるでしょう...
企業の世界における人工知能の利点は何でしょうか?企業分野における AI の主な利点の 1 つは、プロ...
翻訳者 | 張毅校正 | 梁哲、孫淑娟出典: frimufilms が作成したビジネス写真 - ww...
[[197493]]この記事の主な内容は機械学習と神経科学を組み合わせたものであり、読者にはこれら...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
数日前、GPT を使用して LeetCode の問題を練習し、アルゴリズムを学び、アイデアを刺激し、...
[[420376]] AI 技術を採用することで、包括的なセキュリティの基盤としてシステムにインテ...
GMIリサーチの最新分析によると、人工知能市場は2019年から2026年の予測期間中に年平均成長率(...
人工知能は、過去 10 年間にわたって年間を通じて最もホットな話題の 1 つとなっています。そして、...
[[325184]]この記事はLeiphone.comから転載したものです。転載する場合は、Leip...