魅力的な勾配フリーニューラルネットワーク最適化手法

[[336078]]

勾配降下法は、機械学習における最も重要なアイデアの 1 つです。最小化すべきコスト関数が与えられると、アルゴリズムは最大降下勾配のステップを反復的に実行し、理論的には十分な回数の反復後に最小値に到達します。勾配降下法は、1847 年にコーシーによって最初に発見され、1944 年にハスケル・カリーによって非線形最適化問題向けに拡張されて以来、線形回帰からディープニューラルネットワークに至るまで、さまざまなアルゴリズムで使用されてきました。

勾配降下法とバックプロパゲーションの形でのその再利用は機械学習における最大のブレークスルーの 1 つですが、ニューラルネットワークの最適化は未解決の問題のままです。インターネット上では多くの人が「勾配降下法はダメだ」と断言していますが、それは少し的外れかもしれませんが、勾配降下法には確かに多くの問題があります。

オプティマイザーは十分に深い局所的最小値で行き詰まってしまいました。確かに、最適化プログラムが大きな丘の上を歩けるようにするモメンタムなど、これらの問題を解決できる巧妙な解決策が時々あります。確率的勾配降下法、またはエラー空間を平滑化するバッチ正規化。しかし、局所最小値はニューラルネットワークにおける多くの分岐問題の根本的な原因のままです。

オプティマイザは局所的最小値に関心があるため、たとえそれができたとしてもそこから抜け出すには長い時間がかかります。勾配降下法は、大規模なデータセットに適応した場合でも、収束が遅いため面倒な方法になることがよくあります (例: バッチ勾配降下法)。

勾配降下法は、オプティマイザーの初期化に特に敏感です。たとえば、オプティマイザーが最初の局所的最小値ではなく 2 番目の局所的最小値の近くで初期化された場合、パフォーマンスは大幅に向上する可能性がありますが、これはすべてランダムに決定されます。

学習率によって、オプティマイザーの信頼性とリスクが決まります。学習率を高く設定しすぎると、グローバル最小値に到達できない可能性があり、低く設定しすぎると、実行時間が停止する可能性があります。この問題を解決するには、学習率が反復とともに減少しますが、学習率を示す多くの変数の中から減少率を選択することは困難です。

勾配降下法では勾配が必要です。つまり、微分不可能な関数を処理できないだけでなく、勾配消失問題や勾配爆発問題などの勾配ベースの問題が発生しやすくなります。

もちろん、勾配降下法は広く研究されており、多くの解決策が提案されています。その中には、GD のバリエーションもあれば、ネットワークアーキテクチャに基づいたものもあります。勾配降下法が過大評価されているからといって、それが現在利用可能な最善の解決策ではないということではありません。バッチ正規化を使用してエラー空間を平滑化したり、Adam や Adagrad などの洗練されたオプティマイザーを選択したりしても、通常はパフォーマンスが向上しますが、これらの一般的な知識はこの記事の焦点ではありません。

代わりに、この記事の目的は、標準的な勾配ベースの方法や、パフォーマンスを向上させる他の手法には適さない、あまり知られていないが決定論的に興味深い最適化手法に、当然の光を当てることです。ニューラルネットワークは、状況によっては非常に優れたパフォーマンスを発揮しますが、他の状況ではパフォーマンスが低下します。特定のタスクでのパフォーマンスに関係なく、これらはすべて魅力的で創造的であり、機械学習の将来にとって有望な研究分野です。

粒子群最適化 PSO

粒子群最適化は、探索空間を探索して最小値を見つけようとする「粒子」のセットを定義する集団ベースの方法です。 PSO は、何らかの品質メトリックに関して候補ソリューションを反復的に改善します。多数の潜在的な解（「粒子」）を用意し、それらを単純な数学的ルール（粒子の位置や速度など）に従って移動させることで問題を解決します。各粒子の動きは、最適であるとみなされるローカル位置の影響を受けますが、検索位置（他の粒子によって発見された位置）の中で最適な既知の位置によっても引き付けられます。理論的には、グループは最善の解決策を見つけるために複数回の反復作業を実行します。

出典: ウィキ

PSO は興味深いアイデアです。ニューラルネットワークよりも初期化の影響を受けにくく、特定の発見における粒子間の通信は、まばらな領域と広い領域の両方を検索する非常に効率的な方法であることが証明される可能性があります。

粒子群最適化は勾配ベースではないため (驚いたことに!)、最適化問題が微分可能である必要はありません。したがって、PSO を使用してニューラルネットワークやその他のアルゴリズムを最適化すると、活性化関数の選択や他の関数間の同等の役割に対する自由度が高まり、影響が少なくなります。さらに、最適化問題についての仮定がほとんどなく、非常に大きな空間でも検索できます。

人口ベースの方法は勾配ベースの最適化方法よりも計算コストがはるかに高くなると考えられますが、必ずしもそうとは限りません。このアルゴリズムは、進化ベースのアルゴリズムが通常そうであるように、非常にオープンかつ非固定であるため、粒子の数、粒子の移動速度、グローバルに共有される情報の量などを制御することができます。ニューラルネットワークの学習率を調整するのと同じです。

代理最適化は、別の確立された関数を使用して損失関数をモデル化し、最小値を見つけようとする最適化手法です。この手法では、損失関数から「データポイント」をサンプリングします。つまり、さまざまなパラメーター値 (x) を試し、損失関数の値 (y) を保存します。十分な数のデータポイントが収集された後、収集されたデータに代理関数 (この場合は 7 次多項式) が適合されます。

多項式の最小値を見つけることはよく研究されているトピックであり、導関数を使用して多項式のグローバル最小値を見つけるための非常に効率的な方法が多数あるため、代理関数のグローバル最小値は損失の関数と同じであると想定できます。

代理最適化は技術的には非反復的な方法ですが、代理関数のトレーニングは反復的であることが多いです。さらに、モデル化された関数のグローバル最小値を見つけるための効率的な数学的手法は、多くの場合、導関数に基づいていますが、技術的には勾配のない方法です。ただし、反復特性と勾配ベースの特性はどちらも代替最適化の「二次的」特性であるため、ビッグデータや微分不可能な最適化問題を処理できます。

プロキシ関数を使用した最適化機能は次のとおりです。

これは本質的に、真の損失関数の表面を滑らかにし、それによってニューラルネットワークで余分なトレーニング時間を大幅に増加させるギザギザの局所最小値を削減します。
これは、難しい問題をはるかに簡単な問題に投影します。多項式、RBF、GP、MARS、またはその他の代替モデルのいずれであっても、グローバル最小値を見つけるタスクは、数学的知識の助けを借りて達成されます。
代理モデルのオーバーフィッティングは大きな問題ではありません。かなりのオーバーフィッティングがあっても、代理関数は実際の損失関数よりもはるかに滑らかで、ギザギザが少ないからです。単純化された数学的傾向のモデルを構築する以外にも多くの標準的な考慮事項があるため、代替モデルのトレーニングははるかに簡単です。
代替最適化は、次の丘がより深い最小値を持つかどうかについて常に危険な選択をしなければならない勾配降下法とは対照的に、「全体の関数」を見ているため、現在の位置によって制限されません。

代替最適化は、ほとんどの場合、勾配降下法よりも高速ですが、通常は精度が犠牲になります。プロキシ最適化を使用すると、グローバル最小値のおおよその位置を正確に特定することしかできないかもしれませんが、それでも非常に有益です。

もう 1 つのアプローチはハイブリッドモデルです。代替最適化は、ニューラルネットワークパラメータを、勾配降下法を使用して正確なグローバル最小値を見つけることができる大まかな位置にするために使用されます。もう 1 つのアプローチは、代理関数が a)「先見性」があり、b)損失関数の特定の変動の影響を受けないため、代理モデルを使用してオプティマイザーの決定を導くことです。

シミュレーテッドアニーリング

シミュレーテッドアニーリングは、冶金学的アニーリングの概念に基づいています。この概念では、材料を再結晶温度以上に加熱して硬度を下げ、その他の物理的特性や場合によっては化学的特性を変え、その後、材料を徐々に冷却して再び硬化させます。

シミュレーテッドアニーリングでは、緩やかな冷却の概念を使用して、ソリューション空間を探索しながら、不良ソリューションを受け入れる確率を徐々に減らします。より悪い解を受け入れると、グローバル最小値をより広範囲に探索できるようになるため (丘を越えて谷を深く進むことを考えてみてください)、シミュレーテッドアニーリングでは、最初の反復で幅広い可能性を適切に表現して探索できることが前提となります。時間の経過とともに、アルゴリズムは探索から活用へと移行します。

シミュレーテッドアニーリングアルゴリズムの動作の概要は次のとおりです。

温度は最初は正の値に設定され、その後徐々にゼロに近づきます。
各タイムステップで、アルゴリズムは現在のソリューションに近いソリューションをランダムに選択し、その品質を測定し、現在の温度 (より良いソリューションまたはより悪いソリューションを受け入れる可能性) に基づいてそのソリューションに移行します。
理想的には、温度がゼロに達すると、アルゴリズムはグローバル最小値ソリューションに収束します。

シミュレーションは、運動方程式またはランダムサンプリング法のいずれかを使用して実行できます。シミュレーテッドアニーリングは、データポイントによって表される数百の場所間の最短距離を見つけようとする巡回セールスマン問題を解決するために使用されます。当然、組み合わせは無限にありますが、シミュレーテッドアニーリング（強化学習の効果と組み合わせる）は非常にうまく機能します。

巡回セールスマン問題に対するシミュレーテッドアニーリング法による解法。出典: ウィキ

シミュレーテッドアニーリングは、近似解を短時間で見つける必要がある状況で特に効果を発揮し、勾配降下法の遅い速度よりも優れています。代理最適化と同様に、勾配降下法と組み合わせて使用することで、シミュレーテッドアニーリングの速度と勾配降下法の精度の利点を享受できます。

これは、いくつかの非勾配法のサンプルです。パターン検索や多目的最適化など、調査が必要なアルゴリズムは他にも多数あります。私たち人間自身の遺伝的成功の証拠を考慮すると、粒子群最適化などの遺伝的および集団ベースのアルゴリズムは、真に「インテリジェント」なエージェントを作成するのに非常に有望です。

非勾配最適化手法は、その多くが創造性を活用し、勾配の数学的連鎖によって制約されないため、魅力的です。勾配ベースの最適化は多くの問題に対して非常にうまく機能するにもかかわらず、勾配フリーの方法が主流になるとは誰も予想していませんでした。しかし、勾配フリー法と勾配ベース法のパワーをハイブリッドオプティマイザーと組み合わせて使用すると、特に計算限界に達している時代には、非常に高い可能性が示されます。

<<: データ駆動型パーソナライゼーションの時代: AI と ML がデータの読み取りと理解の方法をどのように変えているのか

>>: データセンターは大量の電力を消費します。しかしAIはエネルギーを大量に消費する必要はない

Ma Yi と Shen Xiangyang が協力して、最初の CPAL 賞を発表します。 16人がライジングスター賞を受賞、その半数は中国の学者

魅力的な勾配フリーニューラルネットワーク最適化手法

Ma Yi と Shen Xiangyang が協力して、最初の CPAL 賞を発表します。 16人がライジングスター賞を受賞、その半数は中国の学者

梅の花の山の上を歩くロボット犬？自転車は自分でバランスをとることができますか？テンセント・ロボティクスXラボ研究初の「開封」

年次指数レポートではAIが「産業化」しているが、より優れた指標とテストが必要とされている

アクセラレーションクラウドが新製品を発売、異種コンピューティングアクセラレーションプラットフォームがAIと高性能コンピューティングのビジネスニーズに効果的に対応

人工知能は衛星地図の鮮明度を向上させ、世界の再生可能エネルギープロジェクトや森林被覆率を示す

AIGC に向けてビジネスを準備するために CIO が尋ねるべき 8 つの質問

老黄の「ナイフスキル」が変わった！ Nvidiaの次世代RTX 50シリーズグラフィックカードの詳細がリーク、コードネームはBlackwell、AMDが王者に挑戦するにはまだ長い道のり

AIは金融犯罪者と戦う技術である

2021年のMLとNLPの学術統計：Googleが1位、強化学習の専門家Sergey Levineが1位に

推薦する

「ディープラーニングは学習ではない」：インテル幹部とAI大手ルカンが罵り合う

ChatGPT 1 周年、Altman が OpenAI に復帰!帰国の内幕を明かすイリヤの所在はまだ不明

なぜ「ハイエンド」アルゴリズムエンジニアはデータ移民労働者になったのでしょうか?

全国の大学の人工知能学科の一覧がここにあります!今年の大学入試の受験を検討していますか?

184.3億ドルを突破！「中国スピード」が人工知能の分野で再び出現

人工知能は、優秀な人材が良い就職機会を見つけるのにどのように役立つのでしょうか?

ディープラーニングを実践するための7つのステップ

テレンス・タオ：初心者はAIツールを使って専門家レベルのタスクを実行すべきではないし、GPTは専門家にとってあまり役に立たない

AIを使って死後の意識を蘇らせることは信頼できるのか？デジタル不滅には経済計算が必要

Nature: MITの研究者が量子処理と量子通信を組み合わせた巨大原子を作製

人工知能はディープラーニングへと移行しており、強力なコンピューティングパワーの構築は重要な指標となっている

AIは信頼の危機にどう対処するか

AIは自メディア記事の質を知っている。これがWeChatの自動評価アルゴリズムだ

認知分析について知っておくべきことすべて