5分でAdam最適化アルゴリズムを素早くマスター

5分でAdam最適化アルゴリズムを素早くマスター

[[389202]]

勾配降下法は、目的関数の負の勾配に従って関数の最小値を見つける最適化アルゴリズムです。

勾配降下法の制限は、すべての入力変数に対して単一のステップ サイズ (学習率) が使用されることです。 AdaGrad や RMSProp などの勾配降下法の拡張機能は、入力変数ごとに個別のステップ サイズを使用するようにアルゴリズムを更新しますが、ステップ サイズが非常に小さな値に急速に減少する可能性があります。適応型モーション推定アルゴリズム (Adam) は、勾配降下法の拡張であり、AdaGrad や RMSProp などの手法の自然な後継であり、目的関数の各入力変数の学習率を自動的に調整し、指数関数的に減少する勾配の移動平均を使用して変数を更新します。

このチュートリアルでは、Adam 最適化アルゴリズムを使用して勾配降下法をゼロから開発する方法を学びます。このチュートリアルを完了すると、次のことが分かります。

  • 勾配降下法は、目的関数の勾配を使用して検索空間を移動する最適化アルゴリズムです。
  • 勾配降下法は、Adam と呼ばれる偏導関数の減少平均を使用して、各入力変数に対して自動的に適応するステップ サイズを使用するように更新できます。
  • Adam 最適化アルゴリズムを最初から実装し、それを目的関数に適用して結果を評価する方法。

チュートリアルの概要

このチュートリアルは、次の 3 つの部分に分かれています。

  • 勾配降下法
  • Adam最適化アルゴリズム
  • アダム勾配降下法

2次元テスト問題

アダムの勾配降下法の最適化

アダムビジュアライゼーション

勾配降下法

勾配降下法は最適化アルゴリズムです。これは、ターゲット目的関数の 1 次導関数を明示的に利用することから、技術的には 1 次最適化アルゴリズムと呼ばれます。一次導関数、または単に「導関数」は、特定の点(たとえば、点)における目的関数の変化率または傾きです。具体的な入力の場合。目的関数が複数の入力変数を取る場合、それは多変量関数と呼ばれ、入力変数はベクトルとして考えることができます。逆に、多変量目的関数の導関数はベクトルとして表示することもでき、勾配と呼ばれることもあります。

勾配: 多変量目的関数の 1 次導関数。

特定の入力に対して、導関数または勾配は目的関数の最も急な上昇の方向を指します。

勾配降下法とは、目的関数の負の勾配に沿って下り、関数の最小値を見つける最小化最適化アルゴリズムを指します。勾配降下アルゴリズムでは、最適化される目的関数とその目的関数の微分関数が必要です。目的関数 f() は、指定された入力セットのスコアを返し、微分関数 f'() は、指定された入力セットの目的関数の微分を返します。勾配降下アルゴリズムでは、入力空間内でランダムに選択された点など、問題の開始点 (x) が必要です。

目的関数を最小化していると仮定し、導関数を計算して入力空間でステップを踏み、目的関数が下り坂に移動することになります。下り坂への移動は、まずステップ サイズ (アルファまたは学習率と呼ばれる) に傾斜を掛けて、入力空間内の移動量を計算することによって実行されます。この値は現在のポイントから減算され、目的関数の勾配に逆らって、つまり下向きに移動することを確認します。

x(t) = x(t-1) – ステップ*f'(x(t-1))

特定のポイントにおける目的関数の勾配が急であるほど、勾配の大きさが大きくなり、結果として、検索空間で実行されるステップが大きくなります。ステップ サイズ ハイパーパラメータを使用してステップ サイズをスケーリングします。

ステップ サイズ (アルファ): 各反復で勾配に対してアルゴリズムが検索空間内でどれだけ移動するかを制御するハイパーパラメータ。

ステップ サイズが小さすぎると、検索空間内の移動が小さくなり、検索に時間がかかります。ステップ サイズが大きすぎると、検索が検索空間内を飛び回り、最適解をスキップする可能性があります。

勾配降下法の最適化アルゴリズムについて理解できたので、次は Adam アルゴリズムを見てみましょう。

Adam最適化アルゴリズム

適応型モーション推定アルゴリズム (略して「Adam」) は、勾配降下法最適化アルゴリズムの拡張です。このアルゴリズムは、Diederik Kingma 氏と Jimmy Lei Ba 氏による 2014 年の論文「Adam: A Method for Stochastic Optimization」で説明されています。 Adam は、最適化プロセスを高速化すること (最適値に到達するために必要な関数評価の数を減らすなど)、または最適化アルゴリズムのパフォーマンスを向上させること (より良い最終結果を生成するなど) を目指しています。これは、最適化される各入力パラメータのステップ サイズを計算することによって実現されます。重要なのは、各ステップ サイズは、各変数で発生する勾配 (偏導関数) に基づいて、検索プロセスのスループットを自動的に調整することです。

アルゴリズムの各要素を見ていきましょう。まず、検索の一部として最適化される各パラメータについて、それぞれ m と v (実際にはギリシャ文字の nu) と呼ばれるモーメント ベクトルと指数的に重み付けされた無限大ノルムを維持する必要があります。検索開始時に 0.0 に初期化します。

0 = 0 です

0 = 0 です

アルゴリズムは t=1 から始まる時刻 t で反復実行され、各反復では新しいパラメータ値のセット x が計算されます (例)。 x(t-1)からx(t)まで。 1 つのパラメータの更新に焦点を当てると、ベクトル演算を介してすべてのパラメータを更新するというアルゴリズムを理解するのは簡単かもしれません。まず、現在のタイムステップでの勾配(偏微分)を計算します。

g(t) = f'(x(t-1))

次に、勾配とハイパーパラメータ beta1 を使用して第 1 モーメントが更新されます。

m(t) = beta1 * m(t-1) + (1 – beta1) * g(t)

次に、2 乗勾配とハイパーパラメータ beta2 を使用して 2 番目のモーメントが更新されます。

v(t) = beta2 * v(t-1) + (1 – beta2) * g(t)^2

1 次モーメントと 2 次モーメントはゼロ値で初期化されるため、バイアスがかかっています。次に、最初のモーメントを開始点として、最初のモーメントと 2 番目のモーメントの偏差が修正されます。

mhat(t) = m(t)/(1 – beta1(t))

そして2番目の瞬間:

vhat(t) = v(t)/(1 – beta2(t))

beta1(t) と beta2(t) は、アルゴリズムの反復中にスケジュールに従って減少する beta1 ハイパーパラメータと beta2 ハイパーパラメータを指すことに注意してください。静的減衰スケジュールを使用することもできますが、この論文では次のことを推奨しています。

ベータ1(t) = ベータ1^t

ベータ2(t) = ベータ2^t

最後に、この反復のパラメータの値を計算できます。

x(t) = x(t-1) – アルファ * mhat(t) / (sqrt(vhat(t)) + eps)

ここで、alpha はステップ サイズのハイパーパラメータ、eps はゼロ除算エラーが発生しないようにする 1e-8 などの小さな値 (イプシロン)、sqrt() は平方根関数です。

この記事に記載されている更新ルールをより効率的に並べ替えることができることに注意してください。

アルファ(t) = アルファ * sqrt(1 – ベータ2(t)) / (1 – ベータ1(t)) x(t) = x(t-1) – アルファ(t) * m(t) / (sqrt(v(t)) + eps)

要約すると、アルゴリズムには次の 3 つのハイパーパラメータがあります。

  • alpha: 初期ステップ サイズ (学習率)。一般的な値は 0.001 です。
  • beta1: 最初の運動量の減衰係数。標準値は 0.9 です。
  • beta2: 無限大ノルムの減衰係数。標準値は 0.999 です。

次に、このアルゴリズムを Python でゼロから実装する方法を見てみましょう。

アダム勾配降下法

このセクションでは、Adam を使用して勾配降下法最適化アルゴリズムを実装する方法について説明します。

2次元テスト問題

まず、最適化関数を定義しましょう。各次元の入力を二乗し、有効な入力の範囲 (-1.0 から 1.0) を定義する単純な 2 次元関数を使用します。

次の Objective() 関数はこの機能を実装します。

  1. # 目的関数 
  2. 定義目標(x, y):  
  3. x**2.0 + y**2.0を返す

応答面の曲率を理解するために、データ セットの 3 次元プロットを作成できます。目的関数をプロットする完全な例を以下に示します。

  1. # テスト関数の 3D プロット 
  2. numpyからarangeをインポート 
  3. numpyからmeshgridをインポート 
  4. matplotlibからpyplotをインポートする 
  5. # 目的関数 
  6. 定義目標(x, y):  
  7. x**2.0 + y**2.0を返す 
  8. # 入力範囲を定義する 
  9. r_min、 r_max = -1.0、1.0  
  10. # 入力範囲を 0.1 刻みで均一にサンプリングする 
  11. x軸=範囲(r_min, r_max, 0.1)  
  12. y軸=範囲(r_min, r_max, 0.1)  
  13. # 軸からメッシュを作成する 
  14. x, y =メッシュグリッド(x軸、y軸)  
  15. # 計算ターゲット
  16. 結果=目的(x, y)  
  17. # ジェットカラースキームで表面プロットを作成する 
  18. = pyplot.figure ()  
  19. =.gca(投影= '3d' )  
  20. axis.plot_surface(x, y, 結果, cmap = 'jet' )
  21. # プロットを表示 
  22. pyplot.show()

例を実行すると、目的関数の 3D サーフェス プロットが作成されます。 f(0, 0) = 0 でグローバル最小値を持つ、おなじみのボウル形状を見ることができます。

関数の 2 次元プロットを作成することもできます。これは、後で検索の進行状況をプロットするときに役立ちます。次の例では、目的関数の等高線図を作成します。

  1. # テスト関数の等高線図 
  2. NumPyからasarrayをインポート 
  3. numpyからarangeをインポート 
  4. numpyからmeshgridをインポート 
  5. matplotlibからpyplotをインポートする 
  6. # 目的関数 
  7. 定義目標(x, y):  
  8. x**2.0 + y**2.0を返す 
  9. # 入力範囲を定義する 
  10. 境界=配列([[-1.0, 1.0], [-1.0, 1.0]])  
  11. # 入力範囲を 0.1 刻みで均一にサンプリングする 
  12. x軸= arange (境界[0,0]、境界[0,1]、0.1)  
  13. y軸= arange (境界[1,0]、境界[1,1]、0.1)  
  14. # 軸からメッシュを作成する 
  15. x, y =メッシュグリッド(x軸、y軸)  
  16. # 計算ターゲット 
  17. 結果=目的(x, y)  
  18. # 50 レベルとジェット カラー スキームで塗りつぶされた等高線図を作成します 
  19. pyplot.contourf(x, y, 結果、レベル= 50 cmap = 'jet' )  
  20. # プロットを表示 
  21. pyplot.show()

例を実行すると、目的関数の 2D 等高線プロットが作成されます。ボウルの形状が、色のグラデーションで示されたアウトラインに圧縮されていることがわかります。このグラフを使用して、検索中に探索された特定のポイントをプロットします。

テスト目的関数ができたので、Adam 最適化アルゴリズムを実装する方法を見てみましょう。

Adam 勾配降下法の最適化

Adam を使用した勾配降下法をテスト問題に適用できます。まず、この関数の導関数を計算する関数が必要です。

(x)はx^2の倍数です。

f'(x) = x * 2

x^2 の導関数はどの次元でも x*2 です。 derived() 関数はこれを以下のように実装します。

  1. # 目的関数の導関数 
  2. 定義導関数(x, y):  
  3. 配列([x * 2.0, y * 2.0])を返す

次に、勾配降下法の最適化を実装します。まず、問題領域内のランダムなポイントを検索の開始点として選択できます。検索範囲を定義する配列があり、各次元に 1 行ずつあり、最初の列でその次元の最小値を定義し、2 番目の列でその次元の最大値を定義しているとします。

  1. # 初期点を生成する 
  2. x =境界[:, 0] + rand(len(境界)) * (境界[:, 1] - 境界[:, 0])  
  3. スコア=目標値(x[0], x[1])

次に、第 1 モーメントと第 2 モーメントをゼロに初期化する必要があります。

  1. # 第一モーメントと第二モーメントを初期化する 
  2. m = [0.0 _ の範囲内(bounds.shape[0])]  
  3. v = [0.0 _ の範囲内(bounds.shape[0])]

次に、「n_iter」ハイパーパラメータによって定義されたアルゴリズムの反復を固定回数実行します。

  1. ...  
  2. # 勾配降下法の反復を実行する 
  3. t が範囲(n_iter)内にある場合:  
  4. ...

最初のステップは、derivative() 関数を使用して現在のソリューションの勾配を計算することです。

  1. # 勾配を計算する 
  2. 勾配=導関数(解[0], 解[1])

最初のステップは、現在のパラメータ セットに関する導関数を計算することです。

  1. # 勾配 g(t) を計算する 
  2. g =導関数(x[0], x[1])

次に、Adam 更新計算を実行する必要があります。読みやすさを考慮して、命令型プログラミング スタイルを使用して、これらの計算を一度に 1 つの変数ごとに実行します。

実際には、効率を高めるために NumPy ベクトル演算を使用することをお勧めします。

  1. ...  
  2. # 一度に 1 つの変数でソリューションを構築します 
  3. iが範囲内(x.shape[0])の場合:  
  4. ...

まず、トルクを計算する必要があります。

  1. # m(t) = beta1 * m(t-1) + (1 - beta1) * g(t)  
  2. m[i] = beta1 * m[i] + (1.0 - beta1) * g[i]

そして二番目の瞬間がやってきました。

  1. # v(t) = beta2 * v(t-1) + (1 - beta2) * g(t)^2  
  2. v[i] = beta2 * v[i] + (1.0 - beta2) * g[i]**2

次に、第 1 モーメントと第 2 モーメントのオフセットが修正されます。

  1. # mhat(t) = m(t) / (1 - beta1(t))  
  2. m mhat = m[i] / (1.0 - beta1**(t+1))
  3. # vhat(t) = v(t) / (1 - beta2(t))  
  4. v vhat = v[i] / (1.0 - beta2**(t+1))

そして最後に、更新された変数値です。

  1. # x(t) = x(t-1) - アルファ * mhat(t) / (sqrt(vhat(t)) + eps)  
  2. x[i] = x[i] - アルファ * mhat / (sqrt(vhat) + eps)

次に、最適化するパラメータごとにこれを繰り返します。反復の最後に、新しいパラメータ値を評価し、検索のパフォーマンスを報告できます。

  1. # 候補ポイントを評価する 
  2. スコア=目標値(x[0], x[1])  
  3. # 進捗状況を報告する 
  4. print(' > %d f(%s) = %.5f' % (t, x, スコア))

これらすべてを、目的関数と導関数の名前とアルゴリズムのハイパーパラメータを受け取り、検索とその評価の最後に見つかった最適なソリューションを返す adam() という関数に組み合わせることができます。

完全な機能は以下に記載されています。

  1. # Adam による勾配降下アルゴリズム 
  2. def adam(目的関数、導関数、境界、n_iter、アルファ、ベータ1、ベータ2、 eps = 1e -8):  
  3. # 初期点を生成する 
  4. x =境界[:, 0] + rand(len(境界)) * (境界[:, 1] - 境界[:, 0])  
  5. スコア=目標値(x[0], x[1])  
  6. # 第一モーメントと第二モーメントを初期化する 
  7. m = [0.0 _ の範囲内(bounds.shape[0])]  
  8. v = [0.0 _ の範囲内(bounds.shape[0])]  
  9. # 勾配降下法の更新を実行する 
  10. t が範囲(n_iter)内にある場合:  
  11. # 勾配 g(t) を計算する 
  12. g =導関数(x[0], x[1])  
  13. # 一度に 1 つの変数でソリューションを構築します 
  14. iが範囲内(x.shape[0])の場合:  
  15. # m(t) = beta1 * m(t-1) + (1 - beta1) * g(t)  
  16. m[i] = beta1 * m[i] + (1.0 - beta1) * g[i]  
  17. # v(t) = beta2 * v(t-1) + (1 - beta2) * g(t)^2  
  18. v[i] = beta2 * v[i] + (1.0 - beta2) * g[i]**2  
  19. # mhat(t) = m(t) / (1 - beta1(t))  
  20. m mhat = m[i] / (1.0 - beta1**(t+1))  
  21. # vhat(t) = v(t) / (1 - beta2(t))  
  22. v vhat = v[i] / (1.0 - beta2**(t+1))  
  23. # x(t) = x(t-1) - アルファ * mhat(t) / (sqrt(vhat(t)) + eps)  
  24. x[i] = x[i] - アルファ * mhat / (sqrt(vhat) + eps)  
  25. # 候補ポイントを評価する 
  26. スコア=目標値(x[0], x[1])  
  27. # 進捗状況を報告する 
  28. print(' > %d f(%s) = %.5f' % (t, x, スコア))  
  29. [x, スコア]を返す

注: 読みやすさを考慮して、ベクトル化された操作ではなく、リストと命令型のコーディング スタイルを意図的に使用しています。パフォーマンスを向上させるために、NumPy 配列を使用してベクトル化された実装に自由に適応してください。

次に、ハイパーパラメータを定義し、adam() 関数を呼び出してテスト目的関数を最適化します。

この場合、初期ステップ サイズを 0.02、beta1 と beta2 の値をそれぞれ 0.8 と 0.999 にして、アルゴリズムを 60 回繰り返します。これらのハイパーパラメータ値は、試行錯誤の末に見つかりました。

  1. # 疑似乱数ジェネレータのシード 
  2. 種子(1)  
  3. # 入力範囲を定義する 
  4. 境界=配列([[-1.0, 1.0], [-1.0, 1.0]])  
  5. # 合計反復回数を定義する 
  6. 反復回数= 60  
  7. # ステップサイズ 
  8. アルファ= 0.02  
  9. # 平均勾配の係数 
  10. ベータ1 = 0.8  
  11. # 平均二乗勾配の係数 
  12. ベータ2 = 0.999  
  13. # Adamで勾配降下法検索を実行する 
  14. 最高、スコア= adam (目的、導関数、境界、n_iter、アルファ、ベータ1、ベータ2)  
  15. print('完了しました!')  
  16. print('f(%s) = %f' % (ベスト、スコア))

これらすべてをまとめると、Adam を使用した勾配降下法の最適化の完全な例が次のようになります。

  1. # 2次元テスト関数に対するアダムによる勾配降下法の最適化 
  2. 数学からインポートsqrt  
  3. NumPyからasarrayをインポート 
  4. numpy.randomからrandをインポート 
  5. numpy.randomからシードをインポート 
  6. # 目的関数 
  7. 定義目標(x, y):  
  8. x**2.0 + y**2.0を返す 
  9. # 目的関数の導関数 
  10. 定義導関数(x, y):  
  11. 配列([x * 2.0, y * 2.0])を返す 
  12. # Adam による勾配降下アルゴリズム 
  13. def adam(目的関数、導関数、境界、n_iter、アルファ、ベータ1、ベータ2、 eps = 1e -8):  
  14. # 初期点を生成する 
  15. x =境界[:, 0] + rand(len(境界)) * (境界[:, 1] - 境界[:, 0])  
  16. スコア=目標値(x[0], x[1])  
  17. # 第一モーメントと第二モーメントを初期化する 
  18. m = [0.0 _ の範囲内(bounds.shape[0])]  
  19. v = [0.0 _ の範囲内(bounds.shape[0])]  
  20. # 勾配降下法の更新を実行する 
  21. t が範囲(n_iter)内にある場合:  
  22. # 勾配 g(t) を計算する 
  23. g =導関数(x[0], x[1])  
  24. # 一度に 1 つの変数でソリューションを構築します 
  25. iが範囲内(x.shape[0])の場合:  
  26. # m(t) = beta1 * m(t-1) + (1 - beta1) * g(t)  
  27. m[i] = beta1 * m[i] + (1.0 - beta1) * g[i]  
  28. # v(t) = beta2 * v(t-1) + (1 - beta2) * g(t)^2  
  29. v[i] = beta2 * v[i] + (1.0 - beta2) * g[i]**2  
  30. # mhat(t) = m(t) / (1 - beta1(t))  
  31. m mhat = m[i] / (1.0 - beta1**(t+1))  
  32. # vhat(t) = v(t) / (1 - beta2(t))  
  33. v vhat = v[i] / (1.0 - beta2**(t+1))  
  34. # x(t) = x(t-1) - アルファ * mhat(t) / (sqrt(vhat(t)) + eps)  
  35. x[i] = x[i] - アルファ * mhat / (sqrt(vhat) + eps)  
  36. # 候補ポイントを評価する 
  37. スコア=目標値(x[0], x[1])  
  38. # 進捗状況を報告する 
  39. print(' > %d f(%s) = %.5f' % (t, x, スコア))
  40. [x, スコア]を返す 
  41. # 疑似乱数ジェネレータのシード 
  42. 種子(1)  
  43. # 入力範囲を定義する 
  44. 境界=配列([[-1.0, 1.0], [-1.0, 1.0]])  
  45. # 合計反復回数を定義する 
  46. 反復回数= 60    
  47. # ステップサイズ 
  48. アルファ= 0.02  
  49. # 平均勾配の係数 
  50. ベータ1 = 0.8  
  51. # 平均二乗勾配の係数 
  52. ベータ2 = 0.999  
  53. # Adamで勾配降下法検索を実行する 
  54. 最高、スコア= adam (目的、導関数、境界、n_iter、アルファ、ベータ1、ベータ2)  
  55. print('完了しました!')  
  56. print('f(%s) = %f' % (ベスト、スコア))

この例を実行すると、Adam 最適化アルゴリズムがテスト問題に適用され、アルゴリズムの各反復での検索パフォーマンスが報告されます。

注意: アルゴリズムや評価手順の確率的特性、または数値精度の違いにより、結果が異なる場合があります。例を複数回実行し、平均結果を比較することを検討してください。

この場合、入力値が 0.0 に近く、0.0 が 0.0 と評価され、53 回の反復検索後にほぼ最適なソリューションが見つかったことがわかります。

  1. > 50 f([-0.00056912 -0.00321961]) = 0.00001  
  2. > 51 f([-0.00052452 -0.00286514]) = 0.00001  
  3. > 52 f([-0.00043908 -0.00251304]) = 0.00001  
  4. > 53 f([-0.0003283 -0.00217044]) = 0.00000  
  5. > 54 f([-0.00020731 -0.00184302]) = 0.00000  
  6. > 55 f([-8.95352320e-05 -1.53​​514076e-03]) = 0.00000  
  7. > 56 f([ 1.43050285e-05 -1.25002847e-03]) = 0.00000  
  8. > 57 f([ 9.67123406e-05 -9.89850279e-04]) = 0.00000  
  9. > 58 f([ 0.00015359 -0.00075587]) = 0.00000  
  10. > 59 f([ 0.00018407 -0.00054858]) = 0.00000  
  11. 終わり!  
  12. ([ 0.00018407 -0.00054858])= 0.000000

アダムビジュアライゼーション

Adam 検索の進行状況をドメインの等高線図にプロットできます。これにより、アルゴリズムの反復中に検索の進行状況を直感的に理解できるようになります。検索中に見つかったすべてのソリューションのリストを維持し、検索の終了時にこのリストを返すように、adam() 関数を更新する必要があります。これらの変更を含む機能の更新バージョンを以下に示します。

  1. # Adam による勾配降下アルゴリズム 
  2. def adam(目的関数、導関数、境界、n_iter、アルファ、ベータ1、ベータ2、 eps = 1e -8):  
  3. ソリューション=リスト()  
  4. # 初期点を生成する 
  5. x =境界[:, 0] + rand(len(境界)) * (境界[:, 1] - 境界[:, 0])  
  6. スコア=目標値(x[0], x[1])  
  7. # 第一モーメントと第二モーメントを初期化する 
  8. m = [0.0 _ の範囲内(bounds.shape[0])]  
  9. v = [0.0 _ の範囲内(bounds.shape[0])]  
  10. # 勾配降下法の更新を実行する 
  11. t が範囲(n_iter)内にある場合:  
  12. # 勾配 g(t) を計算する 
  13. g =導関数(x[0], x[1])  
  14. # 一度に 1 つの変数でソリューションを構築します 
  15. iが範囲内(bounds.shape[0])の場合:  
  16. # m(t) = beta1 * m(t-1) + (1 - beta1) * g(t)  
  17. m[i] = beta1 * m[i] + (1.0 - beta1) * g[i]  
  18. # v(t) = beta2 * v(t-1) + (1 - beta2) * g(t)^2  
  19. v[i] = beta2 * v[i] + (1.0 - beta2) * g[i]**2  
  20. # mhat(t) = m(t) / (1 - beta1(t))  
  21. m mhat = m[i] / (1.0 - beta1**(t+1))  
  22. # vhat(t) = v(t) / (1 - beta2(t))  
  23. v vhat = v[i] / (1.0 - beta2**(t+1))  
  24. # x(t) = x(t-1) - アルファ * mhat(t) / (sqrt(vhat(t)) + ep)  
  25. x[i] = x[i] - アルファ * mhat / (sqrt(vhat) + eps)  
  26. # 候補ポイントを評価する 
  27. スコア=目標値(x[0], x[1])  
  28. # 解決策を追跡する 
  29. ソリューション.append(x.copy())
  30. # 進捗状況を報告する 
  31. print(' > %d f(%s) = %.5f' % (t, x, スコア))  
  32. リターンソリューション

その後、前と同じように検索を実行しますが、今回は最適な最終ソリューションではなくソリューションのリストを取得します。

  1. # 疑似乱数ジェネレータのシード 
  2. 種子(1)  
  3. # 入力範囲を定義する 
  4. 境界=配列([[-1.0, 1.0], [-1.0, 1.0]])  
  5. # 合計反復回数を定義する 
  6. 反復回数= 60    
  7. # ステップサイズ 
  8. アルファ= 0.02  
  9. # 平均勾配の係数 
  10. ベータ1 = 0.8  
  11. # 平均二乗勾配の係数 
  12. ベータ2 = 0.999  
  13. # Adamで勾配降下法検索を実行する 
  14. ソリューション= adam (目的関数、導関数、境界、n_iter、アルファ、ベータ1、ベータ2)

その後、前と同じように目的関数の等高線図を作成できます。

  1. # 入力範囲を 0.1 刻みで均一にサンプリングする 
  2. x軸= arange (境界[0,0]、境界[0,1]、0.1)  
  3. y軸= arange (境界[1,0]、境界[1,1]、0.1)  
  4. # 軸からメッシュを作成する 
  5. x, y =メッシュグリッド(x軸、y軸)  
  6. # 計算ターゲット 
  7. 結果=目的(x, y)  
  8. # 50 レベルとジェット カラー スキームで塗りつぶされた等高線図を作成します 
  9. pyplot.contourf(x, y, 結果、レベル= 50 cmap = 'jet' )

最後に、検索中に見つかった各ソリューションを、線で結ばれた白い点としてプロットできます。

  1. # サンプルを黒い円としてプロットする 
  2. ソリューション= asarray (ソリューション)  
  3. pyplot.plot(ソリューション[:, 0], ソリューション[:, 1], '.-',= 'w' )

これらすべてを念頭に置いて、テスト問題に対して Adam 最適化を実行し、その結果をシルエット プロットにプロットする完全な例を次に示します。

  1. # テスト関数の等高線図にアダム検索をプロットする例 
  2. 数学からインポートsqrt  
  3. NumPyからasarrayをインポート 
  4. numpyからarangeをインポート 
  5. numpy.randomからrandをインポート 
  6. numpy.randomからシードをインポート 
  7. numpyからmeshgridをインポート 
  8. matplotlibからpyplotをインポートする 
  9. mpl_toolkits.mplot3d から Axes3D をインポートします 
  10. # 目的関数 
  11. 定義目標(x, y):  
  12. x**2.0 + y**2.0を返す 
  13. # 目的関数の導関数 
  14. 定義導関数(x, y):  
  15. 配列([x * 2.0, y * 2.0])を返す 
  16. # Adam による勾配降下アルゴリズム 
  17. def adam(目的関数、導関数、境界、n_iter、アルファ、ベータ1、ベータ2、 eps = 1e -8):  
  18. ソリューション=リスト()  
  19. # 初期点を生成する 
  20. x =境界[:, 0] + rand(len(境界)) * (境界[:, 1] - 境界[:, 0])  
  21. スコア=目標値(x[0], x[1])  
  22. # 第一モーメントと第二モーメントを初期化する 
  23. m = [0.0 _ の範囲内(bounds.shape[0])]  
  24. v = [0.0 _ の範囲内(bounds.shape[0])]  
  25. # 勾配降下法の更新を実行する 
  26. t が範囲(n_iter)内にある場合:  
  27. # 勾配 g(t) を計算する 
  28. g =導関数(x[0], x[1])  
  29. # 一度に 1 つの変数でソリューションを構築します 
  30. iが範囲内(bounds.shape[0])の場合:  
  31. # m(t) = beta1 * m(t-1) + (1 - beta1) * g(t)  
  32. m[i] = beta1 * m[i] + (1.0 - beta1) * g[i]  
  33. # v(t) = beta2 * v(t-1) + (1 - beta2) * g(t)^2  
  34. v[i] = beta2 * v[i] + (1.0 - beta2) * g[i]**2  
  35. # mhat(t) = m(t) / (1 - beta1(t))  
  36. m mhat = m[i] / (1.0 - beta1**(t+1))  
  37. # vhat(t) = v(t) / (1 - beta2(t))  
  38. v vhat = v[i] / (1.0 - beta2**(t+1))  
  39. # x(t) = x(t-1) - アルファ * mhat(t) / (sqrt(vhat(t)) + ep)  
  40. x[i] = x[i] - アルファ * mhat / (sqrt(vhat) + eps)  
  41. # 候補ポイントを評価する 
  42. スコア=目標値(x[0], x[1])  
  43. # 解決策を追跡する 
  44. ソリューション.append(x.copy())  
  45. # 進捗状況を報告する 
  46. print(' > %d f(%s) = %.5f' % (t, x, スコア))  
  47. リターンソリューション
  48. # 疑似乱数ジェネレータのシード 
  49. 種子(1)  
  50. # 入力範囲を定義する 
  51. 境界=配列([[-1.0, 1.0], [-1.0, 1.0]])  
  52. # 合計反復回数を定義する 
  53. 反復回数= 60    
  54. # ステップサイズ 
  55. アルファ= 0.02  
  56. # 平均勾配の係数 
  57. ベータ1 = 0.8
  58. # 平均二乗勾配の係数 
  59. ベータ2 = 0.999  
  60. # Adamで勾配降下法検索を実行する 
  61. ソリューション= adam (目的関数、導関数、境界、n_iter、アルファ、ベータ1、ベータ2)  
  62. # 入力範囲を 0.1 刻みで均一にサンプリングする 
  63. x軸= arange (境界[0,0]、境界[0,1]、0.1)  
  64. y軸= arange (境界[1,0]、境界[1,1]、0.1)  
  65. # 軸からメッシュを作成する 
  66. x, y =メッシュグリッド(x軸、y軸)  
  67. # 計算ターゲット 
  68. 結果=目的(x, y)  
  69. # 50 レベルとジェット カラー スキームで塗りつぶされた等高線図を作成します 
  70. pyplot.contourf(x, y, 結果、レベル= 50 cmap = 'jet' )  
  71. # サンプルを黒い円としてプロットする 
  72. ソリューション= asarray (ソリューション)  
  73. pyplot.plot(ソリューション[:, 0], ソリューション[:, 1], '.-',= 'w' )  
  74. # プロットを表示 
  75. pyplot.show()

例を実行すると、前と同じように検索が実行されますが、この場合は目的関数の等高線プロットが作成されます。

この場合、検索中に見つかった各ソリューションは、最適なポイントから始まり、グラフの中央の最適なポイントに徐々に近づいていき、白い点で表示されていることがわかります。

<<:  自動運転、顔認識…人工知能の時代が到来。私たちはどう対応すべきか?

>>:  GPT-3オープンソースのPutianバージョン:事前学習済みモデルGPT Neoと同等の再現

ブログ    
ブログ    

推薦する

2022年、PyTorchはトップAIカンファレンスの80%を占める

2012 年にディープラーニングが再び注目されて以来、初期の学術フレームワークである Caffe ...

視覚的な手がかりに「マーカー」を追加することで、Microsoft と他の企業は GPT-4V をより正確かつ詳細にしました。

最近、大規模言語モデル (LLM) において大きな進歩が見られました。特に、Generative P...

JavaScript アルゴリズムを使用するための 6 つの実用的なヒント

[[208068]] 1. 2つの数値を入れ替える通常、2 つの数値の値を交換する方法としては、新し...

Nature の最新表紙: 2 つの主要な数学の問題が AI によって解決されました!ディープマインドYYDS

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

将来、仕事はロボットに置き換えられるのでしょうか?専門家:現段階ではまだ困難はあるものの、人工知能は人々をより自由にするだろう

3月23日(北京特派員 柯李)冬季オリンピックの水中聖火リレーを完走するロボットから、冬季パラリンピ...

すべてがUniSimに: 統合自動運転シミュレーションプラットフォーム

最近、トロント大学、MIT、Waabi AIの研究者らがCVPR 2023の論文で新しい自動運転シミ...

OpenAIのアルトマン氏、ニューヨークタイムズの訴訟に反応: AIはニュース出版社からのトレーニングデータを必要としない

ブルームバーグによると、1月17日、現地時間火曜日にダボスで行われた世界経済フォーラム年次総会で、O...

人工知能時代の未来の教育

未来は、私たちが行く場所であるだけでなく、私たちが創り出す場所でもあるので、単なる時間の概念ではあり...

TCP/IPトランスポート層におけるTCP BBRアルゴリズムについての簡単な説明

0x00. はじめにこれは、TCP/IP プロトコル スタック シリーズの 3 番目の記事です。前回...

...

あなたの写真を「秘密裏に」使用した顔認識システムはいくつありますか?ツールを使って確認する時が来た

テクノロジー企業が「個人のプライバシーを侵害する」顔認識システムを開発する際、彼らはあなたが予想して...

...

...

自己知能ネットワークに向けた大規模モデル技術の応用展望を探る

OpenAIは2022年11月に会話型大規模言語モデルChatGPTをリリースしました。これは、非常...

ニューヨーク州が顔認識を「禁止」する法律を制定。なぜキャンパス内で AI が頻繁に「失敗」するのか?

アメリカは顔認識技術と全面的に戦っている。米ニューヨーク州は最近、2022年まで学校での顔認識やその...