ニューラルネットワークモデルの構築に適した最適化アルゴリズムはどれですか? 35,000件の検査でわかる

この記事はAI新メディアQuantum Bit（公開アカウントID：QbitAI）より許可を得て転載しています。転載の際は出典元にご連絡ください。

ニューラルネットワークを最適化したいのですが、どのオプティマイザーが適しているかわかりませんか?

あるいは、ディープラーニングにおける勾配降下アルゴリズムとは何かを知りたいですか?

最適化アルゴリズムの最も包括的な分析がここにあります。

1964年以降のほぼすべての最適化手法（約130）を整理し、分類しています。

さらに、いくつかのベンチマーク方法を紹介し、それらを使用して1,344 の可能な構成を分析します。

35,000 回のテストを実行した後、オプティマイザーアルゴリズム分析について非常に包括的に紹介し、これらのベンチマークを使用してディープラーニングモデルに最適な最適化ソリューションを選択する方法を説明します。

具体的な最適化方法は何ですか?

下記の密集したチャートから判断すると、これまでに約 130 の最適化アルゴリズムが提案されています。

現時点では違いは分かりませんが、テスト結果を見ると、これらのオプティマイザーは、VAE (変分オートエンコーダー) に適したものと、VAE に適さないものの 2 つのカテゴリに明確に分けられることがわかります。

これらのオプティマイザの共通パラメータのうち、α0 は初期学習率、αlo と αup は上限と下限、∆t は減衰スタイルの切り替え期間、k は減衰係数を表します。

これらの学習率のパラメータは、主に定数、勾配降下法、平滑降下法、周期性、予熱、超収束法などに分けられることがわかります。

では、130 を超えるオプティマイザーの中で、最も適したものはどれでしょうか?これらのパラメータを調整すると、オプティマイザーにどの程度の影響がありますか?

ベンチマーク方法を使用してテストすればわかります。

8つのベンチマーク方法

下の図に示すように、著者は 8 つの最適化タスクを提案し、それらをテストして比較結果を得ました。

図から、データセット（MNIST、CIFAR-10など）、モデル（VAE、CNN、RNNなど）、タスク（分類、NLPなど）、基準（損失率、精度）がすべて異なっていることがわかります。

さらに、バッチサイズも考慮されます（実験マシンのパフォーマンスは良好のようです）。これらのテストを行う目的は、これらの最適化方法の合理性を多角的に検討することです。

テストは、下の図に示すプロセスに従って行われました。全体では、1,344 の構成と約 35,000 回の実行がありました。

どの最適化方法がより適切であるかを知ることも非常に困難です。

自分に合った最適化方法を選択するには？

では、適切な最適化方法をどのように選択すればよいのでしょうか?

下の図は、著者がランダムに選択した 14 個のオプティマイザーを示しています。

次の図は、上記の 8 つのベンチマークにおけるこれらのオプティマイザーのパフォーマンスを示しています。

このうち、赤い I は誤差範囲を表します。特定の誤差範囲内では、特定のクラスの最適化手法のパフォーマンスはほぼ同様であり、さまざまなベンチマークで良好なパフォーマンスを発揮することがわかります。

これらのテスト方法の安定性を検証するために、著者はいくつかのアルゴリズムのパラメータを意図的に調整しました。下の図は、古典的なアルゴリズムRMSPropとRMSProp（2）のチューニング結果を示しています。

異なるパラメータによって、最適化アルゴリズムのパフォーマンスに大きな変動が生じる可能性があることがわかります。

もっと直接的に言えば、（パフォーマンス）予算を増やすと、パフォーマンスの向上も増加することが下のグラフからわかります。（図中のオレンジ色はすべての灰色の線の中央値です）

つまり、最適化アルゴリズムのパフォーマンスが優れていても、合理的なパラメータ調整が不可欠であるということです。

では、「パラメータを改善することで最適化機能を大幅に向上できる」という問題を抱えている最適化担当者はどれくらいいるでしょうか?

かなりあります。

下の図では、緑色は最適化後に最適化アルゴリズムがより適切に実行されることを意味します。

つまり、最適化アルゴリズムの結果がすべて緑色の場合、元のデフォルトパラメータは非常に悪いということです...

たとえば、AMSGrad、Mom、NAG のデフォルトパラメーターには、改善の余地がまだたくさんあります。それに比べて、AMSBound は適応性が高く、デフォルトのパラメータも非常に優れているため、大幅な改善は必要ありません。

これらの最適化ツールを評価した結果、研究者は次のような結論に達しました。

1. オプティマイザーのパフォーマンスはタスクによって大きく異なります。
2. 実際、ほとんどのオプティマイザーのパフォーマンスは驚くほど似ており、現在のところ「最も普遍的な」最適化方法は存在しません。
3. オプティマイザー (パラメーター) を微調整することは、実際にはオプティマイザーを選択することと同じくらい、あるいはそれ以上に重要です。

しかし、この表はすでに非常に詳細であるにもかかわらず、注意深いネットユーザーの中には盲点を発見した人もいました。SWA のような非常に単純で効率的な方法が分析でまだ省略されていたのです。

もちろん、提案されたいくつかのベンチマークは、ほとんどのオプティマイザーの選択を分析するのにすでに適しています。

現在、著者はベンチマーク法のコードをArXiv論文ページでオープンソース化しています。興味のあるパートナーは論文アドレスを確認してください〜

著者について

著者は全員ドイツのテュービンゲン大学の出身です。

Robin M. Schmidt はコンピューターサイエンスの大学院生です。彼の主な研究分野は人工知能で、ディープラーニング、強化学習、最適化に興味を持っています。

フィリップ・ヘニング氏は、マックス・プランク研究所の機械学習教授であり、科学者です。ハイデルベルク大学とインペリアル・カレッジ・ロンドンで物理学を学び、ケンブリッジ大学で機械学習の博士号を取得しました。

Frank Schneider は機械学習の博士課程の学生で、機械学習の最適化手法に重点を置いています。現在、ディープラーニングのハイパーパラメータを研究し、ディープニューラルネットワークのトレーニングを自動化しています。

論文の宛先:

https://arxiv.org/abs/2007.01547

<<: ゲームに「顔認識」を追加したことで生まれた考え

>>: AIについて何も知らないのに、どうやってAIを開発すればいいのでしょうか？

Programiz: 多くの人がChatGPTを使ってプログラミングを学んでおり、Web開発分野はAIの影響を最も受けやすい

ブログ

ニューラルネットワークモデルの構築に適した最適化アルゴリズムはどれですか? 35,000件の検査でわかる

具体的な最適化方法は何ですか?

8つのベンチマーク方法

自分に合った最適化方法を選択するには？

著者について

Programiz: 多くの人がChatGPTを使ってプログラミングを学んでおり、Web開発分野はAIの影響を最も受けやすい

中国人工知能産業発展連盟メディアプロジェクトグループが設立され、51CTOは連盟の最初の専門メディアの1つになりました。

アダムとイブ: ディープラーニングの問題を解決するための強力なツール

ChatGPTはAmazonに「オンラインストアを開設」し、一夜にしてインターネットの有名人になった

MIT の新しい研究: ゼロから設計? AIにより誰もが服をデザインできるようになる

創造性がデジタル変革を推進する

有機構造の画像を分子構造に変換するトランスフォーマーベースの人工ニューラルネットワーク

推薦する

2019年にRedditの機械学習セクションで人気のプロジェクト17選：最新のコードとリソースがすべて利用可能

エージェントは初めて人間のような感覚を持ち、ハンバーガーを触って熱いか冷たいかを判断します。 UCLAなどが3Dマルチモーダルインタラクティブ具現化知能モデルをリリース

アルゴリズム推奨規制が実施されます。ユーザーはプラットフォームに「ノー」と言えるのでしょうか?

GPT-4は97回の対話で世界の諸問題を探り、P≠NPという結論を導き出した。

FudanNLPチームの最新の成果、RLHFと人間のアラインメントのためのMOSS-RLHFがここにあります

Transformerを廃止すれば、完全な畳み込みネットワークでもE2E検出を実現できる。

DeepMindの創設者はチューリングテストを覆したい！外国人男性がAIを使って90日間で3万ドルを稼いだ

Google、AIロボットが人間に危害を加えないことを保証する「ロボット憲法」を起草

Google、検索結果にAIベースの「要約」機能を追加

ジェネレーティブAIがソフトウェア配信を支援する方法

マイクロソフト、Nvidia が 5300 億の NLP モデル「Megatron-Turing」をリリース、価格は A100 で 4480 台

最初のライブ放送ではメリットが伝えられ、スマートハードウェアについての話を聞くことができます

機械学習研究開発プラットフォームの選択