この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。 ニューラル ネットワークを最適化したいのですが、どのオプティマイザーが適しているかわかりませんか? あるいは、ディープラーニングにおける勾配降下アルゴリズムとは何かを知りたいですか? 最適化アルゴリズムの最も包括的な分析がここにあります。 1964年以降のほぼすべての最適化手法(約130)を整理し、分類しています。 さらに、いくつかのベンチマーク方法を紹介し、それらを使用して1,344 の可能な構成を分析します。 35,000 回のテストを実行した後、オプティマイザー アルゴリズム分析について非常に包括的に紹介し、これらのベンチマークを使用してディープラーニング モデルに最適な最適化ソリューションを選択する方法を説明します。 具体的な最適化方法は何ですか?下記の密集したチャートから判断すると、これまでに約 130 の最適化アルゴリズムが提案されています。 現時点では違いは分かりませんが、テスト結果を見ると、これらのオプティマイザーは、VAE (変分オートエンコーダー) に適したものと、VAE に適さないものの 2 つのカテゴリに明確に分けられることがわかります。 これらのオプティマイザの共通パラメータのうち、α0 は初期学習率、αlo と αup は上限と下限、∆t は減衰スタイルの切り替え期間、k は減衰係数を表します。 これらの学習率のパラメータは、主に定数、勾配降下法、平滑降下法、周期性、予熱、超収束法などに分けられることがわかります。 では、130 を超えるオプティマイザーの中で、最も適したものはどれでしょうか?これらのパラメータを調整すると、オプティマイザーにどの程度の影響がありますか? ベンチマーク方法を使用してテストすればわかります。 8つのベンチマーク方法下の図に示すように、著者は 8 つの最適化タスクを提案し、それらをテストして比較結果を得ました。 図から、データセット(MNIST、CIFAR-10など)、モデル(VAE、CNN、RNNなど)、タスク(分類、NLPなど)、基準(損失率、精度)がすべて異なっていることがわかります。 さらに、バッチサイズも考慮されます(実験マシンのパフォーマンスは良好のようです)。これらのテストを行う目的は、これらの最適化方法の合理性を多角的に検討することです。 テストは、下の図に示すプロセスに従って行われました。全体では、1,344 の構成と約 35,000 回の実行がありました。 どの最適化方法がより適切であるかを知ることも非常に困難です。 自分に合った最適化方法を選択するには?では、適切な最適化方法をどのように選択すればよいのでしょうか? 下の図は、著者がランダムに選択した 14 個のオプティマイザーを示しています。 次の図は、上記の 8 つのベンチマークにおけるこれらのオプティマイザーのパフォーマンスを示しています。 このうち、赤い I は誤差範囲を表します。特定の誤差範囲内では、特定のクラスの最適化手法のパフォーマンスはほぼ同様であり、さまざまなベンチマークで良好なパフォーマンスを発揮することがわかります。 これらのテスト方法の安定性を検証するために、著者はいくつかのアルゴリズムのパラメータを意図的に調整しました。下の図は、古典的なアルゴリズムRMSPropとRMSProp(2)のチューニング結果を示しています。 異なるパラメータによって、最適化アルゴリズムのパフォーマンスに大きな変動が生じる可能性があることがわかります。 もっと直接的に言えば、(パフォーマンス)予算を増やすと、パフォーマンスの向上も増加することが下のグラフからわかります。 (図中のオレンジ色はすべての灰色の線の中央値です) つまり、最適化アルゴリズムのパフォーマンスが優れていても、合理的なパラメータ調整が不可欠であるということです。 では、「パラメータを改善することで最適化機能を大幅に向上できる」という問題を抱えている最適化担当者はどれくらいいるでしょうか? かなりあります。 下の図では、緑色は最適化後に最適化アルゴリズムがより適切に実行されることを意味します。 つまり、最適化アルゴリズムの結果がすべて緑色の場合、元のデフォルト パラメータは非常に悪いということです... たとえば、AMSGrad、Mom、NAG のデフォルト パラメーターには、改善の余地がまだたくさんあります。それに比べて、AMSBound は適応性が高く、デフォルトのパラメータも非常に優れているため、大幅な改善は必要ありません。 これらの最適化ツールを評価した結果、研究者は次のような結論に達しました。
しかし、この表はすでに非常に詳細であるにもかかわらず、注意深いネットユーザーの中には盲点を発見した人もいました。SWA のような非常に単純で効率的な方法が分析でまだ省略されていたのです。 もちろん、提案されたいくつかのベンチマークは、ほとんどのオプティマイザーの選択を分析するのにすでに適しています。 現在、著者はベンチマーク法のコードをArXiv論文ページでオープンソース化しています。興味のあるパートナーは論文アドレスを確認してください〜 著者について著者は全員ドイツのテュービンゲン大学の出身です。 Robin M. Schmidt はコンピューターサイエンスの大学院生です。彼の主な研究分野は人工知能で、ディープラーニング、強化学習、最適化に興味を持っています。 フィリップ・ヘニング氏は、マックス・プランク研究所の機械学習教授であり、科学者です。ハイデルベルク大学とインペリアル・カレッジ・ロンドンで物理学を学び、ケンブリッジ大学で機械学習の博士号を取得しました。 Frank Schneider は機械学習の博士課程の学生で、機械学習の最適化手法に重点を置いています。現在、ディープラーニングのハイパーパラメータを研究し、ディープニューラルネットワークのトレーニングを自動化しています。 論文の宛先: https://arxiv.org/abs/2007.01547 |
>>: AIについて何も知らないのに、どうやってAIを開発すればいいのでしょうか?
7 月 12 日のニュース、Anthropic は最近、新しい Claude 2 言語モデルをリリー...
AIは面白い動画の何が面白いのかを理解できるようになりました。 AI の回答: このビデオが面白いの...
[51CTO.com クイック翻訳]現在の世界は、コンクリートやアスファルトでできた巨大な迷路のよう...
まずは大学院入試から始めましょう。大学院入試の重要性は大学入試の重要性に匹敵します。数字で言うと、2...
近年、国民の高品質・高水準の都市生活への絶え間ない追求に応えるため、スマートシティ建設が大きな注目を...
[[393303]] 2020年から2021年にかけて、ほぼすべてのビジネス分野の組織が多くの予期せ...
ヒューマノイドロボットの類似性は人間の好感度に比例するわけではありません。 1970年に日本のロボッ...
この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...
[[421597]]社会の生産性が急速に発展するにつれ、文学作品に描かれた未来の技術やより良い生活が...
最近、2022年のナスダック上位10社の研究開発費のグラフが突然人気を集めました。ご覧のとおり、Am...
メアリー・ブランスコム編纂者 | Yan Zheng生成型AIの寵児であるOpenAIは最近、混沌と...
モデルの壊滅的な忘却は現在重要なホットトピックとなっており、GPT-4 でもそれを回避することはでき...
Copilot のリリース 1 周年を記念して、一連のメジャー アップデートが予定されています。 ...