中国の学部生が新しいAIアルゴリズムを提案:その速度はAdamに匹敵し、パフォーマンスはSGDに匹敵する

中国の学部生が新しいAIアルゴリズムを提案:その速度はAdamに匹敵し、パフォーマンスはSGDに匹敵する

2 人のトップ学部生。1 人は北京大学、もう 1 人は浙江大学出身です。

インターンシップ中に、彼らは新しいAIアルゴリズムを開発しました。関連する論文は、人工知能に関する世界最大の会議であるICLR 2019に収録され、分野長から高い評価を受け、採択を全面的に推奨されました。

[[258352]]

この論文では、AdaBoundと呼ばれるニューラルネットワーク最適化アルゴリズムが発表されました。簡単に言うと、このアルゴリズムのトレーニング速度はAdamに匹敵し、そのパフォーマンスはSGDに匹敵します。

このアルゴリズムは CV および NLP の分野に適しており、さまざまな一般的なタスクを解決するためのディープラーニング モデルの開発に使用できます。さらに、AdaBound はハイパーパラメータにあまり敏感ではないため、パラメータ調整にかかる時間を大幅に節約できます。

2人の学部生が共同執筆したこの論文は、Redditでも多くの賞賛を受け、著者自身もこのフォーラムでオンラインQ&Aセッションを開催しました。

AdaBound はオープンソース化され、デモがリリースされました。

AdaBoundとは

AdaBound は SGD と Adam のアルゴリズムを組み合わせたものです。トレーニングの初期段階では Adam と同じくらい高速ですが、後期段階では SGD のように良好な収束性を発揮します。

SGD (確率的勾配降下法) アルゴリズムには長い歴史があります。ボールが丘を転がるように、パラメータを谷に落として最小値を取得します。

しかし、その最大の欠点は、下降速度が遅い(ステップ サイズが一定値である)ため、ガリーの両側で振動し続け、ローカル ピークに留まる可能性があることです。

Adam (Adaptive Moment Estimation) は、トレーニング速度を向上させるために作成されました。適応型最適化手法の AdaGrad や RMSProp と同様に、ボールをより急な斜面でより速い速度で降下させることにより、結果がより速く収束します。

Adam アルゴリズムは SGD よりも高速に実行されますが、結果が収束しない可能性があり、グローバル最適解が見つからない可能性があるという 2 つの大きな欠陥があります。つまり、一般化能力が低く、一部の問題を解決する際のパフォーマンスは SGD ほど良くありません。

これら 2 つの欠陥の原因は、不安定性と極端な学習率にあると考えられます。

AdaBound はこの問題をどのように解決するのでしょうか?

学習率の動的な境界を設定し、Adam から SGD への段階的かつスムーズな移行を可能にします。これにより、モデルは初期段階で Adam と同じ速さでトレーニングされ、後期段階では SGD と同じ安定した学習率を維持できます。

このアイデアは、2017 年に Salesforce の研究者によって考案されました。実験を通じて、アダムの後期段階の学習率が低すぎることが収束結果に影響を与えていることが分かりました。 Adam の学習率の下限を制御すれば、実験結果はさらに良くなります。

学習率の制御は勾配クリッピングに似ています。勾配爆発の問題を防ぐために、特定のしきい値を超える勾配をクリップすることができます。同様に、AdaBound を実現するために Adam 学習率を調整することもできます。

上記の式では、学習率は下限 η𝑙 と上限 η𝑢 の間に制約されます。 η𝑙 = η𝑢 = α の場合、SGD アルゴリズムです。η𝑙=0、η𝑢 =∞ の場合、Adam アルゴリズムです。

Adam から SGD へのスムーズな移行を実現するために、η𝑙 と η𝑢 を時間変動関数にします。η𝑙 は 0 から α に収束し、η𝑢 は ∞ から α に収束します。

この場合、AdaBound は Adam のように高速でトレーニングを開始し、学習率の制限が厳しくなるにつれて徐々に SGD に移行します。

AdaBound のもう 1 つの大きな利点は、ハイパーパラメータにあまり影響されないため、パラメータ調整にかかる時間を大幅に節約できることです。

実験結果

著者らはさまざまなモデルで実験を行い、トレーニング セットとテスト セットで Adam の学習曲線を業界で一般的な方法である SGD、AdaGrad、Adam、AMSGrad と比較しました。

上記の結果は、AdaBound がトレーニングにおいて SGD よりも確かに高速であることを証明しています。

LSTM の実験では、Adam の優れた一般化能力が実証されました。 Adam アルゴリズムは実験条件下では最適解に収束しませんでしたが、AdaBound アルゴリズムと SGD アルゴリズムは最適解に収束しました。

上記の図は、トレーニング速度の点で SGD に対する AdaBound アルゴリズムの利点を完全に反映しているわけではありませんが、AdaBound はハイパーパラメータの影響を受けないため、SGD に対するもう 1 つの大きな利点となっています。

ただし、AdaBound を使用すると、パラメータをまったく調整する必要がなくなるわけではありません。たとえば、上図の α=1 の場合、AdaBound のパフォーマンスは非常に低下するため、簡単な調整は必要です。

現在の実験結果のテスト範囲はまだ比較的狭いです。査読者は、CIFAR-100 などのより大きなデータセットを使用することで、この論文はより信頼性の高い結果を得ることができると考えています。

Reddit ユーザーも AdaBound の GAN でのパフォーマンスに興味を持っていますが、作者はコンピューティング リソースが限られており、より多くのモデルでテストしていないと述べています。オープンソース化されて、より多くの人がその有効性を検証できるようになることを願っています。

自分でやる

作者はPyTorchをベースにしたAdaBoundコードをGitHubで公開しています。

Python 3.6 以上が必要で、pip で直接インストールできます。

  1. pip インストール adabound

使用方法は他の Pytorch オプティマイザーと同じです。

  1. オプティマイザー = adabound.AdaBound(model.parameters(), lr=1e-3, final_lr=0.1)

作者はTensorFlowバージョンも近日中にリリースされると約束しているので、楽しみに待ちましょう。

学部

この研究の共著者は、優秀な学部生2人です。彼らはDidiでインターンシップをしながら、一緒にこの研究を完了しました。

羅良塵という人物は、北京大学地球宇宙科学学院の4年生です。

もう1人は熊元浩さんという名前で、浙江大学情報電子工学学院で学んでおり、今年も4年生です。

羅良塵

[[258355]]

この優秀な学生は今年4年生ですが、すでに人工知能に関するトップクラスの学術会議で第一著者として4本の論文が採択されており、そのうち1本はEMNLP 2018、2本はAAAI 2019、そして本日ご紹介するICLR 2019で発表されたものです。

北京師範大学付属実験高校を卒業し、全国青少年情報オリンピックで3年連続1位を獲得した。

2015 年から 2018 年まで、Android 開発エンジニアおよび北京大学 PKU Helper チームのリーダーを務めました。

2016 年の春、私はデータ構造とアルゴリズムのコースのティーチング アシスタントを務め、また研究室のクラスメートを率いて Tank Battle と呼ばれるターンベースのゲーム プラットフォームを開発しました。

2016 年 7 月から 2017 年 6 月まで、UniBike で技術開発担当副社長を務め、ソフトウェア開発を担当しました。

2017 年 7 月から 2018 年 5 月まで、Microsoft Research Asia でリサーチ アシスタントとしてインターンシップを行いました。この研究経験の中で、2 つの論文が出版され、AAAI に掲載されました。

私は2018年7月から現在までDidi社の人工知能研究所で研究助手として働いており、本記事で紹介した研究成果はその成果です。

現在、彼は北京大学の言語コンピューティングおよび機械学習グループでインターンシップを行っています。彼の指導教官は、この論文の著者の一人でもある研究者 Sun Xu です。

ション・ユアンハオ

[[258356]]

彼は現在、浙江大学情報電子工学学院で情報工学を専攻する4年生です。また、成績も優秀で、過去3年間の総合成績は学年1位です。

この ICLR 論文を発表する前に、彼は通信分野の権威あるジャーナルに第二著者として論文も発表しました。

さらに、この論文には南カリフォルニア大学の准教授であるヤン・リュー氏も著者として名を連ねている。

彼らの研究に興味がある方は、次のポータルをご覧ください。

紙:

学習率の動的境界を持つ適応勾配法

https://openreview.net/pdf?id=Bkg3g2R9FX

論文レビューページ:

https://openreview.net/forum?id=Bkg3g2R9FX

GitHub アドレス:

https://github.com/Luolc/AdaBound

Reddit ディスカッション アドレス:

https://www.reddit.com/r/MachineLearning/comments/auvj3q/r_adabound_an_optimizer_that_trains_as_fast_as/

<<:  この段階で注力すべき人工知能の6つの分野

>>:  機械学習と人工知能: 定義と重要性

ブログ    

推薦する

公共の安全を守るために都市に AI を導入するにはどうすればよいでしょうか?

[[347520]]今日私たちが直面している脅威の状況は絶えず変化しています。世界的に、法執行機関...

9つのディープラーニングアルゴリズムの紹介

1. 2段階アルゴリズム2 段階アルゴリズムには、候補ボックスの選択とターゲットの分類/位置の修正...

スタンフォード大学の研究によると、AIチャットボットChatGPTのパフォーマンスは非常に不安定であることが判明

9月7日、スタンフォード大学の新たな研究により、人気の生成型人工知能(AI)チャットボット「Chat...

敵対的 AI とは何ですか?なぜそれが重要なのでしょうか?

[[250514]] [51CTO.com クイック翻訳] 人工知能 (AI) は、政府、企業、国...

...

...

...

テレンス・タオが、60 年前のもう一つの幾何学の問題に取り組みます。周期的タイル分割問題における新たなブレークスルー

テレンス・タオ氏が研究してきた周期的モザイク化問題に新たな進歩がありました。 9月18日、Teren...

2019年の中国人工知能産業の競争環境の分析

近年、人工知能の技術と応用は成熟を続けており、人工知能市場の規模は徐々に拡大しています。中国情報通信...

OpenAI CEOがGPT-5の開発中であることを明らかに

11月14日、海外メディアの報道によると、OpenAIはGPT-5の構築を開始した。同社のCEOサム...

...

人工知能がヘルスケア業界にもたらす変化

AIヘルスケア企業のCEOが、医療におけるAIの応用、AIソリューションの購入方法、ヘルスケア分野に...

因果推論と正規化がリストに載っています。権威ある専門家が過去 50 年間で最も重要な統計的アイデアをレビューします。

統計は私たちの日常生活のいたるところに存在し、すべての人や物事は統計を使って説明できるようです。人類...

AIのボトルネックの突破口は物理的な人工知能にある

人間の生活様式はここ数十年で大きく変化し、リモートおよび自動化されたプロセスの必要性が浮き彫りになり...