中国の学部生が新しいAIアルゴリズムを提案：その速度はAdamに匹敵し、パフォーマンスはSGDに匹敵する

2 人のトップ学部生。1 人は北京大学、もう 1 人は浙江大学出身です。

インターンシップ中に、彼らは新しいAIアルゴリズムを開発しました。関連する論文は、人工知能に関する世界最大の会議であるICLR 2019に収録され、分野長から高い評価を受け、採択を全面的に推奨されました。

[[258352]]

この論文では、AdaBoundと呼ばれるニューラルネットワーク最適化アルゴリズムが発表されました。簡単に言うと、このアルゴリズムのトレーニング速度はAdamに匹敵し、そのパフォーマンスはSGDに匹敵します。

このアルゴリズムは CV および NLP の分野に適しており、さまざまな一般的なタスクを解決するためのディープラーニングモデルの開発に使用できます。さらに、AdaBound はハイパーパラメータにあまり敏感ではないため、パラメータ調整にかかる時間を大幅に節約できます。

2人の学部生が共同執筆したこの論文は、Redditでも多くの賞賛を受け、著者自身もこのフォーラムでオンラインQ&Aセッションを開催しました。

AdaBound はオープンソース化され、デモがリリースされました。

AdaBoundとは

AdaBound は SGD と Adam のアルゴリズムを組み合わせたものです。トレーニングの初期段階では Adam と同じくらい高速ですが、後期段階では SGD のように良好な収束性を発揮します。

SGD (確率的勾配降下法) アルゴリズムには長い歴史があります。ボールが丘を転がるように、パラメータを谷に落として最小値を取得します。

しかし、その最大の欠点は、下降速度が遅い（ステップサイズが一定値である）ため、ガリーの両側で振動し続け、ローカルピークに留まる可能性があることです。

Adam (Adaptive Moment Estimation) は、トレーニング速度を向上させるために作成されました。適応型最適化手法の AdaGrad や RMSProp と同様に、ボールをより急な斜面でより速い速度で降下させることにより、結果がより速く収束します。

Adam アルゴリズムは SGD よりも高速に実行されますが、結果が収束しない可能性があり、グローバル最適解が見つからない可能性があるという 2 つの大きな欠陥があります。つまり、一般化能力が低く、一部の問題を解決する際のパフォーマンスは SGD ほど良くありません。

これら 2 つの欠陥の原因は、不安定性と極端な学習率にあると考えられます。

AdaBound はこの問題をどのように解決するのでしょうか?

学習率の動的な境界を設定し、Adam から SGD への段階的かつスムーズな移行を可能にします。これにより、モデルは初期段階で Adam と同じ速さでトレーニングされ、後期段階では SGD と同じ安定した学習率を維持できます。

このアイデアは、2017 年に Salesforce の研究者によって考案されました。実験を通じて、アダムの後期段階の学習率が低すぎることが収束結果に影響を与えていることが分かりました。 Adam の学習率の下限を制御すれば、実験結果はさらに良くなります。

学習率の制御は勾配クリッピングに似ています。勾配爆発の問題を防ぐために、特定のしきい値を超える勾配をクリップすることができます。同様に、AdaBound を実現するために Adam 学習率を調整することもできます。

上記の式では、学習率は下限 η𝑙 と上限 η𝑢 の間に制約されます。 η𝑙 = η𝑢 = α の場合、SGD アルゴリズムです。η𝑙=0、η𝑢 =∞ の場合、Adam アルゴリズムです。

Adam から SGD へのスムーズな移行を実現するために、η𝑙 と η𝑢 を時間変動関数にします。η𝑙 は 0 から α に収束し、η𝑢 は ∞ から α に収束します。

この場合、AdaBound は Adam のように高速でトレーニングを開始し、学習率の制限が厳しくなるにつれて徐々に SGD に移行します。

AdaBound のもう 1 つの大きな利点は、ハイパーパラメータにあまり影響されないため、パラメータ調整にかかる時間を大幅に節約できることです。

実験結果

著者らはさまざまなモデルで実験を行い、トレーニングセットとテストセットで Adam の学習曲線を業界で一般的な方法である SGD、AdaGrad、Adam、AMSGrad と比較しました。

上記の結果は、AdaBound がトレーニングにおいて SGD よりも確かに高速であることを証明しています。

LSTM の実験では、Adam の優れた一般化能力が実証されました。 Adam アルゴリズムは実験条件下では最適解に収束しませんでしたが、AdaBound アルゴリズムと SGD アルゴリズムは最適解に収束しました。

上記の図は、トレーニング速度の点で SGD に対する AdaBound アルゴリズムの利点を完全に反映しているわけではありませんが、AdaBound はハイパーパラメータの影響を受けないため、SGD に対するもう 1 つの大きな利点となっています。

ただし、AdaBound を使用すると、パラメータをまったく調整する必要がなくなるわけではありません。たとえば、上図の α=1 の場合、AdaBound のパフォーマンスは非常に低下するため、簡単な調整は必要です。

現在の実験結果のテスト範囲はまだ比較的狭いです。査読者は、CIFAR-100 などのより大きなデータセットを使用することで、この論文はより信頼性の高い結果を得ることができると考えています。

Reddit ユーザーも AdaBound の GAN でのパフォーマンスに興味を持っていますが、作者はコンピューティングリソースが限られており、より多くのモデルでテストしていないと述べています。オープンソース化されて、より多くの人がその有効性を検証できるようになることを願っています。

自分でやる

作者はPyTorchをベースにしたAdaBoundコードをGitHubで公開しています。

Python 3.6 以上が必要で、pip で直接インストールできます。

 pip インストール adabound

使用方法は他の Pytorch オプティマイザーと同じです。

オプティマイザー = adabound.AdaBound(model.parameters(), lr=1e-3, final_lr=0.1)

作者はTensorFlowバージョンも近日中にリリースされると約束しているので、楽しみに待ちましょう。

学部

この研究の共著者は、優秀な学部生2人です。彼らはDidiでインターンシップをしながら、一緒にこの研究を完了しました。

羅良塵という人物は、北京大学地球宇宙科学学院の4年生です。

もう1人は熊元浩さんという名前で、浙江大学情報電子工学学院で学んでおり、今年も4年生です。

羅良塵

[[258355]]

この優秀な学生は今年4年生ですが、すでに人工知能に関するトップクラスの学術会議で第一著者として4本の論文が採択されており、そのうち1本はEMNLP 2018、2本はAAAI 2019、そして本日ご紹介するICLR 2019で発表されたものです。

北京師範大学付属実験高校を卒業し、全国青少年情報オリンピックで3年連続1位を獲得した。

2015 年から 2018 年まで、Android 開発エンジニアおよび北京大学 PKU Helper チームのリーダーを務めました。

2016 年の春、私はデータ構造とアルゴリズムのコースのティーチングアシスタントを務め、また研究室のクラスメートを率いて Tank Battle と呼ばれるターンベースのゲームプラットフォームを開発しました。

2016 年 7 月から 2017 年 6 月まで、UniBike で技術開発担当副社長を務め、ソフトウェア開発を担当しました。

2017 年 7 月から 2018 年 5 月まで、Microsoft Research Asia でリサーチアシスタントとしてインターンシップを行いました。この研究経験の中で、2 つの論文が出版され、AAAI に掲載されました。

私は2018年7月から現在までDidi社の人工知能研究所で研究助手として働いており、本記事で紹介した研究成果はその成果です。

現在、彼は北京大学の言語コンピューティングおよび機械学習グループでインターンシップを行っています。彼の指導教官は、この論文の著者の一人でもある研究者 Sun Xu です。

ション・ユアンハオ

[[258356]]

彼は現在、浙江大学情報電子工学学院で情報工学を専攻する4年生です。また、成績も優秀で、過去3年間の総合成績は学年1位です。

この ICLR 論文を発表する前に、彼は通信分野の権威あるジャーナルに第二著者として論文も発表しました。

さらに、この論文には南カリフォルニア大学の准教授であるヤン・リュー氏も著者として名を連ねている。

彼らの研究に興味がある方は、次のポータルをご覧ください。

紙：

学習率の動的境界を持つ適応勾配法

https://openreview.net/pdf?id=Bkg3g2R9FX

論文レビューページ:

https://openreview.net/forum?id=Bkg3g2R9FX

GitHub アドレス:

https://github.com/Luolc/AdaBound

Reddit ディスカッションアドレス:

https://www.reddit.com/r/MachineLearning/comments/auvj3q/r_adabound_an_optimizer_that_trains_as_fast_as/

<<: この段階で注力すべき人工知能の6つの分野

>>: 機械学習と人工知能: 定義と重要性

中国の学部生が新しいAIアルゴリズムを提案：その速度はAdamに匹敵し、パフォーマンスはSGDに匹敵する

Facebookが開発した高速データ圧縮アルゴリズムZstdの使い方

テンセントが独自開発したHunyuanモデルが正式にリリースされ、Tencent Cloudを通じて一般に公開されました。

DAMOアカデミーは、初めて半教師あり知識注入を使用して、新しい事前トレーニング済み対話モデルを立ち上げ、大幅な改善を達成しました。

自動運転のゴールドラッシュ、このトラックの価値は少なくとも3000億ドル

人工知能の時代において、女の子が将来勝てるようにするために親はどのような教育理念を持つべきでしょうか？

消費財の画像認識：無人店舗を支える商品認識技術

Go データ構造とアルゴリズムの基本クイックソート

AIGCの6つの主なリスク

建築設計におけるスマートビルディングと IoT の統合

推薦する

開発者コンペティションロードショー | 12月16日、技術革新、北京でお会いしましょう

公共の安全を守るために都市に AI を導入するにはどうすればよいでしょうか?

9つのディープラーニングアルゴリズムの紹介

スタンフォード大学の研究によると、AIチャットボットChatGPTのパフォーマンスは非常に不安定であることが判明

敵対的 AI とは何ですか?なぜそれが重要なのでしょうか?

テレンス・タオが、60 年前のもう一つの幾何学の問題に取り組みます。周期的タイル分割問題における新たなブレークスルー

2019年の中国人工知能産業の競争環境の分析

OpenAI CEOがGPT-5の開発中であることを明らかに

人工知能がヘルスケア業界にもたらす変化

因果推論と正規化がリストに載っています。権威ある専門家が過去 50 年間で最も重要な統計的アイデアをレビューします。

AIのボトルネックの突破口は物理的な人工知能にある