中国の学部生が新しいAIアルゴリズムを提案:その速度はAdamに匹敵し、パフォーマンスはSGDに匹敵する

中国の学部生が新しいAIアルゴリズムを提案:その速度はAdamに匹敵し、パフォーマンスはSGDに匹敵する

2 人のトップ学部生。1 人は北京大学、もう 1 人は浙江大学出身です。

インターンシップ中に、彼らは新しいAIアルゴリズムを開発しました。関連する論文は、人工知能に関する世界最大の会議であるICLR 2019に収録され、分野長から高い評価を受け、採択を全面的に推奨されました。

[[258352]]

この論文では、AdaBoundと呼ばれるニューラルネットワーク最適化アルゴリズムが発表されました。簡単に言うと、このアルゴリズムのトレーニング速度はAdamに匹敵し、そのパフォーマンスはSGDに匹敵します。

このアルゴリズムは CV および NLP の分野に適しており、さまざまな一般的なタスクを解決するためのディープラーニング モデルの開発に使用できます。さらに、AdaBound はハイパーパラメータにあまり敏感ではないため、パラメータ調整にかかる時間を大幅に節約できます。

2人の学部生が共同執筆したこの論文は、Redditでも多くの賞賛を受け、著者自身もこのフォーラムでオンラインQ&Aセッションを開催しました。

AdaBound はオープンソース化され、デモがリリースされました。

AdaBoundとは

AdaBound は SGD と Adam のアルゴリズムを組み合わせたものです。トレーニングの初期段階では Adam と同じくらい高速ですが、後期段階では SGD のように良好な収束性を発揮します。

SGD (確率的勾配降下法) アルゴリズムには長い歴史があります。ボールが丘を転がるように、パラメータを谷に落として最小値を取得します。

しかし、その最大の欠点は、下降速度が遅い(ステップ サイズが一定値である)ため、ガリーの両側で振動し続け、ローカル ピークに留まる可能性があることです。

Adam (Adaptive Moment Estimation) は、トレーニング速度を向上させるために作成されました。適応型最適化手法の AdaGrad や RMSProp と同様に、ボールをより急な斜面でより速い速度で降下させることにより、結果がより速く収束します。

Adam アルゴリズムは SGD よりも高速に実行されますが、結果が収束しない可能性があり、グローバル最適解が見つからない可能性があるという 2 つの大きな欠陥があります。つまり、一般化能力が低く、一部の問題を解決する際のパフォーマンスは SGD ほど良くありません。

これら 2 つの欠陥の原因は、不安定性と極端な学習率にあると考えられます。

AdaBound はこの問題をどのように解決するのでしょうか?

学習率の動的な境界を設定し、Adam から SGD への段階的かつスムーズな移行を可能にします。これにより、モデルは初期段階で Adam と同じ速さでトレーニングされ、後期段階では SGD と同じ安定した学習率を維持できます。

このアイデアは、2017 年に Salesforce の研究者によって考案されました。実験を通じて、アダムの後期段階の学習率が低すぎることが収束結果に影響を与えていることが分かりました。 Adam の学習率の下限を制御すれば、実験結果はさらに良くなります。

学習率の制御は勾配クリッピングに似ています。勾配爆発の問題を防ぐために、特定のしきい値を超える勾配をクリップすることができます。同様に、AdaBound を実現するために Adam 学習率を調整することもできます。

上記の式では、学習率は下限 η𝑙 と上限 η𝑢 の間に制約されます。 η𝑙 = η𝑢 = α の場合、SGD アルゴリズムです。η𝑙=0、η𝑢 =∞ の場合、Adam アルゴリズムです。

Adam から SGD へのスムーズな移行を実現するために、η𝑙 と η𝑢 を時間変動関数にします。η𝑙 は 0 から α に収束し、η𝑢 は ∞ から α に収束します。

この場合、AdaBound は Adam のように高速でトレーニングを開始し、学習率の制限が厳しくなるにつれて徐々に SGD に移行します。

AdaBound のもう 1 つの大きな利点は、ハイパーパラメータにあまり影響されないため、パラメータ調整にかかる時間を大幅に節約できることです。

実験結果

著者らはさまざまなモデルで実験を行い、トレーニング セットとテスト セットで Adam の学習曲線を業界で一般的な方法である SGD、AdaGrad、Adam、AMSGrad と比較しました。

上記の結果は、AdaBound がトレーニングにおいて SGD よりも確かに高速であることを証明しています。

LSTM の実験では、Adam の優れた一般化能力が実証されました。 Adam アルゴリズムは実験条件下では最適解に収束しませんでしたが、AdaBound アルゴリズムと SGD アルゴリズムは最適解に収束しました。

上記の図は、トレーニング速度の点で SGD に対する AdaBound アルゴリズムの利点を完全に反映しているわけではありませんが、AdaBound はハイパーパラメータの影響を受けないため、SGD に対するもう 1 つの大きな利点となっています。

ただし、AdaBound を使用すると、パラメータをまったく調整する必要がなくなるわけではありません。たとえば、上図の α=1 の場合、AdaBound のパフォーマンスは非常に低下するため、簡単な調整は必要です。

現在の実験結果のテスト範囲はまだ比較的狭いです。査読者は、CIFAR-100 などのより大きなデータセットを使用することで、この論文はより信頼性の高い結果を得ることができると考えています。

Reddit ユーザーも AdaBound の GAN でのパフォーマンスに興味を持っていますが、作者はコンピューティング リソースが限られており、より多くのモデルでテストしていないと述べています。オープンソース化されて、より多くの人がその有効性を検証できるようになることを願っています。

自分でやる

作者はPyTorchをベースにしたAdaBoundコードをGitHubで公開しています。

Python 3.6 以上が必要で、pip で直接インストールできます。

  1. pip インストール adabound

使用方法は他の Pytorch オプティマイザーと同じです。

  1. オプティマイザー = adabound.AdaBound(model.parameters(), lr=1e-3, final_lr=0.1)

作者はTensorFlowバージョンも近日中にリリースされると約束しているので、楽しみに待ちましょう。

学部

この研究の共著者は、優秀な学部生2人です。彼らはDidiでインターンシップをしながら、一緒にこの研究を完了しました。

羅良塵という人物は、北京大学地球宇宙科学学院の4年生です。

もう1人は熊元浩さんという名前で、浙江大学情報電子工学学院で学んでおり、今年も4年生です。

羅良塵

[[258355]]

この優秀な学生は今年4年生ですが、すでに人工知能に関するトップクラスの学術会議で第一著者として4本の論文が採択されており、そのうち1本はEMNLP 2018、2本はAAAI 2019、そして本日ご紹介するICLR 2019で発表されたものです。

北京師範大学付属実験高校を卒業し、全国青少年情報オリンピックで3年連続1位を獲得した。

2015 年から 2018 年まで、Android 開発エンジニアおよび北京大学 PKU Helper チームのリーダーを務めました。

2016 年の春、私はデータ構造とアルゴリズムのコースのティーチング アシスタントを務め、また研究室のクラスメートを率いて Tank Battle と呼ばれるターンベースのゲーム プラットフォームを開発しました。

2016 年 7 月から 2017 年 6 月まで、UniBike で技術開発担当副社長を務め、ソフトウェア開発を担当しました。

2017 年 7 月から 2018 年 5 月まで、Microsoft Research Asia でリサーチ アシスタントとしてインターンシップを行いました。この研究経験の中で、2 つの論文が出版され、AAAI に掲載されました。

私は2018年7月から現在までDidi社の人工知能研究所で研究助手として働いており、本記事で紹介した研究成果はその成果です。

現在、彼は北京大学の言語コンピューティングおよび機械学習グループでインターンシップを行っています。彼の指導教官は、この論文の著者の一人でもある研究者 Sun Xu です。

ション・ユアンハオ

[[258356]]

彼は現在、浙江大学情報電子工学学院で情報工学を専攻する4年生です。また、成績も優秀で、過去3年間の総合成績は学年1位です。

この ICLR 論文を発表する前に、彼は通信分野の権威あるジャーナルに第二著者として論文も発表しました。

さらに、この論文には南カリフォルニア大学の准教授であるヤン・リュー氏も著者として名を連ねている。

彼らの研究に興味がある方は、次のポータルをご覧ください。

紙:

学習率の動的境界を持つ適応勾配法

https://openreview.net/pdf?id=Bkg3g2R9FX

論文レビューページ:

https://openreview.net/forum?id=Bkg3g2R9FX

GitHub アドレス:

https://github.com/Luolc/AdaBound

Reddit ディスカッション アドレス:

https://www.reddit.com/r/MachineLearning/comments/auvj3q/r_adabound_an_optimizer_that_trains_as_fast_as/

<<:  この段階で注力すべき人工知能の6つの分野

>>:  機械学習と人工知能: 定義と重要性

ブログ    
ブログ    
ブログ    
ブログ    
ブログ    

推薦する

...

消費財の画像認識:無人店舗を支える商品認識技術

[[208848]]人工知能は世界を席巻しており、AIの重要な分野の1つであるコンピュータービジョン...

Google が基本世界モデルをリリース: 110 億のパラメータ、インタラクティブな仮想世界を生成可能

Sora がリリースされてからまだ 2 週間も経っていないが、Google の世界モデルが登場し、そ...

「リーフチップ」が小型ロボットに油圧パワーを提供

[[186706]]マサチューセッツ工科大学(MIT)は最近、同校の研究者らが樹木や植物のポンプ機構...

AIがワンクリックでタトゥーを除去し、数秒でスターの「素顔」を見ることができる

時には、他人のタトゥーを真似されないように隠す必要があることもあります。時々、人々は単に好奇心から、...

...

ロボットによるカスタマーサービスが本物か偽物かを見分けるのは難しいですか? !

[51CTO.com 速訳] 海外メディアの報道によると、ニュージーランドのソウルマシーンズ社は最...

研究により機械学習のバックドア問題が発見される

翻訳者 | 李睿校正:孫淑娟第三者が機械学習モデルを提供し、そこに悪意のあるバックドアを密かに埋め込...

AV-TESTに再び認定されました! Sangfor EDRは中国で初めて満点を獲得したエンタープライズレベルのエンドポイントセキュリティ製品となる

検出能力6点!パフォーマンス消費6ポイント!使いやすさ6点!先日、国際的に権威のある評価機関 AV-...

今日のデータとAI市場における不確実性にどう対処するか

データ分析と人工知能 (AI) 市場に関するニュースをフォローしている人なら誰でも、過去数年間で多く...

...

ロボットもこのように遊べるのでしょうか?自分の目で確認したら、これが私の欲しいロボットだ!

「タイムレイダース」を覚えていますか? 1つは1999年、もう1つは2018年のもので、わずか19年...

...