中国の学部生が新しいAIアルゴリズムを提案:その速度はAdamに匹敵し、パフォーマンスはSGDに匹敵する

中国の学部生が新しいAIアルゴリズムを提案:その速度はAdamに匹敵し、パフォーマンスはSGDに匹敵する

2 人のトップ学部生。1 人は北京大学、もう 1 人は浙江大学出身です。

インターンシップ中に、彼らは新しいAIアルゴリズムを開発しました。関連する論文は、人工知能に関する世界最大の会議であるICLR 2019に収録され、分野長から高い評価を受け、採択を全面的に推奨されました。

[[258352]]

この論文では、AdaBoundと呼ばれるニューラルネットワーク最適化アルゴリズムが発表されました。簡単に言うと、このアルゴリズムのトレーニング速度はAdamに匹敵し、そのパフォーマンスはSGDに匹敵します。

このアルゴリズムは CV および NLP の分野に適しており、さまざまな一般的なタスクを解決するためのディープラーニング モデルの開発に使用できます。さらに、AdaBound はハイパーパラメータにあまり敏感ではないため、パラメータ調整にかかる時間を大幅に節約できます。

2人の学部生が共同執筆したこの論文は、Redditでも多くの賞賛を受け、著者自身もこのフォーラムでオンラインQ&Aセッションを開催しました。

AdaBound はオープンソース化され、デモがリリースされました。

AdaBoundとは

AdaBound は SGD と Adam のアルゴリズムを組み合わせたものです。トレーニングの初期段階では Adam と同じくらい高速ですが、後期段階では SGD のように良好な収束性を発揮します。

SGD (確率的勾配降下法) アルゴリズムには長い歴史があります。ボールが丘を転がるように、パラメータを谷に落として最小値を取得します。

しかし、その最大の欠点は、下降速度が遅い(ステップ サイズが一定値である)ため、ガリーの両側で振動し続け、ローカル ピークに留まる可能性があることです。

Adam (Adaptive Moment Estimation) は、トレーニング速度を向上させるために作成されました。適応型最適化手法の AdaGrad や RMSProp と同様に、ボールをより急な斜面でより速い速度で降下させることにより、結果がより速く収束します。

Adam アルゴリズムは SGD よりも高速に実行されますが、結果が収束しない可能性があり、グローバル最適解が見つからない可能性があるという 2 つの大きな欠陥があります。つまり、一般化能力が低く、一部の問題を解決する際のパフォーマンスは SGD ほど良くありません。

これら 2 つの欠陥の原因は、不安定性と極端な学習率にあると考えられます。

AdaBound はこの問題をどのように解決するのでしょうか?

学習率の動的な境界を設定し、Adam から SGD への段階的かつスムーズな移行を可能にします。これにより、モデルは初期段階で Adam と同じ速さでトレーニングされ、後期段階では SGD と同じ安定した学習率を維持できます。

このアイデアは、2017 年に Salesforce の研究者によって考案されました。実験を通じて、アダムの後期段階の学習率が低すぎることが収束結果に影響を与えていることが分かりました。 Adam の学習率の下限を制御すれば、実験結果はさらに良くなります。

学習率の制御は勾配クリッピングに似ています。勾配爆発の問題を防ぐために、特定のしきい値を超える勾配をクリップすることができます。同様に、AdaBound を実現するために Adam 学習率を調整することもできます。

上記の式では、学習率は下限 η𝑙 と上限 η𝑢 の間に制約されます。 η𝑙 = η𝑢 = α の場合、SGD アルゴリズムです。η𝑙=0、η𝑢 =∞ の場合、Adam アルゴリズムです。

Adam から SGD へのスムーズな移行を実現するために、η𝑙 と η𝑢 を時間変動関数にします。η𝑙 は 0 から α に収束し、η𝑢 は ∞ から α に収束します。

この場合、AdaBound は Adam のように高速でトレーニングを開始し、学習率の制限が厳しくなるにつれて徐々に SGD に移行します。

AdaBound のもう 1 つの大きな利点は、ハイパーパラメータにあまり影響されないため、パラメータ調整にかかる時間を大幅に節約できることです。

実験結果

著者らはさまざまなモデルで実験を行い、トレーニング セットとテスト セットで Adam の学習曲線を業界で一般的な方法である SGD、AdaGrad、Adam、AMSGrad と比較しました。

上記の結果は、AdaBound がトレーニングにおいて SGD よりも確かに高速であることを証明しています。

LSTM の実験では、Adam の優れた一般化能力が実証されました。 Adam アルゴリズムは実験条件下では最適解に収束しませんでしたが、AdaBound アルゴリズムと SGD アルゴリズムは最適解に収束しました。

上記の図は、トレーニング速度の点で SGD に対する AdaBound アルゴリズムの利点を完全に反映しているわけではありませんが、AdaBound はハイパーパラメータの影響を受けないため、SGD に対するもう 1 つの大きな利点となっています。

ただし、AdaBound を使用すると、パラメータをまったく調整する必要がなくなるわけではありません。たとえば、上図の α=1 の場合、AdaBound のパフォーマンスは非常に低下するため、簡単な調整は必要です。

現在の実験結果のテスト範囲はまだ比較的狭いです。査読者は、CIFAR-100 などのより大きなデータセットを使用することで、この論文はより信頼性の高い結果を得ることができると考えています。

Reddit ユーザーも AdaBound の GAN でのパフォーマンスに興味を持っていますが、作者はコンピューティング リソースが限られており、より多くのモデルでテストしていないと述べています。オープンソース化されて、より多くの人がその有効性を検証できるようになることを願っています。

自分でやる

作者はPyTorchをベースにしたAdaBoundコードをGitHubで公開しています。

Python 3.6 以上が必要で、pip で直接インストールできます。

  1. pip インストール adabound

使用方法は他の Pytorch オプティマイザーと同じです。

  1. オプティマイザー = adabound.AdaBound(model.parameters(), lr=1e-3, final_lr=0.1)

作者はTensorFlowバージョンも近日中にリリースされると約束しているので、楽しみに待ちましょう。

学部

この研究の共著者は、優秀な学部生2人です。彼らはDidiでインターンシップをしながら、一緒にこの研究を完了しました。

羅良塵という人物は、北京大学地球宇宙科学学院の4年生です。

もう1人は熊元浩さんという名前で、浙江大学情報電子工学学院で学んでおり、今年も4年生です。

羅良塵

[[258355]]

この優秀な学生は今年4年生ですが、すでに人工知能に関するトップクラスの学術会議で第一著者として4本の論文が採択されており、そのうち1本はEMNLP 2018、2本はAAAI 2019、そして本日ご紹介するICLR 2019で発表されたものです。

北京師範大学付属実験高校を卒業し、全国青少年情報オリンピックで3年連続1位を獲得した。

2015 年から 2018 年まで、Android 開発エンジニアおよび北京大学 PKU Helper チームのリーダーを務めました。

2016 年の春、私はデータ構造とアルゴリズムのコースのティーチング アシスタントを務め、また研究室のクラスメートを率いて Tank Battle と呼ばれるターンベースのゲーム プラットフォームを開発しました。

2016 年 7 月から 2017 年 6 月まで、UniBike で技術開発担当副社長を務め、ソフトウェア開発を担当しました。

2017 年 7 月から 2018 年 5 月まで、Microsoft Research Asia でリサーチ アシスタントとしてインターンシップを行いました。この研究経験の中で、2 つの論文が出版され、AAAI に掲載されました。

私は2018年7月から現在までDidi社の人工知能研究所で研究助手として働いており、本記事で紹介した研究成果はその成果です。

現在、彼は北京大学の言語コンピューティングおよび機械学習グループでインターンシップを行っています。彼の指導教官は、この論文の著者の一人でもある研究者 Sun Xu です。

ション・ユアンハオ

[[258356]]

彼は現在、浙江大学情報電子工学学院で情報工学を専攻する4年生です。また、成績も優秀で、過去3年間の総合成績は学年1位です。

この ICLR 論文を発表する前に、彼は通信分野の権威あるジャーナルに第二著者として論文も発表しました。

さらに、この論文には南カリフォルニア大学の准教授であるヤン・リュー氏も著者として名を連ねている。

彼らの研究に興味がある方は、次のポータルをご覧ください。

紙:

学習率の動的境界を持つ適応勾配法

https://openreview.net/pdf?id=Bkg3g2R9FX

論文レビューページ:

https://openreview.net/forum?id=Bkg3g2R9FX

GitHub アドレス:

https://github.com/Luolc/AdaBound

Reddit ディスカッション アドレス:

https://www.reddit.com/r/MachineLearning/comments/auvj3q/r_adabound_an_optimizer_that_trains_as_fast_as/

<<:  この段階で注力すべき人工知能の6つの分野

>>:  機械学習と人工知能: 定義と重要性

ブログ    
ブログ    

推薦する

最近人気の大型モデルや自動運転コンセプトについてお話ししましょう。

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...

人工知能産業の急速な発展により、2021年以降、人工知能セキュリティの市場スペースは巨大になるでしょう。

[[439966]]人工知能は、人間の意識と思考の情報処理をシミュレートできるコンピュータ サイエ...

顔認識におけるコモンズの悲劇

現在、顔認識などの個人情報の所有権と保護に関する権威ある解釈や体系的な政策や法的規範は存在せず、商業...

アリババのロボットが200語のエッセイを修正し、8つの間違いを発見

最近、浙江外国語大学国際学院で、アリババAIが試験の採点を完了し、200語のエッセイに8つの誤りを発...

MITの新しい研究により、物体間の潜在的な関係性を理解し、AIが人間のように世界を「見る」ことが可能になった。

[[441262]]人々がシーンを観察するとき、通常はシーン内のオブジェクトとそれらの間の関係を観...

...

AI学習製品は本当に子供の成長に良いのでしょうか?

今日は友人が経営する人工知能体験センターを訪問する機会に恵まれました。この施設では主に子供たちが学習...

企業環境でのAIテクノロジーの活用

企業の世界における人工知能の利点は何でしょうか?企業分野における AI の主な利点の 1 つは、プロ...

なぜ人工知能には欠陥があるのでしょうか?

人工知能は、すべての人の生活に欠かせないものとなっています。 YouTube のおすすめなどの単純な...

2021年に購入すべき珍しいAIホーム製品

これらの AI 搭載ガジェットはあなたの家をスマートにします。 『2001年宇宙の旅』の全知全能のH...

SAPはイノベーションで顧客の成功を支援し、AI時代のデータ主導のビジネス変革の未来を形作ります

SAP は、AI 時代において顧客がデータの潜在能力を最大限に活用し、より深い洞察、より速い成長、よ...

...

我が国の5G基地局は718,000台に達し、人工知能の発展を促進

2020年中国人工知能サミットフォーラム及び中国人工知能競技会結果発表会が23日、厦門で開催された。...

人工知能が普及せず、自動運転に支障?

今回の世界経済サイクルが底を打つにつれ、過去2年間の多くのホットスポットが「衰退」し、「閉鎖」し始め...

TikTokの背後にあるAIの仕組み

エンジニアの視点から TikTok 推奨システムのアーキテクチャを探ります。 TikTok は、ユー...