中国の学部生が新しいAIアルゴリズムを提案:その速度はAdamに匹敵し、パフォーマンスはSGDに匹敵する

中国の学部生が新しいAIアルゴリズムを提案:その速度はAdamに匹敵し、パフォーマンスはSGDに匹敵する

2 人のトップ学部生。1 人は北京大学、もう 1 人は浙江大学出身です。

インターンシップ中に、彼らは新しいAIアルゴリズムを開発しました。関連する論文は、人工知能に関する世界最大の会議であるICLR 2019に収録され、分野長から高い評価を受け、採択を全面的に推奨されました。

[[258352]]

この論文では、AdaBoundと呼ばれるニューラルネットワーク最適化アルゴリズムが発表されました。簡単に言うと、このアルゴリズムのトレーニング速度はAdamに匹敵し、そのパフォーマンスはSGDに匹敵します。

このアルゴリズムは CV および NLP の分野に適しており、さまざまな一般的なタスクを解決するためのディープラーニング モデルの開発に使用できます。さらに、AdaBound はハイパーパラメータにあまり敏感ではないため、パラメータ調整にかかる時間を大幅に節約できます。

2人の学部生が共同執筆したこの論文は、Redditでも多くの賞賛を受け、著者自身もこのフォーラムでオンラインQ&Aセッションを開催しました。

AdaBound はオープンソース化され、デモがリリースされました。

AdaBoundとは

AdaBound は SGD と Adam のアルゴリズムを組み合わせたものです。トレーニングの初期段階では Adam と同じくらい高速ですが、後期段階では SGD のように良好な収束性を発揮します。

SGD (確率的勾配降下法) アルゴリズムには長い歴史があります。ボールが丘を転がるように、パラメータを谷に落として最小値を取得します。

しかし、その最大の欠点は、下降速度が遅い(ステップ サイズが一定値である)ため、ガリーの両側で振動し続け、ローカル ピークに留まる可能性があることです。

Adam (Adaptive Moment Estimation) は、トレーニング速度を向上させるために作成されました。適応型最適化手法の AdaGrad や RMSProp と同様に、ボールをより急な斜面でより速い速度で降下させることにより、結果がより速く収束します。

Adam アルゴリズムは SGD よりも高速に実行されますが、結果が収束しない可能性があり、グローバル最適解が見つからない可能性があるという 2 つの大きな欠陥があります。つまり、一般化能力が低く、一部の問題を解決する際のパフォーマンスは SGD ほど良くありません。

これら 2 つの欠陥の原因は、不安定性と極端な学習率にあると考えられます。

AdaBound はこの問題をどのように解決するのでしょうか?

学習率の動的な境界を設定し、Adam から SGD への段階的かつスムーズな移行を可能にします。これにより、モデルは初期段階で Adam と同じ速さでトレーニングされ、後期段階では SGD と同じ安定した学習率を維持できます。

このアイデアは、2017 年に Salesforce の研究者によって考案されました。実験を通じて、アダムの後期段階の学習率が低すぎることが収束結果に影響を与えていることが分かりました。 Adam の学習率の下限を制御すれば、実験結果はさらに良くなります。

学習率の制御は勾配クリッピングに似ています。勾配爆発の問題を防ぐために、特定のしきい値を超える勾配をクリップすることができます。同様に、AdaBound を実現するために Adam 学習率を調整することもできます。

上記の式では、学習率は下限 η𝑙 と上限 η𝑢 の間に制約されます。 η𝑙 = η𝑢 = α の場合、SGD アルゴリズムです。η𝑙=0、η𝑢 =∞ の場合、Adam アルゴリズムです。

Adam から SGD へのスムーズな移行を実現するために、η𝑙 と η𝑢 を時間変動関数にします。η𝑙 は 0 から α に収束し、η𝑢 は ∞ から α に収束します。

この場合、AdaBound は Adam のように高速でトレーニングを開始し、学習率の制限が厳しくなるにつれて徐々に SGD に移行します。

AdaBound のもう 1 つの大きな利点は、ハイパーパラメータにあまり影響されないため、パラメータ調整にかかる時間を大幅に節約できることです。

実験結果

著者らはさまざまなモデルで実験を行い、トレーニング セットとテスト セットで Adam の学習曲線を業界で一般的な方法である SGD、AdaGrad、Adam、AMSGrad と比較しました。

上記の結果は、AdaBound がトレーニングにおいて SGD よりも確かに高速であることを証明しています。

LSTM の実験では、Adam の優れた一般化能力が実証されました。 Adam アルゴリズムは実験条件下では最適解に収束しませんでしたが、AdaBound アルゴリズムと SGD アルゴリズムは最適解に収束しました。

上記の図は、トレーニング速度の点で SGD に対する AdaBound アルゴリズムの利点を完全に反映しているわけではありませんが、AdaBound はハイパーパラメータの影響を受けないため、SGD に対するもう 1 つの大きな利点となっています。

ただし、AdaBound を使用すると、パラメータをまったく調整する必要がなくなるわけではありません。たとえば、上図の α=1 の場合、AdaBound のパフォーマンスは非常に低下するため、簡単な調整は必要です。

現在の実験結果のテスト範囲はまだ比較的狭いです。査読者は、CIFAR-100 などのより大きなデータセットを使用することで、この論文はより信頼性の高い結果を得ることができると考えています。

Reddit ユーザーも AdaBound の GAN でのパフォーマンスに興味を持っていますが、作者はコンピューティング リソースが限られており、より多くのモデルでテストしていないと述べています。オープンソース化されて、より多くの人がその有効性を検証できるようになることを願っています。

自分でやる

作者はPyTorchをベースにしたAdaBoundコードをGitHubで公開しています。

Python 3.6 以上が必要で、pip で直接インストールできます。

  1. pip インストール adabound

使用方法は他の Pytorch オプティマイザーと同じです。

  1. オプティマイザー = adabound.AdaBound(model.parameters(), lr=1e-3, final_lr=0.1)

作者はTensorFlowバージョンも近日中にリリースされると約束しているので、楽しみに待ちましょう。

学部

この研究の共著者は、優秀な学部生2人です。彼らはDidiでインターンシップをしながら、一緒にこの研究を完了しました。

羅良塵という人物は、北京大学地球宇宙科学学院の4年生です。

もう1人は熊元浩さんという名前で、浙江大学情報電子工学学院で学んでおり、今年も4年生です。

羅良塵

[[258355]]

この優秀な学生は今年4年生ですが、すでに人工知能に関するトップクラスの学術会議で第一著者として4本の論文が採択されており、そのうち1本はEMNLP 2018、2本はAAAI 2019、そして本日ご紹介するICLR 2019で発表されたものです。

北京師範大学付属実験高校を卒業し、全国青少年情報オリンピックで3年連続1位を獲得した。

2015 年から 2018 年まで、Android 開発エンジニアおよび北京大学 PKU Helper チームのリーダーを務めました。

2016 年の春、私はデータ構造とアルゴリズムのコースのティーチング アシスタントを務め、また研究室のクラスメートを率いて Tank Battle と呼ばれるターンベースのゲーム プラットフォームを開発しました。

2016 年 7 月から 2017 年 6 月まで、UniBike で技術開発担当副社長を務め、ソフトウェア開発を担当しました。

2017 年 7 月から 2018 年 5 月まで、Microsoft Research Asia でリサーチ アシスタントとしてインターンシップを行いました。この研究経験の中で、2 つの論文が出版され、AAAI に掲載されました。

私は2018年7月から現在までDidi社の人工知能研究所で研究助手として働いており、本記事で紹介した研究成果はその成果です。

現在、彼は北京大学の言語コンピューティングおよび機械学習グループでインターンシップを行っています。彼の指導教官は、この論文の著者の一人でもある研究者 Sun Xu です。

ション・ユアンハオ

[[258356]]

彼は現在、浙江大学情報電子工学学院で情報工学を専攻する4年生です。また、成績も優秀で、過去3年間の総合成績は学年1位です。

この ICLR 論文を発表する前に、彼は通信分野の権威あるジャーナルに第二著者として論文も発表しました。

さらに、この論文には南カリフォルニア大学の准教授であるヤン・リュー氏も著者として名を連ねている。

彼らの研究に興味がある方は、次のポータルをご覧ください。

紙:

学習率の動的境界を持つ適応勾配法

https://openreview.net/pdf?id=Bkg3g2R9FX

論文レビューページ:

https://openreview.net/forum?id=Bkg3g2R9FX

GitHub アドレス:

https://github.com/Luolc/AdaBound

Reddit ディスカッション アドレス:

https://www.reddit.com/r/MachineLearning/comments/auvj3q/r_adabound_an_optimizer_that_trains_as_fast_as/

<<:  この段階で注力すべき人工知能の6つの分野

>>:  機械学習と人工知能: 定義と重要性

ブログ    
ブログ    

推薦する

...

オフライン認識率が最大99%のオープンソースPython顔認識システム〜

これまでの顔認識には、主に顔画像の取得、顔認識の前処理、本人確認、本人検索などの技術やシステムが含ま...

All Research: AIガバナンス市場規模は2027年に13億4,520万米ドルに達する

9月28日、市場調査会社オールリサーチが発表したレポートでは、2027年までに人工知能ガバナンス市場...

AIモデリングはもはや困難ではない:Jiuzhang Yunji DataCanvasが2つのオープンソース成果をリリース

[51CTO.comより] 「ソフトウェアインフラは大幅なアップグレードを受け、AIの実装はソフトウ...

コードコーパス、大規模モデル、インテリジェントエージェントの魔法の杖を振ると、より強力なエネルギーが呼び出されます

熱帯雨林の杖が、ダンブルドアのようなあらゆる時代の並外れた魔法使いの伝説を生み出したのと同じように、...

二分木の再帰的および非再帰的トラバーサルアルゴリズムテンプレート

[[423968]] Leetcode を実践するには、いくつかのアルゴリズム テンプレートを知って...

人工知能技術は子供たちにどのような影響を与えるのでしょうか?

人工知能技術は、おもちゃ、オンライン アプリケーション、ビデオ ゲームに組み込まれています。AI ア...

InnoDB ストレージ エンジンの 3 つの行ロック アルゴリズムの図解と例の分析

[[415025]]この記事はWeChatの公開アカウント「Flying Veal」から転載したもの...

ビッグデータと人工知能の関係、総合的な分析

ビッグデータはクラウドコンピューティングを採用PaaS レイヤーの複雑な汎用アプリケーションは、ビッ...

PyTorch でテンソルを操作するための 5 つの基本関数

ニューラル ネットワークを正確かつ効率的に構築する能力は、ディープラーニング エンジニアの採用担当者...

検討すべき5つのスマートホームテクノロジー

今日でも、ほとんどの人はスマートホームテクノロジーを手の届かない贅沢品と見なしています。しかし、家庭...

畳み込みなしでTransformerのみをベースにした初のビデオ理解アーキテクチャがリリースされました

Facebook AI は、Transformer を完全にベースとし、畳み込みが不要で、トレーニン...

マイクロソフトがML.NET 3.0をリリース、ディープラーニング機能を拡張

11月29日、海外メディアの報道によると、マイクロソフトは最近、機械学習モデルを.NETアプリケーシ...

大規模言語モデルの量子化手法の比較: GPTQ、GGUF、AWQ

大規模言語モデル (LLM) は過去 1 年間で急速に進化しており、この記事では (量子化) へのい...

「インターネット情報サービスアルゴリズム推奨管理規則」が公布され、3月1日に発効される。

最近、中国サイバースペース管理局、工業情報化部、公安部、国家市場監督管理総局は共同で「インターネット...