アダムはまた「引退」するのでしょうか?イェール大学のチームがAdaBeliefを提案

アダムはまた「引退」するのでしょうか?イェール大学のチームがAdaBeliefを提案

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。

Adam の立場に異議を唱えるオプティマイザーがもう 1 つあります。

最近、NeurIPS 2020 に掲載された論文で提案されたオプティマイザーがディープラーニング コミュニティの注目を集め、幅広い議論を巻き起こしました。

これはイェール大学のチームが提案したAdaBeliefです。研究チームは論文の中で、このオプティマイザーは Adam の高速収束特性と SGD の優れた一般化特性を兼ね備えていると述べています。

いわゆる AdaBelief は、勾配方向の「信念」に応じてトレーニング ステップ サイズを調整することを指します。アルゴリズムの点では、Adam とそれほど違いはありません。

両者の違いは、次のアルゴリズムの実装で簡単に確認できます。

Adam と比較すると、AdaBelief では他の新しいパラメータは導入されていませんが、上の図で青でマークされている最後の更新ステップに違いがあります。

アダムの更新の方向性は

AdaBeliefの更新方向は

vtとstの違いは、後者は

指数移動平均(EMA)。

mtはgtの予測値とみなすことができます。実際の値が予測値とあまり変わらない場合、分母

値が小さいほどステップサイズが大きくなり、重みを大胆に更新できます。

実際の値が予測値と大きく異なる場合、AdaBelief は現在の勾配を「信じない」傾向があります。このとき、分母は大きくなり、更新ステップは短くなります。

AdaBeliefが優れている理由

最後のステップでレビューなしで行われた小さな変更が、なぜこれほど大きな影響を与えるのでしょうか?

これは主に、AdaBelief が 2 つの点を考慮しているためです。

1. 損失関数の曲率問題

理想的なオプティマイザーは、勾配が大きい場合に単純に大きなステップを取るのではなく、損失関数の曲線を考慮する必要があります。

「勾配が大きく、曲率が小さい」場合(図の領域 3)では、|gt-gt-1| と |st| が小さいため、オプティマイザーはステップ サイズを大きくする必要があります。

2. 分母の勾配記号

上の図では、損失関数は

の場合、青いベクトルは勾配を表し、十字は最適解を表します。

Adam オプティマイザーは y 方向に振動し、x 方向に前進し続けます。これは、

分散が低い場合、Adam の更新方向は「符号降下」に近くなります。

AdaBeliefでは、

したがって、AdaBelief は振動を防ぐために、x 方向に大きなステップを実行し、y 方向には小さなステップのみを実行します。

実験結果

いくつかの単純な 3D 損失関数サーフェスでは、AdamBelief は優れたパフォーマンスを示します。

画像分類

CIFAR-10 および CIFAR-100 データセットでは、AdaBelief は、VGG11、ResNet34、DenseNet121 の 3 つのネットワークでトレーニングした場合に、より優れた収束結果を示しました。

さらに、ImageNet データでは、AdaBelief は Top-1 精度において SGD に次ぐ 2 位です。

時系列モデリング

Penn TreeBank データセットでの LSTM の実験では、AdaBelief が最も低い困惑度を達成しました。

ガン

WGAN と WGAN-GP の実験では、AdaBelief でトレーニングされた結果が最も低い FID を達成することが示されています。

ネットユーザーが疑問視

AdaBelief は複数のタスクで良好な結果を達成しましたが、この方法は多くのネットユーザーから疑問視されています。

なぜなら、長年にわたり、Adam に代わると主張するオプティマイザーは数え切れないほど存在してきましたが、最終的に時の試練に合格したのはほんのわずかだからです。

ネットユーザーが最初に疑問に思ったのは、実験のベースラインの選択だった。

CIFAR では、2020 年の SOTA モデルの精度が 96% 未満であるとは信じがたいと考える人もいるため、AdaBelief の論文ではベースラインを選択する際に、それほど良くない結果と比較することを選択した可能性があります。

ImageNet テストの表 2 で、より標準的な ResNet50 ではなく ResNet18 が使用されているのはなぜですか?さらに、AdaBelief は最適な結果ではないのに太字でマークされているため、誤解を招きやすい可能性があります。提案された方法のスコアを太字にするのは良い方法です。

さらに、著者がテストしなかった NLP タスクで実験を行った人もいましたが、AdaBelief はすぐに「崩壊」しましたが、SGD はうまく収束することができました。

AdaBelief は、Adam に代わる最後の最適化ツールではありません。その一般化能力は、さらに多くの研究者によってさらにテストされる必要があります。

プロジェクトアドレス:
https://juntang-zhuang.github.io/adabelief/

論文の宛先:
https://arxiv.org/abs/2010.07468

コードアドレス:
https://github.com/juntang-zhuang/Adabelief-Optimizer

<<:  Versius手術ロボットが英国泌尿器科手術に登場

>>:  人工知能の時代において、中国語と英語のどちらがAIの母国語になるのでしょうか?

ブログ    
ブログ    
ブログ    

推薦する

...

GraphSAGEグラフニューラルネットワークアルゴリズムの詳細な説明

GraphSAGE は 2017 年の論文ですが、その名前に含まれる 2 つのキーワード「帰納的」と...

情報理論に基づくキャリブレーション技術により、マルチモーダル機械学習の信頼性が向上

マルチモーダル機械学習は、さまざまなシナリオで目覚ましい進歩を遂げています。しかし、マルチモーダル学...

顔認識メイク落としはアリペイを認識できない:馮潔は范冰冰に似せるために整形手術を受けたが、それでも認識できる

「バン」デザインに加えて、指紋認証の代わりに顔認証を使用していることも、iPhone Xの不満点の1...

海外AI界が騒然! Googleの黒人女性AI倫理研究者が「退職」し騒動を引き起こす

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...

自動運転ブームがAIチップ戦争に火をつけ、爆発したのはテスラだけではない

以前から大きく騒がれ、メディアもその信憑性を証明する手がかりを繰り返し探していた「テスラの自社開発A...

スマートビジョンが AI アプリケーションに及ぼす 5 つの影響

インテリジェントビジョンは人工知能への扉です。この扉が開かれなければ、人工知能に関する詳細な研究を行...

AIと大量動画が出会うと、IBMは20秒で新時代への扉を開く

序文:約 60,000 時間のビデオから、ある人物の素晴らしい瞬間の 1 分を見つけるにはどうすれば...

教育におけるAIの役割: AIが学習方法をどのように変えるか

教育分野では、人工知能(AI)の適応性が大きな注目を集めています。学習者、教育者、政策立案者はいずれ...

速報です!李菲菲の一番弟子カルパシーが辞任、テスラの自動運転は危機に瀕しているのか?

たった今、テスラはまた別の技術専門家を失いました!テスラAIのシニアディレクターであり、自動運転ビジ...

機械学習とは何ですか?

機械学習は人工知能 (AI) のサブセットです。これは、コンピューターを明示的にプログラミングするの...

2020 年のソフトウェア テストの 5 つのトレンド

[[285865]] [51CTO.com クイック翻訳] デジタル技術の広範な応用に伴い、ソフトウ...

人工知能は企業の持続可能な発展をどのようにサポートできるのでしょうか?

人工知能の普及は社会に大きな影響を与え、私たちの仕事、生活、コミュニケーションの方法を変えました。現...

AIを活用して都市の建物の特性を識別し、地震などの災害に対するリスクを予測する

ビッグデータダイジェスト制作出典: サイエンスデイリー編集者: ジェーン人工知能は、ビジネスから工業...

こんにちは、音声認識について学びましょう!

[51CTO.com からのオリジナル記事] 音声認識は自動音声認識とも呼ばれ、人間の音声に含まれ...