SGD を AI に置き換える? ResNet-50 をトレーニングする必要がなく、AI が 2400 万のパラメータすべてを数秒で 60% の精度で予測します。

SGD を AI に置き換える? ResNet-50 をトレーニングする必要がなく、AI が 2400 万のパラメータすべてを数秒で 60% の精度で予測します。

[[432049]]

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式サイトにアクセスして許可を申請してください。

このグラフ ニューラル ネットワーク、つまりメタモデルは、たった 1 回のフォワード パスで、画像分類モデルのすべてのパラメータを予測できます。これがあれば、勾配降下法が収束するのを待つ必要はありません。

論文の筆頭著者であるグエルフ大学のボリス・クニャゼフ氏は、メタモデルはResNet-50の2400万個のパラメータすべてを予測でき、このResNet-50はトレーニングなしでCIFAR-10で約60%の精度を達成するだろうと紹介した。特に、このモデルはほぼすべてのニューラル ネットワークに適用できます。

この結果に基づいて、著者は私たちに次のような自問自答を投げかけています。「将来、ニューラル ネットワークをトレーニングするために SGD や Adam が必要になるでしょうか?」

「私たちは、手作業で設計されたオプティマイザーを、単一のフォワードパスでほぼすべてのニューラルネットワークのパラメータを予測できる単一のメタモデルに置き換えることに一歩近づきました。」

驚くべきことに、このメタモデルは、ResNet-50 のようなネットワークを (トレーニング データとして) 一切受け取ることなくトレーニングされました。

このメタモデルの適用範囲は広く、ResNet-50 だけでなく、ResNet-101、ResNet-152、Wide-ResNets、Visual Transformers のすべてのパラメータを予測でき、「すべてが利用可能」です。 CIFAR-10 だけでなく、ImageNet などの大規模なデータセットでも良い結果が得られます。

同時に、効率も非常に優れています。メタモデルは、特定のネットワークのすべてのパラメータを平均 1 秒未満で予測できます。これは、CPU でも驚くほど高速です。

しかし、ただで得られるものはないので、メタモデルが他の異なるタイプのアーキテクチャを予測する場合、予測されるパラメータはあまり正確ではありません(ランダムになることもあります)。一般的に言えば、トレーニング分布から離れるほど(図の緑色のボックスを参照)、予測結果は悪くなります。

ただし、予測されたパラメータを使用したネットワークの分類精度が低い場合でも絶望しないでください。

これまでのようにランダムな初期化を必要とせず、適切な初期化パラメータを持つモデルとしてこれを使用することができ、「特に少数ショットの学習タスクでは、この転移学習の恩恵を受けることができます。」

著者らはまた、「グラフ ニューラル ネットワークのファンとして」、メタモデルとして GNN を特に選択したと述べています。このモデルは、Chris Zhang、Mengye Ren、Raquel Urtasun による ICLR 2019 論文「Graph HyperNetworks for Neural Architecture Search」に基づいています。

論文アドレス: https://arxiv.org/abs/1810.05749

これらに基づいて、著者らはより優れた一般化能力を備えた新しいモデルGHN-2を開発し、トレーニングしました。

つまり、複数のアーキテクチャで GHN パラメータを更新し、予測パラメータを適切に正規化し、グラフ内の長距離相互作用を改善し、収束を改善することが重要です。

GHN-2 をトレーニングするために、著者らはニューラル アーキテクチャ データセットであるDeepNets-1Mを導入しました。

このデータセットは、トレーニング セット、検証セット、テスト セットの 3 つの部分に分かれています。さらに、分布外テストには、より広く、より深く、より高密度で、正規化されていないネットワークを使用しました。

著者らは、DeepNets-1M はさまざまなグラフ ニューラル ネットワーク (GNN) をベンチマークするための優れたテストベッドとして機能できると付け加えています。 「当社の PyTorch コードを使用すると、任意の GNN (Gated GNN 以外) を簡単にプラグインできるはずです。」

GHN-2 は、パラメータ予測タスクを解決し、ネットワークの初期化に使用されるだけでなく、ニューラル アーキテクチャの検索にも使用できます。「GHN-2 は、最も正確で、最も堅牢 (ガウス ノイズに関して) で、最も効率的で、トレーニングが最も簡単なネットワークを検索します。」

この論文は NeurIPS 2021 に掲載されており、研究者はグエルフ大学、トロント大学のベクトル人工知能研究所、CIFAR、FAIR、マギル大学の研究者です。

論文アドレス: https://arxiv.org/pdf/2110.13100.pdf

このプロジェクトはオープンソース化もされているので、急いでこのニューラル ネットワーク オプティマイザーに敬意を表しましょう。

プロジェクトアドレス: https://github.com/facebookresearch/ppuda

1.モデルの詳細説明

大規模なラベル付きデータセット (ImageNet など) でディープ ニューラル ネットワークをトレーニングする問題を考えてみましょう。この問題は、特定のニューラル ネットワーク a の最適なパラメーター w を見つけることとして形式化できます。

損失関数は通常、SGD や Adam などの反復最適化アルゴリズムによって最小化され、アーキテクチャ a のパフォーマンス パラメーター w_p に収束します。

トレーニング速度と収束の改善は進んでいるものの、大規模な機械学習パイプラインでは w_p の取得が依然としてボトルネックとなっています。

たとえば、ImageNet で ResNet-50 をトレーニングすると、かなりの GPU 時間が必要になる場合があります。

ネットワークのサイズが大きくなり、ネットワークを繰り返しトレーニングする必要が生じると (ハイパーパラメータやアーキテクチャの検索など)、w_p を取得するプロセスは計算上持続不可能になります。

新しいパラメータ予測タスクでは、新しいアーキテクチャ a のパラメータを最適化するときに、一般的な最適化プログラムは、過去に他のネットワークを最適化したときに得られた経験を無視します。

ただし、過去の経験を活用することが、反復的な最適化への依存を減らし、高い計算要件を削減する鍵となる可能性があります。

この方向に進むために、研究者らはハイパーネットワーク HD の単一の順方向伝播を使用した反復最適化という新しいタスクを提案しました。

このタスクを解決するために、HD は他のネットワークの過去の最適化から得た知識を活用します。

たとえば、CIFAR-10 および ImageNet 画像分類データセット D を考えます。ここで、テスト セットのパフォーマンスは、テスト画像の分類精度です。

HD に他のネットワークを最適化する方法を教える簡単な方法は、[アーキテクチャ、パラメータ] ペアの大規模なトレーニング セットでトレーニングすることですが、このプロセスは非常に困難です。

そのため、研究者はメタ学習で一般的な 2 レベル最適化パラダイムに従います。つまり、M 個のタスクを反復する代わりに、単一のタスク (画像分類など) で M 個のトレーニング アーキテクチャを反復します。

図 0: オリジナルの GHN アーキテクチャの概要。 A: ニューラル ネットワーク アーキテクチャをランダムにサンプリングして GHN を生成します。 B: グラフ伝播後、GHN 内の各ノードは独自の重みパラメータを生成します。 C: GHN をトレーニングすることにより、生成重みを使用してサンプリングされたネットワークのトレーニング損失を最小限に抑えます。生成されたネットワークのパフォーマンスで並べ替えます。出典: https://arxiv.org/abs/1810.05749

最適化を通じて、ハイパーネットワーク HD は、トレーニングされたアーキテクチャのパフォーマンス パラメータを予測する方法に関する知識を徐々に獲得し、テスト時に活用できるようになります。

このためには、アーキテクチャ空間 F と HD を設計する必要があります。

F では、既存のニューラル アーキテクチャ設計スペースを基盤として、さまざまなアーキテクチャをサンプリングする機能と、ResNet や Visual Transformers などの複数のアーキテクチャを含む拡張設計スペースという 2 つの方法で拡張しています。

このようなアーキテクチャは、計算グラフの形式で完全に記述できます (図 1)。

したがって、ハイパーネットワーク HD を設計するには、グラフ構造データに対する機械学習の最近の進歩に頼ることになります。

特に、研究者のソリューションは、グラフ ハイパーネットワーク (GHN) アプローチに基づいています。

多様なアーキテクチャ空間 F を設計し、GHN を改善することで、GHN-2 は、未知のアーキテクチャを予測する際の画像認識精度を、CIFAR-10 と ImageNet でそれぞれ 77% (トップ 1) と 48% (トップ 5) に向上させます。

驚くべきことに、GHN-2 は分布外一般化が良好で、トレーニング セット内のアーキテクチャよりも大きく深いアーキテクチャに対しても良好なパラメータを予測します。

たとえば、GHN-2 は、GPU または CPU 上で 1 秒未満で ResNet-50 の 2,400 万個のパラメータすべてを予測でき、勾配更新なしで CIFAR-10 で約 60% の精度を達成します (図 1、(b))。

全体として、このフレームワークと結果は、ネットワークのトレーニングのための新しい、より効率的なパラダイムを切り開きます。

この論文の貢献は次のとおりです。

(a) 単一のハイパーネットワーク順方向伝播を使用して、さまざまなフィードフォワードニューラルネットワークのパフォーマンスパラメータを予測する新しいタスクが導入されています。

(b)タスクの進捗状況を追跡するための分布内および分布外データを含む標準化されたベンチマークであるDEEPNETS-1Mデータセットを導入した。

(c)いくつかのベースラインが定義され、GHN-2モデルが提案されており、これはCIFAR-10とImageNetで驚くほど優れたパフォーマンスを発揮する(セクション5.1)。

(d)メタモデルはニューラルネットワークアーキテクチャの適切な表現を学習し、ニューラルネットワークの初期化に役立ちます。


図1: GHNモデルの概要

上の図 1 (a) は、GHN モデルの概要を示しています (詳細についてはセクション 4 を参照)。指定された画像データセットと DEEPNETS-1M アーキテクチャ データセットに基づいて、GHN モデルはバックプロパゲーションによってトレーニングされ、画像分類モデルのパラメータを予測します。

研究者がバニラ GHN に加えた主な改良点には、メタバッチ処理、仮想エッジ、パラメータ正規化などがあります。

このうち、メタバッチ処理は GHN のトレーニング時にのみ使用され、仮想エッジとパラメータ正規化はトレーニングとテスト中に使用されます。 a1の可視化計算グラフを表1に示す。

図1(b)は、GHNによって予測されたResNet-50のすべてのパラメータの分類精度と、SGDを使用してパラメータをトレーニングした場合の分類精度を比較しています。パラメータを自動的に予測することによって得られるネットワークの精度は、手動でトレーニングされたネットワークの精度に比べるとまだはるかに低いですが、優れた初期化方法として機能します。

2.実験: パラメータ予測

GHN-2 はテスト アーキテクチャを観察したことがありませんが、テスト アーキテクチャの適切なパラメータを予測し、テスト ネットワークが両方の画像データセットで驚くほど優れたパフォーマンスを発揮するようにしています (表 3 および 4)。

表3: DEEPNETS-1M (CIFAR-10) 上の未知のIDおよびOODアーキテクチャに対するGHN-2の予測パラメータ結果

表4: DEEPNETS-1M上のGHN-1、GHN-2、MLPに基づくメタモデルの結果と、SGDとAdamオプティマイザーを使用した分類器のトレーニング結果(ImageNetデータセット)
その中で、CIFAR-10 の結果は特に優れており、一部の予測パラメータ アーキテクチャの精度は 77.1% に達しましたが、50 エポックの SGD トレーニングを使用した場合の最高精度は約 15% でした。

GHN-2 は ImageNet でも良好な結果を示しており、一部のアーキテクチャでは最大 48.3% のトップ 5 精度が達成されています。

これらの結果は直接的な下流アプリケーションには不十分ですが、主に 3 つの理由から非常に興味深いものです。

まず、SGD を介してアーキテクチャ F をトレーニングするという法外に高価なプロセスに依存しません。

2 番目に、GHN は単一のフォワード パスを使用してすべてのパラメータを予測します。

第三に、これらの結果は、OOD アーキテクチャを含む未知のアーキテクチャに対して得られます。分布のシフトが激しい場合 (ResNet-506 など) や表現が不十分なネットワーク (ViT7 など) の場合でも、GHN-2 はランダムよりも優れたパフォーマンスを発揮するパラメータを予測できます。

CIFAR-10 では、GHN-2 は特に一般化が優れており、ResNet-50 では 58.6% の精度を達成しています。

両方の画像データセットにおいて、GHN-2 は DEEPNETS-1M のすべてのテストサブセットで GHN-1 を大幅に上回り、BN-FREE ネットワークでは 36.8% 対 13.7% など、絶対的なゲインが 20% を超えるケースもありました (表 3)。

計算グラフの構造を活用することは、GHN の重要な機能です。GHN-2 の GatedGNN を MLP に置き換えると、ID (および OOD) アーキテクチャの精度は 66.9% から 42.2% に低下します。

反復最適化手法と比較すると、GHN-2 は、CIFAR-10 と ImageNet でそれぞれ約 2500 回と約 5000 回の反復を行った後、SGD と同等の精度でパラメータを予測します。

対照的に、GHN-1 のパフォーマンスは、それぞれ約 500 回と約 2000 回の反復でも同様です (表 4 には示されていません)。

アブレーション実験(表5)は、セクション4で提案された3つのコンポーネントすべてが重要であることを示しています。

表5: CIFAR-10におけるGHN-2の除去、すべてのIDおよびOODテストアーキテクチャにわたるモデルの平均ランキングの計算

要約: GHN-2 は、必要な AI モデルを数秒でトレーニングできるグラフ ニューラル ネットワーク オプティマイザーです。従来のオプティマイザーと比較すると、はるかに高速で、計算能力と時間を節約できます。得られたモデル効果が最適でない場合でも、適切な初期化方法として使用できます。

<<:  Nature: ハーバード大学とオックスフォード大学が最新のAIモデルを開発、3600万の致命的な遺伝子変異を予測

>>:  AIoT: IoTと人工知能の完璧な組み合わせ

ブログ    

推薦する

AIはワクチン業界に何をもたらすのでしょうか?

[[237673]]画像出典: Visual Chinaワクチンは良いビジネスなのか、それとも生命...

...

機械学習を学ぶには? Alibaba のプログラマーが、わずか 7 つのステップで Python 機械学習を習得できるようお手伝いします。

概要: 現在、インターネット上の Python 機械学習リソースは非常に複雑で、初心者にとっては混乱...

AIテクノロジーが業界のアップグレードを促進 WOT2018グローバル人工知能テクノロジーサミットがインテリジェントな未来を推進

[51CTO.comからのオリジナル記事] 2018年、人工知能は人類が未来を創造するための最も輝か...

AIOps に関する 6 つの誤解とその説明

[[387871]] AIOps とは何でしょうか? IT リーダーは、AIOps に関する一般的な...

...

十八龍掌:トランスフォーマーのメモリ使用量を最適化するこのスキルの組み合わせは、収集する価値があります

ビジョントランスフォーマーや LLM などのディープラーニングモデルをトレーニングする場合、ピーク時...

...

...

百度がスマートシティ向け「ACE計画」を発表、ロビン・リーはAI思考でインターネット思考に打ち勝ちたい

11月1日、北京で百度世界博覧会2018が開幕した。百度の創業者で会長兼CEOの李克強(ロビン・リー...

カナダ当局はクリアビューの顔認識技術がプライバシー法に違反していることを確認した

[[380742]]カナダのプライバシー保護担当コミッショナーは水曜日、顔認識スタートアップ企業のク...

機械学習に必要な確率論の基礎

この記事を読んでいただければ、確率の基本原理を機械学習に応用できる可能性が 100% あります。機械...

9つのディープラーニングアルゴリズムの紹介

1. 2段階アルゴリズム2 段階アルゴリズムには、候補ボックスの選択とターゲットの分類/位置の修正...

...