SGD を AI に置き換える? ResNet-50 をトレーニングする必要がなく、AI が 2400 万のパラメータすべてを数秒で 60% の精度で予測します。

[[432049]]

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式サイトにアクセスして許可を申請してください。

このグラフニューラルネットワーク、つまりメタモデルは、たった 1 回のフォワードパスで、画像分類モデルのすべてのパラメータを予測できます。これがあれば、勾配降下法が収束するのを待つ必要はありません。

論文の筆頭著者であるグエルフ大学のボリス・クニャゼフ氏は、メタモデルはResNet-50の2400万個のパラメータすべてを予測でき、このResNet-50はトレーニングなしでCIFAR-10で約60%の精度を達成するだろうと紹介した。特に、このモデルはほぼすべてのニューラルネットワークに適用できます。

この結果に基づいて、著者は私たちに次のような自問自答を投げかけています。「将来、ニューラルネットワークをトレーニングするために SGD や Adam が必要になるでしょうか?」

「私たちは、手作業で設計されたオプティマイザーを、単一のフォワードパスでほぼすべてのニューラルネットワークのパラメータを予測できる単一のメタモデルに置き換えることに一歩近づきました。」

驚くべきことに、このメタモデルは、ResNet-50 のようなネットワークを (トレーニングデータとして) 一切受け取ることなくトレーニングされました。

このメタモデルの適用範囲は広く、ResNet-50 だけでなく、ResNet-101、ResNet-152、Wide-ResNets、Visual Transformers のすべてのパラメータを予測でき、「すべてが利用可能」です。 CIFAR-10 だけでなく、ImageNet などの大規模なデータセットでも良い結果が得られます。

同時に、効率も非常に優れています。メタモデルは、特定のネットワークのすべてのパラメータを平均 1 秒未満で予測できます。これは、CPU でも驚くほど高速です。

しかし、ただで得られるものはないので、メタモデルが他の異なるタイプのアーキテクチャを予測する場合、予測されるパラメータはあまり正確ではありません（ランダムになることもあります）。一般的に言えば、トレーニング分布から離れるほど（図の緑色のボックスを参照）、予測結果は悪くなります。

ただし、予測されたパラメータを使用したネットワークの分類精度が低い場合でも絶望しないでください。

これまでのようにランダムな初期化を必要とせず、適切な初期化パラメータを持つモデルとしてこれを使用することができ、「特に少数ショットの学習タスクでは、この転移学習の恩恵を受けることができます。」

著者らはまた、「グラフニューラルネットワークのファンとして」、メタモデルとして GNN を特に選択したと述べています。このモデルは、Chris Zhang、Mengye Ren、Raquel Urtasun による ICLR 2019 論文「Graph HyperNetworks for Neural Architecture Search」に基づいています。

論文アドレス: https://arxiv.org/abs/1810.05749

これらに基づいて、著者らはより優れた一般化能力を備えた新しいモデルGHN-2を開発し、トレーニングしました。

つまり、複数のアーキテクチャで GHN パラメータを更新し、予測パラメータを適切に正規化し、グラフ内の長距離相互作用を改善し、収束を改善することが重要です。

GHN-2 をトレーニングするために、著者らはニューラルアーキテクチャデータセットであるDeepNets-1Mを導入しました。

このデータセットは、トレーニングセット、検証セット、テストセットの 3 つの部分に分かれています。さらに、分布外テストには、より広く、より深く、より高密度で、正規化されていないネットワークを使用しました。

著者らは、DeepNets-1M はさまざまなグラフニューラルネットワーク (GNN) をベンチマークするための優れたテストベッドとして機能できると付け加えています。「当社の PyTorch コードを使用すると、任意の GNN (Gated GNN 以外) を簡単にプラグインできるはずです。」

GHN-2 は、パラメータ予測タスクを解決し、ネットワークの初期化に使用されるだけでなく、ニューラルアーキテクチャの検索にも使用できます。「GHN-2 は、最も正確で、最も堅牢 (ガウスノイズに関して) で、最も効率的で、トレーニングが最も簡単なネットワークを検索します。」

この論文は NeurIPS 2021 に掲載されており、研究者はグエルフ大学、トロント大学のベクトル人工知能研究所、CIFAR、FAIR、マギル大学の研究者です。

論文アドレス: https://arxiv.org/pdf/2110.13100.pdf

このプロジェクトはオープンソース化もされているので、急いでこのニューラルネットワークオプティマイザーに敬意を表しましょう。

プロジェクトアドレス: https://github.com/facebookresearch/ppuda

1.モデルの詳細説明

大規模なラベル付きデータセット (ImageNet など) でディープニューラルネットワークをトレーニングする問題を考えてみましょう。この問題は、特定のニューラルネットワーク a の最適なパラメーター w を見つけることとして形式化できます。

損失関数は通常、SGD や Adam などの反復最適化アルゴリズムによって最小化され、アーキテクチャ a のパフォーマンスパラメーター w_p に収束します。

トレーニング速度と収束の改善は進んでいるものの、大規模な機械学習パイプラインでは w_p の取得が依然としてボトルネックとなっています。

たとえば、ImageNet で ResNet-50 をトレーニングすると、かなりの GPU 時間が必要になる場合があります。

ネットワークのサイズが大きくなり、ネットワークを繰り返しトレーニングする必要が生じると (ハイパーパラメータやアーキテクチャの検索など)、w_p を取得するプロセスは計算上持続不可能になります。

新しいパラメータ予測タスクでは、新しいアーキテクチャ a のパラメータを最適化するときに、一般的な最適化プログラムは、過去に他のネットワークを最適化したときに得られた経験を無視します。

ただし、過去の経験を活用することが、反復的な最適化への依存を減らし、高い計算要件を削減する鍵となる可能性があります。

この方向に進むために、研究者らはハイパーネットワーク HD の単一の順方向伝播を使用した反復最適化という新しいタスクを提案しました。

このタスクを解決するために、HD は他のネットワークの過去の最適化から得た知識を活用します。

たとえば、CIFAR-10 および ImageNet 画像分類データセット D を考えます。ここで、テストセットのパフォーマンスは、テスト画像の分類精度です。

HD に他のネットワークを最適化する方法を教える簡単な方法は、[アーキテクチャ、パラメータ] ペアの大規模なトレーニングセットでトレーニングすることですが、このプロセスは非常に困難です。

そのため、研究者はメタ学習で一般的な 2 レベル最適化パラダイムに従います。つまり、M 個のタスクを反復する代わりに、単一のタスク (画像分類など) で M 個のトレーニングアーキテクチャを反復します。

図 0: オリジナルの GHN アーキテクチャの概要。 A: ニューラルネットワークアーキテクチャをランダムにサンプリングして GHN を生成します。 B: グラフ伝播後、GHN 内の各ノードは独自の重みパラメータを生成します。 C: GHN をトレーニングすることにより、生成重みを使用してサンプリングされたネットワークのトレーニング損失を最小限に抑えます。生成されたネットワークのパフォーマンスで並べ替えます。出典: https://arxiv.org/abs/1810.05749

最適化を通じて、ハイパーネットワーク HD は、トレーニングされたアーキテクチャのパフォーマンスパラメータを予測する方法に関する知識を徐々に獲得し、テスト時に活用できるようになります。

このためには、アーキテクチャ空間 F と HD を設計する必要があります。

F では、既存のニューラルアーキテクチャ設計スペースを基盤として、さまざまなアーキテクチャをサンプリングする機能と、ResNet や Visual Transformers などの複数のアーキテクチャを含む拡張設計スペースという 2 つの方法で拡張しています。

このようなアーキテクチャは、計算グラフの形式で完全に記述できます (図 1)。

したがって、ハイパーネットワーク HD を設計するには、グラフ構造データに対する機械学習の最近の進歩に頼ることになります。

特に、研究者のソリューションは、グラフハイパーネットワーク (GHN) アプローチに基づいています。

多様なアーキテクチャ空間 F を設計し、GHN を改善することで、GHN-2 は、未知のアーキテクチャを予測する際の画像認識精度を、CIFAR-10 と ImageNet でそれぞれ 77% (トップ 1) と 48% (トップ 5) に向上させます。

驚くべきことに、GHN-2 は分布外一般化が良好で、トレーニングセット内のアーキテクチャよりも大きく深いアーキテクチャに対しても良好なパラメータを予測します。

たとえば、GHN-2 は、GPU または CPU 上で 1 秒未満で ResNet-50 の 2,400 万個のパラメータすべてを予測でき、勾配更新なしで CIFAR-10 で約 60% の精度を達成します (図 1、(b))。

全体として、このフレームワークと結果は、ネットワークのトレーニングのための新しい、より効率的なパラダイムを切り開きます。

この論文の貢献は次のとおりです。

(a) 単一のハイパーネットワーク順方向伝播を使用して、さまざまなフィードフォワードニューラルネットワークのパフォーマンスパラメータを予測する新しいタスクが導入されています。

（b）タスクの進捗状況を追跡するための分布内および分布外データを含む標準化されたベンチマークであるDEEPNETS-1Mデータセットを導入した。

（c）いくつかのベースラインが定義され、GHN-2モデルが提案されており、これはCIFAR-10とImageNetで驚くほど優れたパフォーマンスを発揮する（セクション5.1）。

（d）メタモデルはニューラルネットワークアーキテクチャの適切な表現を学習し、ニューラルネットワークの初期化に役立ちます。

図1: GHNモデルの概要

上の図 1 (a) は、GHN モデルの概要を示しています (詳細についてはセクション 4 を参照)。指定された画像データセットと DEEPNETS-1M アーキテクチャデータセットに基づいて、GHN モデルはバックプロパゲーションによってトレーニングされ、画像分類モデルのパラメータを予測します。

研究者がバニラ GHN に加えた主な改良点には、メタバッチ処理、仮想エッジ、パラメータ正規化などがあります。

このうち、メタバッチ処理は GHN のトレーニング時にのみ使用され、仮想エッジとパラメータ正規化はトレーニングとテスト中に使用されます。 a1の可視化計算グラフを表1に示す。

図1(b)は、GHNによって予測されたResNet-50のすべてのパラメータの分類精度と、SGDを使用してパラメータをトレーニングした場合の分類精度を比較しています。パラメータを自動的に予測することによって得られるネットワークの精度は、手動でトレーニングされたネットワークの精度に比べるとまだはるかに低いですが、優れた初期化方法として機能します。

2.実験: パラメータ予測

GHN-2 はテストアーキテクチャを観察したことがありませんが、テストアーキテクチャの適切なパラメータを予測し、テストネットワークが両方の画像データセットで驚くほど優れたパフォーマンスを発揮するようにしています (表 3 および 4)。

表3: DEEPNETS-1M (CIFAR-10) 上の未知のIDおよびOODアーキテクチャに対するGHN-2の予測パラメータ結果

表4: DEEPNETS-1M上のGHN-1、GHN-2、MLPに基づくメタモデルの結果と、SGDとAdamオプティマイザーを使用した分類器のトレーニング結果（ImageNetデータセット）

その中で、CIFAR-10 の結果は特に優れており、一部の予測パラメータアーキテクチャの精度は 77.1% に達しましたが、50 エポックの SGD トレーニングを使用した場合の最高精度は約 15% でした。

GHN-2 は ImageNet でも良好な結果を示しており、一部のアーキテクチャでは最大 48.3% のトップ 5 精度が達成されています。

これらの結果は直接的な下流アプリケーションには不十分ですが、主に 3 つの理由から非常に興味深いものです。

まず、SGD を介してアーキテクチャ F をトレーニングするという法外に高価なプロセスに依存しません。

2 番目に、GHN は単一のフォワードパスを使用してすべてのパラメータを予測します。

第三に、これらの結果は、OOD アーキテクチャを含む未知のアーキテクチャに対して得られます。分布のシフトが激しい場合 (ResNet-506 など) や表現が不十分なネットワーク (ViT7 など) の場合でも、GHN-2 はランダムよりも優れたパフォーマンスを発揮するパラメータを予測できます。

CIFAR-10 では、GHN-2 は特に一般化が優れており、ResNet-50 では 58.6% の精度を達成しています。

両方の画像データセットにおいて、GHN-2 は DEEPNETS-1M のすべてのテストサブセットで GHN-1 を大幅に上回り、BN-FREE ネットワークでは 36.8% 対 13.7% など、絶対的なゲインが 20% を超えるケースもありました (表 3)。

計算グラフの構造を活用することは、GHN の重要な機能です。GHN-2 の GatedGNN を MLP に置き換えると、ID (および OOD) アーキテクチャの精度は 66.9% から 42.2% に低下します。

反復最適化手法と比較すると、GHN-2 は、CIFAR-10 と ImageNet でそれぞれ約 2500 回と約 5000 回の反復を行った後、SGD と同等の精度でパラメータを予測します。

対照的に、GHN-1 のパフォーマンスは、それぞれ約 500 回と約 2000 回の反復でも同様です (表 4 には示されていません)。

アブレーション実験（表5）は、セクション4で提案された3つのコンポーネントすべてが重要であることを示しています。

表5: CIFAR-10におけるGHN-2の除去、すべてのIDおよびOODテストアーキテクチャにわたるモデルの平均ランキングの計算

要約: GHN-2 は、必要な AI モデルを数秒でトレーニングできるグラフニューラルネットワークオプティマイザーです。従来のオプティマイザーと比較すると、はるかに高速で、計算能力と時間を節約できます。得られたモデル効果が最適でない場合でも、適切な初期化方法として使用できます。

<<: Nature: ハーバード大学とオックスフォード大学が最新のAIモデルを開発、3600万の致命的な遺伝子変異を予測

>>: AIoT: IoTと人工知能の完璧な組み合わせ

SGD を AI に置き換える? ResNet-50 をトレーニングする必要がなく、AI が 2400 万のパラメータすべてを数秒で 60% の精度で予測します。

OpenAIがSoraを発表: 現実を再定義する画期的なビデオ生成モデル

Java プログラミングスキル - データ構造とアルゴリズム「スレッドバイナリツリー」

GPTストアはオンラインになるとすぐに混乱に陥り、偽造品、偽のトラフィック、禁止されたコンテンツが次々と出現します

心でタイピング、中国で脳コンピューターインターフェースの新記録が樹立されました！

エッジAIがスマートホームの未来である理由

AIが建物の快適性に革命を起こす

機械学習を拡張するための5つのポイント

Google がニューラルネットワークコーデック SoundStream を発表、オープンソースプロジェクト Lyra に統合される予定

推薦する

AIは人間の雇用を脅かすものではなく、成長と革新の触媒である

EU AI法が規則を承認

西夏文字の認識を例にとると、人工知能は歴史理解にどのように役立つか

SurfelGAN でメタバースを作成する車の脳を訓練するためにシムシティを立ち上げるお金がないからですか?

オープンソースAIとプロプライエタリAIの戦い

WOT2018 Xian Yunsen: O2O検索にはアルゴリズムがあふれている

XiaoIceが11人のAI歌手を一気にリリース：プロの歌手に匹敵するにはたった45日間のトレーニングが必要

Google は、ロボットにゴミを捨てることを教えることができる視覚言語アクションモデル RT-2 をリリースしました。

顔認識にもマスターキーはあるのでしょうか？