微分可能アーキテクチャ検索DARTSより10倍高速な、Fourth Paradigmが最適化されたNASアルゴリズムを提案

ニューラルアーキテクチャ検索は、常に高い計算能力の代表例と考えられてきました。微分可能アーキテクチャ検索の概念は非常に魅力的ですが、現在の効率と有効性はまだ不十分です。最近のAAAI 2020では、Fourth ParadigmがProximal Iterationsに基づくNAS方式を提案しました。これはDARTSよりも10倍以上高速です。

[[314763]]

ニューラルアーキテクチャサーチ (NAS) は、手作業で作成されたアーキテクチャよりも優れたアーキテクチャを識別できるため、大きな注目を集めています。近年、微分可能探索法は、数日以内に高性能な NAS を実現できるため、研究のホットスポットとなっています。しかし、スーパーネットワークの構築により、依然として膨大な計算コストと低いパフォーマンスという問題に直面しています。

本稿では、ニアエンド反復 (NASP) に基づく効率的な NAS 方式を提案します。これまでの研究とは異なり、NASP は、離散制約とモデルの複雑さの正規化を伴う最適化問題として検索プロセスを再定式化します。新しい目的は解決が難しいため、近接ヒューリスティックによって最適化された効率的なアルゴリズムをさらに提案します。

このように、NASP は既存の微分可能検索方法よりも高速であるだけでなく、より優れたアーキテクチャを見つけてモデルの複雑さのバランスをとることもできます。最終的に、さまざまなタスクに関する多数の実験により、NASP はテスト精度と計算効率の両方で優れたパフォーマンスを実現し、DARTS などの既存のテクノロジーよりも 10 倍以上高速でありながら、より優れたモデル構造を発見できることが示されました。さらに、NASP は操作間の依存関係を排除します。

論文: https://arxiv.org/abs/1905.13577
コード: https://github.com/xujinfan/NASP-codes

さらに、WWW 2020 の論文「協調フィルタリングのための効率的なニューラル相互作用関数の検索」では、NASP アルゴリズムを推奨システムの分野に適用しました。

ビデオ: https://www.tuijianxitong.cn/cn/school/video/26
パワーポイント: https://www.tuijianxitong.cn/cn/school/openclass/27
論文: https://arxiv.org/pdf/1906.12091
コード: https://github.com/quanmingyao/SIF

超高速ニューラルアーキテクチャ探索に向けて

ディープネットワークは、優れたパフォーマンスを確保するために適切なアーキテクチャが重要な多くのアプリケーションに適用されてきました。近年、NAS は、より少ないパラメータでより優れたパフォーマンスを持つネットワークを見つけることができるため、注目され研究されている話題となっています。この方法は、アーキテクチャの設計において人間の専門家に取って代わることができます。

NASNet はこの分野における先駆的な研究であり、畳み込みニューラルネットワーク (CNN) を多段階の意思決定問題として設計し、強化学習を使用してそれを解決します。

しかし、探索空間は離散的かつ巨大であるため、NASNet では満足のいくネットワーク構造を得るために数百の GPU と 1 か月が必要になります。その後、ネットワークが小規模から大規模にうまく転送されることを観察し、NASNetA) はネットワークをブロックに分割し、ブロックまたはセル内で検索することを提案しました。識別されたユニットは、大規模なネットワークを組み立てるための構成要素として使用されます。この 2 段階の検索戦略により、検索空間のサイズが大幅に縮小され、進化アルゴリズム、貪欲アルゴリズム、強化学習などの検索アルゴリズムが大幅に高速化されます。

検索空間は縮小されますが、依然として離散的であり、効率的に検索することが難しい場合がよくあります。最近の研究では、検索空間を離散的から微分可能に変換する方法に焦点が当てられています。このアイデアの利点は、微分可能空間で勾配情報を計算できるため、最適化アルゴリズムの収束速度が速まることです。

このアイデアは、Softmax の設計選択をスムーズにし、一連のネットワークをトレーニングする DARTS や、スムーズなサンプリングスキームを通じて強化学習を強化する SNAS など、さまざまな手法につながっています。 NAO はオートエンコーダを使用して、検索空間を新しい微分可能空間にマッピングします。

これらすべての研究（表1）の中で、DARTS [1]は微分可能性と小さな探索空間の利点を組み合わせてセル内で高速な勾配降下法を実現するため、最も優れています。しかし、その検索効率とアーキテクチャの識別パフォーマンスはまだ十分満足できるものではありません。

検索中にスーパーネットが維持されるため、計算の観点からは、勾配降下プロセス中にすべての操作を前方および後方に伝播する必要があります。パフォーマンスの観点から見ると、操作は相互に関連していることがよくあります。たとえば、7x7 畳み込みフィルターは、3x3 フィルターをカバーする特別なケースとして使用できます。ネットワークの重みを更新すると、DARTS によって構築されたアンサンブルによって、劣ったアーキテクチャが発見される可能性があります。

さらに、検索後に DARTS の最終的な構造を再決定する必要があります。これにより、検索されたアーキテクチャと最終的なアーキテクチャの間に偏りが生じ、最終的なアーキテクチャのパフォーマンスが低下する可能性があります。

より速く、より強力な反復

この研究では、Fourth Paradigmは、既存の微分探索法の効率と性能を向上させるために、近似勾配アルゴリズム[2]に基づくNAS法（NASP）を提案した。離散構造を維持しながら微分可能空間での探索を可能にする NAS 問題の新しい定式化と最適化アルゴリズムを提供します。この方法により、NASP はスーパーネットをトレーニングする必要がなくなり、検索が高速化され、より優れたネットワーク構造が生成されます。

この研究の貢献は次のとおりです。

これまで一般的に議論されてきた検索空間、完全性、モデルの複雑さに加えて、この研究では、NAS がアーキテクチャに課す制約という新しい重要な要素を特定しています。
我々は NAS を制約付き最適化問題として定式化し、空間を微分可能に保ちながら、検索中にアーキテクチャが離散的になるように強制します。つまり、勾配の逆伝播中に少数のアクティベーションを維持しようとします。これにより、検索効率が向上し、トレーニング中にさまざまな操作を分離できるようになります。ネットワーク構造のサイズを制御するために、新しい目的関数に正則化子も導入されます。
このような離散的な制約は最適化が難しく、単純な DARTS 適応は適用できません。したがって、第 4 パラダイムでは、近似反復から派生した新しい最適化アルゴリズムを提案し、DARTS で必要な高価な 2 次近似を排除します。アルゴリズムの収束を確実にするために、さらに理論分析を行います。
最後に、CNN および RNN アーキテクチャの設計において、さまざまなベンチマークデータセットを使用して実験を実施しました。最先端の方法と比較すると、提案された NASP は高速であるだけでなく (DARTS より 10 倍以上高速)、より優れたモデル構造を発見することもできます。実験結果によると、NASP はテスト精度と計算効率の両方で優れたパフォーマンスを達成できることがわかりました。

具体的なアルゴリズムは次のとおりです。

3 番目のステップでは、近接反復演算子を使用して離散構造を生成します。次に、4 番目のステップで、連続構造パラメータを更新します (シングルステップ勾配降下法、2 次近似なし)。最後に、離散ネットワーク構造の下でネットワークの重みを更新します。

実験結果

この研究では、CNN と RNN 構造の検索を実験します。この実験では、CIFAR-10、ImageNet、PTB、WT2 の 4 つのデータセットを使用します。

CNN のアーキテクチャ検索

1. CIFAR-10上の細胞の検索

CIFAR-10 の検索アーキテクチャは同じで、畳み込みユニットは N = 7 ノードで構成され、ネットワークはユニットを 8 回積み重ねることによって得られます。検索プロセス中に、8 つのユニットを積み重ねた 50 サイクルの小さなネットワークをトレーニングしました。ここでは 2 つの異なる検索空間が考慮されます。最初のものは DARTS と同じで、7 つの操作が含まれています。 2 番目はより大きく、12 個の操作が含まれています。

最先端の NAS 方式と比較すると、NASP は DARTS (2 次) と同等のパフォーマンスを発揮し、同じ空間 (7 つの操作) では DARTS (1 次) よりもはるかに優れています。より大きな空間 (12 操作) では、NASP は依然として DARTS よりもはるかに高速であり、他の方法よりもテストエラーがはるかに低くなります。

上記の実験では、研究者はモデルの複雑さを正規化し、η = 0 に設定しました。結果は、η が増加するにつれてモデルサイズが減少することを示しています。

2. ImageNetへの移行

実験では、ImageNet 上で検索されたユニットの転送能力を調べるために、検索されたユニットを 14 回積み重ねました。特に、NASP は最先端の方法で競争力のあるテストエラーを達成できます。

RNN のアーキテクチャ検索

1. PTBでユニットを検索する

DARTS の設定によれば、再帰ユニットは N = 12 個のノードで構成され、最初の中間ノードは 2 つの入力ノードを線形変換し、その結果を加算してから tanh 活性化関数に渡すことによって取得され、最初の中間ノードの結果は活性化関数によって変換される必要があります。

検索中、シーケンス長 35 の小さなネットワークを 50 エポックにわたってトレーニングしました。 PTB で検索されたユニットのパフォーマンスを評価するために、単層の再帰型ネットワークを、バッチサイズ 64 で収束するまで、見つかったユニットを使用して最大 8000 エポックトレーニングします。実験結果によると、DARTS の 2 次テストは 1 次テストよりもはるかに遅く、NASP は DARTS よりもはるかに高速であるだけでなく、他の最先端の方法と同等のテストパフォーマンスを達成できることがわかりました。

モデル簡素化テスト

1. DARTSとの比較

実験では、ネットワークパラメーター (つまり、w) とアーキテクチャ (つまり、A) の更新に関する詳細な比較を示します。同じ検索時間で、NASP はより高い精度を達成でき、同じ精度を得るのにかかる時間は NASP の方が短くなります。これにより、NASP が DARTS よりも効率的であることがさらに証明されます。

2. 同時期の作業との比較

同時期の研究との比較も実験に含まれていました。 ASAPとBayesNAS[13]は、NASをネットワーク剪定問題として定式化し、検索プロセス中に非効率的な操作を削除します。 ASNG と GDAS はどちらも、検索空間でランダム緩和を実行します。違いは、ASNG は最適化に自然勾配降下法を使用するのに対し、GDAS は勾配降下法に Gumbel-Max 手法を使用することです。この実験では、NASP をこれらの研究と比較し、NASP の方が効果的であり、CNN タスクでより優れたパフォーマンスを提供できることを示しています。さらに、NASP は RNN にも適用できます。

[1] Liu, H.; Simonyan, K.; Yang, Y. DARTS: 微分可能アーキテクチャ検索。ICLR 2019
[2] パリク、N.、ボイド、S. 近接アルゴリズム。最適化の基礎と動向 2013

<<: 顔認識の背後にあるもの：怖いのは技術ではなく…

>>: パフォーマンスが最大480倍向上：Armが2つの新しいAIエッジコンピューティングチップ設計を発表

Google のビッグモデル研究は大きな論争に巻き込まれている。トレーニングデータを超えて一般化することはまったくできないのだろうか?ネットユーザー：AGIシンギュラリティは延期された

微分可能アーキテクチャ検索DARTSより10倍高速な、Fourth Paradigmが最適化されたNASアルゴリズムを提案

Google のビッグモデル研究は大きな論争に巻き込まれている。トレーニングデータを超えて一般化することはまったくできないのだろうか?ネットユーザー：AGIシンギュラリティは延期された

スイス再保険：AI を活用して保険対応プロセスを効率化

企業は2024年に台頭するテクノロジーの波にどのように対応すべきでしょうか?

エンタープライズソフトウェアベンダーのジェネレーティブ AI への取り組み

Tik Tok ダンスでは、実際の人物がカメラに映る必要はなく、1 枚の写真だけで高品質のビデオを生成できます。バイトダンスの新技術をCTOと一緒に体験する機会も

Googleはプライバシーポリシーを更新し、インターネット上の公開データをAIの訓練に利用していることを明確にした。

データ構造とアルゴリズム: グラフ構造

一般的な機械学習アルゴリズム11種の紹介

推薦する

エンタープライズナレッジグラフが直面している機会、課題、解決策

大規模機械学習の台頭と「ゼロトラスト」アーキテクチャの出現、2021年の9つの主要な技術トレンド

AIに切り替えたい人向け：人工知能ガイドはこちら

ChatGPTはどんどん怠惰になり、代わりにPUA人間を学習しました

調査によると、ヨーロッパ人はロボットに対してますます懐疑的になっている

ビッグデータと人工知能の関係、総合的な分析

あなたの「顔」が格安で販売されています！顔認識に大きな抜け穴？

AI時代のRedis

Meta AI Zeng Hanqing: サブグラフニューラルネットワークのスケーラブルなアプリケーションと表現力豊かなアプリケーション

人工知能を人間化して、その信頼性を確立するにはどうすればよいでしょうか?

TinyML: 次世代の AI 革命