ニューラル アーキテクチャ検索は、常に高い計算能力の代表例と考えられてきました。微分可能アーキテクチャ検索の概念は非常に魅力的ですが、現在の効率と有効性はまだ不十分です。最近のAAAI 2020では、Fourth ParadigmがProximal Iterationsに基づくNAS方式を提案しました。これはDARTSよりも10倍以上高速です。
ニューラル アーキテクチャ サーチ (NAS) は、手作業で作成されたアーキテクチャよりも優れたアーキテクチャを識別できるため、大きな注目を集めています。近年、微分可能探索法は、数日以内に高性能な NAS を実現できるため、研究のホットスポットとなっています。しかし、スーパーネットワークの構築により、依然として膨大な計算コストと低いパフォーマンスという問題に直面しています。 本稿では、ニアエンド反復 (NASP) に基づく効率的な NAS 方式を提案します。これまでの研究とは異なり、NASP は、離散制約とモデルの複雑さの正規化を伴う最適化問題として検索プロセスを再定式化します。新しい目的は解決が難しいため、近接ヒューリスティックによって最適化された効率的なアルゴリズムをさらに提案します。 このように、NASP は既存の微分可能検索方法よりも高速であるだけでなく、より優れたアーキテクチャを見つけてモデルの複雑さのバランスをとることもできます。最終的に、さまざまなタスクに関する多数の実験により、NASP はテスト精度と計算効率の両方で優れたパフォーマンスを実現し、DARTS などの既存のテクノロジーよりも 10 倍以上高速でありながら、より優れたモデル構造を発見できることが示されました。さらに、NASP は操作間の依存関係を排除します。
さらに、WWW 2020 の論文「協調フィルタリングのための効率的なニューラル相互作用関数の検索」では、NASP アルゴリズムを推奨システムの分野に適用しました。
超高速ニューラルアーキテクチャ探索に向けて ディープ ネットワークは、優れたパフォーマンスを確保するために適切なアーキテクチャが重要な多くのアプリケーションに適用されてきました。近年、NAS は、より少ないパラメータでより優れたパフォーマンスを持つネットワークを見つけることができるため、注目され研究されている話題となっています。この方法は、アーキテクチャの設計において人間の専門家に取って代わることができます。 NASNet はこの分野における先駆的な研究であり、畳み込みニューラル ネットワーク (CNN) を多段階の意思決定問題として設計し、強化学習を使用してそれを解決します。 しかし、探索空間は離散的かつ巨大であるため、NASNet では満足のいくネットワーク構造を得るために数百の GPU と 1 か月が必要になります。その後、ネットワークが小規模から大規模にうまく転送されることを観察し、NASNetA) はネットワークをブロックに分割し、ブロックまたはセル内で検索することを提案しました。識別されたユニットは、大規模なネットワークを組み立てるための構成要素として使用されます。この 2 段階の検索戦略により、検索空間のサイズが大幅に縮小され、進化アルゴリズム、貪欲アルゴリズム、強化学習などの検索アルゴリズムが大幅に高速化されます。 検索空間は縮小されますが、依然として離散的であり、効率的に検索することが難しい場合がよくあります。最近の研究では、検索空間を離散的から微分可能に変換する方法に焦点が当てられています。このアイデアの利点は、微分可能空間で勾配情報を計算できるため、最適化アルゴリズムの収束速度が速まることです。 このアイデアは、Softmax の設計選択をスムーズにし、一連のネットワークをトレーニングする DARTS や、スムーズなサンプリング スキームを通じて強化学習を強化する SNAS など、さまざまな手法につながっています。 NAO はオートエンコーダを使用して、検索空間を新しい微分可能空間にマッピングします。 これらすべての研究(表1)の中で、DARTS [1]は微分可能性と小さな探索空間の利点を組み合わせてセル内で高速な勾配降下法を実現するため、最も優れています。しかし、その検索効率とアーキテクチャの識別パフォーマンスはまだ十分満足できるものではありません。 検索中にスーパーネットが維持されるため、計算の観点からは、勾配降下プロセス中にすべての操作を前方および後方に伝播する必要があります。パフォーマンスの観点から見ると、操作は相互に関連していることがよくあります。たとえば、7x7 畳み込みフィルターは、3x3 フィルターをカバーする特別なケースとして使用できます。ネットワークの重みを更新すると、DARTS によって構築されたアンサンブルによって、劣ったアーキテクチャが発見される可能性があります。 さらに、検索後に DARTS の最終的な構造を再決定する必要があります。これにより、検索されたアーキテクチャと最終的なアーキテクチャの間に偏りが生じ、最終的なアーキテクチャのパフォーマンスが低下する可能性があります。 より速く、より強力な反復 この研究では、Fourth Paradigmは、既存の微分探索法の効率と性能を向上させるために、近似勾配アルゴリズム[2]に基づくNAS法(NASP)を提案した。離散構造を維持しながら微分可能空間での探索を可能にする NAS 問題の新しい定式化と最適化アルゴリズムを提供します。この方法により、NASP はスーパーネットをトレーニングする必要がなくなり、検索が高速化され、より優れたネットワーク構造が生成されます。 この研究の貢献は次のとおりです。
具体的なアルゴリズムは次のとおりです。 3 番目のステップでは、近接反復演算子を使用して離散構造を生成します。次に、4 番目のステップで、連続構造パラメータを更新します (シングルステップ勾配降下法、2 次近似なし)。最後に、離散ネットワーク構造の下でネットワークの重みを更新します。 実験結果 この研究では、CNN と RNN 構造の検索を実験します。この実験では、CIFAR-10、ImageNet、PTB、WT2 の 4 つのデータセットを使用します。 CNN のアーキテクチャ検索 1. CIFAR-10上の細胞の検索 CIFAR-10 の検索アーキテクチャは同じで、畳み込みユニットは N = 7 ノードで構成され、ネットワークはユニットを 8 回積み重ねることによって得られます。検索プロセス中に、8 つのユニットを積み重ねた 50 サイクルの小さなネットワークをトレーニングしました。ここでは 2 つの異なる検索空間が考慮されます。最初のものは DARTS と同じで、7 つの操作が含まれています。 2 番目はより大きく、12 個の操作が含まれています。 最先端の NAS 方式と比較すると、NASP は DARTS (2 次) と同等のパフォーマンスを発揮し、同じ空間 (7 つの操作) では DARTS (1 次) よりもはるかに優れています。より大きな空間 (12 操作) では、NASP は依然として DARTS よりもはるかに高速であり、他の方法よりもテスト エラーがはるかに低くなります。 上記の実験では、研究者はモデルの複雑さを正規化し、η = 0 に設定しました。結果は、η が増加するにつれてモデル サイズが減少することを示しています。 2. ImageNetへの移行 実験では、ImageNet 上で検索されたユニットの転送能力を調べるために、検索されたユニットを 14 回積み重ねました。特に、NASP は最先端の方法で競争力のあるテスト エラーを達成できます。 RNN のアーキテクチャ検索 1. PTBでユニットを検索する DARTS の設定によれば、再帰ユニットは N = 12 個のノードで構成され、最初の中間ノードは 2 つの入力ノードを線形変換し、その結果を加算してから tanh 活性化関数に渡すことによって取得され、最初の中間ノードの結果は活性化関数によって変換される必要があります。 検索中、シーケンス長 35 の小さなネットワークを 50 エポックにわたってトレーニングしました。 PTB で検索されたユニットのパフォーマンスを評価するために、単層の再帰型ネットワークを、バッチ サイズ 64 で収束するまで、見つかったユニットを使用して最大 8000 エポックトレーニングします。実験結果によると、DARTS の 2 次テストは 1 次テストよりもはるかに遅く、NASP は DARTS よりもはるかに高速であるだけでなく、他の最先端の方法と同等のテスト パフォーマンスを達成できることがわかりました。 モデル簡素化テスト 1. DARTSとの比較 実験では、ネットワーク パラメーター (つまり、w) とアーキテクチャ (つまり、A) の更新に関する詳細な比較を示します。同じ検索時間で、NASP はより高い精度を達成でき、同じ精度を得るのにかかる時間は NASP の方が短くなります。これにより、NASP が DARTS よりも効率的であることがさらに証明されます。 2. 同時期の作業との比較 同時期の研究との比較も実験に含まれていました。 ASAPとBayesNAS[13]は、NASをネットワーク剪定問題として定式化し、検索プロセス中に非効率的な操作を削除します。 ASNG と GDAS はどちらも、検索空間でランダム緩和を実行します。違いは、ASNG は最適化に自然勾配降下法を使用するのに対し、GDAS は勾配降下法に Gumbel-Max 手法を使用することです。この実験では、NASP をこれらの研究と比較し、NASP の方が効果的であり、CNN タスクでより優れたパフォーマンスを提供できることを示しています。さらに、NASP は RNN にも適用できます。 [1] Liu, H.; Simonyan, K.; Yang, Y. DARTS: 微分可能アーキテクチャ検索。ICLR 2019 |
>>: パフォーマンスが最大480倍向上:Armが2つの新しいAIエッジコンピューティングチップ設計を発表
人工知能は、スマート音声アシスタントが私たちの日常生活でどのように使用されるかを真に変えましたが、私...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
ご存知のとおり、現在業界で最も強力な (SOTA) ディープラーニング モデルは、膨大な量のビデオ ...
近年、人工知能への熱狂が多くの業界を席巻しており、ロボット工学の分野も例外ではありません。人工知能技...
日用消費財業界の商品識別需要シナリオでは、日用消費財ブランドの営業担当者は、販売のために端末店舗を訪...
まとめ現在、さまざまな業界がデジタルビジネスシナリオを実装または強化するために機械学習機能を構築して...
よりスマートで高速なサービスを求めて、IT 部門は社内のサービス提供を改善するための新しい方法とプロ...
テクノロジー・トラベラーは2月10日、北京から次のように報じた。「人工知能技術はコーディング開発の結...
ほんの数日前、ベンジオ氏と他の有力者グループは、人工知能が人類の運命を危険にさらす可能性があるという...
ビジネス インテリジェンス (BI) プラットフォームは常に進化しています。企業は、人工知能と機械学...