鶏が先か卵が先か: ニューラルアーキテクチャ探索手法の概要

Google のプログレッシブアーキテクチャ検索から CMU の微分化可能アーキテクチャ検索まで、ニューラルネットワークを使用してさまざまなニューラルネットワークアーキテクチャを自動的に構築する方法は、広く注目を集めています。最近、フライブルク大学の研究者らが、さまざまなニューラルアーキテクチャ検索手法の概要を示す論文を発表しました。研究者らは、ニューラルネットワークの検索空間、検索戦略、パフォーマンス評価戦略という 3 つの方向から、さまざまなアイデアと手法を検討しました。

[[241103]]

認識タスクにおけるディープラーニングの成功は、主に特徴エンジニアリングプロセスの自動化によるものです。階層的な特徴抽出器は、手作業で設計されるのではなく、エンドツーエンドでデータから学習されます。しかし、この成功に伴い、アーキテクチャエンジニアリングの需要が高まり、より複雑なニューラルアーキテクチャが手作業で設計されるようになりました。ニューラルアーキテクチャサーチ (NAS) は、自動化されたアーキテクチャエンジニアリングプロセスであり、自動化された機械学習における論理的な次のステップです。 NAS は、ハイパーパラメータ最適化やメタ学習と多くの共通点を持つ AutoML のサブフィールドと見なすことができます。 NAS メソッドは、検索空間、検索戦略、パフォーマンス評価戦略という 3 つの次元で分類されます。

検索スペース。検索空間は、原理的に特徴付けることができるアーキテクチャを定義します。タスクのプロパティに関する事前の知識を組み込むことで、検索スペースのサイズを縮小し、検索を簡素化できます。しかし、そうすることで人間の偏見が生まれ、現在の人間の知識を超えた新しい建築構成要素の発見が妨げられます。
検索戦略。検索戦略では、検索空間を探索する方法を詳しく説明します。これには、典型的な「探索と活用」のトレードオフが伴います。一方では、パフォーマンスの高いアーキテクチャを迅速に見つける必要があり、他方では、最適ではないアーキテクチャの領域に時期尚早に収束することを避ける必要があります。
パフォーマンス評価戦略。 NAS の目標は、未知のデータに対して高い予測パフォーマンスを実現するアーキテクチャを見つけることです。パフォーマンス評価とは、このタイプのパフォーマンスを評価するプロセスを指します。最も簡単なオプションは、データ上で標準アーキテクチャをトレーニングして検証することですが、これは計算コストが高く、調査できるアーキテクチャの数に制限があります。そのため、最近の研究では、これらのパフォーマンス評価のコストを削減する方法の開発に重点が置かれています。

上記の 3 つの方向は、図 1 を参照して説明できます。この記事も、この 3 つの次元に基づいて構成されています。

図 1: ニューラルアーキテクチャ検索方法の図解。検索戦略は、事前定義された検索空間からアーキテクチャ A を選択します。このアーキテクチャはパフォーマンス評価戦略に渡され、パフォーマンス評価戦略は A の推定パフォーマンスを検索戦略に返します。

論文: ニューラルアーキテクチャ検索: 調査

論文アドレス: https://arxiv.org/abs/1808.05377v1

1. 要約

過去数年間で、ディープラーニングは画像認識、音声認識、機械翻訳など多くの分野で大きな進歩を遂げてきました。この進歩の重要な要因は、新しいニューラルアーキテクチャです。現在使用されているアーキテクチャのほとんどは専門家によって手作業で開発されており、時間がかかり、エラーが発生しやすいプロセスです。このため、自動ニューラルアーキテクチャ検索の方法に対する関心が高まっています。私たちはこの研究分野における既存の研究の概要を示し、それを検索空間、検索戦略、パフォーマンス評価戦略という 3 つの次元に沿って分類します。

2. 検索空間

検索空間は、NAS メソッドが原理的に検出できるニューラルアーキテクチャを定義します。ここでは、最近の研究活動でよく見られる検索空間について説明します。

チェーン構造のニューラルネットワーク空間は、図 2 (左) に示すように、比較的単純な検索空間です。チェーン構造のニューラルネットワークアーキテクチャ A は、n 層のシーケンスとして記述できます。ここで、i 番目の層は i-1 番目の層の出力を入力として受け取り、i 番目の層の出力は i+1 番目の層の入力として機能します。つまり、A = Ln ◦ . . . L1 ◦L0 です。次に、探索空間は、(i) 無制限の可能性がある最大層数 n、(ii) プーリング、畳み込み、または深さ方向に分離可能な畳み込み層 (Chollet、2016) や拡張畳み込み層 (Yu および Koltun、2016) などのより高度な層タイプなど、各層が実行できる操作の種類、および (iii) 畳み込み層のフィルター数、カーネルサイズ、ストライド、または完全に接続されたネットワークのユニット数 (Mendoza ら、2016) など、操作に関連付けられたハイパーパラメータによってパラメータ化されます。 (iii)のパラメータは(ii)に条件付けられているため、探索空間のパラメータ化された長さは固定ではなく条件付き空間になることに注意してください。

図2: さまざまな建築空間の概略図

図 2 の各ノードは、畳み込み層やプーリング層などのニューラルネットワーク内の層に対応します。異なるタイプのレイヤーは異なる色で表示されます。 L_i から L_j へのエッジは、L_i が L_j の出力を入力として受け取ることを意味します。左: 連鎖構造空間の要素。右: 追加のレイヤータイプ、複数のブランチ、スキップ接続を含む複雑な検索空間の要素。

NAS に関する最近の研究 (Brock et al, 2017; Elsken et al, 2017; Zoph et al, 2018; Elsken et al, 2018; Real et al, 2018; Cai et al, 2018b) では、スキップ接続などの手作りアーキテクチャからの既知の最新設計要素が組み込まれており、図 2 (右) に示すように、多くのブランチを持つ複雑なネットワークの構築が可能になります。

さまざまなプリミティブを使用したニューラルネットワークアーキテクチャの手動構築 (Szegedy ら、2016 年、He ら、2016 年、Huang ら、2017 年) に触発されて、Zoph ら (2018) は、アーキテクチャ全体ではなく、そのようなプリミティブ (セルと呼ぶ) を検索することを提案しました。彼らは、入力次元を保持する通常のユニットと、空間次元を削減する削減ユニットという 2 つの異なるタイプのユニットを最適化しました。図 3 に示すように、最終的なアーキテクチャは、これらのユニットを事前に定義された方法で積み重ねることによって構築されます。

図3: セル探索空間の図解

図 3、左: 2 つの異なるユニット: 通常のユニット (上) と縮小されたユニット (下) (Zoph et al、2018)。右：セルを連続的に積み重ねて構築された建築物。注: ユニットは、レイヤーをユニットに置き換えるだけで、たとえばマルチブランチスペースなどのより複雑な方法で組み合わせることもできます。

この検索空間には、上で説明した空間に比べて 2 つの大きな利点があります。

セルは比較的小さくなるため、検索スペースは大幅に縮小されます。たとえば、Zoph ら (2018) は、この検索空間は以前の研究 (Zoph and Le、2017) よりも 7 倍高速で、パフォーマンスが優れていると推定しました。
モデルで使用されるユニットの数を調整することで、ユニットを他のデータセットに簡単に転送できるようになります。 Zoph et al. (2018) は、CIFAR-10 の最適化されたユニットを ImageNet データセットに転送し、現在の最高のパフォーマンスを達成しました。

3. 検索戦略

ニューラルアーキテクチャの空間を探索するには、ランダム検索、ベイズ最適化、進化アルゴリズム、強化学習 (RL)、勾配ベースの方法など、さまざまな検索戦略を使用できます。歴史的に、進化アルゴリズムは数十年前に多くの研究者によってニューラル構造（およびその重み）を進化させるために使用されてきました。

NAS を強化学習の問題として定式化すると (Baker et al, 2017a; Zoph and Le, 2017; Zhong et al, 2018; Zoph et al, 2018)、ニューラルアーキテクチャの生成はエージェントによって選択されたアクションと見なすことができ、アクション空間は検索空間と同じになります。エージェントが受け取る報酬は、未知のデータに対するトレーニングされたアーキテクチャのパフォーマンスの評価に基づいています。さまざまな RL アプローチは、エージェントのポリシーを表現する方法と、それらを最適化する方法が異なります。Zoph と Le (2017) は、リカレントニューラルネットワーク (RNN) ポリシーを使用して、ニューラルアーキテクチャをエンコードする文字列からサンプルをシーケンスします。 Baker らは、層のタイプと対応するハイパーパラメータを順番に選択する Q 学習トレーニング戦略を使用しました。

Caiら[21]が提案した関連するアプローチは、NASを順次的な決定プロセスとして捉えている。彼らのアプローチでは、状態は現在の（部分的に訓練された）アーキテクチャであり、報酬はアーキテクチャのパフォーマンスの推定値であり、アクションは遺伝的アルゴリズムで適用される機能保存突然変異（ネットワークモルフィズムとも呼ばれる）に対応する。

RL を使用する別の代替手段は、ニューラルアーキテクチャを最適化するための進化アルゴリズムです。初期のニューロ進化アルゴリズムでは、遺伝的アルゴリズムを使用してニューラルアーキテクチャとその重みを最適化していましたが、何百万もの重みを持つ最新のニューラルアーキテクチャにスケーリングする際に失敗しました。

新しい神経進化アルゴリズム (Real et al, 2017; Suganuma et al, 2017; Liu et al, 2018a; Real et al, 2018; Miikkulainen et al, 2017; Xie and Yuille, 2017; Elsken et al, 2018) は、重みを最適化するために勾配ベースの方法を使用しますが、進化アルゴリズムはニューラル構造自体を最適化するためにのみ使用されます。

Real ら (2018) は、ユースケーススタディで強化学習、進化、ランダム検索を比較し、強化学習と進化は最終テストの精度の点では同等のパフォーマンスを発揮したが、時間の経過とともに進化のパフォーマンスが向上し、より合理化されたモデルが見つかったという結論に達しました。

ベイズ最適化 (BO) はハイパーパラメータ最適化のための最も一般的な方法の 1 つですが、一般的な BO ツールボックスはガウス過程に基づいており、低次元の連続最適化問題に焦点を当てているため、多くのグループによって NAS に適用されていません。アーキテクチャ検索空間は、進化 (Liu et al, 2018a) や順次モデルベースの最適化 (Liu et al, 2017) などの階層的な方法でも検索されてきました。

前述の勾配フリー最適化手法と比較して、Liu et al. (2018b) は、検索空間の連続緩和法を使用して勾配ベースの最適化を実装することを提案しました。特定のレイヤーで実行される単一の操作 O_i (畳み込みやプーリングなど) を固定する代わりに、研究者は一連の操作 {O_1、...、O_m} から凸結合を計算しました。

4. パフォーマンス評価戦略

前の章では、マシンがニューラルネットワークアーキテクチャ A を自動的に検索し、未知のデータに対する精度などの特定のパフォーマンスメトリックでパフォーマンスを最大化することを期待する検索戦略について説明しました。ニューラルアーキテクチャの検索プロセスをガイドするには、これらの戦略で現在検索されているアーキテクチャ A のパフォーマンスを評価する必要があります。最も単純なアプローチは、検索されたアーキテクチャ A をトレーニングセットでトレーニングし、検証データでそのパフォーマンスを評価することです。しかし、このようなアーキテクチャを最初からトレーニングすると、NAS アルゴリズムに数千の GPU と数日の計算作業が必要になることが多く、計算上法外な負担がかかります (Zoph and Le、2017; Real et al、2017; Zoph et al、2018; Real et al、2018)。

計算負荷を軽減するために、完全なトレーニング後の実際のパフォーマンスの低忠実度測定値（プロキシ測定値とも呼ばれる）に基づいてパフォーマンスを評価することができます。この低い忠実度には、トレーニング時間の短縮（Zoph et al、2018; Zela et al、2018）、サブデータセットのトレーニング（Klein et al、2017a）、低解像度の画像のトレーニング（Chrabaszcz et al、2017）、またはnect birity compation ed emict al.そのため、パフォーマンスはしばしば過小評価されているため、検索戦略が異なるアーキテクチャのみに依存しているため、最近の作業は、単純な近似と完全な評価が大きすぎると、相対的なランキングの変更が非常に大きいことを示しています。

5. 今後の方向性

このセクションでは、NAS における現在の研究方向と将来の研究方向について説明します。既存の研究のほとんどは、画像分類のための NAS に焦点を当てています。したがって、画像分類を超えて、NAS をあまり調査されていない領域に適用することが重要であると考えています。この方向への第一歩は、NAS を言語モデル (Zoph and Le、2017)、音楽モデル (Rawal and Miikkulainen、2018)、生成モデル (Suganuma et al、2018) に適用することであることは注目に値します。強化学習、生成的敵対ネットワーク、センサー融合への応用は、将来的に有望な方向性となる可能性があります。

もう 1 つの方向性は、マルチタスク問題 (Liang ら、2018 年、Meyerson と Miikkulainen、2018 年) および多目的問題 (Elsken ら、2018 年、Dong ら、2018 年、Zhou ら、2018 年) 用の NAS 手法を開発することです。この手法では、リソースの有効性の尺度が、未知のデータに対する予測パフォーマンスとともに目的関数として使用されます。

NAS のパフォーマンスは印象的ですが、特定のアーキテクチャのパフォーマンスが優れている理由や、独立して実行されるアーキテクチャの類似性がどれほど高くなるかについては説明されていません。共通の特徴を特定し、パフォーマンスに大きな影響を与えるメカニズムをより深く理解し、これらの特徴をさまざまな問題に一般化できるかどうかを調査することも、将来の重要な研究方向です。

[この記事は51CTOコラム「Machine Heart」、WeChatパブリックアカウント「Machine Heart（id: Almosthuman2014）」からのオリジナル記事です]

この著者の他の記事を読むにはここをクリックしてください

<<: 人工知能の「最初の一滴」がエンタープライズIT自動化に属する理由

>>: AIとビッグデータに焦点を当て、インテルとToutiaoが技術革新研究所を設立