自動機械学習でニューラルネットワークを進化させる方法

機械学習に携わるほとんどの人にとって、ニューラルネットワークの設計は芸術作品の作成に似ています。ニューラルネットワークは通常、共通のアーキテクチャから始まり、レイヤー、アクティベーション関数、正規化子、最適化パラメータの適切な組み合わせが見つかるまで、パラメータを継続的に調整して最適化する必要があります。 VGG、Inception、ResNet、DenseNet などのよく知られたニューラルネットワークアーキテクチャのガイダンスに従って、ネットワークが期待する速度と精度に達するまで、ネットワーク変数を繰り返し操作する必要があります。ネットワーク処理能力が向上し続けると、ネットワーク最適化プロセスを自動化することがますます可能になります。

ランダムフォレストや SVM などの浅いモデルでは、ハイパーパラメータの最適化のプロセスを自動化できました。 sk-learn などのよく使用されるツールキットには、ハイパーパラメータ空間を検索する方法が用意されています。最も単純で基本的な形式では、「ハイパーパラメータ」とは、すべての可能なパラメータの中から検索されるパラメータ、またはパラメータ分布から任意にサンプリングして取得されるパラメータです。 (詳細については、このリンクをクリックしてください。) どちらの方法にも 2 つの問題があります。1 つ目は、間違ったパラメータ領域を検索するときにリソースを浪費することです。2 つ目は、多数の動的機能パラメータセットを処理するのに非効率的であることです。したがって、プロセッサアーキテクチャを変更することは非常に困難になります。現在では、ベイズ最適化法など、一見効率的と思われる方法が数多く存在します。しかし、ベイズ最適化は最初の問題を解決できますが、2 番目の問題は解決できません。さらに、ベイズ最適化設定でモデルを探索することは困難です。

攻撃パターンを自動的に識別するというアイデアは新しいものではなく、最近の処理能力の向上により、これまで以上に簡単に実行できるようになりました。

問題設定

ハイパーパラメータの最適化を考える方法の 1 つは、「メタ学習問題」として考えることです。

ネットワークのパフォーマンスが良好かどうかを判断するために使用できるアルゴリズムを作成できますか?

注: この問題を「メタ学習」と表現するのは少し混乱を招くかもしれませんが、以下では「メタ学習」という用語を使い続けます。ただし、これを「学習」に関連するいくつかの方法と混同してはなりません。

私たちの目標は、ネットワーク内の隠し層 (緑) の数と各隠し層のパラメータを定義することです。

具体的には、モデルアーキテクチャとモデルのパラメーター空間を調査して、特定のデータセットでのパフォーマンスを最適化します。問題は複雑であり、その見返りはわずかです。スパース報酬と言われる理由は、ネットワークを十分にトレーニングして評価する必要があり、トレーニングと評価が完了した後は報酬としていくつかのスコアしか得られないからです。これらのスコアはシステム全体のパフォーマンスを反映しており、このタイプの報酬は微分可能な関数ではありません。そういえば、何か思い出しますか？はい、これは典型的な「強化学習」の状況です。

Wikipedia では「強化学習」を次のように定義しています。

「強化学習」（RL）は、心理学の行動主義理論にヒントを得た重要な機械学習手法です。具体的には、「強化学習」とは、生物（エージェント）が環境（環境）の刺激を受けて、累積報酬を最大化する方法を学ぶことです。

「強化学習」と標準的な教師あり学習の違いは、正しい入力または出力のペアを表示する必要がなく、動作を最適化するために正確な調整も必要ないことです。さらに、「オンラインパフォーマンス」は「強化学習」の焦点でもあり、未知の領域の探索と既存の知識の発展のバランスを見つけることです。

上記のシナリオのエージェントはモデルであり、環境はトレーニングと評価に使用するデータセットです。インタープリターは、各動作を分析し、生物の状態 (この場合はネットワークパラメーター) を設定するプロセスです。

通常、「強化学習」の問題は、マルコフ決定プロセスとして定式化されます。目標は、生物への総収益を最適化することです。各ステップで、モデル出力を最適化するか、新しい動作を探索するかを決定する必要があります。環境からの刺激を受けて、生物は受け取ったフィードバックに基づいて調整方針を形成し、継続的に行動を改善します。

注: このトピックはこの記事の範囲を超えています。R.Sutton と A. Barto による「Introduction to Reinforcement Learning」が、おそらくこのテーマに関する最高の入門書です。

進化的アルゴリズム

「強化学習」問題を解決するためのもう 1 つのアプローチは、「進化的アルゴリズム」です。生物の進化にヒントを得た進化型アルゴリズムは、一連のソリューションを作成することでソリューション空間を検索し、各ソリューションを評価し、評価スコアに基づいてソリューションのセットを継続的に調整します。生物進化論で言及される「進化」には、集団内の特定のメンバーの選択と変化が含まれます。したがって、当社のソリューションセットは、全体的な適応性を向上させ、問題に対する実行可能なソリューションを提供するために進化し続けます。

上の図の左側は進化のプロセスを示しています。「進化アルゴリズム」の設計には、「選択」と、従う必要のある「国境を越えた」または「突然変異」戦略という 2 つの部分が含まれます。

「選択」：「選択」では、通常、多様性を実現するために、最良の個体といくつかの任意の個体を選択します。より高度な選択方法は、個体群の下に異なる「サブグループ」または「種」を設定し、その種の多様性を保護するために種内の最良の個体を選択することです。もう一つの一般的なアプローチは「競争的選択」であり、これは競争に参加する個体をランダムに選択し、勝者（優れた遺伝子を持つ個体）を選ぶというものです。

「クロスオーバー」: 「クロスオーバー」は「交配」とも呼ばれ、2 つ以上の親のグループを交配させて子孫を生み出すことを指します。「クロスオーバー」は、問題がどのように表現されるかによって大きく異なります。一般的なアプローチは、親を項目のリスト (通常は数値) で記述し、親から任意の部分を選択して新しい遺伝子の組み合わせを生成することです。

「突然変異」：「突然変異」または「変異」は、ゲノムを任意に変更するプロセスを指します。これは主要な発展要因であり、人口の多様性を維持するのに役立ちます。

実装

「進化的アルゴリズム」の実装では、PyTorch を使用して、単純な分類タスクのために DNN を探索するエージェントを構築します。この実験では、CPU でもトレーニングできるほど小さくて高速な MNIST を使用します。 DNN モデルのセットを構築し、N ステップで進化させます。

私たちが話している「進化」という話題は、実際には「自然選択」の実装です。完全な高レベルの「進化アルゴリズム」は次のとおりです。

新しい人口 = []
  サイズ(新しい人口) < 人口サイズの場合:
  集団からk(トーナメント)人の個体をランダムに選ぶ
  確率p1でプール/トーナメントから最善のものを選択する
  確率p2で2番目に良い個体を選択する
  確率p3で3番目に良い個体を選択する
  選択したものを変異させてnew_populationに追加する

補足：建築業界の合併となると、国境を越えた問題は非常に複雑になります。 2 つの親構造をどのように結合しますか?欠陥パターンと環境統合トレーニングはこれにどのような影響を与えるでしょうか? Miikkulainen らによる最近の論文では、CoDeepNEAT と呼ばれるソリューションが提案されています。エボリーノ進化理論に基づいて、アーキテクチャはいくつかの単位モジュールで構成され、各単位モジュールは進化理論の対象となります。このアーキテクチャは、すべてのコンポーネントを組み込んだ理想的な青写真です。このようなシナリオでは、親のコンポーネントを混合することは完全に理にかなっています。なぜなら、それらの構成は完全なマイクロネットワークだからです。記事をより簡潔で分かりやすくするために、このアルゴリズムの実装における国境を越えた問題を避け、単に NEAT (または CoDeepNEAT) のようなソリューションを紹介しました。 (これらの解決策については、次の投稿でさらに詳しく説明する予定です。)

基本的な構成要素

最初に定義する必要があるのは、各モデル (それぞれがアーキテクチャを表す) のソリューションスペースです。簡単にするために、n 個のレイヤーを積み重ねます。各レイヤーには、a) 隠れユニットの数、b) アクティベーションタイプ、c) ドロップアウト率という 3 つのパラメーターが含まれます。共通パラメータについては、さまざまなオプティマイザー、学習率、重み減衰、レイヤー数の中から選択します。

 # スペースの定義
# 下限 - 上限、型パラメータ、突然変異率
LAYER_SPACE = dict()
 LAYER_SPACE['nb_units'] = (128, 1024, 'int', 0.15)
 LAYER_SPACE['ドロップアウト率'] = (0.0, 0.7, 'フロート', 0.2)
 LAYER_SPACE['アクティベーション'] =\
   (0, ['線形', 'tanh', 'relu', 'シグモイド', 'elu'], 'リスト', 0.2)
 NET_SPACE = 辞書()
 NET_SPACE['nb_layers'] = (1, 3, 'int', 0.15)
 NET_SPACE['lr'] = (0.0001, 0.1, 'float', 0.15)
 NET_SPACE['weight_decay'] = (0.00001, 0.0004, 'float', 0.2)
 NET_SPACE['オプティマイザー'] =\
   (0, ['sgd', 'adam', 'adadelta', 'rmsprop'], 'リスト', 0.2)

上記の操作を完了すると、モデルの空間が定義されます。次に、3 つの基本機能を確立する必要があります。

ランダムにネットワークを選択

def random_value(スペース):
   「指定された空間からランダムな値をサンプリングします。」
   値 = なし
   スペース[2] == 'int'の場合:
       val = ランダム.randint(スペース[0], スペース[1])
   スペース[2] == 'リスト'の場合:
       val = ランダム.サンプル(空間[1], 1)[0]
   スペース[2] == 'float'の場合:
       val = ((スペース[1] - スペース[0]) * random.random()) + スペース[0]
   戻り値: {'val': val, 'id': random.randint(0, 2**10)}
 def randomize_network(bounded=True):
   「ランダムネットワークを作成します。」
   グローバル NET_SPACE、LAYER_SPACE
   ネット = 辞書()
   NET_SPACE.keys() の k の場合:
       ネット[k] = ランダム値(NET_SPACE[k])
   制限がある場合:
       ネット['nb_layers']['val'] = min(ネット['nb_layers']['val'], 1)
   レイヤー = []
   i が範囲内(net['nb_layers']['val'])の場合:
       レイヤー = dict()
       LAYER_SPACE.keys() 内の k について:
           レイヤー[k] = ランダム値(レイヤースペース[k])
       レイヤーの追加
   net['layers'] = レイヤー
   リターンネット

まず、サンプル値が事前に定義された範囲の境界内に収まるように、レイヤーの数と各レイヤーのパラメータを任意にサンプリングします。パラメータを初期化するときに、任意のパラメータ ID も生成します。まだ使用可能ではありませんが、すべてのレイヤーを追跡できます。新しいモデルが変更されると、古いレイヤーは微調整され、変更されたレイヤーのみが初期化されます。これにより、ソリューションの速度と安定性が大幅に向上します。

注: 問題の性質に応じて、パラメータの合計数やレイヤーの合計数など、異なる制約が必要になる場合があります。

ネットワークの変異

def mutate_net(ネット):
   「ネットワークを変異させる。」
   グローバル NET_SPACE、LAYER_SPACE
   # ミューテートオプティマイザー
   k が ['lr', 'weight_decay', 'optimizer'] の場合:
       random.random() < NET_SPACE[k][-1]の場合:
           ネット[k] = ランダム値(NET_SPACE[k])
   # レイヤーを変更する
   net['layers']内のレイヤーの場合:
       LAYER_SPACE.keys() 内の k について:
           random.random() < LAYER_SPACE[k][-1]の場合:
               レイヤー[k] = ランダム値(レイヤースペース[k])
   # レイヤーの数を変更する -- ランダムに追加
   random.random() < NET_SPACE['nb_layers'][-1]の場合:
       net['nb_layers']['val'] < NET_SPACE['nb_layers'][1]の場合:
           random.random()< 0.5 の場合:
               レイヤー = dict()
               LAYER_SPACE.keys() 内の k について:
                   レイヤー[k] = ランダム値(レイヤースペース[k])
               net['レイヤー'].append(レイヤー)
               # 値とIDの更新
               ネット['nb_layers']['val'] = len(ネット['layers'])
               ネット['nb_layers']['id'] += 1
           それ以外：
               net['nb_layers']['val'] > 1の場合:
                   net['レイヤー'].pop()
                   ネット['nb_layers']['val'] = len(ネット['layers'])
                   ネット['nb_layers']['id'] -= 1
   リターンネット

各ネットワーク要素には突然変異の可能性があり、各突然変異によってパラメータ空間が再サンプリングされ、パラメータが変更されます。

ネットワークを構築する

クラス CustomModel():
   def __init__(self, build_info, CUDA=True):
       前の単位 = 28 * 28
       自己.モデル = nn.Sequential()
       self.model.add_module('flatten', Flatten())
       iの場合、layer_infoをenumerate(build_info['layers'])で指定します:
           i = str(i)
           自己.モデル.モジュールの追加(
               'fc_' + i,
               nn.Linear(前の単位、レイヤー情報['nb_units']['val'])
               ）
           自己.モデル.モジュールの追加(
               'ドロップアウト_' + i,
               nn.ドロップアウト(p=layer_info['ドロップアウト率']['val'])
               ）
           layer_info['activation']['val'] == 'tanh'の場合:
               自己.モデル.モジュールの追加(
                   'tanh_'+i、
                   nn.Tanh()
               ）
           layer_info['activation']['val'] == 'relu'の場合:
               自己.モデル.モジュールの追加(
                   'relu_'+i、
                   nn.ReLU()
               ）
           layer_info['activation']['val'] == 'sigmoid'の場合:
               自己.モデル.モジュールの追加(
                   'sigm_'+i、
                   nn.シグモイド()
               ）
           layer_info['activation']['val'] == 'elu'の場合:
               自己.モデル.モジュールの追加(
                   'elu_'+i、
                   nn.ELU()
               ）
           previous_units = レイヤー情報['nb_units']['val']
       自己.モデル.モジュールの追加(
           '分類レイヤー',
           nn.Linear(前の単位、10)
           ）
       self.model.add_module('sofmax', nn.LogSoftmax())
       自己.モデル.CPU()
       build_info['optimizer']['val'] == 'adam'の場合:
           オプティマイザー = optim.Adam(self.model.parameters(),
                               lr = build_info['weight_decay']['val'],
                               weight_decay = build_info['weight_decay']['val'])
       elif build_info['optimizer']['val'] == 'adadelta':
           オプティマイザ = optim.Adadelta(self.model.parameters(),
                                   lr = build_info['weight_decay']['val'],
                                   weight_decay = build_info['weight_decay']['val'])
       elif build_info['optimizer']['val'] == 'rmsprop':
           オプティマイザー = optim.RMSprop(self.model.parameters(),
                                   lr = build_info['weight_decay']['val'],
                                   weight_decay = build_info['weight_decay']['val'])
       それ以外：
           オプティマイザ = optim.SGD(self.model.parameters(),
                               lr = build_info['weight_decay']['val'],
                               weight_decay=build_info['weight_decay']['val'],
                               運動量=0.9)
       self.optimizer = オプティマイザー
       self.cuda = False
       CUDAの場合:
           自己.モデル.cuda()
           self.cuda = 真

上記のクラスは、モデルの「ゲノム」をインスタンス化します。

これで、任意のネットワークを構築し、そのアーキテクチャを変更してトレーニングするための基本的な構成要素が揃ったので、次のステップは、*** 個体を選択して変異させる「遺伝的アルゴリズム」を構築することです。各モデルのトレーニングは独立して実行され、他の生物からの情報は必要ありません。これにより、最適化プロセスは利用可能な処理ノードに応じて線形に拡張できるようになります。

GPオプティマイザのコーディング

「遺伝的プログラミングアルゴリズム」
 __future__ から absolute_import をインポートする
ランダムにインポート
numpyをnpとしてインポートする
演算子からアイテムゲッターをインポート
torch.multiprocessing を mp としてインポートします。
 net_builderからrandomize_networkをインポートします
インポートコピー
ワーカーから CustomWorker をインポートし、スケジューラを作成します。
クラスTournamentOptimizer:
   「トーナメントプレイの選択プロセスを定義します。」
   def __init__(self、population_sz、init_fn、mutate_fn、nb_workers=2、use_cuda=True):
       「」
       オプティマイザーを初期化します。
           パラメータ::
               init_fn: モデルを初期化する
               mutate_fn: mutate関数 - モデルを変更する
               nb_workers: ワーカー数
       「」
       自己.init_fn = init_fn
       自己.mutate_fn = mutate_fn
       自己.nb_workers = nb_workers
       自己.use_cuda = 使用_cuda
       ＃ 人口
       自己.population_sz = 人口_sz
       self.population = [init_fn() がiの範囲内(population_sz)]
       自己評価 = np.zeros(population_sz)
       ＃簿記
       自己エリート = []
       自己統計 = []
       自己履歴 = []
   defステップ(self):
       「トーナメント進化ステップ」
       print('\n人口サンプル:')
       i が範囲 (0,self.population_sz,2) 内にある場合:
           印刷(self.population[i]['nb_layers'],
                 self.population[i]['レイヤー'][0]['nb_units'])
       自己評価()
       子供 = []
       print('\n人口平均:{} 最大値:{}'.format(
           np.mean(自己評価)、np.max(自己評価)))
       n_エリート = 2
       sorted_pop = np.argsort(self.evaluations)[::-1]
       エリート = sorted_pop[:n_elite]
       # top@n_elite のスコアを出力
       # エリートは常に次の人口に含まれる
       自己エリート = []
       print('\nトップパフォーマー:')
       enumerate(elite)のi,eの場合:
           self.elite.append((self.evaluations[e], self.population[e]))
           print("{}-score:{}".format(str(i), self.evaluations[e]))
           children.append(自己.population[e]) を追加
       # トーナメントの確率:
       # 最初のp
       # 2番目 p*(1-p)
       # 3番目のp*((1-p)^2)
       # などなど
       p = 0.85 # 勝者の確率
       トーナメントサイズ = 3
       probs = [p*((1-p)**i)、i が範囲 (トーナメントサイズ-1)] 内である
       # 確率が 1.0 に加算されることを確認するためのちょっとしたトリック
       確率.append(1-np.sum(確率))
       len(children) < self.population_sz の場合:
           人口 = 範囲(len(自己人口))
           sel_k = ランダムサンプル(pop, k=トーナメントサイズ)
           fitness_k = リスト(np.array(self.evaluations)[sel_k])
           選択された = zip(sel_k, fitness_k)
           ランク = sorted(選択済み、キー = itemgetter(1)、逆順 = True)
           pick = np.random.choice(トーナメントサイズ、サイズ=1、p=確率)[0]
           ベスト = ランク[選択][0]
           モデル = self.mutate_fn(self.population[best])
           children.append(モデル)
       自己人口 = 子供
       # エポックごとに完全にランダムな検索を実行したい場合
       # self.population = [randomize_network(bounded=False) i が range(self.population_sz) 内にある場合]
   def 評価(自己):
       「モデルを評価する」
       ワーカーID = 範囲(self.nb_workers)
       ワーカープール = Scheduler(ワーカーID、self.use_cuda)
       self.population は、workerpool.start(self.population) を返します。
       self.evaluations = 戻り値
       self.stats.append(copy.deepcopy(戻り値))
       自己履歴の追加(コピー.ディープコピー(自己人口))

「進化的アルゴリズム」は非常にシンプルに思えますよね?それは正しい！このアルゴリズムは、特に個体に対して適切なバリアントまたはクロスドメイン関数を定義している場合に、非常に成功する可能性があります。

リポジトリには、ワーカークラスやスケジューラクラスなどの追加の使用クラスも含まれており、GP オプティマイザーがモデルのトレーニングと評価を独立して並行して完了できるようになります。

コードを実行する

上記の手順に従って実行してください。

 「トーナメントプレイ実験」
 __future__ から absolute_import をインポートする
net_builderをインポートする
インポートGP
 cPickleをインポートする
# cuda を使用しますか?
 CUDA_ = 真
__name__ == '__main__' の場合:
   # トーナメントを設定しましょう!
   進化ステップ数 = 10
   トーナメント = \
       gp.トーナメントオプティマイザー(
           人口規模=50,
           init_fn=net_builder.randomize_network、
           mutate_fn = net_builder.mutate_net、
           労働者数=3,
           use_cuda=True)
   i が範囲内(nb_evolution_steps)の場合:
       print('\n進化ステップ:{}'.format(i))
       印刷('=================')
       トーナメント.ステップ()
       # 実験結果と対応するアーキテクチャを追跡する
       名前 = "tourney_{}".format(i)
       cPickle.dump(tournament.stats、open(name + '.stats'、'wb')) を実行します。
       cPickle.dump(tournament.history、open(name +'.pop'、'wb')) でダンプします。

次は手術の結果を見てみましょう！

一致サイズが 3 の 50 個のソリューションのスコアリング結果を以下に示します。モデルは 10,000 個のサンプルのみでトレーニングされ、その後評価されました。一見すると、最初の進化段階ではソリューションが最適に近かったのに、7 番目の段階ではソリューションが最高のパフォーマンスに達したため、進化アルゴリズムはあまりうまく機能しなかったようです。下の図では、ボックスプロットを使用して、これらのソリューションの 4 分の 1 を順番に示しています。ほとんどのソリューションはうまく機能しましたが、ソリューションが進化するにつれて、ボックスプロットも縮小することがわかりました。

図のボックスはソリューションの 4 分の 1 を示しており、そのウィスカーはソリューションの残りの 4 分の 3 の分布を示すように伸びています。黒い点は解の平均値を表しており、図から平均値が増加していることがわかります。

この方法のパフォーマンスと動作をさらに理解するために、完全にランダムな集団検索と比較しました。各ステージ間で進化は必要ありません。各ソリューションはランダムな状態にリセットされます。

EA は比較的小規模な集団ではより優れたパフォーマンスを発揮します (93.66% 対 93.22%)。ランダムな集団検索ではいくつかの優れたソリューションが生成されるように見えますが、モデルの分散は大幅に増加します。つまり、最適ではないアーキテクチャを探している間にリソースが浪費されることになります。これを進化グラフと比較すると、進化によって確かにより有用なソリューションが生成され、より優れたパフォーマンスを実現する構造がうまく進化していることがわかります。

MNIST は非常にシンプルなデータセットであり、単層ネットワークでも高い精度を達成できます。
ADAM のようなオプティマイザーは学習率にあまり影響されず、ネットワークに十分なパラメータがある場合にのみ適切なソリューションを見つけることができます。
トレーニング中、モデルは 10,000 個の例 (トレーニングデータ全体の 1/5) のみを参照します。より長くトレーニングすれば、優れたアーキテクチャでより高い精度を達成できる可能性があります。
サンプル数を制限することは、学習するレイヤーの数にとっても非常に重要です。より深いモデルには、より多くのサンプルが必要です。この問題に対処するために、突然変異を除去し、集団がレイヤーの数を調節するようにするレイヤーも追加しました。

この実験の規模は、この方法の利点を強調するには十分ではありません。これらの記事で使用されている実験はより大規模で、より複雑なデータセットを持っています。

私たちは、「適者生存」というテーマを非常によく表す単純な進化アルゴリズムを完成させました。私たちのアルゴリズムは、最終的な勝利のソリューションのみを選択し、それを変異させてより多くの子孫を生成します。次に必要なのは、より高度な方法を使用してソリューショングループを生成および開発することだけです。改善のための提案をいくつか示します。

共通レイヤーの親ウェイトを再利用する
2つの潜在的な親からのレイヤーを結合する
アーキテクチャは連続的である必要はなく、レイヤー間のさまざまな接続（分散または結合など）を探索できます。
上にレイヤーを追加し、微調整を行います。

上記はすべて人工知能研究の分野におけるトピックです。最も人気のある方法の 1 つは、NEAT とその拡張です。 EAT バリアントは、進化的アルゴリズムを使用してネットワークを開発し、同時にネットワークの重みも設定します。典型的な強化学習シナリオでは、エージェントの重みの進化は非常に可能です。ただし、(x,y) 入力ペアが利用可能な場合、勾配降下法のパフォーマンスが向上します。

関連記事

Evolino: ハイブリッドニューロエボリューション / シーケンス学習のための最適線形探索

進化するディープニューラルネットワーク — これは、ネットワーク全体とネットワーク内のブロックを共進化させる非常に興味深いアプローチであり、CNN 向けの Evolino メソッドに非常に似ています。

画像分類器の大規模進化

進化による畳み込み

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式サイトにアクセスして許可を申請してください。

<<: データが限られている場合にディープラーニングモデルを最適化する方法

>>: Uber劉延東：Uberがフードデリバリーサービスを開始したとき、世界中のフードデリバリー会社は衝撃を受けた