2019年最後の月に、知っておくべき6つの最新の剪定テクニックをご紹介します

剪定技術についてどれくらいご存知ですか？ 2019年に6つの論文で紹介された最新の剪定方法をまとめたレシピをご紹介します。

[[285686]]

プルーニングは、ニューラルネットワークのサイズを縮小し、効率を高めるのに役立つディープラーニング手法です。これは、重みテンソル内の不要な値を削除し、圧縮されたニューラルネットワークの実行を高速化し、ネットワークトレーニング中の計算コストを削減するモデル最適化手法です。モデルが携帯電話などのエッジデバイスに展開されると、プルーニングの役割がより明白になります。

この記事では、ニューラルネットワークのプルーニングの分野におけるいくつかの研究論文を参考として取り上げます。

論文 1: ゼロからの剪定 (2019)

著者らは、ゼロから始めるネットワークプルーニングプロセスを提案しています。彼らは、CIFAR10 および ImageNet データセットで複数の圧縮分類モデルを実験し、このプロセスによって通常のプルーニング方法の事前トレーニングのオーバーヘッドが削減され、ネットワークの精度が向上することを示しました。

論文リンク: https://arxiv.org/pdf/1909.12579.pdf

次の図は、従来のプルーニングプロセスの 3 つの段階 (事前トレーニング、プルーニング、微調整) を示しています。

この論文で提案されている剪定手法には、ランダムに初期化された重みに基づいて学習できる新しい剪定手順が含まれています。スカラーゲート値を各ネットワーク層に関連付けることで、チャネルの重要度を学習できます。

チャネルの重要度を最適化すると、スパース正則化によるモデルのパフォーマンスが向上します。このプロセス中、ランダム重みは更新されません。次に、指定されたリソース制約に基づいて、バイナリ検索戦略を使用して、プルーニングされたモデルのチャネル番号構成を決定します。

次の表は、さまざまなデータセットにおけるモデルの精度を示しています。

論文 2: 敵対的ニューラルプルーニング (2019)

この論文では主に、敵対的摂動に遭遇したときにネットワークの隠れた特徴が歪む問題について議論します。この論文で提案されている方法は、ベイジアン剪定マスクを学習して高レベルの歪み特徴を抑制し、それによって敵対的摂動に対する堅牢性を最大化することである。

論文リンク: https://arxiv.org/pdf/1908.04355.pdf

著者らは、ディープニューラルネットワークにおける潜在的な特徴の脆弱性を考慮した。この方法では、堅牢な特徴を保持しながら脆弱な特徴を削除することを提案します。これは、ベイジアンフレームワークでプルーニングマスクを敵対的に学習することによって実現されます。

敵対的ニューラルプルーニング (ANP) は、敵対的トレーニングとベイズプルーニング手法を組み合わせたものです。この論文で提案された新しいモデルとそのベースラインモデルは次のとおりです。

標準畳み込みニューラルネットワーク (標準)
ベイジアン・プルーニング（BP）とも呼ばれるベータ・ベルヌーイ・ドロップアウトを使用したベースネットワーク
敵対的トレーニングネットワーク (AT)
ベータベルヌーイドロップアウトを使用した敵対的ニューラルプルーニング（ANP）
脆弱性抑制損失で正規化された敵対的トレーニングネットワーク（AT-VS）
脆弱な抑制損失で正規化された敵対的ニューラルプルーニングネットワーク（ANP-VS）

次の表はモデルのパフォーマンスを示しています。

論文 3: ネットワークプルーニングの価値の再考 (ICLR 2019)

本論文で提案するネットワーク剪定方法は 2 つのカテゴリに分かれており、対象となる剪定モデルのアーキテクチャは人間または剪定アルゴリズムによって決定されます。実験では、著者らは、事前定義された方法と自動化された方法の両方について、最初から剪定されたモデルをトレーニングした結果と、継承された重みに基づいて微調整して得られた剪定されたモデルの結果を比較しました。

論文リンク: https://arxiv.org/pdf/1810.05270v2.pdf

下の図は、L1 ノルムフィルタープルーニングに基づく定義済みの構造化プルーニングを使用して得られた結果を示しています。各レイヤーは、より小さな L1 ノルムを使用して、一定の割合のフィルターを削除します。「プルーニングされたモデル」列は、各モデルを構成するために使用される定義済みターゲットモデルのリストです。各行で、最初からトレーニングされたモデルが、少なくとも微調整されたモデルと同等のパフォーマンスを発揮していることがわかります。

下の表に示すように、ThiNet は次のレイヤーのアクティベーション値への影響が最も少ないチャネルを貪欲に削減します。

次の表は、回帰ベースの特徴再構築方法の結果を示しています。この方法は、次の層の特徴マップの再構築エラーを最小限に抑え、チャネルのプルーニングを実現します。この最適化問題は LASSO 回帰によって解決できます。

ネットワークスリミングに関しては、トレーニング中に、バッチ正規化レイヤーのチャネルレベルのスケーリング係数に L1 スパース性が適用されます。その後、より低いスケーリング係数を使用してチャネルが整理されます。チャネルのスケーリング係数はレイヤー間で比較されるため、この方法ではターゲットアーキテクチャを自動的に検出できます。

論文 4: 変換可能なアーキテクチャ検索によるネットワークプルーニング (NeurIPS 2019)

この論文では、柔軟な数のチャネルとレイヤーを持つネットワークにニューラルアーキテクチャ検索を直接適用することを提案します。プルーニングされたネットワークの損失を最小限に抑えることは、チャネルの数を学習するのに役立ちます。プルーニングされたネットワークの特徴マップは、確率分布に基づいてサンプリングされた K 個の特徴マップセグメントで構成され、損失はバックプロパゲーションを通じてネットワークの重みとパラメーター化された分布に転送されます。

論文リンク: https://arxiv.org/pdf/1905.09717v5.pdf

剪定されたネットワークの幅と深さは、各分布サイズの最大確率に基づいて取得され、これらのパラメータは元のネットワークからの知識転送によって取得されます。著者らは、CIFAR-10、CIFAR-100、および ImageNet データセットでモデルを評価しました。

剪定方法は 3 つのステップで構成されます。

標準的な分類トレーニング手順を使用して、大規模な剪定されていないネットワークをトレーニングします。
小規模ネットワークの深さと幅は、Transformable Architecture Search (TAS) を通じて検索され、最適なサイズのネットワークを見つけることを目指します。
単純な知識蒸留 (KD) 法を使用して、剪定されていないネットワークの情報を、検索によって得られた小規模ネットワークに転送します。

次の表は、さまざまなプルーニングアルゴリズムを適用した後の ImageNet データセットにおけるさまざまな ResNet モデルのパフォーマンスを比較したものです。

論文 5: 自己適応型ネットワークプルーニング (ICONIP 2019)

この論文では、各畳み込み層に Saliency-and-Pruning モジュール (SPM) を導入することで実現される適応型ネットワークプルーニング法 (SANP) を通じて CNN の計算コストを削減することを提案しています。SPM モジュールは、サリエンシースコアを予測し、各チャネルをプルーニングすることを学習できます。 SANP は、各レイヤーと各サンプルに基づいて、対応するプルーニング戦略を決定します。

論文リンク: https://arxiv.org/pdf/1910.08906.pdf

以下のアーキテクチャ図によると、SPM モジュールは畳み込みネットワークの各層に埋め込まれています。このモジュールは、入力機能に基づいてチャネルの重要度スコアを予測し、各チャネルに対応するプルーニングの決定を生成できます。

プルーニング決定が 0 のチャネルの場合、畳み込み演算はスキップされ、分類目標とコスト目標を使用してバックボーンネットワークと SPM モジュールが共同でトレーニングされます。計算コストは、各レイヤーでのプルーニングの決定によって異なります。

次の表は、このアプローチの結果の一部を示しています。

論文 6: 大規模言語モデルの構造化剪定 (2019)

この論文で提案されている剪定方法は、低ランク分解と拡張ラグランジュ 10 ノルム正規化の原理に基づいています。 L_0 正則化は構造化プルーニングによって課される制約を緩和しますが、低ランク因数分解は行列の密な構造を保持します。

論文リンク: https://arxiv.org/pdf/1910.04732.pdf

正規化により、ネットワークは削除する重みを選択できます。重み行列は 2 つの小さな行列に分解され、これらの 2 つの行列の間に対角マスクが設定されます。トレーニング中、L_0 正規化を使用してこのマスクに対してプルーニングが実行されます。拡張ラグランジュ法は、モデルの最終的なスパース性を制御するために使用されます。論文の著者はこの方法を FLOP (Factorized L0 Pruning) と呼んでいます。

この論文で使用されている文字レベルの言語モデルは、Wikipedia から選択された 1 億件のデータを含む enwik8 データセットの実験で使用されています。著者らは、SRU モデルと Transformer-XL モデルで FLOPs メソッドを評価しました。次の表に結果の一部を示します。

以上が今回ご紹介したいくつかのプルーニング手法です。この記事で紹介した論文にはコード実装も掲載されており、ご自身でテストすることも可能です。

<<: AIは寒さに晒されているのか？スタンフォード大学の年次AIレポートが秘密を明らかにする

>>: 2020 年の予測: AI セキュリティの 10 のトレンド