剪定技術についてどれくらいご存知ですか? 2019年に6つの論文で紹介された最新の剪定方法をまとめたレシピをご紹介します。
プルーニングは、ニューラル ネットワークのサイズを縮小し、効率を高めるのに役立つディープラーニング手法です。これは、重みテンソル内の不要な値を削除し、圧縮されたニューラル ネットワークの実行を高速化し、ネットワーク トレーニング中の計算コストを削減するモデル最適化手法です。モデルが携帯電話などのエッジデバイスに展開されると、プルーニングの役割がより明白になります。 この記事では、ニューラル ネットワークのプルーニングの分野におけるいくつかの研究論文を参考として取り上げます。 論文 1: ゼロからの剪定 (2019) 著者らは、ゼロから始めるネットワーク プルーニング プロセスを提案しています。彼らは、CIFAR10 および ImageNet データセットで複数の圧縮分類モデルを実験し、このプロセスによって通常のプルーニング方法の事前トレーニングのオーバーヘッドが削減され、ネットワークの精度が向上することを示しました。 論文リンク: https://arxiv.org/pdf/1909.12579.pdf 次の図は、従来のプルーニング プロセスの 3 つの段階 (事前トレーニング、プルーニング、微調整) を示しています。 この論文で提案されている剪定手法には、ランダムに初期化された重みに基づいて学習できる新しい剪定手順が含まれています。スカラー ゲート値を各ネットワーク層に関連付けることで、チャネルの重要度を学習できます。 チャネルの重要度を最適化すると、スパース正則化によるモデルのパフォーマンスが向上します。このプロセス中、ランダム重みは更新されません。次に、指定されたリソース制約に基づいて、バイナリ検索戦略を使用して、プルーニングされたモデルのチャネル番号構成を決定します。 次の表は、さまざまなデータセットにおけるモデルの精度を示しています。 論文 2: 敵対的ニューラル プルーニング (2019) この論文では主に、敵対的摂動に遭遇したときにネットワークの隠れた特徴が歪む問題について議論します。この論文で提案されている方法は、ベイジアン剪定マスクを学習して高レベルの歪み特徴を抑制し、それによって敵対的摂動に対する堅牢性を最大化することである。 論文リンク: https://arxiv.org/pdf/1908.04355.pdf 著者らは、ディープニューラルネットワークにおける潜在的な特徴の脆弱性を考慮した。この方法では、堅牢な特徴を保持しながら脆弱な特徴を削除することを提案します。これは、ベイジアン フレームワークでプルーニング マスクを敵対的に学習することによって実現されます。 敵対的ニューラル プルーニング (ANP) は、敵対的トレーニングとベイズ プルーニング手法を組み合わせたものです。この論文で提案された新しいモデルとそのベースラインモデルは次のとおりです。
次の表はモデルのパフォーマンスを示しています。 論文 3: ネットワーク プルーニングの価値の再考 (ICLR 2019) 本論文で提案するネットワーク剪定方法は 2 つのカテゴリに分かれており、対象となる剪定モデルのアーキテクチャは人間または剪定アルゴリズムによって決定されます。実験では、著者らは、事前定義された方法と自動化された方法の両方について、最初から剪定されたモデルをトレーニングした結果と、継承された重みに基づいて微調整して得られた剪定されたモデルの結果を比較しました。 論文リンク: https://arxiv.org/pdf/1810.05270v2.pdf 下の図は、L1 ノルム フィルター プルーニングに基づく定義済みの構造化プルーニングを使用して得られた結果を示しています。各レイヤーは、より小さな L1 ノルムを使用して、一定の割合のフィルターを削除します。 「プルーニングされたモデル」列は、各モデルを構成するために使用される定義済みターゲット モデルのリストです。各行で、最初からトレーニングされたモデルが、少なくとも微調整されたモデルと同等のパフォーマンスを発揮していることがわかります。 下の表に示すように、ThiNet は次のレイヤーのアクティベーション値への影響が最も少ないチャネルを貪欲に削減します。 次の表は、回帰ベースの特徴再構築方法の結果を示しています。この方法は、次の層の特徴マップの再構築エラーを最小限に抑え、チャネルのプルーニングを実現します。この最適化問題は LASSO 回帰によって解決できます。 ネットワーク スリミングに関しては、トレーニング中に、バッチ正規化レイヤーのチャネル レベルのスケーリング係数に L1 スパース性が適用されます。その後、より低いスケーリング係数を使用してチャネルが整理されます。チャネルのスケーリング係数はレイヤー間で比較されるため、この方法ではターゲット アーキテクチャを自動的に検出できます。 論文 4: 変換可能なアーキテクチャ検索によるネットワーク プルーニング (NeurIPS 2019) この論文では、柔軟な数のチャネルとレイヤーを持つネットワークにニューラル アーキテクチャ検索を直接適用することを提案します。プルーニングされたネットワークの損失を最小限に抑えることは、チャネルの数を学習するのに役立ちます。プルーニングされたネットワークの特徴マップは、確率分布に基づいてサンプリングされた K 個の特徴マップ セグメントで構成され、損失はバックプロパゲーションを通じてネットワークの重みとパラメーター化された分布に転送されます。 論文リンク: https://arxiv.org/pdf/1905.09717v5.pdf 剪定されたネットワークの幅と深さは、各分布サイズの最大確率に基づいて取得され、これらのパラメータは元のネットワークからの知識転送によって取得されます。著者らは、CIFAR-10、CIFAR-100、および ImageNet データセットでモデルを評価しました。 剪定方法は 3 つのステップで構成されます。
次の表は、さまざまなプルーニング アルゴリズムを適用した後の ImageNet データセットにおけるさまざまな ResNet モデルのパフォーマンスを比較したものです。 論文 5: 自己適応型ネットワーク プルーニング (ICONIP 2019) この論文では、各畳み込み層に Saliency-and-Pruning モジュール (SPM) を導入することで実現される適応型ネットワーク プルーニング法 (SANP) を通じて CNN の計算コストを削減することを提案しています。SPM モジュールは、サリエンシー スコアを予測し、各チャネルをプルーニングすることを学習できます。 SANP は、各レイヤーと各サンプルに基づいて、対応するプルーニング戦略を決定します。 論文リンク: https://arxiv.org/pdf/1910.08906.pdf 以下のアーキテクチャ図によると、SPM モジュールは畳み込みネットワークの各層に埋め込まれています。このモジュールは、入力機能に基づいてチャネルの重要度スコアを予測し、各チャネルに対応するプルーニングの決定を生成できます。 プルーニング決定が 0 のチャネルの場合、畳み込み演算はスキップされ、分類目標とコスト目標を使用してバックボーン ネットワークと SPM モジュールが共同でトレーニングされます。計算コストは、各レイヤーでのプルーニングの決定によって異なります。 次の表は、このアプローチの結果の一部を示しています。 論文 6: 大規模言語モデルの構造化剪定 (2019) この論文で提案されている剪定方法は、低ランク分解と拡張ラグランジュ 10 ノルム正規化の原理に基づいています。 L_0 正則化は構造化プルーニングによって課される制約を緩和しますが、低ランク因数分解は行列の密な構造を保持します。 論文リンク: https://arxiv.org/pdf/1910.04732.pdf 正規化により、ネットワークは削除する重みを選択できます。重み行列は 2 つの小さな行列に分解され、これらの 2 つの行列の間に対角マスクが設定されます。トレーニング中、L_0 正規化を使用してこのマスクに対してプルーニングが実行されます。拡張ラグランジュ法は、モデルの最終的なスパース性を制御するために使用されます。論文の著者はこの方法を FLOP (Factorized L0 Pruning) と呼んでいます。 この論文で使用されている文字レベルの言語モデルは、Wikipedia から選択された 1 億件のデータを含む enwik8 データセットの実験で使用されています。著者らは、SRU モデルと Transformer-XL モデルで FLOPs メソッドを評価しました。次の表に結果の一部を示します。 以上が今回ご紹介したいくつかのプルーニング手法です。 この記事で紹介した論文にはコード実装も掲載されており、ご自身でテストすることも可能です。 |
<<: AIは寒さに晒されているのか?スタンフォード大学の年次AIレポートが秘密を明らかにする
>>: 2020 年の予測: AI セキュリティの 10 のトレンド
この記事は、公開アカウント「Reading the Core」(ID: AI_Discovery)か...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
イーロン・マスク氏は、人工知能が人類にもたらす避けられない課題に対処するためには、人間が機械と「つな...
3月6日、国際電気通信連合と中国情報通信研究院が共催し、人工知能産業発展連盟(AIIA)とZTEが主...
4月にリリースされるや否や開発者コミュニティで話題となった大規模言語モデルの概要が更新されました!こ...
[[317602]]自動化技術はさまざまな職場で広く使用されており、多くの企業がこの急速に発展する技...
この記事では、トレーニングと検証の考えられる状況をまとめ、これらのチャートがどのような情報を提供でき...
[[441689]] 01 機械学習の課題2016年3月、ディープラーニングアルゴリズムに基づくAl...
全国的な送電網の障害を特定することは、巨大な干し草の山から針を見つけるようなものです。米国全土に設置...
一夜にして、世界で最も強力なオープンソースの大型モデル Falcon 180B がインターネット全体...