2019年最後の月に、知っておくべき6つの最新の剪定テクニックをご紹介します

2019年最後の月に、知っておくべき6つの最新の剪定テクニックをご紹介します

剪定技術についてどれくらいご存知ですか? 2019年に6つの論文で紹介された最新の剪定方法をまとめたレシピをご紹介します。

[[285686]]

プルーニングは、ニューラル ネットワークのサイズを縮小し、効率を高めるのに役立つディープラーニング手法です。これは、重みテンソル内の不要な値を削除し、圧縮されたニューラル ネットワークの実行を高速化し、ネットワーク トレーニング中の計算コストを削減するモデル最適化手法です。モデルが携帯電話などのエッジデバイスに展開されると、プルーニングの役割がより明白になります。

この記事では、ニューラル ネットワークのプルーニングの分野におけるいくつかの研究論文を参考として取り上げます。

論文 1: ゼロからの剪定 (2019)

著者らは、ゼロから始めるネットワーク プルーニング プロセスを提案しています。彼らは、CIFAR10 および ImageNet データセットで複数の圧縮分類モデルを実験し、このプロセスによって通常のプルーニング方法の事前トレーニングのオーバーヘッドが削減され、ネットワークの精度が向上することを示しました。

論文リンク: https://arxiv.org/pdf/1909.12579.pdf

次の図は、従来のプルーニング プロセスの 3 つの段階 (事前トレーニング、プルーニング、微調整) を示しています。

この論文で提案されている剪定手法には、ランダムに初期化された重みに基づいて学習できる新しい剪定手順が含まれています。スカラー ゲート値を各ネットワーク層に関連付けることで、チャネルの重要度を学習できます。

チャネルの重要度を最適化すると、スパース正則化によるモデルのパフォーマンスが向上します。このプロセス中、ランダム重みは更新されません。次に、指定されたリソース制約に基づいて、バイナリ検索戦略を使用して、プルーニングされたモデルのチャネル番号構成を決定します。

次の表は、さまざまなデータセットにおけるモデルの精度を示しています。

論文 2: 敵対的ニューラル プルーニング (2019)

この論文では主に、敵対的摂動に遭遇したときにネットワークの隠れた特徴が歪む問題について議論します。この論文で提案されている方法は、ベイジアン剪定マスクを学習して高レベルの歪み特徴を抑制し、それによって敵対的摂動に対する堅牢性を最大化することである。

論文リンク: https://arxiv.org/pdf/1908.04355.pdf

著者らは、ディープニューラルネットワークにおける潜在的な特徴の脆弱性を考慮した。この方法では、堅牢な特徴を保持しながら脆弱な特徴を削除することを提案します。これは、ベイジアン フレームワークでプルーニング マスクを敵対的に学習することによって実現されます。

敵対的ニューラル プルーニング (ANP) は、敵対的トレーニングとベイズ プルーニング手法を組み合わせたものです。この論文で提案された新しいモデルとそのベースラインモデルは次のとおりです。

  • 標準畳み込みニューラル ネットワーク (標準)
  • ベイジアン・プルーニング(BP)とも呼ばれるベータ・ベルヌーイ・ドロップアウトを使用したベースネットワーク
  • 敵対的トレーニング ネットワーク (AT)
  • ベータベルヌーイドロップアウトを使用した敵対的ニューラルプルーニング(ANP)
  • 脆弱性抑制損失で正規化された敵対的トレーニングネットワーク(AT-VS)
  • 脆弱な抑制損失で正規化された敵対的ニューラルプルーニングネットワーク(ANP-VS)

次の表はモデルのパフォーマンスを示しています。

論文 3: ネットワーク プルーニングの価値の再考 (ICLR 2019)

本論文で提案するネットワーク剪定方法は 2 つのカテゴリに分かれており、対象となる剪定モデルのアーキテクチャは人間または剪定アルゴリズムによって決定されます。実験では、著者らは、事前定義された方法と自動化された方法の両方について、最初から剪定されたモデルをトレーニングした結果と、継承された重みに基づいて微調整して得られた剪定されたモデルの結果を比較しました。

論文リンク: https://arxiv.org/pdf/1810.05270v2.pdf

下の図は、L1 ノルム フィルター プルーニングに基づく定義済みの構造化プルーニングを使用して得られた結果を示しています。各レイヤーは、より小さな L1 ノルムを使用して、一定の割合のフィルターを削除します。 「プルーニングされたモデル」列は、各モデルを構成するために使用される定義済みターゲット モデルのリストです。各行で、最初からトレーニングされたモデルが、少なくとも微調整されたモデルと同等のパフォーマンスを発揮していることがわかります。

下の表に示すように、ThiNet は次のレイヤーのアクティベーション値への影響が最も少ないチャネルを貪欲に削減します。

次の表は、回帰ベースの特徴再構築方法の結果を示しています。この方法は、次の層の特徴マップの再構築エラーを最小限に抑え、チャネルのプルーニングを実現します。この最適化問題は LASSO 回帰によって解決できます。

ネットワーク スリミングに関しては、トレーニング中に、バッチ正規化レイヤーのチャネル レベルのスケーリング係数に L1 スパース性が適用されます。その後、より低いスケーリング係数を使用してチャネルが整理されます。チャネルのスケーリング係数はレイヤー間で比較されるため、この方法ではターゲット アーキテクチャを自動的に検出できます。

論文 4: 変換可能なアーキテクチャ検索によるネットワーク プルーニング (NeurIPS 2019)

この論文では、柔軟な数のチャネルとレイヤーを持つネットワークにニューラル アーキテクチャ検索を直接適用することを提案します。プルーニングされたネットワークの損失を最小限に抑えることは、チャネルの数を学習するのに役立ちます。プルーニングされたネットワークの特徴マップは、確率分布に基づいてサンプリングされた K 個の特徴マップ セグメントで構成され、損失はバックプロパゲーションを通じてネットワークの重みとパラメーター化された分布に転送されます。

論文リンク: https://arxiv.org/pdf/1905.09717v5.pdf

剪定されたネットワークの幅と深さは、各分布サイズの最大確率に基づいて取得され、これらのパラメータは元のネットワークからの知識転送によって取得されます。著者らは、CIFAR-10、CIFAR-100、および ImageNet データセットでモデルを評価しました。

剪定方法は 3 つのステップで構成されます。

  • 標準的な分類トレーニング手順を使用して、大規模な剪定されていないネットワークをトレーニングします。
  • 小規模ネットワークの深さと幅は、Transformable Architecture Search (TAS) を通じて検索され、最適なサイズのネットワークを見つけることを目指します。
  • 単純な知識蒸留 (KD) 法を使用して、剪定されていないネットワークの情報を、検索によって得られた小規模ネットワークに転送します。

次の表は、さまざまなプルーニング アルゴリズムを適用した後の ImageNet データセットにおけるさまざまな ResNet モデルのパフォーマンスを比較したものです。

論文 5: 自己適応型ネットワーク プルーニング (ICONIP 2019)

この論文では、各畳み込み層に Saliency-and-Pruning モジュール (SPM) を導入することで実現される適応型ネットワーク プルーニング法 (SANP) を通じて CNN の計算コストを削減することを提案しています。SPM モジュールは、サリエンシー スコアを予測し、各チャネルをプルーニングすることを学習できます。 SANP は、各レイヤーと各サンプルに基づいて、対応するプルーニング戦略を決定します。

論文リンク: https://arxiv.org/pdf/1910.08906.pdf

以下のアーキテクチャ図によると、SPM モジュールは畳み込みネットワークの各層に埋め込まれています。このモジュールは、入力機能に基づいてチャネルの重要度スコアを予測し、各チャネルに対応するプルーニングの決定を生成できます。

プルーニング決定が 0 のチャネルの場合、畳み込み演算はスキップされ、分類目標とコスト目標を使用してバックボーン ネットワークと SPM モジュールが共同でトレーニングされます。計算コストは​​、各レイヤーでのプルーニングの決定によって異なります。

次の表は、このアプローチの結果の一部を示しています。

論文 6: 大規模言語モデルの構造化剪定 (2019)

この論文で提案されている剪定方法は、低ランク分解と拡張ラグランジュ 10 ノルム正規化の原理に基づいています。 L_0 正則化は構造化プルーニングによって課される制約を緩和しますが、低ランク因数分解は行列の密な構造を保持します。

論文リンク: https://arxiv.org/pdf/1910.04732.pdf

正規化により、ネットワークは削除する重みを選択できます。重み行列は 2 つの小さな行列に分解され、これらの 2 つの行列の間に対角マスクが設定されます。トレーニング中、L_0 正規化を使用してこのマスクに対してプルーニングが実行されます。拡張ラグランジュ法は、モデルの最終的なスパース性を制御するために使用されます。論文の著者はこの方法を FLOP (Factorized L0 Pruning) と呼んでいます。

この論文で使用されている文字レベルの言語モデルは、Wikipedia から選択された 1 億件のデータを含む enwik8 データセットの実験で使用されています。著者らは、SRU モデルと Transformer-XL モデルで FLOPs メソッドを評価しました。次の表に結果の一部を示します。

以上が今回ご紹介したいくつかのプルーニング手法です。 この記事で紹介した論文にはコード実装も掲載されており、ご自身でテストすることも可能です。

<<:  AIは寒さに晒されているのか?スタンフォード大学の年次AIレポートが秘密を明らかにする

>>:  2020 年の予測: AI セキュリティの 10 のトレンド

ブログ    
ブログ    

推薦する

マスターカードがAIを活用して詐欺を阻止し、誤ったチャージバックを削減する方法

【51CTO.com クイック翻訳】チェックアウト時に銀行カード取引が拒否されると、イライラしたり恥...

私はトップ200のAIツールを調査しましたが、業界が少し飽和状態にあることがわかりました

LinkedIn では、機械学習の職種に応募する人の多くに 200 人を超える応募者がいます。 AI...

AIに切り替えたい人向け:人工知能ガイドはこちら

人工知能とは何でしょうか? なぜ重要なのでしょうか? 人工知能を恐れるべきでしょうか? なぜ突然、み...

人工知能: インダストリー4.0の原動力

製造業における AI に関する誇大宣伝の多くは産業オートメーションに焦点を当てていますが、これはスマ...

人工知能やビッグデータ製品の開発において、特に注意すべき点は何でしょうか?

近年、人工知能は科学技術の発展の重要な方向となっており、ビッグデータの収集、マイニング、応用の技術は...

ソフトマックスを放棄した初の大規模線形アテンショントランスフォーマーモデル: 1750億のパラメータ、より優れた速度と精度

最近、上海人工知能研究所とOpenNLPLabの研究チームが、ソフトマックスベースの注意メカニズムを...

ガートナー: データサイエンスと機械学習の未来に影響を与える 5 つのトレンド

Gartner, Inc. は、人工知能のデータ需要を満たすために急速に進化している分野であるデータ...

Zigbeeプロトコルスタックの暗号化アルゴリズムについての簡単な説明

先ほど、Zigbee プロトコル スタックのいくつかの原則と構造を紹介しました。すでに理解しているか...

モデルが大きくなればなるほど、パフォーマンスは向上しますか? Appleの自己回帰視覚モデルAIM: そうです

過去数年間、大規模な事前トレーニング済みモデルが NLP の分野で成功を収めてきました。このようなモ...

後から登場したが、最初に登場したテンセントのHunyuanモデルの技術的なハイライトは何ですか?

2023年の夏は終わったが、AIGCビッグモデルを巡る注目は衰える気配がない。過去 6 か月間、私...

マイクロソフトがAR仮想「翻訳機」をデモ、将来の翻訳業界に影響を与える

7月22日のニュース:AR技術は継続的な発展により、徐々に成熟してきました。他の新しいテクノロジーと...

...

機械学習モデルの導入における課題に対処する方法

[[377893]] [51CTO.com クイック翻訳] データとオープンソースの機械学習フレーム...

...

エッジAIとは何ですか?

エッジ AI は、今日のデジタル変革の時代に台頭している 2 つのテクノロジー、エッジ コンピューテ...