パフォーマンスが最大120倍向上! Didiのインターンは、自動構造化分岐削減および圧縮アルゴリズムフレームワークを提案した。

パフォーマンスが最大120倍向上! Didiのインターンは、自動構造化分岐削減および圧縮アルゴリズムフレームワークを提案した。

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。

同じ精度で、実際のパラメータの圧縮を従来の方法と比較して 120 倍以上向上できます。

これは、Didi のインターンが提案したAutoCompressという自動構造化プルーニングおよび圧縮アルゴリズム フレームワークによってもたらされるパフォーマンスの向上です。

コアとなるのは、ディープ モデル プルーニングでハイパーパラメータを自動的に検出し、モデルのさまざまなレイヤーでパラメータの冗長性を削除することです。

CIFAR および ImageNet データセットに対する広範なテストにより、AutoCompress がさまざまなニューラル ネットワーク圧縮方法やフレームワークを大幅に上回るパフォーマンスを発揮することが示されました。

この研究はAAAI2020にも採択されました。

研究者らは、この研究により手動の設計プロセスが置き換えられ、組み込みデバイス上でディープモデルを実行するためのリアルタイムのパフォーマンス要件を満たす超高圧縮率を達成できると述べた。

彼らはどうやってそれを達成したのでしょうか?以下、一つずつ解釈してみましょう。

ディープモデルプルーニングにおけるハイパーパラメータの設定を自動化する

近年、ディープニューラルネットワークモデルのパフォーマンスが継続的に向上するにつれて、モデルのバックボーンネットワークパラメータの数がますます大きくなり、ストレージとコンピューティングのコストが増加し続け、リソースが制限された組み込みプラットフォームへの展開が困難になっています。

ディープニューラルネットワークモデル圧縮技術は、この問題を解決するために欠かせない鍵となり、近年の研究のホットスポットの1つにもなっています。

多くの方法が登場していますが、その 1 つである構造化プルーニングは、ハードウェア実行効率の低さ、メモリ アクセス効率の悪さ、プラットフォーム レベルでの計算並列性の低さといった問題を解決できるため、学界や産業界から注目を集めています。

しかし、これには「欠陥」もあり、アルゴリズムの実装プロセスには多数のハイパーパラメータ設定が関係しています。たとえば、モデルの圧縮次元をどのように決定するか、モデル内の各層の圧縮率をどのように決定するかなどです。

これには、ガイダンスを設計するために専門家が懸命に取り組む必要があり、これらのハイパーパラメータを手動で設計するプロセスは長くて複雑です。

効果は必ずしも良いとは限りません。結局のところ、それは関係者のパラメータ調整経験に大きく依存します。

そこで、一部の研究者はハイパーパラメータを自動的に設定できるかどうかについて考え始めました。これが実現すれば、アルゴリズムの実装効率が大幅に向上するでしょう。考えるだけでもワクワクします。

そこで、一部の人々がそれを実行し始めました。たとえば、MIT、CMU、Google の研究者は、深層強化学習 (DRL) を使用して各レイヤーの刈り込み比率を決定する AMC と呼ばれる手法を提案しました。

自動パラメータ調整のアイデアは実現されましたが、まだいくつかの制限があります。

一方で、この研究では単一の出力チャネル (フィルター) のプルーニング次元のみを使用しました。他方では、スパース モデルを取得するために、使用されたプルーニング方法は、モデルのトレーニング プロセス中に静的な正規化項を導入するだけのものでした。

しかし、より深刻な制限は、DRL フレームワークに基づいて採用されているプルーニング方法が、プルーニングの問題と本質的に互換性がないことです。結果、最高の圧縮率は非構造化圧縮率のわずか 5 倍でした。

Didi の研究ではこれらの欠点が改善され、ニューラル ネットワークの重みの削減の問題に対するハイパーパラメータの設定プロセスを自動化するための汎用フローが提案されました。

全体的に4つのステップに分かれています。最初に動作のサンプリング (ステップ 1) が行われ、次にクイック評価 (ステップ 2)、決定 (ステップ 3)、最後に剪定操作 (ステップ 4) が行われます。

上記の一般的なプロセスに基づき、従来の方法の限界をターゲットに、既存のディープニューラルネットワークと機械学習フレームワークを統合することで、ディープニューラルネットワークの自動構造化プルーニングのための最も効率的な一般的なフレームワークを実装し、それを AutoCompress と名付けました。

実際のパラメータ量の圧縮は120倍以上増加できる

では、AutoCompress はどのように機能するのでしょうか?この論文では、3 つの新しいデザインについて言及しています。

(1)ハイブリッド構造化剪定次元を提案する。(2)効率的で強力なニューラルネットワーク剪定アルゴリズムADMM(交互乗数最適化アルゴリズム)を使用して、トレーニングプロセス中に正則化項を動的に更新する。(3)強化されたガイド付きヒューリスティック検索法を使用して、動作サンプリングを行う。

これらの新しい設計に基づいて、彼らが提案したフレームワークは次のとおりです。

一般的に、AutoCompress フレームワークは、主に 2 つのステップで自動モデル プルーニングを実行します。まず、ADMM アルゴリズムに基づく構造化プルーニングによって、構造的にスパースな重み分布を持つモデルが取得されます。

次に、ネットワーク構造の浄化操作を通じて、ADMM プロセスで完全に削除できない冗長な重みの小さな部分を見つけて削除します。

両方のステップが同じヒューリスティック検索メカニズムに基づいていることは注目に値します。

たとえば、プリミティブ モデルが与えられた場合、重みの数に基づく目的関数と操作数 (FLOP) に基づく目的関数の 2 つを設定します。

検索プロセスは複数のラウンドで実行されます。たとえば、最初のラウンドでは重みの数を 2 倍に圧縮することを目的とし、2 番目のラウンドでは重みの数を 4 倍に圧縮することを目的とします。各検索ラウンドでは、まず動作 (ハイパーパラメータ) が初期化され、その後、その動作に対して毎回摂動 (ハイパーパラメータの小さな変更) が加えられ、新しい動作が生成されます。

シミュレーテッドアニーリングアルゴリズムの原理に従って、2 つの動作が評価されます。新しい動作の評価結果が元の結果よりも優れている場合、その動作は受け入れられます。新しい動作の評価結果が元の結果よりも悪い場合、その動作は一定の確率で受け入れられます。

アルゴリズムの各ラウンドにおける温度パラメータ T は、T が特定のしきい値まで低下するまで減少し、その後検索が停止します。最後に、検索を通じて得られたハイパーパラメータに基づいて、ニューラル ネットワークに対して構造化されたプルーニング操作が実行されます。

パフォーマンスはどうですか?彼らはまた、以下のテストも行いました。

CIFAR-10 データセットでは、VGG-16 は精度を損なうことなく最大 52.2 倍の圧縮率を達成し、Samsung Galaxy S10 スマートフォンで 2.7 ミリ秒で実行されます (コード生成最適化コンパイラを使用)。

ResNet-18 は、精度を損なうことなく、CIFAR-10 データセットで 54.2 倍の構造化プルーニング圧縮率を達成しました。

従来の方法と比較すると、ResNet-18 と ResNet-50 のサイズの違いを考慮すると、重みパラメータを従来の方法に比べて 120 倍削減でき、精度も向上します。

ImageNet データセットでは、VGG-16 はわずか 0.6% の精度損失で 6.4 倍の構造化圧縮率を達成し、ResNet-18 は精度損失なしで 3.3 倍の構造化圧縮率を達成しました。

さらに、AutoCompress フレームワークは非構造化プルーニングにも適用できます。その圧縮結果により、ResNet-50 は ImageNet データセットで精度を低下させることなく 9.2 倍の圧縮率を達成し、わずか 0.7% の精度低下で 17.4 倍の圧縮率を達成できます。

したがって、他の方法と比較して、AutoCompress はさまざまなニューラル ネットワーク圧縮方法やフレームワークよりも効果的であり、結果として得られる効率的なニューラル ネットワーク モデルは、組み込みモバイル システムでリアルタイムの推論操作を実現できると結論付けました。

Didi AIラボインターン

この研究の筆頭著者である劉寧氏は、米国ノースイースタン大学の博士課程の学生であり、同大学の王延志教授の指導を受けている。

高校時代には北京高校物理コンテストで第2位を獲得。大学時代には電子情報工学を専攻し、全国大学生IoTコンテストで第3位を獲得。

2015年にシラキュース大学で修士号を取得。今回紹介した研究は、2019年に滴滴出行でインターンシップをした際の成果の一つだ。インターンシップの指導者は滴滴出行のインテリジェント制御の主任科学者である唐建氏だった。

[[313358]]

Didiでインターンシップをする前、彼はNetEaseと360でもインターンシップをしていました。

ディディ氏の報告によると、彼は自身の研究計画についても語り、ディープラーニングモデルの圧縮と設計について引き続き詳細な研究を行い、学んだ知識と研究結果を現実世界のシナリオに適用したいと考えている。

現在、このフレームワークはDidiで効果的に適用されています。

<<:  テスラはどのようにしてPyTorchを使って自動運転を実現し、世界に挑戦したのでしょうか?

>>:  出会い系アプリの女の子たちは実はStyleGANによって生成された偽の人物である

ブログ    
ブログ    

推薦する

劉玉樹:人工知能における中国と米国の格差は縮まっているが、まだやるべきことはある

著者の劉玉樹氏は中国人民大学重陽金融研究所学務委員会委員、マクロ研究部部長、研究者である。本稿は11...

市長や市議会議員に立候補する際、ロボットは公務員として適しているでしょうか?

知名度という点では、サウジアラビアのパスポートを持つソフィアは、間違いなくロボット工学界のトップスタ...

...

...

中国工程院院士の李軍氏:単一車両知能には5つの大きな問題があり、自動運転には新たな技術的ルートが必要

Leifeng.com(公式アカウント:Leifeng.com)注:少し前、2020年世界インテリジ...

この本は人気があり、この本を学んだ男性は給料が30万以上上がった

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

...

モデル、データ、フレームワークの観点から、効率的な大規模言語モデルに関する54ページのレビューを紹介します。

大規模言語モデル (LLM) は、自然言語理解、言語生成、複雑な推論など、多くの重要なタスクにおいて...

人工知能の根幹技術を徹底的に分析

AIチップ・AIフレームワークの代表的企業コンピューティングアルゴリズムの重要な基盤として、人工知能...

貢献度が最も高い GitHub コレクションとディープラーニング フレームワーク 16 選

ビッグデータ概要編纂者:Jingzhe、Shijintian、Jiang Baoshangディープラ...

AIは「GitHub危機」を乗り越えられるか?

機械学習は現在、この分野の急速な発展を妨げるいくつかの危機に直面しています。これらの危機は、より広範...

日本のメディアは、監視と保護に加えて感染症の予防にも役立つ鳥類識別AIの中国での推進に注目している。

日本のメディアZDNETは6月29日、中国が全国規模で鳥類識別AIの普及を推進しているとの記事を掲載...

Spring-Smart-DI は実装クラスを動的に切り替えます。非常に優れています。

実際のシステム開発のシナリオでは、同じ機能を複数のサービスプロバイダーに接続する必要があるというタイ...

現時点で最も包括的なPythonの採用方針

Pythonは、コンパイル速度が超高速なオブジェクト指向プログラミング言語です。誕生から25年が経ち...

ChatGPTのトラフィックが減少しており、学生が夏休みに入っているためだと推測する人もいる

7月16日、OpenAIが開発した人工知能チャットボット「ChatGPT」は、ユーザーと自然言語で会...