パフォーマンスが最大120倍向上! Didiのインターンは、自動構造化分岐削減および圧縮アルゴリズムフレームワークを提案した。

パフォーマンスが最大120倍向上! Didiのインターンは、自動構造化分岐削減および圧縮アルゴリズムフレームワークを提案した。

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。

同じ精度で、実際のパラメータの圧縮を従来の方法と比較して 120 倍以上向上できます。

これは、Didi のインターンが提案したAutoCompressという自動構造化プルーニングおよび圧縮アルゴリズム フレームワークによってもたらされるパフォーマンスの向上です。

コアとなるのは、ディープ モデル プルーニングでハイパーパラメータを自動的に検出し、モデルのさまざまなレイヤーでパラメータの冗長性を削除することです。

CIFAR および ImageNet データセットに対する広範なテストにより、AutoCompress がさまざまなニューラル ネットワーク圧縮方法やフレームワークを大幅に上回るパフォーマンスを発揮することが示されました。

この研究はAAAI2020にも採択されました。

研究者らは、この研究により手動の設計プロセスが置き換えられ、組み込みデバイス上でディープモデルを実行するためのリアルタイムのパフォーマンス要件を満たす超高圧縮率を達成できると述べた。

彼らはどうやってそれを達成したのでしょうか?以下、一つずつ解釈してみましょう。

ディープモデルプルーニングにおけるハイパーパラメータの設定を自動化する

近年、ディープニューラルネットワークモデルのパフォーマンスが継続的に向上するにつれて、モデルのバックボーンネットワークパラメータの数がますます大きくなり、ストレージとコンピューティングのコストが増加し続け、リソースが制限された組み込みプラットフォームへの展開が困難になっています。

ディープニューラルネットワークモデル圧縮技術は、この問題を解決するために欠かせない鍵となり、近年の研究のホットスポットの1つにもなっています。

多くの方法が登場していますが、その 1 つである構造化プルーニングは、ハードウェア実行効率の低さ、メモリ アクセス効率の悪さ、プラットフォーム レベルでの計算並列性の低さといった問題を解決できるため、学界や産業界から注目を集めています。

しかし、これには「欠陥」もあり、アルゴリズムの実装プロセスには多数のハイパーパラメータ設定が関係しています。たとえば、モデルの圧縮次元をどのように決定するか、モデル内の各層の圧縮率をどのように決定するかなどです。

これには、ガイダンスを設計するために専門家が懸命に取り組む必要があり、これらのハイパーパラメータを手動で設計するプロセスは長くて複雑です。

効果は必ずしも良いとは限りません。結局のところ、それは関係者のパラメータ調整経験に大きく依存します。

そこで、一部の研究者はハイパーパラメータを自動的に設定できるかどうかについて考え始めました。これが実現すれば、アルゴリズムの実装効率が大幅に向上するでしょう。考えるだけでもワクワクします。

そこで、一部の人々がそれを実行し始めました。たとえば、MIT、CMU、Google の研究者は、深層強化学習 (DRL) を使用して各レイヤーの刈り込み比率を決定する AMC と呼ばれる手法を提案しました。

自動パラメータ調整のアイデアは実現されましたが、まだいくつかの制限があります。

一方で、この研究では単一の出力チャネル (フィルター) のプルーニング次元のみを使用しました。他方では、スパース モデルを取得するために、使用されたプルーニング方法は、モデルのトレーニング プロセス中に静的な正規化項を導入するだけのものでした。

しかし、より深刻な制限は、DRL フレームワークに基づいて採用されているプルーニング方法が、プルーニングの問題と本質的に互換性がないことです。結果、最高の圧縮率は非構造化圧縮率のわずか 5 倍でした。

Didi の研究ではこれらの欠点が改善され、ニューラル ネットワークの重みの削減の問題に対するハイパーパラメータの設定プロセスを自動化するための汎用フローが提案されました。

全体的に4つのステップに分かれています。最初に動作のサンプリング (ステップ 1) が行われ、次にクイック評価 (ステップ 2)、決定 (ステップ 3)、最後に剪定操作 (ステップ 4) が行われます。

上記の一般的なプロセスに基づき、従来の方法の限界をターゲットに、既存のディープニューラルネットワークと機械学習フレームワークを統合することで、ディープニューラルネットワークの自動構造化プルーニングのための最も効率的な一般的なフレームワークを実装し、それを AutoCompress と名付けました。

実際のパラメータ量の圧縮は120倍以上増加できる

では、AutoCompress はどのように機能するのでしょうか?この論文では、3 つの新しいデザインについて言及しています。

(1)ハイブリッド構造化剪定次元を提案する。(2)効率的で強力なニューラルネットワーク剪定アルゴリズムADMM(交互乗数最適化アルゴリズム)を使用して、トレーニングプロセス中に正則化項を動的に更新する。(3)強化されたガイド付きヒューリスティック検索法を使用して、動作サンプリングを行う。

これらの新しい設計に基づいて、彼らが提案したフレームワークは次のとおりです。

一般的に、AutoCompress フレームワークは、主に 2 つのステップで自動モデル プルーニングを実行します。まず、ADMM アルゴリズムに基づく構造化プルーニングによって、構造的にスパースな重み分布を持つモデルが取得されます。

次に、ネットワーク構造の浄化操作を通じて、ADMM プロセスで完全に削除できない冗長な重みの小さな部分を見つけて削除します。

両方のステップが同じヒューリスティック検索メカニズムに基づいていることは注目に値します。

たとえば、プリミティブ モデルが与えられた場合、重みの数に基づく目的関数と操作数 (FLOP) に基づく目的関数の 2 つを設定します。

検索プロセスは複数のラウンドで実行されます。たとえば、最初のラウンドでは重みの数を 2 倍に圧縮することを目的とし、2 番目のラウンドでは重みの数を 4 倍に圧縮することを目的とします。各検索ラウンドでは、まず動作 (ハイパーパラメータ) が初期化され、その後、その動作に対して毎回摂動 (ハイパーパラメータの小さな変更) が加えられ、新しい動作が生成されます。

シミュレーテッドアニーリングアルゴリズムの原理に従って、2 つの動作が評価されます。新しい動作の評価結果が元の結果よりも優れている場合、その動作は受け入れられます。新しい動作の評価結果が元の結果よりも悪い場合、その動作は一定の確率で受け入れられます。

アルゴリズムの各ラウンドにおける温度パラメータ T は、T が特定のしきい値まで低下するまで減少し、その後検索が停止します。最後に、検索を通じて得られたハイパーパラメータに基づいて、ニューラル ネットワークに対して構造化されたプルーニング操作が実行されます。

パフォーマンスはどうですか?彼らはまた、以下のテストも行いました。

CIFAR-10 データセットでは、VGG-16 は精度を損なうことなく最大 52.2 倍の圧縮率を達成し、Samsung Galaxy S10 スマートフォンで 2.7 ミリ秒で実行されます (コード生成最適化コンパイラを使用)。

ResNet-18 は、精度を損なうことなく、CIFAR-10 データセットで 54.2 倍の構造化プルーニング圧縮率を達成しました。

従来の方法と比較すると、ResNet-18 と ResNet-50 のサイズの違いを考慮すると、重みパラメータを従来の方法に比べて 120 倍削減でき、精度も向上します。

ImageNet データセットでは、VGG-16 はわずか 0.6% の精度損失で 6.4 倍の構造化圧縮率を達成し、ResNet-18 は精度損失なしで 3.3 倍の構造化圧縮率を達成しました。

さらに、AutoCompress フレームワークは非構造化プルーニングにも適用できます。その圧縮結果により、ResNet-50 は ImageNet データセットで精度を低下させることなく 9.2 倍の圧縮率を達成し、わずか 0.7% の精度低下で 17.4 倍の圧縮率を達成できます。

したがって、他の方法と比較して、AutoCompress はさまざまなニューラル ネットワーク圧縮方法やフレームワークよりも効果的であり、結果として得られる効率的なニューラル ネットワーク モデルは、組み込みモバイル システムでリアルタイムの推論操作を実現できると結論付けました。

Didi AIラボインターン

この研究の筆頭著者である劉寧氏は、米国ノースイースタン大学の博士課程の学生であり、同大学の王延志教授の指導を受けている。

高校時代には北京高校物理コンテストで第2位を獲得。大学時代には電子情報工学を専攻し、全国大学生IoTコンテストで第3位を獲得。

2015年にシラキュース大学で修士号を取得。今回紹介した研究は、2019年に滴滴出行でインターンシップをした際の成果の一つだ。インターンシップの指導者は滴滴出行のインテリジェント制御の主任科学者である唐建氏だった。

[[313358]]

Didiでインターンシップをする前、彼はNetEaseと360でもインターンシップをしていました。

ディディ氏の報告によると、彼は自身の研究計画についても語り、ディープラーニングモデルの圧縮と設計について引き続き詳細な研究を行い、学んだ知識と研究結果を現実世界のシナリオに適用したいと考えている。

現在、このフレームワークはDidiで効果的に適用されています。

<<:  テスラはどのようにしてPyTorchを使って自動運転を実現し、世界に挑戦したのでしょうか?

>>:  出会い系アプリの女の子たちは実はStyleGANによって生成された偽の人物である

ブログ    

推薦する

ビジョンから現実へ: ヘルスケアにおける AI の台頭

[51CTO.com速訳]人工知能分野における音声インタラクション、コンピュータビジョン、認知コンピ...

人工知能と機械学習がスタートアップに与える影響

人工知能 (AI) と機械学習 (ML) は、スタートアップを含む複数の業界に革命をもたらしました。...

IoTミツバチ:私たちの未来を救う技術

ミツバチは植物から植物へと飛び回って餌を探しながら、受粉という重要な役割も担っています。しかし、過去...

2024年のAIに関する5つの予測

2023 年には、AI、ML、特に GenAI があらゆるところに存在しますが、内容よりもパフォーマ...

ビデオ分析が物流と製造業の業務と安全性をどのように改善するか

[[400684]]製造品に対する世界的な需要が高まり続ける中、製造組織とサプライチェーン内のセキュ...

李開復:将来、名ばかりの職業10種

[[244632]]今後 30 年間で、人工知能は、現在人間が理解していない多くの社会現象を引き起こ...

カメラの前で指をタップすることでパーキンソン病の症状を遠隔で評価するAIツールが開発される

9月10日、ロチェスター大学の研究者らは、パーキンソン病患者が数分で遠隔から症状の重症度を評価できる...

テクノロジー大手はAI人材の獲得に競い合い、新卒でも巨額の給与を得られる

編集者注: 将来は AI の時代であるため、あらゆる規模のテクノロジー企業が人材獲得を競っています。...

ディープラーニングに基づくターゲット検出ネットワークが誤検出を起こす可能性がある理由と、ターゲット検出の誤検出問題を最適化する方法について説明します。

顔検出などの物体検出用のディープラーニング ネットワークにとって、誤検出は非常に厄介なものです。犬を...

転換点までのカウントダウン:AI サーバーが市場を完全に支配するにはどれくらいの時間がかかるのでしょうか?

ハイパースケーラーとクラウド プロバイダーがインフラストラクチャの計画を検討する場合、まず全体的な動...

...

...

...

ドローンは倉庫・物流業界の発展をどのように加速させているのでしょうか?

屋内ドローンは、新しい未知の市場でどのようにその有用性を証明できるでしょうか?ドローンは無人自律航空...

人工知能がコロナウイルスを終わらせる

人工知能と新型コロナウイルスには共通点がないように思えますが、本質的には同じものです。 [[4391...