テンセント AI ラボが初の自動モデル圧縮フレームワークのソースを公開: ディープラーニングをポケットに

テンセントAIラボ機械学習センターは本日、世界初の自動ディープラーニングモデル圧縮フレームワーク「PocketFlow」の開発に成功し、近い将来にオープンソースコードを公開すると発表しました。これは、モバイル AI 開発者向けの自動モデル圧縮フレームワークです。現在主流のモデル圧縮およびトレーニングアルゴリズム (Tencent AI Lab が開発したアルゴリズムを含む) を統合し、独自に開発したハイパーパラメータ最適化コンポーネントを組み合わせて、完全に自動化されたマネージドモデル圧縮と高速化を実現します。

開発者は、特定のアルゴリズムの詳細を理解する必要なく、AI テクノロジーをモバイル製品に迅速に導入できるため、ユーザーデータを効率的にローカルで処理できます。現在、このフレームワークは、テンセントの複数のモバイル事業にモデル圧縮と高速化の技術サポートを提供しており、複数のモバイルアプリで使用されています。

1. PocketFlowの背景

AI テクノロジーの急速な発展に伴い、ユーザーエクスペリエンスを最適化するために、モバイル製品に AI 機能を組み込むことを望む企業が増えています。ディープラーニングに代表されるAI技術は、画像理解や音声認識など多くの応用分野で認識精度を大幅に向上させてきました。しかし、主流のディープラーニングモデルはコンピューティングリソースに対する要件が高く、一般消費者向けのモバイルデバイスに直接導入するのは困難です。一般的に使用されているソリューションは、複雑なディープラーニングモデルをクラウドに展開し、モバイル端末が識別するデータをクラウドにアップロードし、クラウドが識別結果を返すのを待つことです。ただし、これには高いネットワーク伝送速度が必要であり、ネットワークカバレッジの悪い地域のユーザーはユーザーエクスペリエンスが低下します。同時に、クラウドにアップロードした後のデータのプライバシーを保証することは困難です。

このような状況において、CNN や RNN などのネットワーク構造の計算効率を、精度をほとんど損なうことなく（あるいは損失なく）効果的に向上させることができるモデル圧縮および加速アルゴリズムが数多く登場し、モバイル端末にディープラーニングモデルを展開することが可能になりました。しかし、実際のアプリケーションシナリオに応じて適切なモデル圧縮および加速アルゴリズムと対応するハイパーパラメータ値を選択するには、多くの場合、より専門的な知識と実践的な経験が必要であり、一般の開発者がこのテクノロジを使用するためのハードルが間違いなく高くなります。

このような状況において、テンセント AI ラボ機械学習センターは、自動化されたディープラーニングモデルの圧縮と加速を実現し、より多くのモバイル製品への AI 技術の広範な応用を促進するために、PocketFlow オープンソースフレームワークを開発しました。複数のディープラーニングモデル圧縮アルゴリズムを統合し、ハイパーパラメータ最適化コンポーネントを革新的に導入することで、モデル圧縮技術の自動化レベルが大幅に向上しました。開発者は、特定のモデル圧縮アルゴリズムとそのハイパーパラメータ値の選択に介入する必要はなく、PocketFlow を通じてニーズを満たす圧縮モデルを取得し、それをモバイルアプリケーションに迅速に展開するために必要なのは、期待されるパフォーマンス指標を指定することだけです。

2. PocketFlowに関するAIラボの研究進捗

最近、AIラボ機械学習センターは、ディープラーニングモデルの圧縮とハイパーパラメータ最適化アルゴリズムへの投資を継続し、多くの研究の進歩を遂げてきました。モデル圧縮アルゴリズムに関しては、チームは識別可能性最大化基準に基づくチャネルプルーニングアルゴリズムを提案しました。これにより、CNNネットワークモデルの計算量を大幅に削減しながら、基本的にパフォーマンスの低下を防ぐことができます。関連論文はNIPS 2018に掲載されました[1]。このアルゴリズムは、トレーニングプロセス中に複数の追加の損失項を導入して、CNN ネットワーク内の各レイヤーの識別可能性を向上させ、分類エラーと再構築エラーを最小化するという最適化目標に基づいてレイヤーごとにチャネルプルーニングを実行し、識別可能性が比較的小さい冗長チャネルを削除して、モデルのロスレス圧縮を実現します。ハイパーパラメータ最適化アルゴリズムに関しては、チームはガウス過程（GP）やツリー構造パルゼン推定器（TPE）などのさまざまなハイパーパラメータ最適化アルゴリズムを統合したAutoML自動ハイパーパラメータ最適化フレームワークを開発しました。全プロセスの自動ホスティングを通じて、時間と労力がかかる手動パラメータ調整の問題を解決し、アルゴリズム担当者の開発効率を大幅に向上させます。

一方、ディープラーニングモデルのトレーニングサイクルは一般的に長いことを考慮し、チームはTensorFlowをベースにマルチマシン・マルチカードのトレーニングプロセスを最適化し、分散最適化プロセスにおける勾配通信時間を短縮し、TF-Plusという分散最適化フレームワークを開発しました。シングルGPUのトレーニングコードをマルチマシン・マルチカードバージョンに拡張し、ほぼ線形の加速率を達成するのに必要なコード修正はわずか十数行です。さらに、研究チームは誤差補正型量子化確率的勾配降下法アルゴリズムも提案した。量子化誤差の補正メカニズムを導入することで、研究チームはモデルトレーニングの収束を加速することができた。このアルゴリズムは、パフォーマンスの低下なしに1～2桁の勾配圧縮を達成し、分散最適化における勾配通信の量を減らし、トレーニングを加速することができる。関連論文はICML 2018で発表された[2]。

PocketFlow フレームワークの開発中に、チームは上記の自社開発アルゴリズムのサポートを追加し、モデル圧縮の精度損失を効果的に削減し、モデルのトレーニング効率を向上させ、ハイパーパラメータ調整の自動化の度合いを大幅に向上させました。

3. PocketFlowフレームワークの紹介

PocketFlow フレームワークは、主にモデル圧縮/加速アルゴリズムコンポーネントとハイパーパラメータ最適化コンポーネントの 2 つのコンポーネントで構成されています。具体的な構造を下図に示します。

開発者は、圧縮されていない元のモデルを PocketFlow フレームワークへの入力として使用し、モデルの圧縮倍数や加速倍数などの必要なパフォーマンス指標を指定します。反復の各ラウンドで、ハイパーパラメータ最適化コンポーネントがハイパーパラメータ値の組み合わせのセットを選択し、次にモデル圧縮/加速アルゴリズムコンポーネントがハイパーパラメータ値の組み合わせに基づいて元のモデルを圧縮して、圧縮された候補モデルを取得します。候補モデルのパフォーマンス評価の結果に基づいて、ハイパーパラメータ最適化コンポーネントは独自のモデルパラメータを調整し、新しいハイパーパラメータ値の組み合わせのセットを選択して、次の反復ラウンドを開始します。反復が終了すると、PocketFlow は最適なハイパーパラメータ値の組み合わせと対応する候補モデルを最終出力として選択し、モバイル端末でのモデル展開のために開発者に返します。

具体的には、PocketFlow は、以下のアルゴリズムコンポーネントを効果的に組み合わせることで、精度の低下を抑え、自動化の度合いを高めながら、ディープラーニングモデルの圧縮と高速化を実現します。

a) チャネルプルーニングコンポーネント: CNN ネットワークでは、特徴マップ内のチャネル次元をプルーニングすることで、モデルサイズと計算の複雑さの両方を削減でき、既存のディープラーニングフレームワークに基づいて圧縮モデルを直接展開できます。 CIFAR-10 画像分類タスクでは、ResNet-56 モデルでチャネルプルーニングを実行することで、分類精度の低下は 2.5 倍の加速で 0.4%、3.3 倍の加速で 0.7% になります。

b)重みスパース化コンポーネント:ネットワーク重みにスパース制約を導入することで、ネットワーク重み内のゼロ以外の要素の数を大幅に削減できます。圧縮モデルのネットワーク重みはスパース行列の形式で保存および送信できるため、モデル圧縮が実現します。 MobileNet 画像分類モデルの場合、ネットワークの重みを 50% 削除すると、ImageNet データセットでの Top-1 分類精度の低下はわずか 0.6% になります。

c)重み量子化コンポーネント:ネットワーク重みに量子化制約を導入することで、各ネットワーク重みを表すために必要なビット数を削減できます。また、チームは均一と非均一という 2 つの主要なタイプの量子化アルゴリズムのサポートも提供しています。ARM や FPGA などのデバイスのハードウェア最適化を最大限に活用して、モバイルデバイスのコンピューティング効率を向上させ、将来のニューラルネットワークチップ設計にソフトウェアサポートを提供できます。 ImageNet 画像分類タスクに使用される ResNet-18 モデルを例にとると、8 ビット固定小数点量子化により、ロスレス精度で 4 倍の圧縮を実現できます。

d)ネットワーク蒸留コンポーネント:上記のモデル圧縮コンポーネントでは、圧縮されていない元のモデルの出力が追加の監視情報として使用され、圧縮モデルのトレーニングをガイドします。圧縮/加速係数を変更しないという前提で、0.5% から 2.0% の範囲の精度向上が得られます。

e)マルチ GPUトレーニングコンポーネント:ディープラーニングモデルのトレーニングプロセスには、大量のコンピューティングリソースが必要です。単一の GPU では、短時間でモデルのトレーニングを完了することはできません。そのため、チームは、ユーザーの開発プロセスを高速化するために、マルチマシンおよびマルチカードの分散トレーニングを包括的にサポートしています。 ImageNet データに基づく Resnet-50 画像分類モデルと WMT14 データに基づく Transformer 機械翻訳モデルはどちらも 1 時間以内にトレーニングできます。

f)ハイパーパラメータ最適化コンポーネント:ほとんどの開発者はモデル圧縮アルゴリズムをよく理解していませんが、ハイパーパラメータの値は最終結果に大きな影響を与えることがよくあります。そのため、チームはハイパーパラメータ最適化コンポーネントを導入し、強化学習などのアルゴリズムと AI Lab が独自に開発した AutoML 自動ハイパーパラメータ最適化フレームワークを使用して、特定のパフォーマンス要件に基づいて最適なハイパーパラメータ値の組み合わせを決定します。たとえば、チャネルプルーニングアルゴリズムの場合、ハイパーパラメータ最適化コンポーネントは、元のモデル内の各レイヤーの冗長度に応じて、レイヤーごとに異なるプルーニング比率を自動的に採用できるため、圧縮モデルの認識精度が最大化されると同時に、モデルの全体的な圧縮倍数が満たされます。

4. PocketFlow パフォーマンスデモンストレーション

ハイパーパラメータ最適化コンポーネントを導入することで、高い閾値と面倒な手動パラメータ調整作業を回避できるだけでなく、PocketFlow はすべての圧縮アルゴリズムにおいて手動パラメータ調整の効果を上回ることができます。画像分類タスクを例にとると、CIFAR-10 や ImageNet などのデータセットでは、PocketFlow は ResNet や MobileNet などのさまざまな CNN ネットワーク構造を効果的に圧縮し、高速化します。

CIFAR-10データセットでは、PocketFlowはResNet-56をチャネルプルーニングのベースラインモデルとして使用し、ハイパーパラメータ最適化やネットワーク蒸留などのトレーニング戦略を追加することで、2.5倍の加速で分類精度の損失が0.4％、3.3倍の加速で精度の損失が0.7％となり、非圧縮のResNet-44モデルよりも大幅に改善されました。ImageNetデータセットでは、PocketFlowは、すでに非常に合理化されたMobileNetモデルに対して重みスパース化を継続して実行し、より小さなモデルサイズで同様の分類精度を達成できます。Inception-V1やResNet-18などのモデルと比較すると、モデルサイズは後者の約20〜40％にすぎませんが、分類精度は基本的に同じ（またはそれ以上）です。

時間と労力がかかる手動のパラメータ調整と比較して、PocketFlowフレームワークのAutoML自動ハイパーパラメータ最適化コンポーネントは、わずか10回強の反復で手動パラメータ調整と同様のパフォーマンスを実現できます。100回の反復後に検索されたハイパーパラメータの組み合わせは、精度の低下を約0.6％削減できます。ハイパーパラメータ最適化コンポーネントを使用してネットワーク内の各レイヤーの重みの量子化ビット数を自動的に決定することにより、PocketFlowは、ImageNet画像分類タスクに使用されるResNet-18モデルを圧縮する際に一貫したパフォーマンスの向上を実現しました。平均量子化ビット数が4ビットの場合、ハイパーパラメータ最適化コンポーネントを導入すると、分類精度が63.6％から68.1％に向上します（元のモデルの分類精度は70.3％）。

5. PocketFlowはモバイルビジネスの実装に役立ちます

Tencent では、PocketFlow フレームワークが、数多くの実際のモバイルビジネス向けにモデル圧縮と高速化の技術サポートを提供しています。たとえば、携帯電話のカメラアプリでは、顔のキーポイント配置モデルはよく使用される前処理モジュールです。顔の100以上の特徴点（目の角、鼻の先など）を識別して配置することで、その後の顔認識、インテリジェントビューティーなどのアプリケーションに必要な特徴データを提供できます。チームはPocketFlowフレームワークに基づいて顔のキーポイント位置決めモデルを圧縮し、位置決め精度を維持しながら計算オーバーヘッドを大幅に削減しました。さまざまなモバイルプロセッサで25％から50％の加速効果を達成しました。圧縮モデルは実際の製品に導入されています。

6. 結論

ディープラーニングモデルの圧縮と高速化は、現在、学術界で注目されている研究テーマの 1 つであり、産業界においても幅広い応用の見込みがあります。 PocketFlow のリリースにより、開発者はモデル圧縮アルゴリズムの具体的な詳細を理解する必要がなくなり、さまざまなハイパーパラメータの選択と調整について心配する必要がなくなりました。この自動化されたフレームワークに基づいて、モバイルデバイスに展開できる合理化されたモデルを迅速に取得できるため、より多くのモバイル製品に AI 機能を適用する道が開かれます。

[1] Zhuangwei Zhuang、Mingkui Tan、Bohan Zhuang、Jing Liu、Jiezhang Cao、Qingyao Wu、Junzhou Huang、Jinhui Zhu、「ディープニューラルネットワークのための識別を考慮したチャネルプルーニング」、第32回ニューラル情報処理システム年次会議NIPS '18、モントリオール、カナダ、2018年12月。

[2] Jiaxiang Wu、Weidong Huang、Junzhou Huang、Tong Zhang、「誤差補正量子化SGDと大規模分散最適化への応用」、第35回国際機械学習会議ICML '18論文集、スウェーデン、ストックホルム、2018年7月。

<<: 知っておくべきディープラーニングの10の一般的な手法

>>: 人工知能がビジネスの生産性を変革する方法