中国の女性医師が効率的なNASアルゴリズムを提案:AutoMLは一度トレーニングするだけで数十億のハードウェアに適応できる

中国の女性医師が効率的なNASアルゴリズムを提案:AutoMLは一度トレーニングするだけで数十億のハードウェアに適応できる

現在、カリフォルニア大学リバーサイド校が率いるチームは、ジョージ・メイソン大学およびノー​​トルダム大学と共同で、レイテンシの単調性を利用してハードウェア適応型 NAS を根本的に促進できると提案している。これは、異なるデバイス上のニューラル アーキテクチャのレイテンシ ランキングは相関関係にあることが多いという考えである。

強力な遅延単調性が存在する場合、プロキシ ハードウェア上の NAS によって取得されたアーキテクチャは、パレート最適性を失うことなく、任意の新しいターゲット ハードウェアに再利用できます。このアプローチを既存の SOTA NAS テクノロジーと組み合わせることで、ハードウェア適応型 NAS のコストは一定の O(1) に削減できます。

現在、この論文はパフォーマンスモデリングと分析に関するトップクラスの国際会議であるACM SIGMETRICS 2022に採択されています。

論文アドレス: https://arxiv.org/abs/2111.01203

プロジェクトアドレス: https://ren-research.github.io/OneProxy/

ニューラルアーキテクチャ検索 (NAS)

ニューラル ネットワークは階層構造になっており、各層は畳み込み層、活性化層、または完全接続層になります。

NAS プロセスはビルディング ブロックのようなものです。ブロックの各レイヤーには複数のオプションがあります。たとえば、現在のレイヤーが畳み込みレイヤーの場合、畳み込みカーネルのサイズは 1 つのオプションです。各レイヤーの選択を組み合わせると、完全なニューラル アーキテクチャが形成されます。

NAS を使用すると、一般に、高精度で高レイテンシのアーキテクチャや、低精度で低レイテンシのアーキテクチャなど、複数の「最適な」アーキテクチャを実現できます。 NAS の最終的な目標は、精度とレイテンシのトレードオフにおいて、一連の最適なアーキテクチャ (パレート最適アーキテクチャと呼ばれる) を見つけることです。同様に、ハードウェア適応型 NAS は、特定のターゲット デバイス上で NAS を実行し、現在のデバイス上で一連のパレート最適アーキテクチャを見つけます。

このことから、NAS は「選択と組み合わせ」のプロセスであることがわかります。そのため、プロセスでは選択できるアーキテクチャが間違いなく多数存在します。パレート最適アーキテクチャを選択する方法は、これらのアーキテクチャのレイテンシと精度をランク付けし、最適なものを選択することです。

そのため、この記事では、精度と推論の遅延という 2 つの指標を使用して、ニューラル アーキテクチャのパフォーマンスを測定します。

仕事内容

畳み込みニューラル ネットワーク (CNN) は、ますます多様なハードウェア デバイスやプラットフォームに導入されています。ニューラル ネットワーク アーキテクチャは、推論の精度やレイテンシなどの最終的なモデルのパフォーマンスに大きく影響します。したがって、NAS プロセスにターゲット ハードウェアの影響を統合すること、つまりハードウェア適応型 NAS が重要です。

NAS を効率的にハードウェア適応させる鍵は、ターゲット デバイス上のさまざまなニューラル アーキテクチャの推論遅延を迅速に評価することです。各アーキテクチャのレイテンシを直接測定するだけでは、NAS に数週間、あるいは数か月かかることになります。したがって、SOTA ハードウェア対応 NAS は、主に各デバイスのレイテンシ ルックアップ テーブルまたは予測子の構築に依存します。

ただし、レイテンシ予測ツールの構築には非常に時間がかかり、多くのエンジニアリング作業が必要になります。たとえば、MIT の ProxylessNAS は、モバイル デバイス上の 5,000 個の DNN の平均推論遅延を測定し、これを基に遅延ルックアップ テーブルを構築しました。

測定ごとに理想的な時間を 20 秒と想定すると (TensorFlow 公式ガイドによる)、レイテンシ予測子を構築するには、ノンストップ測定を行った場合でも、1 つのデバイスで 27 時間以上かかります。同様に、Meta が提案した ChamNet は 350,000 件のレイテンシ レコードを収集し、それらを使用して 1 つのデバイスだけでレイテンシ予測ツールを構築しました。

今年の ICLR スポットライト作業である HW-NAS-Bench も、NAS-Bench-201 および FBNet モデル空間でレイテンシ データを収集するのに 1 か月を費やし、6 つのデバイスのレイテンシ予測子を構築しました。 Microsoft の最新作である nn-meter では、エッジ デバイス 1 台だけでレイテンシ測定を収集するのに 4.4 日かかります。

これらの事実は、SOTA 用に NAS をハードウェアで適応させる (つまり、ターゲット デバイスごとにレイテンシ予測子を構築する) のに非常にコストがかかることを示しています。

さらに問題を複雑にしているのは、CNN 導入の対象となるデバイスが、モバイル CPU、ASIC、エッジ デバイス、GPU など、非常に多様であることです。たとえば、モバイルデバイスだけでも、市場には 2,000 を超える SoC が存在し、上位 30 の SoC が市場シェアの 1% 強を占めるに過ぎません。そのため、極めて多様なターゲットデバイス上で NAS のハードウェア適応をいかに効果的に実行するかが課題となっています。

この研究では、さまざまなターゲット デバイス上のハードウェア適応型 NAS のレイテンシ評価コストを削減する方法について説明します。著者らはまず、ニューラル アーキテクチャのレイテンシ単調性は、特に同じプラットフォーム上のデバイス間で普遍的であることを実証します。レイテンシの単調性とは、異なるアーキテクチャのレイテンシのランキング順序が複数のデバイス間で相関していることを意味します。

これに基づいて、SOTA で行われるように個々のターゲット デバイスごとにレイテンシ プレディクターを構築するのではなく、デバイスをエージェントとして選択し、そのデバイスに対してレイテンシ プレディクターを構築するだけで十分です。

実験結果によると、プロキシ デバイスを 1 つだけ使用するアプローチでは、ターゲット デバイスごとに排他的に最適化する NAS と比較して、パレート最適性がほとんど失われないことがわかりました。この研究はSIGMETRICS'22に採択されました。

ユビキタス遅延単調性

この研究の基礎として、著者らはまずニューラル アーキテクチャのレイテンシ単調性を研究し、それがデバイス間、特に同じプラットフォーム上のデバイス間で普遍的であることを示しています。この論文では、スピアマン順位相関係数 (SRCC) を使用して、遅延の単調性を定量的に測定します。 SRCC の値は -1 ~ 1 です。2 つのデバイス上のモデル遅延の SRCC が大きいほど、遅延の単調性は向上します。通常、SRCC 値が 0.9 を超える場合は、強い単調性があると見なされます。

1. 同じプラットフォーム上のデバイス間

著者らはまず、Samsung Galaxy S5e と TabA、Lenovo Moto Tab、Vankyo MatrixPad Z1 の 4 つのモバイル デバイスで遅延単調性実験を実施し、MobileNet-V2 検索空間から 10,000 個のモデルをランダムにサンプリングしました。次に、これらのモデルを 4 台のデバイスに展開し、平均推論遅延を計算します。

次の図 (a) は、散布点を使用して 4 つのデバイス上のこれらのモデルの推論遅延を表しています。図 (b) は、ヒート マップを使用して、デバイス間のモデル遅延の相関係数を視覚化しています。各四角形の色の深度とマークされた値は、デバイスのペア間の SRCC サイズを直感的に表しています。

著者らは、モデルが TabA でより高速に実行される場合、他のデバイスでもより高速になり、任意のデバイス ペア間の SRCC が 0.98 を超えていることを発見しました。これは、これらの 10k モデルがこれらのデバイス上で非常に強いレイテンシ単調性を持つことを意味しています。

さらなる実験により、CPU、GPU、FPGA などの他のプラットフォーム上のデバイスでも同じ結論が当てはまることが証明されています。

2. クロスプラットフォームデバイス

クロスプラットフォームデバイスの場合、ハードウェア構造が通常大きく異なるため、レイテンシランキングの相関は、同じプラットフォーム上のデバイス間の相関よりも当然低くなります。著者による HW-NAS-Bench オープンソース データセットでの実験でもこの結論が証明されました (詳細については、元のテキストの付録を参照してください)。

プロキシデバイスを使用したNASへのハードウェア適応

ハードウェア適応型 NAS の目的は、数億のオプションのニューラル アーキテクチャから、現在のハードウェアに適応する一連のパレート最適アーキテクチャを見つけることです。これらのうち、異なるハードウェアは、アーキテクチャの精度を変えることなく、アーキテクチャのレイテンシにのみ影響します。

前のセクションから、プロキシ ハードウェア上で低レイテンシかつ高精度なアーキテクチャは、他のハードウェア上でも低レイテンシかつ高精度である可能性があるため、異なるハードウェア上のアーキテクチャのレイテンシ ランキングは強く相関している可能性があることがわかります。では、すべてのハードウェアのプロキシ ハードウェア上でパレート最適アーキテクチャを直接再利用することは可能でしょうか?

著者の答えは「はい、ただし特定の条件を満たす必要があります」です。

まず、プロキシ デバイスを使用してターゲット デバイス上で NAS を実行し、パレート最適アーキテクチャを正常に検索するための十分な条件は、強力な遅延単調性です。プロキシ デバイスとターゲット デバイス間の SRCC がしきい値に達しない場合、プロキシ デバイス上の NAS によって検索されたアーキテクチャは、ターゲットのパレート最適アーキテクチャと若干のギャップがある可能性があります。

実際には、デバイス間の低レイテンシの単調性は、特にクロスプラットフォーム デバイスの場合、珍しいことではないかもしれません。この状況に対処するために、著者らは、プロキシ デバイスの遅延予測子をターゲット デバイスに適応させる効果的な転移学習手法を提案し、これにより、適応された「新しいプロキシ」デバイスとターゲット デバイス間の遅延 SRCC が改善されました。

この論文では、多数の実験を通じて、プロキシデバイスとして正常に機能できる遅延 SRCC しきい値は約 0.9 であることを証明しています。プロキシデバイスとターゲットデバイス間のSRCCを改善するために転移学習技術を使用することによる効果は次のとおりです。具体的な詳細とアルゴリズムの説明については、原文の対応する章を参照してください。

実験結果

著者らは、MobileNet-V2、MobileNet-V3、NAS-Bench-201、FBNetといった複数の主流NAS検索空間において、複数のハードウェアデバイス(携帯電話、GPU/CPU、ASICなど)で実験を行い、遅延単調性(単調性を改善するための転移学習技術と組み合わせる)の使用と、プロキシデバイスを使用してさまざまなターゲットデバイスに対してハードウェア適応NASを実行することの有効性を証明しました。

要約する

ターゲットデバイスでの推論遅延を迅速に推定することは、ニューラルアーキテクチャの広大な空間全体で効率的な最適化を可能にするための重要なステップです。現在一般的に使用されている、ターゲット デバイスごとに遅延予測子を構築する方法では、実際にはターゲット デバイスの数の増加によってもたらされる課題に対応できません。

カリフォルニア大学リバーサイド校のチームが提案した遅延単調性に基づく新しいアプローチでは、最適性を失うことなくハードウェア適応型ニューラル アーキテクチャ検索を実行するには、プロキシ デバイスが 1 つだけで十分です。これにより、多数の遅延予測器を構築するための膨大なコストが節約され、将来的にさまざまなプラットフォームやデバイス向けにニューラル アーキテクチャを迅速に最適化できるようになります。

著者について

論文の筆頭著者である Bingqian Lu 氏は、現在カリフォルニア大学リバーサイド校の博士研究助手であり、浙江大学で学士号を取得しています。博士課程では、機械学習モデルの自動選択、スケーラブルなハードウェア適応型ニューラルネットワークの最適化、ハードウェア適応型 NAS など、AutoML と NAS に関する研究に従事してきました。

彼の指導教官は、清華大学電子工学科で学士号を取得し、カリフォルニア大学ロサンゼルス校で博士号を取得し、現在はカリフォルニア大学リバーサイド校の准教授を務める Shaolei Ren 博士です。任教授の研究分野は、システムとネットワークの最適化(データセンター、クラウドコンピューティング、エッジコンピューティングなど)です。近年は、機械学習とその応用(強化学習、AutoML、TinyMLなど)に重点を置いています。

<<:  150億のパラメータを持つ、史上最大のビジュアルモデル「V-MoE」の全コードをGoogleがオープンソース化

>>:  2021年世界の最新人工知能技術9選

ブログ    
ブログ    
ブログ    

推薦する

...

Python ベースのパーセプトロン分類アルゴリズムの実践

[[374354]]パーセプトロンは、バイナリ分類タスク用の線形機械学習アルゴリズムです。これは、人...

2020 Forrester Wave レポート: Dynatrace が AI を活用した IT 運用 (AIOps) のリーダーに選出

「Forrester Wave™: IT 運用のための人工知能、2020 年第 4 四半期」レポート...

機械学習でよく使われる7つの線形次元削減手法の概要

前回の記事では主に非線形次元削減手法についてまとめました。この記事では、一般的な線形次元削減手法につ...

...

TensorFlow.js と Python を使用してブラウザで機械学習モデルを構築する

概要TensorFlow.js (deeplearn.js) を使用すると、複雑なインストール手順な...

8つの一般的な確率分布の式と視覚化

現実の世界には、本質的に統計的であると考えられる現象がいくつかあります (気象データ、売上データ、財...

...

人工知能はサイバーセキュリティにとって役立つのか、それとも脅威となるのか?

企業に対するセキュリティ上の脅威は常に存在していましたが、インターネットの発展により、脅威は物理空間...

人工知能:ニューノーマルにおける成長の原動力

人工知能技術は急速に発展し、成熟しつつあります。多くの最新のアルゴリズムと問題解決手法が日々革新され...

AIのために知っておくべき10のディープラーニング手法

[[211929]] AIであろうと他の分野であろうと、学習と研究の過程で、その分野の歴史を常に振り...

Megvii、AIイノベーションを加速させるため7億5000万ドルのシリーズD資金調達を完了

北京Megviiテクノロジー株式会社(以下、「Megvii」)は、シリーズDの株式資金調達の第2フェ...

人工知能とは何ですか?

人工知能とは何か人工知能(AI)の誕生以来、その定義と意味合いは議論の的となってきました。文字通り、...

サイバー攻撃が自動運転車に勝てない理由

マルウェア、ランサムウェア、ウイルス、サービス拒否攻撃など、これらの脅威は回復が困難なため、企業を窮...