中国の女性医師が効率的なNASアルゴリズムを提案：AutoMLは一度トレーニングするだけで数十億のハードウェアに適応できる

現在、カリフォルニア大学リバーサイド校が率いるチームは、ジョージ・メイソン大学およびノートルダム大学と共同で、レイテンシの単調性を利用してハードウェア適応型 NAS を根本的に促進できると提案している。これは、異なるデバイス上のニューラルアーキテクチャのレイテンシランキングは相関関係にあることが多いという考えである。

強力な遅延単調性が存在する場合、プロキシハードウェア上の NAS によって取得されたアーキテクチャは、パレート最適性を失うことなく、任意の新しいターゲットハードウェアに再利用できます。このアプローチを既存の SOTA NAS テクノロジーと組み合わせることで、ハードウェア適応型 NAS のコストは一定の O(1) に削減できます。

現在、この論文はパフォーマンスモデリングと分析に関するトップクラスの国際会議であるACM SIGMETRICS 2022に採択されています。

論文アドレス: https://arxiv.org/abs/2111.01203

プロジェクトアドレス: https://ren-research.github.io/OneProxy/

ニューラルアーキテクチャ検索 (NAS)

ニューラルネットワークは階層構造になっており、各層は畳み込み層、活性化層、または完全接続層になります。

NAS プロセスはビルディングブロックのようなものです。ブロックの各レイヤーには複数のオプションがあります。たとえば、現在のレイヤーが畳み込みレイヤーの場合、畳み込みカーネルのサイズは 1 つのオプションです。各レイヤーの選択を組み合わせると、完全なニューラルアーキテクチャが形成されます。

NAS を使用すると、一般に、高精度で高レイテンシのアーキテクチャや、低精度で低レイテンシのアーキテクチャなど、複数の「最適な」アーキテクチャを実現できます。 NAS の最終的な目標は、精度とレイテンシのトレードオフにおいて、一連の最適なアーキテクチャ (パレート最適アーキテクチャと呼ばれる) を見つけることです。同様に、ハードウェア適応型 NAS は、特定のターゲットデバイス上で NAS を実行し、現在のデバイス上で一連のパレート最適アーキテクチャを見つけます。

このことから、NAS は「選択と組み合わせ」のプロセスであることがわかります。そのため、プロセスでは選択できるアーキテクチャが間違いなく多数存在します。パレート最適アーキテクチャを選択する方法は、これらのアーキテクチャのレイテンシと精度をランク付けし、最適なものを選択することです。

そのため、この記事では、精度と推論の遅延という 2 つの指標を使用して、ニューラルアーキテクチャのパフォーマンスを測定します。

仕事内容

畳み込みニューラルネットワーク (CNN) は、ますます多様なハードウェアデバイスやプラットフォームに導入されています。ニューラルネットワークアーキテクチャは、推論の精度やレイテンシなどの最終的なモデルのパフォーマンスに大きく影響します。したがって、NAS プロセスにターゲットハードウェアの影響を統合すること、つまりハードウェア適応型 NAS が重要です。

NAS を効率的にハードウェア適応させる鍵は、ターゲットデバイス上のさまざまなニューラルアーキテクチャの推論遅延を迅速に評価することです。各アーキテクチャのレイテンシを直接測定するだけでは、NAS に数週間、あるいは数か月かかることになります。したがって、SOTA ハードウェア対応 NAS は、主に各デバイスのレイテンシルックアップテーブルまたは予測子の構築に依存します。

ただし、レイテンシ予測ツールの構築には非常に時間がかかり、多くのエンジニアリング作業が必要になります。たとえば、MIT の ProxylessNAS は、モバイルデバイス上の 5,000 個の DNN の平均推論遅延を測定し、これを基に遅延ルックアップテーブルを構築しました。

測定ごとに理想的な時間を 20 秒と想定すると (TensorFlow 公式ガイドによる)、レイテンシ予測子を構築するには、ノンストップ測定を行った場合でも、1 つのデバイスで 27 時間以上かかります。同様に、Meta が提案した ChamNet は 350,000 件のレイテンシレコードを収集し、それらを使用して 1 つのデバイスだけでレイテンシ予測ツールを構築しました。

今年の ICLR スポットライト作業である HW-NAS-Bench も、NAS-Bench-201 および FBNet モデル空間でレイテンシデータを収集するのに 1 か月を費やし、6 つのデバイスのレイテンシ予測子を構築しました。 Microsoft の最新作である nn-meter では、エッジデバイス 1 台だけでレイテンシ測定を収集するのに 4.4 日かかります。

これらの事実は、SOTA 用に NAS をハードウェアで適応させる (つまり、ターゲットデバイスごとにレイテンシ予測子を構築する) のに非常にコストがかかることを示しています。

さらに問題を複雑にしているのは、CNN 導入の対象となるデバイスが、モバイル CPU、ASIC、エッジデバイス、GPU など、非常に多様であることです。たとえば、モバイルデバイスだけでも、市場には 2,000 を超える SoC が存在し、上位 30 の SoC が市場シェアの 1% 強を占めるに過ぎません。そのため、極めて多様なターゲットデバイス上で NAS のハードウェア適応をいかに効果的に実行するかが課題となっています。

この研究では、さまざまなターゲットデバイス上のハードウェア適応型 NAS のレイテンシ評価コストを削減する方法について説明します。著者らはまず、ニューラルアーキテクチャのレイテンシ単調性は、特に同じプラットフォーム上のデバイス間で普遍的であることを実証します。レイテンシの単調性とは、異なるアーキテクチャのレイテンシのランキング順序が複数のデバイス間で相関していることを意味します。

これに基づいて、SOTA で行われるように個々のターゲットデバイスごとにレイテンシプレディクターを構築するのではなく、デバイスをエージェントとして選択し、そのデバイスに対してレイテンシプレディクターを構築するだけで十分です。

実験結果によると、プロキシデバイスを 1 つだけ使用するアプローチでは、ターゲットデバイスごとに排他的に最適化する NAS と比較して、パレート最適性がほとんど失われないことがわかりました。この研究はSIGMETRICS'22に採択されました。

ユビキタス遅延単調性

この研究の基礎として、著者らはまずニューラルアーキテクチャのレイテンシ単調性を研究し、それがデバイス間、特に同じプラットフォーム上のデバイス間で普遍的であることを示しています。この論文では、スピアマン順位相関係数 (SRCC) を使用して、遅延の単調性を定量的に測定します。 SRCC の値は -1 ～ 1 です。2 つのデバイス上のモデル遅延の SRCC が大きいほど、遅延の単調性は向上します。通常、SRCC 値が 0.9 を超える場合は、強い単調性があると見なされます。

1. 同じプラットフォーム上のデバイス間

著者らはまず、Samsung Galaxy S5e と TabA、Lenovo Moto Tab、Vankyo MatrixPad Z1 の 4 つのモバイルデバイスで遅延単調性実験を実施し、MobileNet-V2 検索空間から 10,000 個のモデルをランダムにサンプリングしました。次に、これらのモデルを 4 台のデバイスに展開し、平均推論遅延を計算します。

次の図 (a) は、散布点を使用して 4 つのデバイス上のこれらのモデルの推論遅延を表しています。図 (b) は、ヒートマップを使用して、デバイス間のモデル遅延の相関係数を視覚化しています。各四角形の色の深度とマークされた値は、デバイスのペア間の SRCC サイズを直感的に表しています。

著者らは、モデルが TabA でより高速に実行される場合、他のデバイスでもより高速になり、任意のデバイスペア間の SRCC が 0.98 を超えていることを発見しました。これは、これらの 10k モデルがこれらのデバイス上で非常に強いレイテンシ単調性を持つことを意味しています。

さらなる実験により、CPU、GPU、FPGA などの他のプラットフォーム上のデバイスでも同じ結論が当てはまることが証明されています。

2. クロスプラットフォームデバイス

クロスプラットフォームデバイスの場合、ハードウェア構造が通常大きく異なるため、レイテンシランキングの相関は、同じプラットフォーム上のデバイス間の相関よりも当然低くなります。著者による HW-NAS-Bench オープンソースデータセットでの実験でもこの結論が証明されました (詳細については、元のテキストの付録を参照してください)。

プロキシデバイスを使用したNASへのハードウェア適応

ハードウェア適応型 NAS の目的は、数億のオプションのニューラルアーキテクチャから、現在のハードウェアに適応する一連のパレート最適アーキテクチャを見つけることです。これらのうち、異なるハードウェアは、アーキテクチャの精度を変えることなく、アーキテクチャのレイテンシにのみ影響します。

前のセクションから、プロキシハードウェア上で低レイテンシかつ高精度なアーキテクチャは、他のハードウェア上でも低レイテンシかつ高精度である可能性があるため、異なるハードウェア上のアーキテクチャのレイテンシランキングは強く相関している可能性があることがわかります。では、すべてのハードウェアのプロキシハードウェア上でパレート最適アーキテクチャを直接再利用することは可能でしょうか?

著者の答えは「はい、ただし特定の条件を満たす必要があります」です。

まず、プロキシデバイスを使用してターゲットデバイス上で NAS を実行し、パレート最適アーキテクチャを正常に検索するための十分な条件は、強力な遅延単調性です。プロキシデバイスとターゲットデバイス間の SRCC がしきい値に達しない場合、プロキシデバイス上の NAS によって検索されたアーキテクチャは、ターゲットのパレート最適アーキテクチャと若干のギャップがある可能性があります。

実際には、デバイス間の低レイテンシの単調性は、特にクロスプラットフォームデバイスの場合、珍しいことではないかもしれません。この状況に対処するために、著者らは、プロキシデバイスの遅延予測子をターゲットデバイスに適応させる効果的な転移学習手法を提案し、これにより、適応された「新しいプロキシ」デバイスとターゲットデバイス間の遅延 SRCC が改善されました。

この論文では、多数の実験を通じて、プロキシデバイスとして正常に機能できる遅延 SRCC しきい値は約 0.9 であることを証明しています。プロキシデバイスとターゲットデバイス間のSRCCを改善するために転移学習技術を使用することによる効果は次のとおりです。具体的な詳細とアルゴリズムの説明については、原文の対応する章を参照してください。

実験結果

著者らは、MobileNet-V2、MobileNet-V3、NAS-Bench-201、FBNetといった複数の主流NAS検索空間において、複数のハードウェアデバイス（携帯電話、GPU/CPU、ASICなど）で実験を行い、遅延単調性（単調性を改善するための転移学習技術と組み合わせる）の使用と、プロキシデバイスを使用してさまざまなターゲットデバイスに対してハードウェア適応NASを実行することの有効性を証明しました。

要約する

ターゲットデバイスでの推論遅延を迅速に推定することは、ニューラルアーキテクチャの広大な空間全体で効率的な最適化を可能にするための重要なステップです。現在一般的に使用されている、ターゲットデバイスごとに遅延予測子を構築する方法では、実際にはターゲットデバイスの数の増加によってもたらされる課題に対応できません。

カリフォルニア大学リバーサイド校のチームが提案した遅延単調性に基づく新しいアプローチでは、最適性を失うことなくハードウェア適応型ニューラルアーキテクチャ検索を実行するには、プロキシデバイスが 1 つだけで十分です。これにより、多数の遅延予測器を構築するための膨大なコストが節約され、将来的にさまざまなプラットフォームやデバイス向けにニューラルアーキテクチャを迅速に最適化できるようになります。

著者について

論文の筆頭著者である Bingqian Lu 氏は、現在カリフォルニア大学リバーサイド校の博士研究助手であり、浙江大学で学士号を取得しています。博士課程では、機械学習モデルの自動選択、スケーラブルなハードウェア適応型ニューラルネットワークの最適化、ハードウェア適応型 NAS など、AutoML と NAS に関する研究に従事してきました。

彼の指導教官は、清華大学電子工学科で学士号を取得し、カリフォルニア大学ロサンゼルス校で博士号を取得し、現在はカリフォルニア大学リバーサイド校の准教授を務める Shaolei Ren 博士です。任教授の研究分野は、システムとネットワークの最適化（データセンター、クラウドコンピューティング、エッジコンピューティングなど）です。近年は、機械学習とその応用（強化学習、AutoML、TinyMLなど）に重点を置いています。

<<: 150億のパラメータを持つ、史上最大のビジュアルモデル「V-MoE」の全コードをGoogleがオープンソース化

>>: 2021年世界の最新人工知能技術9選

真の次元削減攻撃、ソラ、ランウェイ、ピカの比較。衝撃的な効果の背後には、現実世界をシミュレートする物理エンジンがある。

中国の女性医師が効率的なNASアルゴリズムを提案：AutoMLは一度トレーニングするだけで数十億のハードウェアに適応できる

真の次元削減攻撃、ソラ、ランウェイ、ピカの比較。衝撃的な効果の背後には、現実世界をシミュレートする物理エンジンがある。

物理学者は人間が「マトリックス」の中で生きていることを証明するのか？宇宙は「シミュレーションシステム」であり、複数のシステムにより情報進化は安定する傾向があることが確認されている

テンセントの無人運転車が初登場！将来的には運転席がペンギンに置き換わる予定！プレート分析

USTCとJD.comの最新の成果：AIが本物の人間のように話し、リアルなジェスチャーを披露

ChatGPT「おばあちゃんの抜け穴」がまた人気です！亡くなった祖母のふりをして、寝る前に物語を語り、Win11 のシリアル番号をだます

ビッグモデルの「錯覚」、この記事を読んでください

マシンビジョンにはどのようなハードウェアが含まれていますか?

Meta が 128 言語をサポートする新しい音声モデルをリリース: Metaverse での言語間コミュニケーションを示唆

エッジAI: 人工知能の進化の次のステップ

推薦する

OpenAIのアルトマン氏、ニューヨークタイムズの訴訟に反応: AIはニュース出版社からのトレーニングデータを必要としない

アルパカはクジラに進化し、Meta は位置合わせを自動化し、Humpback は既存の LLaMa モデルをすべて打ち負かします

テクスチャコントラスト検出を使用してAI生成画像を検出する

ニューラルネットワークのトレーニングではCPUはGPUより10倍以上高速。インテル：行列演算はもう使わない

2030年「メタバース」就職ガイド！ CSは依然として非常に人気があり、博士号取得者の需要は衰えていません。

AIを使ってコーデックの退化を打破するクアルコムの最新のトップカンファレンス論文には大きなアイデアが盛り込まれている

言語AIは自分の答えが正しいかどうかを知っていることが判明しました。バークレー大学や他の大学による新たな研究が人気を集めている

この日本のAIは話題になっています: スケッチを2Dの妻にリアルタイムで変換でき、512の調整可能なパラメータがあります

沈興陽博士：30年間の科学研究で私が遭遇した落とし穴