コンピュータアーキテクチャにおける機械学習

[[428279]]

機械学習 (ML) の最近の進歩に大きく貢献したものの 1 つは、Google TPU や Edge TPU などのカスタムアクセラレータの開発です。これにより、利用可能なコンピューティング能力が大幅に向上し、AlphaGo、RankBrain、WaveNet、会話エージェントなどの機能が実現しました。この増加により、ニューラルネットワークのトレーニングと推論のパフォーマンスが向上し、視覚、言語、理解、自動運転車など、幅広いアプリケーションに新たな可能性が開かれます。

こうした進歩を維持するために、ハードウェアアクセラレータエコシステムは、アーキテクチャ設計の革新を継続し、急速に進化する ML モデルとアプリケーションに適応する必要があります。これには、さまざまなアクセラレータ設計ポイントの評価が必要であり、それぞれの評価によって計算能力が向上するだけでなく、新しい機能が明らかになる可能性もあります。これらの設計ポイントは通常、さまざまなハードウェアおよびソフトウェア要因 (メモリ容量、さまざまなレベルの計算ユニットの数、並列性、相互接続ネットワーク、パイプライン、ソフトウェアマッピングなど) によってパラメーター化されます。これは、探索空間が指数関数的に大きく1、目的関数（例えば、レイテンシの低減やエネルギー効率の向上）をシミュレーションや合成で評価するには計算コストがかかることから、困難な最適化タスクであり、実現可能なアクセラレータ構成を特定することが困難です。

「Apollo: Transferable Architecture Exploration」では、カスタムアクセラレータの ML 駆動設計に関する研究の進捗状況を紹介します。最近の研究では、ML を活用して低レベルのフロアプランニングプロセス (ハードウェアコンポーネントがシリコン内で空間的に配置され接続されるプロセス) を改善する有望な結果が示されていますが、この研究では、高レベルの機能を制御する設計要素が確立される、チップの全体的なパフォーマンスに影響を与える重要な要素である高レベルのシステム仕様とアーキテクチャ設計フェーズに ML を融合することに重点を置いています。私たちの研究は、ML アルゴリズムがアーキテクチャの探索を容易にし、画像分類、オブジェクト検出、OCR、セマンティックセグメンテーションなど、さまざまなディープニューラルネットワークにわたって高性能なアーキテクチャを提案する方法を実証しています。

アーキテクチャ検索スペースとワークロード

アーキテクチャ探索の目標は、一連のオプションのユーザー定義制約の下で、目的の目的関数 (実行時間の加重平均など) を最小化する、一連のワークロードに対して実行可能なアクセラレータパラメータのセットを発見することです。しかし、アーキテクチャ検索の多様体には、ソフトウェアからハードウェアへの実行可能なマッピングが存在しないポイントが多数含まれることがよくあります。これらの設計ポイントの一部は事前にわかっており、ユーザーが最適化制約として定式化することで回避できます (たとえば、エリアバジェット 2 制約では、合計メモリサイズが事前定義された制限を超えてはなりません)。ただし、アーキテクチャとコンパイラの相互作用と検索空間の複雑さにより、一部の制約が最適化に正しく定式化されない可能性があり、その結果、コンパイラはターゲットハードウェアに対して実行可能なソフトウェアマッピングを見つけられない可能性があります。これらの実行不可能なポイントは、最適化問題では簡単に定式化できず、コンパイラが完全に実行されるまで不明であることがよくあります。したがって、アーキテクチャ探索の主な課題の 1 つは、実行不可能なポイントを効果的に回避し、最小限のサイクル精度のアーキテクチャシミュレーションで探索空間を効率的に探索することです。

次の図は、ターゲット ML アクセラレータの全体的なアーキテクチャ検索空間を示しています。アクセラレータには、処理要素 (PE) の 2 次元配列が含まれており、各 PE は、単一命令複数データ (SIMD) 方式で一連の算術計算を実行します。各 PE の主なアーキテクチャコンポーネントは処理コアであり、これには SIMD 操作用の複数の計算チャネルが含まれます。各 PE には、すべてのコンピューティングコア間で共有されるメモリ (PE メモリ) があり、これは主にモデルのアクティベーション、部分的な結果、および出力を格納するために使用されます。一方、単一のコアには、主にモデルパラメータを格納するために使用されるメモリがあります。各コアには、複数の乗算累算 (MAC) ユニットを備えた複数の計算チャネルがあります。各サイクルのモデル計算結果は、さらなる計算のために PE メモリに保存されるか、DRAM にオフロードされます。

最適化戦略

この研究では、アーキテクチャ探索の文脈において 4 つの最適化戦略を検討しました。

1. ランダム: アーキテクチャ検索空間をランダムかつ均一にサンプリングします。

2. Vizier: ベイズ最適化を使用して、目的関数の評価にコストがかかる検索空間 (完了するまでに数時間かかることがあるハードウェアシミュレーションなど) を探索します。ベイズ最適化は、検索空間からサンプリングされた一連のポイントを使用して、通常ガウス過程によって表される代理関数を形成し、検索空間の多様体を近似します。ベイズ最適化アルゴリズムは、代理関数の値に基づいて、探索と活用のトレードオフにおいて、多様体内の有望な領域からより多くのサンプルを採取するか (活用)、検索空間内の目に見えない領域からより多くのサンプルを採取するか (探索) を決定します。次に、最適化アルゴリズムはこれらの新しいサンプリングポイントを使用し、さらに代理関数を更新して、ターゲット検索空間をより適切にモデル化します。 Vizier は、予測改善をコア獲得機能として使用します。ここでは、与えられた制約を満たさない試行を提案しないように最適化プロセスをガイドする制約付き最適化のバリエーションである Vizier (安全) を使用します。

3. 進化的: k 個の個体の集団を使用して進化的検索を実行します。各個体のゲノムは、一連の離散化されたアクセラレータ構成に対応します。新しい個体は、トーナメント選択を使用して集団から各個体の 2 つの親を選択し、それらのゲノムを一定の交差率で再結合し、再結合したゲノムを一定の確率で突然変異させることによって生成されます。

4. 集団ベースのブラックボックス最適化 (P3BO): 進化的およびモデルベースを含む一連の最適化手法を使用し、サンプル効率と堅牢性を向上させることが示されている。サンプリングされたデータは、アンサンブル内の最適化手法間で交換され、最適化手法はパフォーマンス履歴に応じて重み付けされ、新しい構成が生成されます。私たちの研究では、オプティマイザーのハイパーパラメータが進化的探索を使用して動的に更新される P3BO の変種を使用します。

アクセラレータ検索空間埋め込み

アクセラレータ検索空間をナビゲートする際の各最適化戦略の有効性をより視覚化するために、t 分布確率的近傍埋め込み (t-SNE) を使用して、探索された構成を最適化範囲内の 2 次元空間にマッピングします。すべての実験の目標 (報酬) は、アクセラレータ領域あたりのスループット (推論/秒) として定義されます。下の図では、x 軸と y 軸は埋め込み空間の t-SNE コンポーネント (埋め込み 1 と埋め込み 2) を表しています。星と円のマーカーはそれぞれ実行不可能な (報酬ゼロ) 設計ポイントと実行可能な設計ポイントを示し、実行可能なポイントのサイズはその報酬に対応します。

予想どおり、ランダム戦略は均一に分散された方法で空間を検索し、最終的に設計空間内で実行可能なポイントをほとんど見つけません。

Vizier のデフォルトの最適化戦略は、ランダムサンプリングアプローチと比較して、検索空間の探索と、より高い報酬 (1.14 対 0.96) を持つ設計ポイントの発見との間で適切なバランスを実現します。ただし、このアプローチは実行不可能な領域で行き詰まる傾向があり、最大報酬のポイント（赤い十字マーカーで示される）はいくつか見つかりますが、最後の探索反復では実行可能なポイントはほとんど見つかりません。

一方、進化的最適化戦略では、最適化の早い段階で実行可能なソリューションを見つけ、その周りに実行可能なポイントのクラスターを組み立てます。したがって、このアプローチは主に実行可能な領域 (緑色の円) をナビゲートし、実行不可能なポイントを効果的に回避します。さらに、進化的探索により、最大の報酬（赤い十字）が得られる設計オプションをさらに見つけることができます。高い利益をもたらすこの多様なソリューションにより、設計者はさまざまな設計トレードオフを伴うさまざまなアーキテクチャを柔軟に検討できるようになります。

最後に、集団ベースの最適化手法 (P3BO) は、よりターゲットを絞った方法 (報酬ポイントの高い領域) で設計空間を探索し、最適なソリューションを見つけます。 P3BO 戦略は、制約が厳しい検索空間 (実行不可能な点が多数あるなど) で最も高い報酬が得られる設計点を見つけ、実行不可能な点が多数ある検索空間でのナビゲーションに有効であることを示します。

さまざまな設計制約下での建築探究

また、異なる面積予算制約（6.8 mm 2 、5.8 mm 2 、4.8 mm 2 ）下での各最適化戦略の利点も調査します。次のバイオリンプロットは、最適化の終了時 (それぞれ 4K ステップで 10 回実行した後) に、調査した最適化戦略間で達成可能な最大報酬の完全な分布を示しています。広い部分は、特定の報酬の下で実現可能なアーキテクチャ構成を観察する確率が高いことを表します。これは、報酬が高い（パフォーマンスが高い）ポイントで幅が広がる最適化アルゴリズムを作成する傾向があることを意味します。

アーキテクチャ探索のための 2 つの最も優れた最適化戦略は Evolution と P3BO であり、どちらも複数回の実行にわたって高い報酬と堅牢性を備えたソリューションを提供します。さまざまな設計制約を見ると、面積予算の制約が厳しくなるにつれて、P3BO 最適化戦略によってパフォーマンスの高いソリューションが生成されることがわかります。たとえば、面積予算制約が 5.8 mm 2 に設定されている場合、P3BO は、報酬 (スループット/アクセラレータ面積) が 1.25 の設計ポイントが他のすべての最適化戦略よりも優れていることを検出します。面積予算制約を 4.8 mm 2 に設定した場合も同じ傾向が見られ、複数回の実行にわたって堅牢性が高く (変動性が低い)、報酬がわずかに向上します。

バイオリンプロットは、6.8 mm2 の面積予算で 4,000 回以上の試行を評価した後、10 の最適化戦略にわたって実行された最大達成可能報酬の完全な分布を示しています。 P3BO および進化型アルゴリズムにより、より高性能な設計 (より幅の広い部品) が生成されます。 x 軸と y 軸は、それぞれ、研究対象の最適化アルゴリズムとベンチマークアクセラレータにおけるスピードアップ (報酬) の幾何平均を表します。

結論は

Apollo はアクセラレータの設計空間をより深く理解し、より効率的なハードウェアを構築するための第一歩ですが、新しい機能を備えたアクセラレータの発明は未知の領域であり、新しい領域のままです。この研究は、コンピューティングスタック全体 (コンパイラ、マッピング、スケジューリングなど) にわたるアーキテクチャ設計と共同最適化のための ML 駆動型手法をさらに探求し、新しい機能を備えた次世代の効率的なアクセラレータを開発するための刺激的な道であると考えています。アプリ。

<<: ビッグデータと人工知能が決済に革命を起こす

>>: 教師あり学習に匹敵する、より優れた一般化性能を備えた自己教師あり学習深度推定アルゴリズム