ディープラーニングプラットフォームとして、TPU、GPU、CPU のどれが優れているでしょうか?誰かがベンチマーク調査を行った

GPU、TPU、CPU はすべてディープラーニングモデルのトレーニングに使用できますが、これらの各プラットフォームに適したモデルはどれでしょうか。また、ボトルネックは何でしょうか。この記事では、ハーバード大学の研究者が、ディープラーニング用のパラメーター化されたベンチマークスイートである ParaDnn を設計しました。これは、これらのディープラーニングプラットフォームを体系的にベンチマークすることを目的としています。

[[275723]]

ParaDnn は、完全接続 (FC)、畳み込み (CNN)、および再帰型 (RNN) ニューラルネットワークのエンドツーエンドモデルを生成できます。研究者らは、6 つの実際のモデルを使用して、Google の Cloud TPU v2/v3、Nvidia の V100 GPU、Intel の Skylake CPU プラットフォームをベンチマークしました。彼らは TPU のアーキテクチャを詳しく調査し、そのボトルネックを明らかにし、将来のプロフェッショナルシステム設計に活用できる貴重な教訓を強調しました。また、プラットフォームの包括的な比較も提供し、特定のタイプのモデルに対して各プラットフォームが独自の強みを持っていることを発見しました。最後に、TPU プラットフォームと GPU プラットフォームの両方で専用ソフトウェアスタックによって提供される急速なパフォーマンス向上を定量化します。

論文: ディープラーニング向け TPU、GPU、CPU プラットフォームのベンチマーク
論文リンク: https://arxiv.org/pdf/1907.10701.pdf

一般的に使用されているハードウェアとベンチマークは何ですか?

TPU v2 は 2017 年 5 月にリリースされたカスタム特定用途向け集積回路 (ASIC) です。各 TPU v2 デバイスは、単一のボード上で 180 TFLOPS のピークコンピューティングパワーを提供できます。 1 年後、TPU v3 がリリースされ、ピーク性能が 420 TFLOPS に向上しました。 Cloud TPU は 2018 年 2 月から学術的に利用可能になりました。この論文では Cloud TPU が使用されています。

Nvidia の Tesla V100 Tensor Core は、2017 年にリリースされた Volta アーキテクチャを搭載した GPU です。

CPU は特定のユースケースでのトレーニングに適していることが示されているため、これも重要なプラットフォームであり、比較に含める必要があります。

この調査では、あらゆるシナリオにおいて最適なプラットフォームは存在しないことが示されています。それぞれの特性に基づいて、さまざまなプラットフォームがさまざまなモデルに利点を提供できます。さらに、ディープラーニングモデルの急速な改善と変化により、ベンチマークも継続的に更新し、頻繁に実施する必要があります。

最近のベンチマークは、いくつかの任意の DNN モデルに限定されているようです。 ResNet50 や Transformer などの有名なモデルだけを見ると、誤った結論に至る可能性があります。たとえば、大規模な完全接続モデルである Transformer は、TPU 上で GPU よりも 3.5 倍高速にトレーニングされます。ただし、この 1 つのモデルに焦点を当てるだけでは、4,000 を超えるノードを持つ完全接続ネットワークの TPU で発生する深刻なメモリ帯域幅のボトルネックは明らかになりません。これにより、特定のモデルに対してハードウェアやコンパイラを過度に最適化するリスクが強調されます。

次世代ハードウェアベンチマーク

最先端のディープラーニングプラットフォームをベンチマークするために、この論文ではトレーニング用のディープラーニングモデルのアンサンブルを提案します。広範かつ包括的なベンチマーク研究をサポートするために、研究者はパラメーター化されたディープラーニングベンチマークコンポーネントである ParaDnn を導入しました。 ParaDnn は、完全接続 (FC) モデル、畳み込みニューラルネットワーク (CNN)、および再帰型ニューラルネットワーク (RNN) で構成される数千のパラメーター化された多層モデルをシームレスに生成できます。 ParaDnn を使用すると、既存のベンチマークの範囲を超える、約 6 桁のパラメータサイズを持つモデルに対する体系的なベンチマークが可能になります。

研究者らは、これらのパラメータ化されたモデルを、幅広いモデル内の独自のポイントとして 6 つの現実的なモデルと組み合わせ、ハードウェアプラットフォームの包括的なベンチマークを提供しました。表 1 は、このホワイトペーパーで説明した、将来のドメイン固有のアーキテクチャ、システム、およびソフトウェア設計にインスピレーションを与える可能性のある 10 の 14 の観察と洞察をまとめたものです。

表1: この論文のいくつかのグループからの主要な観察と洞察の要約

研究者たちは、ParaDnn を通じて得られた洞察を特に強調しました。まず、論文のセクション 4 で TPU v2 と v3 のアーキテクチャを詳細に分析し、コンピューティング能力、メモリ帯域幅、マルチチップ負荷、デバイスとホストのバランスにおけるアーキテクチャ上のボトルネックを明らかにします (観察 1 ～ 5)。この論文のセクション V では、TPU と GPU のパフォーマンスを包括的に比較し、2 つのプラットフォーム間の重要な違い (観察 6 ～ 11) を強調しています。最後の 3 つの観察結果は、専用のソフトウェアスタックと量子化されたデータ型によってもたらされるパフォーマンスの向上について検討するこの論文のセクション VI で詳しく説明されています。

この研究の限界を認識することが重要です。この論文では、将来の設計に貴重な教訓を提供する現在のアーキテクチャとシステム設計の最適化の可能性に焦点を当てています。最適化の詳細については、この論文の範囲を超えています。たとえば、この論文の分析は、推論ではなくトレーニングのみに焦点を当てています。著者らは、マルチ GPU プラットフォームまたは 256 ノード TPU システムでのパフォーマンスを調査していないため、異なる結論に至る可能性があります。

ディープラーニングベンチマーク

最近のディープラーニング (DL) の成功により、コンポーネントのベンチマークに関する研究が促進されました。既存のコンポーネントには主に 2 つの種類があります。1 つは MLPerf、Fathom、BenchNN、BenchIP などの実際のベンチマークで、もう 1 つは DeepBench や BenchIP などのマイクロベンチマークですが、いずれも一定の制限があります。

これらのコンポーネントには、現在存在するディープラーニングモデルのみが含まれており、ディープラーニングモデルが急速に進歩するにつれて、時代遅れになる可能性があります。さらに、ベンチマークは広大なディープラーニング空間における単なる散在点であるため、ディープラーニングモデルの特性とハードウェアプラットフォームのパフォーマンスとの間の深い洞察は明らかにされません。

ParaDnn は、この研究の既存のベンチマークスイートを補完し、これらのアプローチの長所を、既存および将来のアプリケーションをカバーするエンドツーエンドのモデルを提供することを目標に組み合わせ、モデルをパラメーター化して、ディープニューラルネットワークプロパティのより広い設計空間を探索します。

図 1: この投稿のすべてのワークロードのトレーニング可能なパラメータの数。図に示すように、ParaDnn のモデルパラメータの範囲は 10,000 から 10 億近くまでで、図の点に示すように実際のモデルのパラメータ範囲よりも広くなっています。

ハードウェアプラットフォーム

著者が選択したハードウェアプラットフォームは、論文提出時点でクラウドプラットフォームで広く利用可能な最新の構成を反映しています。モデルの詳細な指標は表3に示されています。

表3: 調査対象ハードウェアプラットフォーム

実験図

図2(a)～(c)は、バッチサイズの増加とともに、これら3つの方法のFLOPS使用率が増加することを示しています。さらに、全結合ネットワークの FLOPS 利用率は、各層のノード数の増加とともに増加します (図 2(a))。畳み込みニューラルネットワークの FLOPS 利用率はフィルターの増加とともに増加し、再帰型ニューラルネットワークの FLOPS 利用率は埋め込みサイズの増加とともに増加します。図2(a)～(c)のx軸とy軸は、図2(d)～(f)で絶対値が最大となるハイパーパラメータです。

図 2: FLOPS 使用率とハイパーパラメータとの相関関係。 (a)～(c)はパラメータ化されたモデルのFLOPS使用率を示しています。 (d)～(f) 線形回帰重みを使用して、モデルのハイパーパラメータがFLOPS使用率に与える影響を定量化します。

図 3: TPU 上の完全接続ネットワークと畳み込みニューラルネットワークのルーフライン。行列乗算 (MatMul) 演算の負荷は計算量が多いです。 Transformer や ResNet-50 のような計算集約型モデルでも、メモリに依存する操作が 10% 以上あります。 (a) と (c) は、パラメータ化されたモデルと実際のモデルのルーフラインを示しています。 (b) と (d) は操作の分解を示しています。

図 4: マルチチップシステムにおける通信オーバーヘッドは無視できないが、バッチサイズが大きくなるにつれて減少します。

図 5: float32 と bfloat16 を使用した実際のモデル (データ準備あり、なし) の FLOPS 使用率 (上) とフィード時間 (デバイスがデータを待機する時間) (下)。フィード時間の割合が大きいモデル (RetinaNet や SqueezeNet など) は、データフィードによって制限されます。

図 6: (a) は、エンドツーエンドモデルを実行した場合の TPU v3 と v2 の速度比較です。 (b) と (c) は、完全接続ニューラルネットワークと畳み込みニューラルネットワークの高速化率です。 TPU v3 のより大きなメモリは 2 倍のバッチサイズをサポートするため、メモリにバインドされた操作では、バッチサイズが大きい場合は 3 倍の速度向上が得られ、バッチサイズが大きくない場合は 1.5 倍の速度向上が得られます。計算依存の操作は、v3 では 2.3 倍高速化されます。赤い線 (75 Ops/バイト) は、TPU v2 のルーフラインの変曲点です。

図7: 固定層を持つ完全接続モデルの例/秒（64）。例/秒は、ノード数が増加すると減少し、バッチサイズが増加すると増加します。白い四角は、モデルでメモリ不足の問題が発生していることを示します。 CPU プラットフォームは最大のメモリを備えているため、最大のモデルを実行します。

図 8: バッチサイズが大きい小規模な完全接続モデルでは TPU が適しており、バッチサイズが小さい大規模モデルでは GPU が適しています。つまり、大規模な行列にはシストリックアレイが適しており、小規模な行列の変換は GPU の方が柔軟です。

図 9: バッチサイズが大きい大規模な完全接続モデルは、CPU アーキテクチャの方が追加の並列処理をより有効に活用できるため、CPU よりも GPU に適しています。

図 10: (a)～(c): 大規模な畳み込みニューラルネットワークの場合、TPU は GPU よりも優れた選択肢です。これは、TPU が畳み込みニューラルネットワークに高度に最適化されていることを意味します。 (d)～(e): TPU は RNN には適していますが、埋め込みベクトルの計算に関しては GPU ほど柔軟ではありません。

図 11: (上) すべてのワークロードにおける TPU と GPU の速度向上の比較。 TPU 上の実際のワークロードでは、GPU よりも大きなバッチサイズが使用されることに注意してください。 ResNet-50のNVIDIA GPUバージョンは[9]から来ています。 (下) すべてのプラットフォームにおける FLOPS 使用率の比較。

図 12: (a) TensorFlow バージョンの更新による TPU パフォーマンスの変化。すべての ParaDnn モデルに改善が加えられました: Transformer、RetinaNet、ResNet-50 には安定した改善が加えられました。 (b) CUDA と TF の異なるバージョンでの GPU の高速化。 CUDA 9.2 は、他の ParaDnn モデルよりも畳み込みニューラルネットワークを改善し、他の実用的なモデルよりも ResNet-50 を改善します。 CUDA 10 では RNN と SqueezeNet は改善されません。

<<: 3日でAppleの無料リストのトップに立った「ZAO」、このままでは死んでしまう

>>: 企業は人工知能の可能性に目がくらんでいるのでしょうか?