ディープラーニング プラットフォームとして、TPU、GPU、CPU のどれが優れているでしょうか?誰かがベンチマーク調査を行った

ディープラーニング プラットフォームとして、TPU、GPU、CPU のどれが優れているでしょうか?誰かがベンチマーク調査を行った

GPU、TPU、CPU はすべてディープラーニング モデルのトレーニングに使用できますが、これらの各プラットフォームに適したモデルはどれでしょうか。また、ボトルネックは何でしょうか。この記事では、ハーバード大学の研究者が、ディープラーニング用のパラメーター化されたベンチマーク スイートである ParaDnn を設計しました。これは、これらのディープラーニング プラットフォームを体系的にベンチマークすることを目的としています。

[[275723]]

ParaDnn は、完全接続 (FC)、畳み込み (CNN)、および再帰型 (RNN) ニューラル ネットワークのエンドツーエンド モデルを生成できます。研究者らは、6 つの実際のモデルを使用して、Google の Cloud TPU v2/v3、Nvidia の V100 GPU、Intel の Skylake CPU プラットフォームをベンチマークしました。彼らは TPU のアーキテクチャを詳しく調査し、そのボトルネックを明らかにし、将来のプロフェッショナル システム設計に活用できる貴重な教訓を強調しました。また、プラットフォームの包括的な比較も提供し、特定のタイプのモデルに対して各プラットフォームが独自の強みを持っていることを発見しました。最後に、TPU プラットフォームと GPU プラットフォームの両方で専用ソフトウェア スタックによって提供される急速なパフォーマンス向上を定量化します。

  • 論文: ディープラーニング向け TPU、GPU、CPU プラットフォームのベンチマーク
  • 論文リンク: https://arxiv.org/pdf/1907.10701.pdf

一般的に使用されているハードウェアとベンチマークは何ですか?

TPU v2 は 2017 年 5 月にリリースされたカスタム特定用途向け集積回路 (ASIC) です。各 TPU v2 デバイスは、単一のボード上で 180 TFLOPS のピーク コンピューティング パワーを提供できます。 1 年後、TPU v3 がリリースされ、ピーク性能が 420 TFLOPS に向上しました。 Cloud TPU は 2018 年 2 月から学術的に利用可能になりました。この論文では Cloud TPU が使用されています。

Nvidia の Tesla V100 Tensor Core は、2017 年にリリースされた Volta アーキテクチャを搭載した GPU です。

CPU は特定のユースケースでのトレーニングに適していることが示されているため、これも重要なプラットフォームであり、比較に含める必要があります。

この調査では、あらゆるシナリオにおいて最適なプラットフォームは存在しないことが示されています。それぞれの特性に基づいて、さまざまなプラットフォームがさまざまなモデルに利点を提供できます。さらに、ディープラーニング モデルの急速な改善と変化により、ベンチマークも継続的に更新し、頻繁に実施する必要があります。

最近のベンチマークは、いくつかの任意の DNN モデルに限定されているようです。 ResNet50 や Transformer などの有名なモデルだけを見ると、誤った結論に至る可能性があります。たとえば、大規模な完全接続モデルである Transformer は、TPU 上で GPU よりも 3.5 倍高速にトレーニングされます。ただし、この 1 つのモデルに焦点を当てるだけでは、4,000 を超えるノードを持つ完全接続ネットワークの TPU で発生する深刻なメモリ帯域幅のボトルネックは明らかになりません。これにより、特定のモデルに対してハードウェアやコンパイラを過度に最適化するリスクが強調されます。

次世代ハードウェアベンチマーク

最先端のディープラーニング プラットフォームをベンチマークするために、この論文ではトレーニング用のディープラーニング モデルのアンサンブルを提案します。広範かつ包括的なベンチマーク研究をサポートするために、研究者はパラメーター化されたディープラーニング ベンチマーク コンポーネントである ParaDnn を導入しました。 ParaDnn は、完全接続 (FC) モデル、畳み込みニューラル ネットワーク (CNN)、および再帰型ニューラル ネットワーク (RNN) で構成される数千のパラメーター化された多層モデルをシームレスに生成できます。 ParaDnn を使用すると、既存のベンチマークの範囲を超える、約 6 桁のパラメータ サイズを持つモデルに対する体系的なベンチマークが可能になります。

研究者らは、これらのパラメータ化されたモデルを、幅広いモデル内の独自のポイントとして 6 つの現実的なモデルと組み合わせ、ハードウェア プラットフォームの包括的なベンチマークを提供しました。表 1 は、このホワイト ペーパーで説明した、将来のドメイン固有のアーキテクチャ、システム、およびソフトウェア設計にインスピレーションを与える可能性のある 10 の 14 の観察と洞察をまとめたものです。

表1: この論文のいくつかのグループからの主要な観察と洞察の要約

研究者たちは、ParaDnn を通じて得られた洞察を特に強調しました。まず、論文のセクション 4 で TPU v2 と v3 のアーキテクチャを詳細に分析し、コンピューティング能力、メモリ帯域幅、マルチチップ負荷、デバイスとホストのバランスにおけるアーキテクチャ上のボトルネックを明らかにします (観察 1 ~ 5)。この論文のセクション V では、TPU と GPU のパフォーマンスを包括的に比較し、2 つのプラットフォーム間の重要な違い (観察 6 ~ 11) を強調しています。最後の 3 つの観察結果は、専用のソフトウェア スタックと量子化されたデータ型によってもたらされるパフォーマンスの向上について検討するこの論文のセクション VI で詳しく説明されています。

この研究の限界を認識することが重要です。この論文では、将来の設計に貴重な教訓を提供する現在のアーキテクチャとシステム設計の最適化の可能性に焦点を当てています。最適化の詳細については、この論文の範囲を超えています。たとえば、この論文の分析は、推論ではなくトレーニングのみに焦点を当てています。著者らは、マルチ GPU プラットフォームまたは 256 ノード TPU システムでのパフォーマンスを調査していないため、異なる結論に至る可能性があります。

ディープラーニングベンチマーク

最近のディープラーニング (DL) の成功により、コンポーネントのベンチマークに関する研究が促進されました。既存のコンポーネントには主に 2 つの種類があります。1 つは MLPerf、Fathom、BenchNN、BenchIP などの実際のベンチマークで、もう 1 つは DeepBench や BenchIP などのマイクロベンチマークですが、いずれも一定の制限があります。

これらのコンポーネントには、現在存在するディープラーニング モデルのみが含まれており、ディープラーニング モデルが急速に進歩するにつれて、時代遅れになる可能性があります。さらに、ベンチマークは広大なディープラーニング空間における単なる散在点であるため、ディープラーニング モデルの特性とハードウェア プラットフォームのパフォーマンスとの間の深い洞察は明らかにされません。

ParaDnn は、この研究の既存のベンチマーク スイートを補完し、これらのアプローチの長所を、既存および将来のアプリケーションをカバーするエンドツーエンドのモデルを提供することを目標に組み合わせ、モデルをパラメーター化して、ディープ ニューラル ネットワーク プロパティのより広い設計空間を探索します。

図 1: この投稿のすべてのワークロードのトレーニング可能なパラメータの数。図に示すように、ParaDnn のモデル パラメータの範囲は 10,000 から 10 億近くまでで、図の点に示すように実際のモデルのパラメータ範囲よりも広くなっています。

ハードウェアプラットフォーム

著者が選択したハードウェア プラットフォームは、論文提出時点でクラウド プラットフォームで広く利用可能な最新の構成を反映しています。モデルの詳細な指標は表3に示されています。

表3: 調査対象ハードウェアプラットフォーム

実験図

図2(a)~(c)は、バッチサイズの増加とともに、これら3つの方法のFLOPS使用率が増加することを示しています。さらに、全結合ネットワークの FLOPS 利用率は、各層のノード数の増加とともに増加します (図 2(a))。畳み込みニューラル ネットワークの FLOPS 利用率はフィルターの増加とともに増加し、再帰型ニューラル ネットワークの FLOPS 利用率は埋め込みサイズの増加とともに増加します。図2(a)~(c)のx軸とy軸は、図2(d)~(f)で絶対値が最大となるハイパーパラメータです。

図 2: FLOPS 使用率とハイパーパラメータとの相関関係。 (a)~(c)はパラメータ化されたモデルのFLOPS使用率を示しています。 (d)~(f) 線形回帰重みを使用して、モデルのハイパーパラメータがFLOPS使用率に与える影響を定量化します。

図 3: TPU 上の完全接続ネットワークと畳み込みニューラル ネットワークのルーフライン。行列乗算 (MatMul) 演算の負荷は計算量が多いです。 Transformer や ResNet-50 のような計算集約型モデルでも、メモリに依存する操作が 10% 以上あります。 (a) と (c) は、パラメータ化されたモデルと実際のモデルのルーフラインを示しています。 (b) と (d) は操作の分解を示しています。

図 4: マルチチップ システムにおける通信オーバーヘッドは無視できないが、バッチ サイズが大きくなるにつれて減少します。

図 5: float32 と bfloat16 を使用した実際のモデル (データ準備あり、なし) の FLOPS 使用率 (上) とフィード時間 (デバイスがデータを待機する時間) (下)。フィード時間の割合が大きいモデル (RetinaNet や SqueezeNet など) は、データ フィードによって制限されます。

図 6: (a) は、エンドツーエンド モデルを実行した場合の TPU v3 と v2 の速度比較です。 (b) と (c) は、完全接続ニューラル ネットワークと畳み込みニューラル ネットワークの高速化率です。 TPU v3 のより大きなメモリは 2 倍のバッチ サイズをサポートするため、メモリにバインドされた操作では、バッチ サイズが大きい場合は 3 倍の速度向上が得られ、バッチ サイズが大きくない場合は 1.5 倍の速度向上が得られます。計算依存の操作は、v3 では 2.3 倍高速化されます。赤い線 (75 Ops/バイト) は、TPU v2 のルーフラインの変曲点です。

図7: 固定層を持つ完全接続モデルの例/秒(64)。例/秒は、ノード数が増加すると減少し、バッチ サイズが増加すると増加します。白い四角は、モデルでメモリ不足の問題が発生していることを示します。 CPU プラットフォームは最大のメモリを備えているため、最大のモデルを実行します。

図 8: バッチ サイズが大きい小規模な完全接続モデルでは TPU が適しており、バッチ サイズが小さい大規模モデルでは GPU が適しています。つまり、大規模な行列にはシストリック アレイが適しており、小規模な行列の変換は GPU の方が柔軟です。

図 9: バッチ サイズが大きい大規模な完全接続モデルは、CPU アーキテクチャの方が追加の並列処理をより有効に活用できるため、CPU よりも GPU に適しています。

図 10: (a)~(c): 大規模な畳み込みニューラル ネットワークの場合、TPU は GPU よりも優れた選択肢です。これは、TPU が畳み込みニューラル ネットワークに高度に最適化されていることを意味します。 (d)~(e): TPU は RNN には適していますが、埋め込みベクトルの計算に関しては GPU ほど柔軟ではありません。

図 11: (上) すべてのワークロードにおける TPU と GPU の速度向上の比較。 TPU 上の実際のワークロードでは、GPU よりも大きなバッチ サイズが使用されることに注意してください。 ResNet-50のNVIDIA GPUバージョンは[9]から来ています。 (下) すべてのプラットフォームにおける FLOPS 使用率の比較。

図 12: (a) TensorFlow バージョンの更新による TPU パフォーマンスの変化。すべての ParaDnn モデルに改善が加えられました: Transformer、RetinaNet、ResNet-50 には安定した改善が加えられました。 (b) CUDA と TF の異なるバージョンでの GPU の高速化。 CUDA 9.2 は、他の ParaDnn モデルよりも畳み込みニューラル ネットワークを改善し、他の実用的なモデルよりも ResNet-50 を改善します。 CUDA 10 では RNN と SqueezeNet は改善されません。

<<:  3日でAppleの無料リストのトップに立った「ZAO」、このままでは死んでしまう

>>:  企業は人工知能の可能性に目がくらんでいるのでしょうか?

ブログ    
ブログ    
ブログ    

推薦する

トイレに座ってアルゴリズムを見る: クイックソート

高速かつ経済的なソートアルゴリズムスペースを無駄にせず、より高速なソートアルゴリズムはありますか?そ...

AI データラベリングとは何ですか?課題は何ですか?

データ注釈はほとんどの人工知能の基盤であり、機械学習とディープラーニング モデルの品質を決定します。...

新しい時代を受け入れよう: スマートホームが贅沢な生活を再定義する

イノベーションとテクノロジーの時代において、贅沢な暮らしはスマートホームによって変化しています。これ...

2018 年のビッグデータのトレンド: 人工知能... データ分析には視覚化モデルが含まれます...

導入ノートパソコン、スマートフォン、センサーはすべて、モノのインターネット向けに大量のデータを生成し...

人工知能はメタバースのビジョンの実現に役立つでしょうか?

現在、メタバースの分野は、誇大宣伝と新規プロジェクトの立ち上げ数の点で急速に成長しており、業界の市場...

SSD ソリッド ステート ドライブの構造: マスター制御アルゴリズム、ファームウェア、NAND フラッシュ メモリ

SSD ソリッド ステート ドライブは近年のストレージ技術における大きな進歩であり、コンピューターの...

人工知能に対して、人間がかけがえのない存在となるような利点は何でしょうか?

人工知能に関して言えば、かつて映画「マトリックス」で描かれたSFシーンが世界に衝撃を与え、トレンドを...

研究:インターネットには低品質の機械翻訳コンテンツが溢れており、大規模な言語モデルのトレーニングではデータの罠に注意する必要がある

2月4日、アマゾンクラウドコンピューティング人工知能研究所の研究者らは、インターネット上の大量のコン...

シュナイダーエレクトリックの革新力は、デジタル化と低炭素化の二重の変革を加速させる上でどのような役割を果たすのでしょうか。

デジタル変革の後半期に入る中、デジタルとリアルの融合をいかに加速し、グリーン・低炭素の発展へと向かう...

宮崎駿アニメの世界を一筆でスケッチしよう!スタンフォード大学の大型模型「𝘚𝘬𝘦𝘵𝘤𝘩-𝘢-𝘚𝘬𝘦𝘵𝘤𝘩」、スケッチが数秒で傑作に変身

絵を描くだけで高精細な絵画が現れます。たとえば中世の城を描くには、ドアと道を描くだけで、美しい城が現...

AIは役に立たないなんて誰が言ったのでしょうか?パンデミックの間、AIは人類のために多くのことを行ってきました...

[[314062]] 10日以上も経過したが、流行は収束の兆しを見せず、事態はますます深刻化してい...

...

Huang が H100 を「ブースト」: NVIDIA が大規模モデル アクセラレーション パッケージを発表、Llama2 推論速度が 2 倍に

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

人間を機械に置き換えることで雇用上の課題が生じています。労働市場の将来はどうなるのでしょうか?

現在、世界中で加速する人工知能の発展は各国から大きな注目を集めています。単純な機械動作でも複雑な知覚...