GPU、TPU、CPU はすべてディープラーニング モデルのトレーニングに使用できますが、これらの各プラットフォームに適したモデルはどれでしょうか。また、ボトルネックは何でしょうか。この記事では、ハーバード大学の研究者が、ディープラーニング用のパラメーター化されたベンチマーク スイートである ParaDnn を設計しました。これは、これらのディープラーニング プラットフォームを体系的にベンチマークすることを目的としています。
ParaDnn は、完全接続 (FC)、畳み込み (CNN)、および再帰型 (RNN) ニューラル ネットワークのエンドツーエンド モデルを生成できます。研究者らは、6 つの実際のモデルを使用して、Google の Cloud TPU v2/v3、Nvidia の V100 GPU、Intel の Skylake CPU プラットフォームをベンチマークしました。彼らは TPU のアーキテクチャを詳しく調査し、そのボトルネックを明らかにし、将来のプロフェッショナル システム設計に活用できる貴重な教訓を強調しました。また、プラットフォームの包括的な比較も提供し、特定のタイプのモデルに対して各プラットフォームが独自の強みを持っていることを発見しました。最後に、TPU プラットフォームと GPU プラットフォームの両方で専用ソフトウェア スタックによって提供される急速なパフォーマンス向上を定量化します。
一般的に使用されているハードウェアとベンチマークは何ですか? TPU v2 は 2017 年 5 月にリリースされたカスタム特定用途向け集積回路 (ASIC) です。各 TPU v2 デバイスは、単一のボード上で 180 TFLOPS のピーク コンピューティング パワーを提供できます。 1 年後、TPU v3 がリリースされ、ピーク性能が 420 TFLOPS に向上しました。 Cloud TPU は 2018 年 2 月から学術的に利用可能になりました。この論文では Cloud TPU が使用されています。 Nvidia の Tesla V100 Tensor Core は、2017 年にリリースされた Volta アーキテクチャを搭載した GPU です。 CPU は特定のユースケースでのトレーニングに適していることが示されているため、これも重要なプラットフォームであり、比較に含める必要があります。 この調査では、あらゆるシナリオにおいて最適なプラットフォームは存在しないことが示されています。それぞれの特性に基づいて、さまざまなプラットフォームがさまざまなモデルに利点を提供できます。さらに、ディープラーニング モデルの急速な改善と変化により、ベンチマークも継続的に更新し、頻繁に実施する必要があります。 最近のベンチマークは、いくつかの任意の DNN モデルに限定されているようです。 ResNet50 や Transformer などの有名なモデルだけを見ると、誤った結論に至る可能性があります。たとえば、大規模な完全接続モデルである Transformer は、TPU 上で GPU よりも 3.5 倍高速にトレーニングされます。ただし、この 1 つのモデルに焦点を当てるだけでは、4,000 を超えるノードを持つ完全接続ネットワークの TPU で発生する深刻なメモリ帯域幅のボトルネックは明らかになりません。これにより、特定のモデルに対してハードウェアやコンパイラを過度に最適化するリスクが強調されます。 次世代ハードウェアベンチマーク 最先端のディープラーニング プラットフォームをベンチマークするために、この論文ではトレーニング用のディープラーニング モデルのアンサンブルを提案します。広範かつ包括的なベンチマーク研究をサポートするために、研究者はパラメーター化されたディープラーニング ベンチマーク コンポーネントである ParaDnn を導入しました。 ParaDnn は、完全接続 (FC) モデル、畳み込みニューラル ネットワーク (CNN)、および再帰型ニューラル ネットワーク (RNN) で構成される数千のパラメーター化された多層モデルをシームレスに生成できます。 ParaDnn を使用すると、既存のベンチマークの範囲を超える、約 6 桁のパラメータ サイズを持つモデルに対する体系的なベンチマークが可能になります。 研究者らは、これらのパラメータ化されたモデルを、幅広いモデル内の独自のポイントとして 6 つの現実的なモデルと組み合わせ、ハードウェア プラットフォームの包括的なベンチマークを提供しました。表 1 は、このホワイト ペーパーで説明した、将来のドメイン固有のアーキテクチャ、システム、およびソフトウェア設計にインスピレーションを与える可能性のある 10 の 14 の観察と洞察をまとめたものです。 表1: この論文のいくつかのグループからの主要な観察と洞察の要約 研究者たちは、ParaDnn を通じて得られた洞察を特に強調しました。まず、論文のセクション 4 で TPU v2 と v3 のアーキテクチャを詳細に分析し、コンピューティング能力、メモリ帯域幅、マルチチップ負荷、デバイスとホストのバランスにおけるアーキテクチャ上のボトルネックを明らかにします (観察 1 ~ 5)。この論文のセクション V では、TPU と GPU のパフォーマンスを包括的に比較し、2 つのプラットフォーム間の重要な違い (観察 6 ~ 11) を強調しています。最後の 3 つの観察結果は、専用のソフトウェア スタックと量子化されたデータ型によってもたらされるパフォーマンスの向上について検討するこの論文のセクション VI で詳しく説明されています。 この研究の限界を認識することが重要です。この論文では、将来の設計に貴重な教訓を提供する現在のアーキテクチャとシステム設計の最適化の可能性に焦点を当てています。最適化の詳細については、この論文の範囲を超えています。たとえば、この論文の分析は、推論ではなくトレーニングのみに焦点を当てています。著者らは、マルチ GPU プラットフォームまたは 256 ノード TPU システムでのパフォーマンスを調査していないため、異なる結論に至る可能性があります。 ディープラーニングベンチマーク 最近のディープラーニング (DL) の成功により、コンポーネントのベンチマークに関する研究が促進されました。既存のコンポーネントには主に 2 つの種類があります。1 つは MLPerf、Fathom、BenchNN、BenchIP などの実際のベンチマークで、もう 1 つは DeepBench や BenchIP などのマイクロベンチマークですが、いずれも一定の制限があります。 これらのコンポーネントには、現在存在するディープラーニング モデルのみが含まれており、ディープラーニング モデルが急速に進歩するにつれて、時代遅れになる可能性があります。さらに、ベンチマークは広大なディープラーニング空間における単なる散在点であるため、ディープラーニング モデルの特性とハードウェア プラットフォームのパフォーマンスとの間の深い洞察は明らかにされません。 ParaDnn は、この研究の既存のベンチマーク スイートを補完し、これらのアプローチの長所を、既存および将来のアプリケーションをカバーするエンドツーエンドのモデルを提供することを目標に組み合わせ、モデルをパラメーター化して、ディープ ニューラル ネットワーク プロパティのより広い設計空間を探索します。 図 1: この投稿のすべてのワークロードのトレーニング可能なパラメータの数。図に示すように、ParaDnn のモデル パラメータの範囲は 10,000 から 10 億近くまでで、図の点に示すように実際のモデルのパラメータ範囲よりも広くなっています。 ハードウェアプラットフォーム 著者が選択したハードウェア プラットフォームは、論文提出時点でクラウド プラットフォームで広く利用可能な最新の構成を反映しています。モデルの詳細な指標は表3に示されています。 表3: 調査対象ハードウェアプラットフォーム 実験図 図2(a)~(c)は、バッチサイズの増加とともに、これら3つの方法のFLOPS使用率が増加することを示しています。さらに、全結合ネットワークの FLOPS 利用率は、各層のノード数の増加とともに増加します (図 2(a))。畳み込みニューラル ネットワークの FLOPS 利用率はフィルターの増加とともに増加し、再帰型ニューラル ネットワークの FLOPS 利用率は埋め込みサイズの増加とともに増加します。図2(a)~(c)のx軸とy軸は、図2(d)~(f)で絶対値が最大となるハイパーパラメータです。 図 2: FLOPS 使用率とハイパーパラメータとの相関関係。 (a)~(c)はパラメータ化されたモデルのFLOPS使用率を示しています。 (d)~(f) 線形回帰重みを使用して、モデルのハイパーパラメータがFLOPS使用率に与える影響を定量化します。 図 3: TPU 上の完全接続ネットワークと畳み込みニューラル ネットワークのルーフライン。行列乗算 (MatMul) 演算の負荷は計算量が多いです。 Transformer や ResNet-50 のような計算集約型モデルでも、メモリに依存する操作が 10% 以上あります。 (a) と (c) は、パラメータ化されたモデルと実際のモデルのルーフラインを示しています。 (b) と (d) は操作の分解を示しています。 図 4: マルチチップ システムにおける通信オーバーヘッドは無視できないが、バッチ サイズが大きくなるにつれて減少します。 図 5: float32 と bfloat16 を使用した実際のモデル (データ準備あり、なし) の FLOPS 使用率 (上) とフィード時間 (デバイスがデータを待機する時間) (下)。フィード時間の割合が大きいモデル (RetinaNet や SqueezeNet など) は、データ フィードによって制限されます。 図 6: (a) は、エンドツーエンド モデルを実行した場合の TPU v3 と v2 の速度比較です。 (b) と (c) は、完全接続ニューラル ネットワークと畳み込みニューラル ネットワークの高速化率です。 TPU v3 のより大きなメモリは 2 倍のバッチ サイズをサポートするため、メモリにバインドされた操作では、バッチ サイズが大きい場合は 3 倍の速度向上が得られ、バッチ サイズが大きくない場合は 1.5 倍の速度向上が得られます。計算依存の操作は、v3 では 2.3 倍高速化されます。赤い線 (75 Ops/バイト) は、TPU v2 のルーフラインの変曲点です。 図7: 固定層を持つ完全接続モデルの例/秒(64)。例/秒は、ノード数が増加すると減少し、バッチ サイズが増加すると増加します。白い四角は、モデルでメモリ不足の問題が発生していることを示します。 CPU プラットフォームは最大のメモリを備えているため、最大のモデルを実行します。 図 8: バッチ サイズが大きい小規模な完全接続モデルでは TPU が適しており、バッチ サイズが小さい大規模モデルでは GPU が適しています。つまり、大規模な行列にはシストリック アレイが適しており、小規模な行列の変換は GPU の方が柔軟です。 図 9: バッチ サイズが大きい大規模な完全接続モデルは、CPU アーキテクチャの方が追加の並列処理をより有効に活用できるため、CPU よりも GPU に適しています。 図 10: (a)~(c): 大規模な畳み込みニューラル ネットワークの場合、TPU は GPU よりも優れた選択肢です。これは、TPU が畳み込みニューラル ネットワークに高度に最適化されていることを意味します。 (d)~(e): TPU は RNN には適していますが、埋め込みベクトルの計算に関しては GPU ほど柔軟ではありません。 図 11: (上) すべてのワークロードにおける TPU と GPU の速度向上の比較。 TPU 上の実際のワークロードでは、GPU よりも大きなバッチ サイズが使用されることに注意してください。 ResNet-50のNVIDIA GPUバージョンは[9]から来ています。 (下) すべてのプラットフォームにおける FLOPS 使用率の比較。 図 12: (a) TensorFlow バージョンの更新による TPU パフォーマンスの変化。すべての ParaDnn モデルに改善が加えられました: Transformer、RetinaNet、ResNet-50 には安定した改善が加えられました。 (b) CUDA と TF の異なるバージョンでの GPU の高速化。 CUDA 9.2 は、他の ParaDnn モデルよりも畳み込みニューラル ネットワークを改善し、他の実用的なモデルよりも ResNet-50 を改善します。 CUDA 10 では RNN と SqueezeNet は改善されません。 |
<<: 3日でAppleの無料リストのトップに立った「ZAO」、このままでは死んでしまう
>>: 企業は人工知能の可能性に目がくらんでいるのでしょうか?
量子時代が到来し、世界は安全・安心な暮らしとより良い社会の実現への期待が高まっています。 最近、日本...
機械学習アルゴリズムは、自動運転のさまざまなソリューションで広く使用されています。電子制御ユニットで...
LiBai モデル ライブラリは、Hugging Face、Megatron-LM、DeepSpe...
ロイター通信は12月21日、現地時間20日に発表された英国最高裁判所の判決で、米国のコンピューター科...
AI と自動化により、企業はさまざまな最適化ソフトウェアを使用して、冷房、暖房、発電を自動的に改善し...
最近、グラフアテンションネットワークの視覚化に関するプロジェクトが多くの研究者の関心を集めており、開...
1. GANの紹介「食べるために一生懸命働く人、食べるために一生懸命働く人こそが人々の中で最も優れて...
デジタル技術によって変革されない業界を見つけるのは難しいですが、適応型セクターも例外ではありません。...
導入現実世界で働くときには、直面しなければならない事実がいくつかあります。この記事ではそれについて説...
最近、クライアントの開発チームと SQL Server データ マイニングとそのアプリケーションにつ...
[「今回の調整は、主にユーザーのアクティベーション率、アプリの使用頻度、評価など総合的に考慮して行う...
この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...