ニューラルネットワークのトレーニングではCPUはGPUより10倍以上高速。インテル：行列演算はもう使わない

ディープラーニングやニューラルネットワークの分野では、研究者は通常、GPU なしでは作業できません。 GPU の非常に高いメモリ帯域幅と多数のコアのおかげで、研究者はモデルトレーニングからより早く結果を得ることができます。同時に、CPU はコア数が少ないために制限されており、計算の実行に長い時間がかかるため、ディープラーニングモデルやニューラルネットワークのトレーニングには適していません。

しかし最近、ライス大学、アントグループ、インテルなどの研究機関の研究者らが、消費者向けCPU上で動作するAIソフトウェアはGPUよりも15倍速くディープニューラルネットワークをトレーニングできることを示す論文を発表した。この論文はMLSys 2021カンファレンスに採択されました。

論文リンク:
抄録

「トレーニング費用はAI開発の大きなボトルネックであり、一部の企業はAIワークロードのトレーニングと微調整に毎週数百万ドルを費やしている」と、論文の責任著者でライス大学ブラウン工学部のコンピューターサイエンスの助教授であるアンシュマリ・シュリバスタバ氏は述べた。彼らの研究は、AI開発におけるトレーニング費用のボトルネックを解決することを目的としている。

アンシュマリ・シュリヴァスタヴァ。

研究の動機と進捗

ディープニューラルネットワーク (DNN) は、特定のタスクにおいて人間を上回る強力な人工知能です。 DNN トレーニングは通常、一連の行列乗算演算であり、CPU よりも約 3 倍高速な GPU に最適なワークロードです。

現在、業界全体が行列乗算演算の改善と高速化に注力しています。研究者たちは、行列乗算を強化するための特殊なハードウェアとアーキテクチャも模索しており、特定のディープラーニング用の特殊なハードウェアソフトウェアスタックについても議論しています。

Shrivastava 氏が率いる研究室は 2019 年にこれを実行し、DNN トレーニングをハッシュテーブルで解決できる検索問題に変換しました。彼らが設計したサブリニアディープラーニングエンジン（SLIDE）は、消費者向けCPUで動作するように特別に設計されています。シュリバスタバ氏とインテルのパートナーは、MLSys 2020カンファレンスでこの技術を発表しました。この技術は GPU ベースのトレーニングよりも優れたパフォーマンスを発揮できると彼らは言う。

MLSys 2021 カンファレンスで、研究者らは、最新の CPU のベクトル化とメモリ最適化アクセラレータを使用して SLIDE のパフォーマンスを向上できるかどうかを調査しました。

「ハッシュテーブルベースのアクセラレーションはすでに GPU を超えています」と、ライス大学の ML 博士課程の学生で、この論文の第一著者である Shabnam Daghaghi 氏は述べています。「私たちはこれらのイノベーションを活用して SLIDE をさらに推し進め、行列演算に重点を置かなくても CPU のパワーを活用して、最高のパフォーマンスを誇る専用 GPU よりも 4 ～ 15 倍速く AI モデルをトレーニングできることを示しました。」

シャブナム・ダガギ。

さらに、論文の2番目の著者であり、ライス大学のコンピューターサイエンスと数学の学部生であるニコラス・マイスバーガー氏は、CPUは依然としてコンピューティング分野で最も一般的なハードウェアであり、AIへの貢献は計り知れないと考えています。

技術詳細

本稿では、2 つの最新の Intel CPU 上の SLIDE システムを再検討し、大規模なディープラーニングモデルのトレーニングにおける CPU の真の可能性を理解します。この研究により、SLIDE は最新の CPU のベクトル化、量子化、および一部のメモリ最適化を活用できるようになります。最適化されていない SLIDE と比較すると、この研究での最適化作業により、同じハードウェア上でのトレーニング時間が 2 ～ 7 倍高速化されます。

SLIDE のワークフローには、初期化、前方後方伝播、ハッシュテーブルの更新が含まれます。下の図 1 は、順方向-逆方向伝播ワークフローの図です。

前方伝播と後方伝播の概略図。

この研究は、必要なニューラルネットワークに数億のパラメーターが含まれる大規模な評価に焦点を当てています。最適化された SLIDE は、2 つの Intel CPU、Cooper Laker サーバー (CPX) と Cascade Lake サーバー (CLX) で比較され、次の 5 つのベンチマークと比較されました。

1) V100 GPU上のフルソフトマックステンソルフロー実装。

2) CPX 上の完全なソフトマックステンソルフロー実装。

3) CLX での完全なソフトマックステンソルフロー実装。

4) CPX のナイーブ SLIDE。

5) CLX でのナイーブなスライド。

このうち、CPX は AVX512 に基づく BF16 命令をサポートする Intel の第 3 世代 Xeon スケーラブルプロセッサです。 CLX バージョンは古く、BF16 命令をサポートしていません。

研究者らは、3つの実際の公開データセットでフレームワークとその他のベンチマークを評価しました。 Amazon670K はレコメンデーションシステム用の Kaggle データセットです。WikiLSH-325K データセットと Text8 は NLP データセットです。詳細な統計データは、以下の表 1 に示されています。

Amazon-670K と WikiLSH-325K の場合、研究者らは、入力と出力の両方がマルチホットエンコードされたベクトルである、隠し層のサイズが 128 の標準的な完全接続ニューラルネットワークを使用しました。 Text8 の場合、この研究では、隠し層のサイズが 200 の標準 word2vec 言語モデルを使用しました。入力と出力は、それぞれワンホットエンコードベクトルとマルチホットエンコードベクトルです。

下の図 6 の最初の行は、すべてのデータセットの時間収束図を表しています。結果は、この研究で提案された CPX および CLX (濃い緑と薄い緑) での最適化された SLIDE のトレーニング時間が他のベースラインよりも優れていることを示しています。図 6 の下の行には、すべてのデータセットのヒストグラムが表示されています。

以下の表 2 は、3 つのデータセットの詳細な数値結果を示しています。

以下の表 3 では、研究者らは BF16 命令がエポックあたりの平均トレーニング時間に与える影響を示しています。結果は、アクティベーションと重み付けで BF16 命令を使用すると、Amazon-670K と WikiLSH325K でそれぞれ 1.28 倍と 1.39 倍パフォーマンスが向上することを示しています。ただし、Text8 で BF16 を使用しても効果はありませんでした。

以下の表 4 は、AVX-512 ありとなしの 3 つのデータセットで最適化された SLIDE のエポックあたりの平均トレーニング時間を示しています。結果は、AVX-512 ベクトル化により平均トレーニング時間が 1.2 倍短縮されることを示しています。

<<: 人工知能に必要な3つの条件

>>: Raspberry Pi を搭載した MIT のヤドカリ型ロボットは「何でもできる」