ディープラーニングやニューラルネットワークの分野では、研究者は通常、GPU なしでは作業できません。 GPU の非常に高いメモリ帯域幅と多数のコアのおかげで、研究者はモデル トレーニングからより早く結果を得ることができます。同時に、CPU はコア数が少ないために制限されており、計算の実行に長い時間がかかるため、ディープラーニング モデルやニューラル ネットワークのトレーニングには適していません。 しかし最近、ライス大学、アントグループ、インテルなどの研究機関の研究者らが、消費者向けCPU上で動作するAIソフトウェアはGPUよりも15倍速くディープニューラルネットワークをトレーニングできることを示す論文を発表した。この論文はMLSys 2021カンファレンスに採択されました。 論文リンク: 「トレーニング費用はAI開発の大きなボトルネックであり、一部の企業はAIワークロードのトレーニングと微調整に毎週数百万ドルを費やしている」と、論文の責任著者でライス大学ブラウン工学部のコンピューターサイエンスの助教授であるアンシュマリ・シュリバスタバ氏は述べた。彼らの研究は、AI開発におけるトレーニング費用のボトルネックを解決することを目的としている。 アンシュマリ・シュリヴァスタヴァ。 研究の動機と進捗ディープ ニューラル ネットワーク (DNN) は、特定のタスクにおいて人間を上回る強力な人工知能です。 DNN トレーニングは通常、一連の行列乗算演算であり、CPU よりも約 3 倍高速な GPU に最適なワークロードです。 現在、業界全体が行列乗算演算の改善と高速化に注力しています。研究者たちは、行列乗算を強化するための特殊なハードウェアとアーキテクチャも模索しており、特定のディープラーニング用の特殊なハードウェア ソフトウェア スタックについても議論しています。 Shrivastava 氏が率いる研究室は 2019 年にこれを実行し、DNN トレーニングをハッシュ テーブルで解決できる検索問題に変換しました。彼らが設計したサブリニアディープラーニングエンジン(SLIDE)は、消費者向けCPUで動作するように特別に設計されています。シュリバスタバ氏とインテルのパートナーは、MLSys 2020カンファレンスでこの技術を発表しました。この技術は GPU ベースのトレーニングよりも優れたパフォーマンスを発揮できると彼らは言う。 MLSys 2021 カンファレンスで、研究者らは、最新の CPU のベクトル化とメモリ最適化アクセラレータを使用して SLIDE のパフォーマンスを向上できるかどうかを調査しました。 「ハッシュ テーブル ベースのアクセラレーションはすでに GPU を超えています」と、ライス大学の ML 博士課程の学生で、この論文の第一著者である Shabnam Daghaghi 氏は述べています。「私たちはこれらのイノベーションを活用して SLIDE をさらに推し進め、行列演算に重点を置かなくても CPU のパワーを活用して、最高のパフォーマンスを誇る専用 GPU よりも 4 ~ 15 倍速く AI モデルをトレーニングできることを示しました。」 シャブナム・ダガギ。 さらに、論文の2番目の著者であり、ライス大学のコンピューターサイエンスと数学の学部生であるニコラス・マイスバーガー氏は、CPUは依然としてコンピューティング分野で最も一般的なハードウェアであり、AIへの貢献は計り知れないと考えています。 技術詳細本稿では、2 つの最新の Intel CPU 上の SLIDE システムを再検討し、大規模なディープラーニング モデルのトレーニングにおける CPU の真の可能性を理解します。この研究により、SLIDE は最新の CPU のベクトル化、量子化、および一部のメモリ最適化を活用できるようになります。最適化されていない SLIDE と比較すると、この研究での最適化作業により、同じハードウェア上でのトレーニング時間が 2 ~ 7 倍高速化されます。 SLIDE のワークフローには、初期化、前方後方伝播、ハッシュ テーブルの更新が含まれます。下の図 1 は、順方向-逆方向伝播ワークフローの図です。 前方伝播と後方伝播の概略図。 この研究は、必要なニューラル ネットワークに数億のパラメーターが含まれる大規模な評価に焦点を当てています。最適化された SLIDE は、2 つの Intel CPU、Cooper Laker サーバー (CPX) と Cascade Lake サーバー (CLX) で比較され、次の 5 つのベンチマークと比較されました。 1) V100 GPU上のフルソフトマックス テンソルフロー実装。 2) CPX 上の完全なソフトマックス テンソルフロー実装。 3) CLX での完全なソフトマックス テンソルフロー実装。 4) CPX のナイーブ SLIDE。 5) CLX でのナイーブなスライド。 このうち、CPX は AVX512 に基づく BF16 命令をサポートする Intel の第 3 世代 Xeon スケーラブル プロセッサです。 CLX バージョンは古く、BF16 命令をサポートしていません。 研究者らは、3つの実際の公開データセットでフレームワークとその他のベンチマークを評価しました。 Amazon670K はレコメンデーション システム用の Kaggle データセットです。WikiLSH-325K データセットと Text8 は NLP データセットです。詳細な統計データは、以下の表 1 に示されています。 Amazon-670K と WikiLSH-325K の場合、研究者らは、入力と出力の両方がマルチホットエンコードされたベクトルである、隠し層のサイズが 128 の標準的な完全接続ニューラル ネットワークを使用しました。 Text8 の場合、この研究では、隠し層のサイズが 200 の標準 word2vec 言語モデルを使用しました。入力と出力は、それぞれワンホット エンコード ベクトルとマルチホット エンコード ベクトルです。 下の図 6 の最初の行は、すべてのデータセットの時間収束図を表しています。結果は、この研究で提案された CPX および CLX (濃い緑と薄い緑) での最適化された SLIDE のトレーニング時間が他のベースラインよりも優れていることを示しています。図 6 の下の行には、すべてのデータセットのヒストグラムが表示されています。 以下の表 2 は、3 つのデータセットの詳細な数値結果を示しています。 以下の表 3 では、研究者らは BF16 命令がエポックあたりの平均トレーニング時間に与える影響を示しています。結果は、アクティベーションと重み付けで BF16 命令を使用すると、Amazon-670K と WikiLSH325K でそれぞれ 1.28 倍と 1.39 倍パフォーマンスが向上することを示しています。ただし、Text8 で BF16 を使用しても効果はありませんでした。 以下の表 4 は、AVX-512 ありとなしの 3 つのデータセットで最適化された SLIDE のエポックあたりの平均トレーニング時間を示しています。結果は、AVX-512 ベクトル化により平均トレーニング時間が 1.2 倍短縮されることを示しています。 |
>>: Raspberry Pi を搭載した MIT のヤドカリ型ロボットは「何でもできる」
ロボット工学は医療分野で一般的になりつつあり、生物医学工学の分野における医療用ロボットへの資金提供が...
最近、Sinovation Venturesの創設者であるKai-Fu Lee氏が「AIの急速な時代...
9月1日、成都地下鉄全線で「スマート旅客サービスプラットフォーム」がオンラインで開始されました。この...
[51CTO.com 速訳] 最近、FacebookはMessengerプラットフォーム上のチャット...
こんにちは、みんな。今日は、ChatGPT を使用して安全ヘルメットの着用検出を開発する方法を紹介し...
RNA 3D 構造予測は長年の課題です。タンパク質構造予測における最近の進歩に触発され、南開大学、山...
エッジコンピューティングとは最近、エッジコンピューティングは、人工知能やモノのインターネットの分野で...
この流行は世界市場に衝撃をもたらしたが、人工知能(AI)企業への資本投資は増加し続けている。 CB ...
[51CTO.com オリジナル記事] この記事では、現在市場にあるデータサイエンスや機械学習に適し...
[[386714]]北東部に拠点を置くエネルギー会社 Eversource で財務計画および分析 (...