ディープラーニングやニューラルネットワークの分野では、研究者は通常、GPU なしでは作業できません。 GPU の非常に高いメモリ帯域幅と多数のコアのおかげで、研究者はモデル トレーニングからより早く結果を得ることができます。同時に、CPU はコア数が少ないために制限されており、計算の実行に長い時間がかかるため、ディープラーニング モデルやニューラル ネットワークのトレーニングには適していません。 しかし最近、ライス大学、アントグループ、インテルなどの研究機関の研究者らが、消費者向けCPU上で動作するAIソフトウェアはGPUよりも15倍速くディープニューラルネットワークをトレーニングできることを示す論文を発表した。この論文はMLSys 2021カンファレンスに採択されました。 論文リンク: 「トレーニング費用はAI開発の大きなボトルネックであり、一部の企業はAIワークロードのトレーニングと微調整に毎週数百万ドルを費やしている」と、論文の責任著者でライス大学ブラウン工学部のコンピューターサイエンスの助教授であるアンシュマリ・シュリバスタバ氏は述べた。彼らの研究は、AI開発におけるトレーニング費用のボトルネックを解決することを目的としている。 アンシュマリ・シュリヴァスタヴァ。 研究の動機と進捗ディープ ニューラル ネットワーク (DNN) は、特定のタスクにおいて人間を上回る強力な人工知能です。 DNN トレーニングは通常、一連の行列乗算演算であり、CPU よりも約 3 倍高速な GPU に最適なワークロードです。 現在、業界全体が行列乗算演算の改善と高速化に注力しています。研究者たちは、行列乗算を強化するための特殊なハードウェアとアーキテクチャも模索しており、特定のディープラーニング用の特殊なハードウェア ソフトウェア スタックについても議論しています。 Shrivastava 氏が率いる研究室は 2019 年にこれを実行し、DNN トレーニングをハッシュ テーブルで解決できる検索問題に変換しました。彼らが設計したサブリニアディープラーニングエンジン(SLIDE)は、消費者向けCPUで動作するように特別に設計されています。シュリバスタバ氏とインテルのパートナーは、MLSys 2020カンファレンスでこの技術を発表しました。この技術は GPU ベースのトレーニングよりも優れたパフォーマンスを発揮できると彼らは言う。 MLSys 2021 カンファレンスで、研究者らは、最新の CPU のベクトル化とメモリ最適化アクセラレータを使用して SLIDE のパフォーマンスを向上できるかどうかを調査しました。 「ハッシュ テーブル ベースのアクセラレーションはすでに GPU を超えています」と、ライス大学の ML 博士課程の学生で、この論文の第一著者である Shabnam Daghaghi 氏は述べています。「私たちはこれらのイノベーションを活用して SLIDE をさらに推し進め、行列演算に重点を置かなくても CPU のパワーを活用して、最高のパフォーマンスを誇る専用 GPU よりも 4 ~ 15 倍速く AI モデルをトレーニングできることを示しました。」 シャブナム・ダガギ。 さらに、論文の2番目の著者であり、ライス大学のコンピューターサイエンスと数学の学部生であるニコラス・マイスバーガー氏は、CPUは依然としてコンピューティング分野で最も一般的なハードウェアであり、AIへの貢献は計り知れないと考えています。 技術詳細本稿では、2 つの最新の Intel CPU 上の SLIDE システムを再検討し、大規模なディープラーニング モデルのトレーニングにおける CPU の真の可能性を理解します。この研究により、SLIDE は最新の CPU のベクトル化、量子化、および一部のメモリ最適化を活用できるようになります。最適化されていない SLIDE と比較すると、この研究での最適化作業により、同じハードウェア上でのトレーニング時間が 2 ~ 7 倍高速化されます。 SLIDE のワークフローには、初期化、前方後方伝播、ハッシュ テーブルの更新が含まれます。下の図 1 は、順方向-逆方向伝播ワークフローの図です。 前方伝播と後方伝播の概略図。 この研究は、必要なニューラル ネットワークに数億のパラメーターが含まれる大規模な評価に焦点を当てています。最適化された SLIDE は、2 つの Intel CPU、Cooper Laker サーバー (CPX) と Cascade Lake サーバー (CLX) で比較され、次の 5 つのベンチマークと比較されました。 1) V100 GPU上のフルソフトマックス テンソルフロー実装。 2) CPX 上の完全なソフトマックス テンソルフロー実装。 3) CLX での完全なソフトマックス テンソルフロー実装。 4) CPX のナイーブ SLIDE。 5) CLX でのナイーブなスライド。 このうち、CPX は AVX512 に基づく BF16 命令をサポートする Intel の第 3 世代 Xeon スケーラブル プロセッサです。 CLX バージョンは古く、BF16 命令をサポートしていません。 研究者らは、3つの実際の公開データセットでフレームワークとその他のベンチマークを評価しました。 Amazon670K はレコメンデーション システム用の Kaggle データセットです。WikiLSH-325K データセットと Text8 は NLP データセットです。詳細な統計データは、以下の表 1 に示されています。 Amazon-670K と WikiLSH-325K の場合、研究者らは、入力と出力の両方がマルチホットエンコードされたベクトルである、隠し層のサイズが 128 の標準的な完全接続ニューラル ネットワークを使用しました。 Text8 の場合、この研究では、隠し層のサイズが 200 の標準 word2vec 言語モデルを使用しました。入力と出力は、それぞれワンホット エンコード ベクトルとマルチホット エンコード ベクトルです。 下の図 6 の最初の行は、すべてのデータセットの時間収束図を表しています。結果は、この研究で提案された CPX および CLX (濃い緑と薄い緑) での最適化された SLIDE のトレーニング時間が他のベースラインよりも優れていることを示しています。図 6 の下の行には、すべてのデータセットのヒストグラムが表示されています。 以下の表 2 は、3 つのデータセットの詳細な数値結果を示しています。 以下の表 3 では、研究者らは BF16 命令がエポックあたりの平均トレーニング時間に与える影響を示しています。結果は、アクティベーションと重み付けで BF16 命令を使用すると、Amazon-670K と WikiLSH325K でそれぞれ 1.28 倍と 1.39 倍パフォーマンスが向上することを示しています。ただし、Text8 で BF16 を使用しても効果はありませんでした。 以下の表 4 は、AVX-512 ありとなしの 3 つのデータセットで最適化された SLIDE のエポックあたりの平均トレーニング時間を示しています。結果は、AVX-512 ベクトル化により平均トレーニング時間が 1.2 倍短縮されることを示しています。 |
>>: Raspberry Pi を搭載した MIT のヤドカリ型ロボットは「何でもできる」
今日、業界や部門に関係なく、私たちは皆、エネルギーと燃料のコスト上昇、原材料費の増加、営業利益率と利...
AI をめぐっては興奮と恐怖が同時に存在しているのは否定できない現実です。一方では、マイクロソフト...
2008 年の金融危機後、都市化とサービス提供に対する新たなアプローチが世界中で定着し始めました。テ...
ガートナーによると、2026年までに、人工知能(AI)によって生成された顔認証のディープフェイク攻撃...
データベース市場でMySQLの地位を揺るがすようなデータベースが登場したのは久しぶりのようです。主要...
既存の大規模言語モデル、画像生成モデルなどは、少数のモーダルデータに対してのみ動作し、人間のように物...
GitHub の CEO である Thomas Dohmke 氏は最近、人工知能とソフトウェア開発の...
人工知能は再びホットな話題となっている。南京大学に人工知能学院が設立され、新たなチャンスに直面し、今...
大規模言語モデル (LLM) の機能を最大限に活用するには、効果的なプロンプト設計ソリューションが不...
[[184728]]最近、Data Science Stack Exchange の「ニューラル ネ...
[[431747]]最近、第 1 回 Microsoft Research Summit の 2 日...
[[401177]]ボストン・ダイナミクスは誰もが知っていますが、同社の従業員の仕事や生活について知...
1月12日、アリババ、AI研究所、清華大学などの共同研究チームが、新たな超大規模認知事前トレーニング...
[[76655]]大学に通ったことのない26歳のジェド・ドミンゲスさんは、ギルデッドのアルゴリズムに...
進化により、細胞プロセスを正確に制御する多様な機能性タンパク質が生み出されました。近年、この多様性か...