ディープラーニングチップ研究の新潮流:処理の中核となるメモリ

ディープラーニングチップ研究の新潮流:処理の中核となるメモリ

[[186777]]

過去 2 年間、機械学習、特にディープ ニューラル ネットワークのニーズを満たす革新的なアーキテクチャの研究が急増しました。 The Next Platform では、トレーニング側と推論側の両方について多くのアーキテクチャ オプションを取り上げてきましたが、その過程で興味深い傾向に気づき始めました。機械学習市場向けにカスタム ASIC を開発している企業の中には、メモリを処理の中核として使用するという同様の考え方に沿って開発を進めているところもあるようです。

メモリ内処理 (PIM) アーキテクチャは新しいものではありませんが、メモリ内の比較的単純なロジック ユニットがニューラル ネットワーク (特に畳み込みネットワーク) のトレーニング ニーズに十分対応できるため、メモリは将来の次のプラットフォームになりつつあります。私たちは、Nervana Systems(2016年にIntelが買収)やWave Computingなど多くの企業のディープラーニングチップや、AlexNetなどのベンチマークを圧倒すると期待される他の新しいアーキテクチャを導入してきました。メモリは、それらのパフォーマンスと効率の重要な推進力です。

本日、メモリ駆動型ディープラーニング アーキテクチャ ファミリーに新しいメンバーを導入します。これはボローニャ大学が提案した Neurostream であり、ハイブリッド メモリ キューブ (HMC) や高帯域幅メモリ (HBM) などの次世代メモリを使用する Nervana、Wave、その他のディープラーニング アーキテクチャといくつかの点で似ています。このアーキテクチャは、先ほど挙げた企業がどのようにディープラーニング アーキテクチャを設計しているかをさらに理解できる新しい考え方も提供します。これまでの紹介では、Nervana、Waveなどが発表したアーキテクチャからいくつかの設計詳細を抽出しましたが、今回はアーキテクチャの設計チームから、メモリ駆動型デバイスが将来のディープラーニングカスタムハードウェアの主流になる理由について、より深い洞察が得られました。

「畳み込みニューラル ネットワークは計算集約型のアルゴリズムですが、ネットワーク内のパラメータとチャネルは大きく、そのためメイン メモリに保存する必要があるため、そのスケーラビリティとエネルギー効率はメイン メモリによって大きく制限されます。これらの理由から、メイン メモリのボトルネックを考慮せずに畳み込みネットワーク アクセラレータのパフォーマンスと効率のみを向上させることは、設計上の誤った決定となります。」

Neurostream は、インメモリ処理アプローチを畳み込みニューラル ネットワークのスケールアップに適用します。このデザインでは、ハイブリッド メモリ キューブのバリエーションを使用しており、「スマート メモリ キューブ」と呼ばれています。 「スマート メモリ キューブ」は、NeuroCluster と呼ばれるマルチコア PIM プラットフォームを強化します。 NeuroCluster は、NeuroStream 浮動小数点コプロセッサ (畳み込み集約型コンピューティング用) と汎用プロセッサ RISC-V に基づくモジュール設計を採用しています。また、DRAM を簡単に配列するためのメカニズムと、スケーラブルなプログラミング環境についても言及しています。このアーキテクチャの最も魅力的な特徴は、ダイ面積のわずか 8% を占める HMC で 240 GFLOPS のパフォーマンスを達成し、総消費電力はわずか 2.5 ワットであることです。

「このプラットフォームにより、畳み込みニューラル ネットワークのコンピューティング タスクをメモリ グループに完全にオフロードして、システムの消費電力を抑えることができます。つまり、メイン SoC のコンピューティング ロジックを解放して、他の処理を実行できるようになります。さらに、基本的な HMC システムと比較すると、追加のオーバーヘッドはほぼ無視できるほどです。」

設計チームは、Neurostream アーキテクチャのワットあたりのパフォーマンスを宣伝しています。 「単一の 3D スタック パッケージでワットあたり 22.5 GFLOPS (1 秒あたり 22.5 ギガ浮動小数点演算) の計算エネルギー効率を達成しました。これは、現在入手可能な最高の GPU の 5 倍以上のパフォーマンスです。」また、「システム レベルの消費電力の増加がわずかで、面積の増加も無視できるため、この PIM システムはコスト効率とエネルギー効率に優れたソリューションであり、4 つの SMC を接続するネットワークを通じて 955 GFLOPS まで簡単に拡張できます」と述べています。比較に使用した GPU は Nvidia Tesla K40 で、235 ワットの電力で 1092 GFLOPS の処理速度を達成できます。 「Neuro アレイは 42.8 ワットで 955 GFLOPS を達成でき、エネルギー効率では競合製品の 4.8 倍優れています」とチームは述べ、シリアルリンクの要件が軽減されたため、アーキテクチャをより多くのノードに拡張できるとも指摘した。

Neurostream の開発者は、アプリケーション指向のチューニングを実行し、算術計算の精度を下げることで、エネルギー効率をさらに高めたいと考えています。彼らが強調しているように、「計算精度を下げることで、消費電力を最大 70% 削減できると期待されています。」次の改良では、シリコン上に 4 つの NeuroCluster を備えたアーキテクチャを実装することに重点を置き、バックプロパゲーションとトレーニングの方法を監視できるようになります。

ディープラーニング フレームワーク向けの追加のソフトウェア最適化により、多くのコプロセッサ、ASIC、GPU、x86 プロセッサのパフォーマンスと効率のベンチマークをカバーしました。私たちはこれらをあまり重視せず、できる限り比較していますが、最終的にどのアーキテクチャが勝利するかは時間が経てばわかるでしょう。ここでお話ししたいのは、ベンチマークスコアではなく、アーキテクチャそのものです。 Neuro アレイは、Nervana、Wave、その他のアプローチと同様に、限られたメモリ内処理能力を活用して HMC と HBM を最大限に活用し、その結果、畳み込みニューラル ネットワークの計算を処理するのにほぼ十分になります。

それだけでなく、このタイプのアーキテクチャを詳しく調べることで、前述の機械学習チップのスタートアップ企業が何をしているのかをより適切に評価するのにも役立ちます。 2017 年には、スタートアップ企業と学術研究の共同の取り組みにより、ディープラーニング フレームワーク向けのメモリ駆動型プロセッサが数多く開発されると予想されます。

<<:  ロボットR2-D2は50年後に人間の仕事を完全に置き換えるでしょうか?

>>:  画像認識技術を実装し、多様な応用シナリオを探索

ブログ    

推薦する

...

...

...

AIがデータセンターを管理するのに時間がかかる理由

ハイパースケーラーはすでに業務改善のために AI を活用していますが、他のほとんどのデータセンターで...

CNNとRNNについての簡単な説明

[[338562]] 【51CTO.comオリジナル記事】 1 はじめに前回の記事では、ディープラー...

米国のパイロットがエイリアンの存在を確認!米国は10年間UFOのリバースエンジニアリングを行っており、マスク氏はそれを否定していない

ちょうど昨日、米国議会は、米国政府が不時着したエイリアンの宇宙船とエイリアンの遺体を発見し、それを隠...

人工知能倫理ガバナンスは早急に実践段階へ移行する必要がある

今日の社会では、デジタル工業化と産業のデジタル化により、デジタル世界と物理世界の深い融合と発展が促進...

「無人運転」の技術的道筋

無人運転車が実際に走行するには、認識、意思決定、実行における技術的な問題を解決する必要があります。 ...

第4のパラダイム: AIによる意思決定が主要なビジネスシナリオを強化し、企業の質的変化の実現を支援

2021年6月23日、「変革の新パラダイム」をテーマにした2021年第4回パラダイム会議および企業イ...

スマートホームが不動産市場の動向に与える影響

今日、多くの人がスマートホームが提供するものを活用したいと考えています。スマートホームは、快適で便利...

MIT、筋肉信号を使ってドローンを制御するシステムを開発

MITの研究者たちは、人間とロボットのシームレスなコラボレーションに近づく可能性のある新しいシステム...

AIにも美的感覚や創造性が備わったら、人間のデザイナーは恥ずかしくなるでしょうか?

毎日、インテリジェント システムとアルゴリズムが、Uber の運転手、会計士、さらには弁護士などの単...

シティグループは5年以内に1万人の雇用を人工知能で置き換える計画

[[233047]]フィナンシャル・タイムズによると、シティグループは5年以内に投資銀行部門の技術・...

人工知能を成功に導く8つのステップ

AI の実装は一度で終わるものではなく、幅広い戦略と継続的な調整のプロセスが必要です。ここでは、AI...

アルゴリズムエンジニアも35歳でこのハードルにぶつかるのでしょうか?

[[327792]]はじめに: この質問は、実はほとんどのプログラマーに当てはまります。国内のイン...