ディープラーニングのためのヘテロジニアスアクセラレーションテクノロジー (パート 2): カタツムリの殻の中に道場を構築する

1. 概要

記事「ディープラーニング向けヘテロジニアスアクセラレーションテクノロジー（パート1）」で説明したAIアクセラレーションプラットフォームの第一段階は、FPGA設計かASIC設計か、CNN向けかLSTMとMLP向けか、組み込み端末に適用されるかクラウド（TPU1）かに関係なく、そのアーキテクチャの核心は帯域幅の問題を解決することです。帯域幅の問題が解決されなければ、計算能力はあっても利用率は向上しません。 8 コア CPU と同様に、コアの 1 つがメモリ帯域幅の 100% を占有すると、他の 7 つのコアは計算に必要なデータを読み取ることができず、常にアイドル状態になります。この点に関して、さまざまな角度から帯域幅の問題を議論する多数の学術論文が発表されており、要約すると次のようになります。

A. ストリーム処理とデータの再利用

B. オンチップストレージとその最適化

C. ビット幅圧縮

D. スパース最適化

E. オンチップモデルとチップレベルの相互接続

F. 新興技術: バイナリネットワーク、メモリスタ、HBM

以下では、上記の方法によって帯域幅の問題がどのように解決されるかについて説明します。

2. PKとさまざまな動きの進化

2.1 ストリーム処理とデータ多重化

ストリーム処理は、FPGA や専用 ASIC に適用される効率的なコンピューティング構造です。その中核はパイプラインベースの命令並列処理です。つまり、現在の処理ユニットの結果はキャッシュに書き戻されず、次のレベルの処理ユニットの入力として直接使用され、現在の処理ユニットの結果を書き戻して次の処理ユニットのデータを読み取るためのメモリアクセスが置き換えられます。マルチコア CPU と GPU は主にデータ並列アーキテクチャを使用しており、ストリーム処理アーキテクチャとの比較を図 2.1 に示します。図の左側はデータ並列処理方式を示しています。すべての計算ユニットは 1 つの制御モジュールによって制御され、データはキャッシュから取得されて計算されます。計算ユニット間のデータのやり取りはありません。多くのコンピューティングユニットが同時にキャッシュを読み取ると、帯域幅の競合が発生し、ボトルネックが発生します。図の右側は、命令の並列性に基づく 2 次元ストリーム処理を示しています。つまり、各コンピューティングユニットは独立した命令 (つまり、カスタマイズされたコンピューティングロジック) を持ち、データは隣接するコンピューティングユニットから入力され、次のレベルのコンピューティングユニットに出力されます。ストレージに隣接する側でのみデータのやり取りが行われ、FPGA と専用 ASIC のカスタマイズされた設計に代表される、ストレージ帯域幅への依存が大幅に軽減されます。

図2.1 データ並列処理とストリーミング処理の比較

図2.2 1次元シストリックアレイ（上） TPUの2次元シストリックアレイ（下）

ストリーム処理における各処理要素 (PE) の構造が同じである場合、それらはシストリックマトリックスという固有の名前を持ちます。1 次元のシストリックマトリックスを図 2.2 (上) に示します。処理ユニットが処理のためにメモリからデータを読み取ると、そのデータは複数の同種の PE によって処理された後、メモリに書き戻されます。メモリについては、単一の PE の読み取りおよび書き込み帯域幅を満たすだけでよいため、データアクセス頻度が削減されます。パルスアーキテクチャの考え方はシンプルです。処理ユニット内でデータをできるだけ長く流すということです。最初の PE から最後の PE に到達するまで、データが入力されると、そのデータは複数回処理されます。そのため、狭い帯域幅でも高いスループットを実現できる[1]。

TPU で使用される 2 次元シストリックアレイは、図 2.2 (下図) に示されており、行列間の乗算とベクトル行列間の乗算を実装するために使用されます。データは Cell 配列の上部と左側から流入し、下部から流出します。各セルは、各サイクルで 1 回の乗算と 1 回の加算を実行する乗算加算ユニットです。畳み込み演算にシストリックアレイを使用する場合、TPU 特許の図 2.3 に示すように、2 次元の FeatureMap を 1 次元ベクトルに拡張し、カーネルを回転してから入力する必要があります。

図2.3 TPU特許における畳み込み演算中のシストリックアレイのデータ再配置

シストリックアレイはデータの再利用を大幅に向上させますが、データの並べ替えとスケールの適応という 2 つの欠点もあります。 ***、シストリック行列は主にベクトル/行列の乗算を実装します。 CNN 計算を例にとると、シストリックアレイに入力される CNN データは形式を調整し、クロックビートと空間順序の入力に厳密に従う必要があります。データの並べ替えという追加の操作により複雑さが増し、おそらくソフトウェアによって実行されます。 2 番目に、データが配列全体を通過した後にのみ結果を出力できます。計算されるベクトルの要素が少なすぎてシストリックアレイが大きすぎる場合、アレイ内のすべてのユニットを利用することが困難になるだけでなく、データのインポートとエクスポートの遅延もサイズとともに増加し、計算効率が低下します。したがって、シストリックアレイのサイズを決定する際には、面積、エネルギー消費量、ピーク時の計算能力を考慮するだけでなく、一般的なアプリケーションでの効率も考慮する必要があります。

CambrianのDianNaoシリーズチップアーキテクチャは、ストリーミング積和ツリー（DianNao[2]、DaDianNao[3]、PuDianNao[4]）とシストリックアレイのような構造（ShiDianNao[5]）も使用しています。 DaDianNao と PuDianNao は、小規模なマトリックス演算に対応し、高い利用率を維持しながら、同時マルチタスクをより適切にサポートするために、コンピューティングの粒度を下げ、2 層の細分化されたコンピューティングアーキテクチャを採用しました。つまり、最上位の PE アレイでは、各 PE が複数の小規模コンピューティングユニットで構成されています。より詳細なタスク割り当てとスケジューリングには追加のロジックが必要ですが、図 2.4 に示すように、各コンピューティングユニットのコンピューティング効率を確保し、消費電力を制御するのに役立ちます。

図2.4 ストリーミング処理に基づくコンピューティングユニットの組織構造：上から下へ、DianNao、DaDianNaoの全体的なフレームワークと処理ユニット、ShiDianNao、PuDianNaoの全体的なブロック図、および各MLU処理ユニットの内部構造

ストリーミング処理を使用して PE の入力帯域幅への依存を減らすことに加えて、計算でデータを再利用することによっても帯域幅を減らすことができます。CNN での再利用方法を図 2.5 に示します。

(ア)

（ロ）

（ハ）

図2.5 CNNにおけるデータの再利用

図2.5(a)、(b)、(c)はそれぞれ、畳み込みカーネルのFeatureMap全体の再利用、複数のフィルターセットに対するFeatureMapセットの再利用、およびBatchSizeの増加によるフィルターの再利用に対応しています。上記の 3 つの方法を組み合わせて使用すると、データの再利用率が大幅に向上します。これが、TPU が CNN を処理するときにピークコンピューティングパワーに近づき、86Tops/s に達する理由の 1 つです。

2.2 オンチップストレージとその最適化

オフチップメモリ（DDRなど）は大容量という利点がありますが、ASICやFPGAの設計では、DRAMを使用すると帯域幅の不足と過剰な電力消費という2つの問題が発生することがよくあります。高周波IO駆動の必要性により、DRAMアクセスのエネルギー消費は通常、ユニット操作の200倍以上になります。DRAMアクセスと他の操作のエネルギー消費の比較を図2.6に示します。

図2.6 オフチップDRAMアクセスのエネルギー消費

帯域幅とエネルギー消費の問題を解決するために、通常、オンチップキャッシュと隣接ストレージという 2 つのアプローチが使用されます。

1) オンチップキャッシュを追加すると、より多くの状況でデータの再利用を増やすことができます。たとえば、行列 A と B を乗算する場合、B がキャッシュに完全に格納できる場合、B は 1 回だけロードされ、再利用回数は A の行数に相当します。キャッシュが十分でない場合は、複数回ロードする必要があり、帯域幅の消費量が増加します。オンチップキャッシュが計算に必要なすべてのデータを保存できるほど大きい場合、またはメイン制御プロセッサを介してオンデマンドでデータを送信できる場合は、オフチップ DRAM を放棄して、消費電力とボード面積を大幅に削減できます。これは、半導体トップカンファレンス ISSCC2016 のほとんどの AI ASIC 論文で採用されたソリューションでもあります。

2) 近接ストレージ。オンチップキャッシュからデータをロードするときに、単一のオンチップストレージを使用すると、そのインターフェイスが帯域幅の要件を満たすことができないことが多く、集中型ストレージと長い読み取りおよび書き込みパスによってレイテンシも増加します。このとき、オンチップストレージの量を増やしてコンピューティングユニットのデータインターフェースの近くに分散させることができるため、コンピューティングユニットは独自のメモリ帯域幅を排他的に使用できるようになります。図 2.7 に示すように、数値が増加すると、オンチップストレージの合計帯域幅も増加します。

図2.7 TPU（上）とDianNao（下）のオンチップメモリの分布

図 2.7 のシストリックアレイと積和ツリーは、どちらも大規模な計算ユニットであり、粗粒度です。細粒度コンピューティングユニット構造を採用すると、図 2.8 に示すように、階層型ストレージ方式を採用できます。つまり、チップ上に共有キャッシュを構成するだけでなく、各コンピューティングユニットに専用メモリも構成され、コンピューティングユニットが排他的な帯域幅を持ち、共有キャッシュへのアクセスが削減されます。 CambrianのDaDianNaoも階層型ストレージを採用しており、図2.9に示すように、中央メモリ、4つのリング状分散メモリ、および入力および出力メモリを備えた合計3層のアーキテクチャを備えています。これにより、オンチップストレージの深さと帯域幅が大幅に向上します。チップ間の相互接続バスの助けを借りて、モデル全体をチップ上に配置して、オンチップトレーニングと推論を実現できます。

図2.8 細粒度コンピューティングユニットと隣接するストレージ。上の図の濃い赤はメモリです。

図2.9 DaDianNaoの計算ユニットとメモリの分布

2.3 ビット幅圧縮

2年前、ディープラーニング向けのカスタマイズされたプロセッサアーキテクチャはまだ初期段階にあり、推論はCPUとGPUの32ビット浮動小数点量子化を継承していました。乗算演算ごとに12バイトの読み取りと書き込み（8ビット量子化の場合は3バイト）が必要なだけでなく、32ビット演算ユニットも大きなオンチップ領域を占有し、エネルギー消費と帯域幅消費が増加しました。 PuDianNaoの論文[4]では、ASIC内の16ビット乗算器が占める面積は32ビット乗算器の1/5であり、同じサイズの領域に5倍の乗算器を配置できることを指摘しています。 8 ビットを使用すると、より高いメリットが得られます。そのため、学術界では16ビットからカスタマイズされた9ビット[6]、8ビット、さらにはより過激な2ビットや1ビットのバイナリネットワーク[7-8]まで、より低い量子化精度を精力的に追求してきました。高ビット幅の量子化を低ビット幅の量子化に変換すると、精度の低下は避けられません。このため、量子化モード、表現範囲、エンコードを調整し、さらにモデルの深さ（バイナリネットワーク）を増やすことで、精度への影響を軽減することができます。量子化モードと表現範囲の調整方法を図2.10に示します。

図2.10 (a) いくつかの量子化モード、および (b) 動的ビット幅調整

図2.10(a)は異なる量子化モードを示しています。同じ8ビットでも、モデル内の値の分布に応じて線形量子化、対数量子化、非線形量子化で表現できます。図2.10(b)は、Jiantao Qiuら[9]が提案した動的ビット幅調整を示しており、これにより8ビット量子化で異なるレイヤー間で異なるオフセットと整数/小数点の割り当てを使用でき、最小量子化誤差の制約下で量子化範囲と精度を動的に調整できます。再トレーニングと組み合わせることで、低ビット幅の影響を大幅に軽減できます。 CNN モデルでのテスト結果を次の表に示します。

ビット幅が狭いということは、同じタスクを処理する際の計算能力、帯域幅、および電力消費が少なくなることを意味します。計算能力を変えないという前提で、スループットは飛躍的に増加します。データセンターの場合、運用および保守コストを大幅に削減でき、より少ないサーバーまたはより安価なコンピューティングプラットフォームを使用してニーズを満たすことができます (TPU のデータタイプは 8/16 ビット)。エネルギー効率と小型化を重視する組み込みフロントエンドの場合、コストを大幅に削減できます。現在、8 ビットの量子化精度は業界で認められており、GPU もハードウェアで 8 ビットのサポートを提供することを発表しており、これにより、図 2.11 に示すように、コンピューティング性能が 4 倍近く向上します。 FPGA大手のザイリンクスも、AIアクセラレーションに関する公式ドキュメントの中で8ビット量子化の実現可能性について議論しました[10]。

図2.11 NVIDIAのint8のサポート

2.4 スパース最適化

上記の議論は主に密行列計算を対象としています。実際のアプリケーションでは、AI アプリケーションとマトリックス演算の大部分はスパース演算であり、主に次の 2 つの側面から生じます。

1) アルゴリズム自体はスパースです。 NLP (自然言語処理) や推奨アルゴリズムなどのアプリケーションでは、通常、数万次元のベクトルにはゼロ以外の要素がわずかしかありません。それらすべてを密な行列として処理するのは明らかに労力に見合いません。

2) アルゴリズムはスパースに変換されます。普遍性を高めるために、ディープラーニングモデル自体に冗長性を持たせています。特定のアプリケーション向けにトレーニングした後、多くのパラメータはほとんど寄与せず、プルーニングと再トレーニングを通じてモデルをスパースに変換できます。例えば、SenseTimeのHan Songは、図2.12に示すように、FPGA2017上でLSTM用のモデルプルーニングと専用のスパース処理アーキテクチャを提案しました[11]。

図2.12 LSTMモデルの剪定率と精度（左）とスパース処理アーキテクチャ（右）

図 2.12 (左) は、LSTM モデルのパラメータの 90% を削減した後、精度に基本的に低下がなく、モデルが大幅にスパースになったことを示しています。図の右側は、処理 PE を非同期にスケジュールし、各 PE のデータエントリで独立したデータキャッシュを使用し、非ゼロ要素のみを計算にプッシュするスパース FPGA 処理アーキテクチャを示しています。これにより、Pascal Titan X の 3 倍のパフォーマンスメリットと 11.5 倍の消費電力メリットが実現されています。スパース化は LSTM に限定されず、CNN にも対応するアプリケーションがあります。

同様に、Cambricon社も、図2.13に示すように、スパースニューラルネットワーク用のCambricon-X[12]プロセッサを開発しました。同様に、Cambricon-X は各 PE の入力ポートにインデックス作成ステップを追加し、PE に入力する前にゼロ以外の要素をフィルタリングします。 DeePhi とは異なり、Cambricon-X はスパース性レベルが異なる 2 つのインデックスコードをサポートし、スパース性レベルが異なるモデルで異なるエンコード方法を使用して帯域幅の消費を最適化します。

図2.13 Cambricon-Xスパースニューラルネットワークプロセッサ構造

スパース最適化の目的は 2 つあります。1 つは、帯域幅を占有する無駄なゼロ要素が大量に発生するのを避けるために、有効なデータのみがキャッシュから読み取られるようにすることです。もう 1 つは、オンチップ PE の計算効率を確保して、各 PE の各計算の入力が「ドライグッズ」になるようにすることです。モデルプルーニングをスパース処理アーキテクチャと組み合わせると、FPGA と ASIC の計算能力が飛躍的に向上し、大きな成果が得られます。これは、異種アクセラレーションのホットスポットの 1 つです。

要約すると、スパース化はモデルの観点から計算量を根本的に削減します。アーキテクチャの進化に画期的な進歩がない限り、スパース化がもたらすメリットはアーキテクチャの最適化とは比べものになりません。特にビット幅圧縮と組み合わせると、パフォーマンスの向上が非常に顕著になります。ただし、スパース化はアーキテクチャの特性に基づいて行う必要があり、精度の低下を招きます。これは、モデルの再トレーニングと繰り返しの調整によって補う必要があります。上記のプロセスにより、スパース最適化のしきい値が上がり、アルゴリズム開発チームとハードウェア最適化チームの共同作業が必要になります。これに対応して、Horizon Robotics などの一部の企業は、プロセスを簡素化するためのスパース + ヘビートレーニング専用のツールをリリースしており、大規模な展開シナリオでは大幅なコスト上の利点がもたらされるでしょう。

2.5 オンチップモデルとチップレベルの相互接続

帯域幅の問題を解決するための一般的なアプローチは、データの多重化を増やすことです。毎回計算される 2 つの値のうち、1 つは重みであり、もう 1 つは入力のアクティベーションです。十分な大きさのオンチップキャッシュがあり、適切なビット幅圧縮方法と組み合わせると、すべての重みをチップ上にキャッシュし、毎回アクティベーションのみを入力することができるため、データの再利用を最適化する前に帯域幅を半分にすることができます。しかし、高価な HBM が普及する前は、ASIC は、GoogleNet50M から ResNet 150M までパラメータ数を増やすために、相対面積の観点からこれほど大きなオンチップストレージを実現できませんでした。モデル研究が深まるにつれて、より多くのパラメータを持つより深いモデルが引き続き登場するでしょう。この点では、チップレベルの相互接続とモデル分割の処理モードに基づき、マルチチップ相互接続技術と組み合わせて、複数の分割層パラメータのグループが複数のチップ上に構成され、推論プロセス中に複数のチップを使用して同じタスクの処理を共同で完了します。 Cambrian の DaDianNao は、図 2.14 に示すように、このようなチップ相互接続と大規模なキャッシュ設計を組み合わせて実装します。

図2.14 DaDianNaoのメモリ配分（図中の青い部分）と複数チップを相互接続した場合の加速能力（GPU K20Mに基づく性能比較）

DaDianNaoは、モデル全体をチップ上に収めるために、一方ではオンチップキャッシュの容量を36MBに増やし（DaDianNaoは36MBと4608個の乗算器と加算器、TPUは28MBのキャッシュと65536個の乗算器と加算器）、コンピューティングユニットの読み取りと書き込みの帯域幅を完全に確保します。一方、HT2.0を使用して、6.4GB/s*4チャネルのチップ間通信帯域幅を実現し、レイヤー間のデータ転送の遅延を減らし、オフチップDRAMの相互作用を完全に置き換え、帯域幅が制限されたコンピューティングの問題を解決します。同様に、MicrosoftはHot Chips 2017で、LSTMモデルを分割して複数のFPGAに展開し、オフチップメモリアクセスを回避して推論時の超低レイテンシを実現することを提案しました[2]。

2.6. 新興技術: バイナリネットワーク、メモリスタ、HBM

上記の方法を使用して帯域幅の問題を解決することに加えて、最近、学界ではバイナリネットワークとメモリスタという 2 つのより革新的な方法が登場しました。また、業界では HBM というメモリ技術の新たなブレークスルーも達成されています。

バイナリネットワークは、重みとアクティベーションの一部またはすべてを 1 ビットに変換し、乗算を XOR などの論理演算に簡素化し、帯域幅を大幅に削減します。これは、DSP リソースは限られているがロジックリソースが豊富な FPGA や、完全にカスタマイズ可能な ASIC に非常に適しています。相対的に言えば、GPU の演算ユニットは 32/16/8 ビット単位でしか演算を実行できません。バイナリモデルを実行しても、加速効果は 8 ビットモデルより大幅に速くなることはありません。そのため、バイナリネットワークは、低電力組み込みフロントエンドアプリケーションにおける FPGA および ASIC の強力なツールとなっています。現在、バイナリネットワークの焦点はまだモデルの議論段階にあり、深度を増やしてモデルを調整することでバイナリ化後の精度の低下を補う方法について議論されています。この効果は、MNIST、Cifar-10 などの単純なデータセットで認識されています。

帯域幅がコンピューティングのボトルネックになるので、コンピューティングをメモリ内に配置することは可能ですか?コンピューティングユニットがストレージに近いアーキテクチャはコンピューティング効率を向上できるため、コンピューティングとストレージを組み合わせることは可能ですか?メモリスタはメモリ内に内部演算を実装したデバイスです。電流、電圧、コンダクタンスの乗算関係を利用して、対応する電圧を入力端子に加え、乗算と加算の結果を出力で得ることができます（図2.15 [13]）。コンダクタンスをプログラム可能な重み値として使用し、入力をアクティベーションとして使用すると、ニューラルネットワーク計算を実装できます。現在、プロセスの制限により、8 ビットのプログラム可能なコンダクタンス技術はまだ未熟ですが、量子化精度が低くてもまだ許容可能です。ストレージとコンピューティングを組み合わせることで、フォン・ノイマン・システムとは異なる、想像力に富んだインメモリ・コンピューティングと呼ばれるまったく新しいアーキテクチャが形成されます。

図2.15 乗算と加算（左）およびベクトル行列演算（右）を実行するメモリスタの概略図

業界におけるチップ製造技術の発展とムーアの法則の段階的な破綻により、プロセスの改善によって面積を変えずにトランジスタの数を単純に増やすという手法は徐々にボトルネックになってきました。したがって、2 次元技術の限界により、プロセスは 3 次元へと移行しました。たとえば、ストレージ分野では、高帯域幅メモリ (HBM) やハイブリッドメモリキューブ (HMC) に代表される 3D アーキテクチャとオンチップ垂直スタッキングテクノロジによって、チップ上のキャッシュ容量を増やすことができます。 Intelによれば、Lake CrestのオンチップHBM2はDDR4の最大12倍の帯域幅を提供できるという。現在、NVIDIA P100 および V100 GPU には、オンチップ帯域幅が最大 900GB/s の HBM2 が統合されています。TPU2 のオンチップ HBM 帯域幅は 600GB/s です。HBM が統合された Xilinx FPGA は 2018 年に利用可能になる予定です。この技術革新により、チップレベルの相互接続ソリューションを使用しなくても、現在のディープラーニングモデルのモデル全体をオンチップに配置できるようになり、FPGA/ASIC のオフチップ DRAM に対する需要が解放され、AI チップの開発に大きな推進力がもたらされます。

3. 結論

上記の議論は主に、AI プロセッサアーキテクチャに関する現在の学術的な議論に焦点を当てています。しかし、産業界では、クラウドサービス、ビッグデータ処理、セキュリティ、モバイルアプリケーションなどの特定の分野で、AI に対する需要がすでに急増しています。 Google の TPU、Huawei の Kirin 970 など、一部のアプリケーションにも実装されています。 AIプロセッサの開発と現状はどうなっていますか?

参考文献

[1] Tang Shan、シストリックアレイ - Google TPUで生まれ変わる。http://mp.weixin.qq.com/s/g-BDlvSy-cx4AKItcWF7jQ

[2] Chen Y、Chen Y、Chen Y、et al. DianNao: ユビキタス機械学習のための小型で高スループットなアクセラレータ [C] // プログラミング言語およびオペレーティングシステムのアーキテクチャサポートに関する国際会議。ACM、2014: 269-284。

[3] Luo T、Luo T、Liu S、et al.DaDianNao: 機械学習スーパーコンピュータ[C]// Ieeee/acm InternationalSymposium on Microarchitecture. IEEE、2015:609-622。

[4] Liu D、Chen T、Liu S、他「PuDianNao: 多価機械学習アクセラレータ[C]// 第20回国際プログラミング言語およびオペレーティングシステムのアーキテクチャサポートに関する会議」ACM、2015:369-381。

[5] Du Z、Fasthuber R、Chen T、et al.ShiDianNao: ビジョン処理をセンサーに近づける[C]// ACM/IEEE、International Symposium on Computer Architecture。IEEE、2015:92-104。

[6] Eric Chung、Jeremy Fowers、KalinOvtcharov、他「データセンター規模での永続ニューラルネットワークの高速化」Hot Chips 2017。

[7] Meng W、Gu Z、Zhang M、et al.リソース制約のある組み込みデバイスでのディープラーニングのための2ビットネットワーク[J].arXivプレプリントarXiv：1701.00485、2017。

[8] Hubara I, Courbariaux M, Soudry D, et al. バイナリ化ニューラルネットワーク[C]//ニューラル情報処理システムの進歩。2016: 4107-4115。

[9] Qiu J、Wang J、Yao S、他「畳み込みニューラルネットワーク向け組み込みFPGAプラットフォームのさらなる深化」[C]//Proceedings of the 2016 ACM/SIGDA International Symposium on Field-Programmable Gate Arrays. ACM、2016: 26-35。

[10] ザイリンクス、ザイリンクスデバイスにおけるINT8最適化によるディープラーニング、https://www.xilinx.com/support/documentation/white_papers/wp486-deep-learning-int8.pdf

[11] Han S, Kang J, Mao H, et al.Ese:FPGA上で圧縮されたlstmを使用した効率的な音声認識エンジン[J]。arXivpreprint arXiv:1612.00694, 2016。

[12] Zhang S、Du Z、Zhang L、他「Cambricon-X：スパースニューラルネットワーク用アクセラレータ[C]// Ieee/acm International Symposium on Microarchitecture.IEEE Computer Society、2016:1-12」

[13] Shafiee A、Nag A、MuralimanoharN、et al. ISAAC: クロスバー内のインサイチュアナログ演算を備えた畳み込みニューラルネットワークアクセラレータ[C]//Proceedings of the 43rd International Symposium on Computer Architecture. IEEE Press、2016: 14-26。

オリジナルリンク: http://suo.im/4m1gvp

著者: kevinxiaoyu

[この記事は51CTOコラムニスト「テンセントクラウドテクノロジーコミュニティ」によるオリジナル記事です。転載の許可を得るには51CTOを通じて原作者に連絡してください]

この著者の他の記事を読むにはここをクリックしてください

<<: 機械学習: 決定木について

>>: ディープラーニングのためのヘテロジニアスアクセラレーション技術（I）：AIにはどれくらい大きな「心」が必要か？