ディープラーニングのためのヘテロジニアスアクセラレーション技術(I):AIにはどれくらい大きな「心」が必要か?

ディープラーニングのためのヘテロジニアスアクセラレーション技術(I):AIにはどれくらい大きな「心」が必要か?

1. 概要: 一般的 = 非効率的

汎用プロセッサであるCPU(中央処理装置)は、コンピュータに欠かせないコンピューティングコアです。命令セットと組み合わせて、日常業務におけるさまざまなコンピューティングおよび処理タスクを実行します。しかし、近年、CPU がコンピューティング プラットフォーム分野を支配するペースは順調とは言えず、その原因としては、CPU 自身の制約と需要の変化という 2 つの側面が挙げられます。

(1)内部制約には、半導体プロセスとストレージ帯域幅のボトルネックという2つの側面がある。

一方、半導体プロセスが7nmに達すると、物理的限界に近づき、ムーアの法則は徐々に無効になり、CPUは以前のようにプロセス改善のメリットを享受できなくなりました。つまり、より高度なプロセスにより、より多くのコンピューティングリソースが追加され、消費電力はそのままで同じ領域でパフォーマンスが向上します。コンピューティング集約型の開発トレンドに適応するために、より高いパフォーマンスとより低い消費電力を追求するために、GPU やカスタム ASIC などの設計が増え、汎用性を低減することで特定のタスク (または特定の種類のタスク) のパフォーマンスが向上しています。

一方、CPU コアの計算処理には大量のデータが必要であり、オフチップ DDR は帯域幅が限られているだけでなく、アクセス遅延も長くなります。オンチップ キャッシュを使用すると、この問題をある程度軽減できますが、その容量は非常に限られています。 Intelは、データの事前読み取り、アウトオブオーダー実行、ハイパースレッディングなどの多くの技術を使用して、帯域幅のボトルネックを解決し、CPU使用率を最大化します。しかし、複雑なスケジューリング設計とキャッシュはCPUシリコン領域の大部分を占めるため、実際に計算に使用されるロジックは領域の1%未満を占めます[1]。同時に、以前の製品とのプログラム互換性を確保するという制約により、CPU アーキテクチャの進化はある程度制限されてきました。

(2)需要の変化は、クラウドベースのビッグデータコンピューティングとディープラーニングという2つの新たなコンピューティング集約型のシナリオに主に反映されている。

特にCNNに代表されるディープラーニングの分野では、図1に示すように、モデルの深さの増加に伴って精度の向上が進み、コンピューティングプラットフォームの性能要件も大幅に増加します[2]。 CPU が直面する一般的なマルチタスク コンピューティングと比較して、ディープラーニング コンピューティングには、単一タスク、高いコンピューティング密度、高いデータ再利用性などの特徴があります。コンピューティング アーキテクチャの要件は、複雑なタスク スケジューリングではなく、大規模なコンピューティング ロジックとデータ帯域幅であるため、CPU で優れたパフォーマンスを実現することはできません。

図 1.1 ディープラーニングの発展傾向: より高い精度とより深いモデルが、より高い計算能力要件を伴います。

上記の理由から、CPU アーキテクチャはディープラーニング、ビッグデータ分析、および一部の組み込みフロントエンドアプリケーションでは普遍的ではなく、この時点で異種コンピューティングが人々の視野に入り始めます。この記事では主にディープラーニングのコンピューティング アーキテクチャについて説明します。

議論の前に、古典的な類推図を見てみましょう。「プログラミング可能性/柔軟性」と「開発の難易度/カスタマイズ性/計算効率/エネルギー消費」をそれぞれ横軸と縦軸として使用し、CPU を GPU、FPGA、専用 ASIC などの現在主流の異種プロセッサと比較します。

図1.2 コンピューティングプラットフォームの選択基準

これまでの分析から、CPU の柔軟性を極限まで高めると、計算効率が犠牲になることがわかります。 GPU は、アプリケーション シナリオをグラフィックス イメージと大量のデータの並列コンピューティングに縮小し、数千のコンピューティング コアで設計されているため、シリコン チップ上のコンピューティング ロジックの割合が実質的に増加しますが、結果として生じる帯域幅要件も非常に恐ろしいものになります。この問題を解決するために、一方では、データの再利用が少ない高帯域幅のシナリオでの汎用性と互換性を確保するために、GPU 内に多数の分散キャッシュが設計されています。他方では、GPU のビデオ メモリは常に、現在市販されているメモリの最新の成果を表しています。ビデオメモリに使用されているDDRは、サーバーメモリよりも常に1~2世代先を進んでおり、HBMを採用した業界初のアプリケーションです。したがって、CPU と比較すると、GPU は計算パフォーマンスとエネルギー効率が高くなりますが、相対的な汎用性と帯域幅の競争により、エネルギー効率は FPGA や ASIC よりもさらに高くなります。また、パフォーマンスは最適化の程度に依存します。つまり、計算モデルとデータ スケジューリングは、GPU の基盤となるアーキテクチャに適合させる必要があります。

FPGA と ASIC は、よりアプリケーションに特化している傾向があります。間違いなく、専用 ASIC は最高の計算効率と最低の消費電力を誇りますが、アーキテクチャ、設計、シミュレーション、製造、パッケージング、テストなどのさまざまなリンクで多くの人的資源と材料資源を消費します。ディープラーニングモデルが次々と登場する環境において、決定論的なアプリケーションがまだ登場していない段階では、CNNとRNNで各モデルのアーキテクチャを個別に設計したり、独立したASICをカスタマイズしたりするのは贅沢です。そのため、AIプロセッサの設計では、ドメインプロセッサと呼ばれる、AI分野である程度の汎用性を持つFPGA / ASICアーキテクチャを設計するという、各人のアプローチが徐々に一貫しています。これにより、ディープラーニングにおける 1 つのカテゴリ (一般的な CNN モデルなど) または複数のカテゴリ (CNN + RNN など) をカバーできるようになります。

2. 組み込み型とクラウド型: さまざまなシナリオにおける AI プロセッサの 2 つの選択肢

2.1 AIプロセッサの開発と現状

ディープラーニング モデルの深化とコンピューティング能力の要件の増加に伴い、学術界から生まれた AI プロセッサ ソリューションが産業界に急速に広まりました。現在、大手インターネット、半導体、スタートアップ企業のソリューションは、主にクラウドと組み込み(またはクラウド側とエンド側とも呼ばれる)の2つのカテゴリに分かれており、表1.1に示すようにまとめることができます。ご興味があれば、Tang Shanが管理するリストをご覧ください:https://basicmi.github.io/Deep-Learning-Processor-List/

表1.1 ディープラーニングプロセッサソリューションの一覧

図1.3 AIプロセッサの開発と設計目標

AIプロセッサの開発プロセスを図1.3に示します。初期のAIプロセッサアーキテクチャに関する議論は、学術界の半導体やアーキテクチャ分野から始まりました。当時のモデルは、層数が少なく、計算規模が小さく、計算能力が低く、主に組み込みフロントエンドのシナリオを対象としていました。モデルが徐々に深まるにつれて、計算能力に対する需要もそれに応じて増加し、帯域幅のボトルネック、つまりIO問題が発生しました(帯域幅の問題の原因については、セクション2.2を参照)。このとき、オンチップキャッシュを増やし、スケジューリングモデルを最適化してデータ再利用率を高めることで解決できます。クラウドでのAI処理の需要が徐々に表面化すると、複数のユーザーに対する計算能力、高スループット、低レイテンシ、高密度展開の需要がさらに高まりました。コンピューティング ユニットの劇的な増加により、IO ボトルネックがさらに深刻化しています。これを解決するには、DDR インターフェイス チャネル数の増加、オンチップ キャッシュ容量、マルチチップ相互接続などの高額なコストが必要となり、プロセッサの実際のアプリケーションが制限されます。現時点では、オンチップHBM(高帯域幅メモリ)の登場により、ディープラーニングモデルを完全にオンチップに搭載することが可能になりました。統合レベルが向上すると同時に、帯域幅はチップピンの相互接続数によって制限されなくなり、IOボトルネックをある程度解決し、クラウドの開発方向をIO帯域幅問題の解決からコンピューティングパワーのスケーリング問題の解決へとシフトさせました。

これまで、クラウドベースの高性能ディープラーニング プロセッサの開発は、HBM/HMC の適用を特徴とする 2 つの段階を経てきました。

1. 最初の段階では、IO 帯域幅の問題を解決します。

2. 第 2 段階は、コンピューティング能力のスケーリングの問題を解決することです。

2.2 帯域幅のボトルネック

第 1 段階では、第 1 世代 TPU、現在の FPGA ソリューションの関連アーキテクチャ、Cambrian ASIC アーキテクチャなど、初期の AI プロセッサとこれまでの組み込みフロントエンド ソリューションのほとんどがカバーされ、学術的成果の 90% 以上がカバーされます。より高いパフォーマンスを実現するには、コンピューティング コアの並列性を大幅に高めることが効果的な方法ですが、コンピューティング能力の拡張は、対応する IO 帯域幅と一致させる必要があります。たとえば、図 1.4 の 1 つの乗算加算ユニットが 500MHz の周波数で動作する場合、1 秒あたり 4GB のデータ読み取りおよび書き込み帯域幅が必要です。一般的なクラウドベースの高性能 FPGA (Xilinx KU115 を例に挙げます) には合計 5520 個の DSP があり、フルパフォーマンスには 22TB の帯域幅が必要です。一方、DDR4 DIMM は 19.2GB の帯域幅しか提供できません (上記の分析は厳密ではありませんが、帯域幅のボトルネックの議論を妨げるものではありません)。したがって、第 1 段階では、共有キャッシュ、データ呼び出し方法の最適化などを通じてデータの再利用率を向上させ、オンチップ キャッシュと連動してオフチップ メモリからのデータ読み込み回数を減らすことが設計の核となります。一方、モデル最適化、低ビット幅量子化、スパース化などにより、モデルと計算が簡素化されます。

図1.4 乗算加算ユニットとその帯域幅の計算(累積値は通常出力と共有されるため、帯域幅には含まれません)

2.3 コンピューティングパワーの拡張

チップ上に分散された大量のキャッシュは十分なコンピューティング帯域幅を提供できますが、ストレージ構造とプロセスの制約により、オンチップ キャッシュがチップ領域の大部分 (通常は 1/3 ~ 2/3) を占めるため、図 1.5 に示すように、コンピューティング能力の増加に伴うキャッシュ容量の同時増加が制限されます。

図 1.5 チップ内のオンチップ キャッシュのサイズ。上の図は Google の第 1 世代 TPU を示しています。青い部分はキャッシュ領域で、チップ領域の 37% を占めています。下の図は Cambrian の DiaoNao AI ASIC 設計を示しており、キャッシュは領域 (NBin+NBout+SB) の 66.7% を占めています。

HBM に代表されるメモリスタッキング技術は、図 1.6 に示すように、従来の 1 次元メモリレイアウトを 3 次元に拡張し、オンチップメモリ​​の密度を大幅に向上させ、高性能 AI プロセッサが第 2 段階に突入することを示しています。しかし、HBM はより高度なプロセスを必要とし、コストが大幅に増加するため、インターネットや半導体の大手企業の設計にのみ採用されています。 HBM はオンチップ キャッシュ容量を MB レベルから GB レベルに増加し、オフチップ DDR からロードすることなくモデル全体をチップ上に配置できるようになります。同時に、スタック メモリによって提供される帯域幅はチップ IO ピンによって制限されなくなり、50 倍以上に増加し、帯域幅がボトルネックではなくなります。この時点で、設計の中核となるのは、効率的なコンピューティング アーキテクチャ、スケーラブルなコンピューティング スケール、および大量データのトレーニングとコンピューティングにおける頻繁なやり取りに対処するための分散コンピューティング機能です。

図1.6 HBMとオンチップ垂直スタッキング技術

現在、AI アーキテクチャは、100 の学派から徐々に応用へと移行しています。次のセクションでは、これら 2 つの段階について説明します。

オリジナルリンク: http://suo.im/3NdE0p

著者: kevinxiaoyu

[この記事は51CTOコラムニスト「テンセントクラウドテクノロジーコミュニティ」によるオリジナル記事です。転載の許可を得るには51CTOを通じて原作者に連絡してください]

この著者の他の記事を読むにはここをクリックしてください

<<:  ディープラーニングのためのヘテロジニアス アクセラレーション テクノロジー (パート 2): カタツムリの殻の中に道場を構築する

>>:  AI大学院生は年間50万元を稼ぐことができるが、彼らの給料は学校を卒業する前からすでに奪われている。

ブログ    
ブログ    
ブログ    

推薦する

...

超音波脳読み取りはマスクの脳コンピューターインターフェースよりも正確で侵襲性が低い

脳コンピューターインターフェース分野で新たなニュースがあります。 IEEE Spectrum による...

一般化の危機! LeCunは質問を公開しました: テストセットとトレーニングセットは決して関連していません

[[431567]]長い間、テスト セットで優れたパフォーマンスを発揮するモデルは、一般化のパフォー...

今後の国内人工知能産業の発展における5つの大きなトレンド

現在、中国で人工知能の分野で最も多くの投資を受けている5つのサブセクターは、コンピュータービジョン(...

AIの力を集めよう!中国のチームが初めてネイチャー誌に中国のAIの状況に関する論文を発表した。

[[332234]] AI若手科学者連盟の主導のもと、国内の大学教授15名とビジネス界のAIリーダ...

人工知能は暗記学習を「終わらせる」ことはない

人工知能に代表される新技術は、知識記憶を主眼とする中国の教育モデルの優位性を覆すことになるのだろうか...

ロボティックプロセスオートメーションから価値を引き出すためにプロセスをマイニングする方法

成功するロボティック プロセス オートメーション (RPA) プログラムを実証し、維持する上での共通...

ソラのトレーニングデータが流出した疑い、ネットユーザー「UE5が間違いなく使われている」

朗報です、朗報です、本物のソラの新しいビデオがあります!通りかかったらぜひお見逃しなく! (本物のS...

AI に役立つ 7 つのオープンソース ツール

[[282843]]人工知能は未来の道を歩み続ける注目すべき技術です。この進化する時代において、それ...

IBM、AIソフトウェアプラットフォームの市場シェアで5年連続首位を獲得

IDC の最新レポートによると、IBM は 5 年連続で人工知能ソフトウェア プラットフォーム市場を...

ChatGPTはPyTorchなしでは構築できません。LeCunの発言は白熱した議論を引き起こしました。モデルメーカーが重量を公開しない理由は、

ここ2日間で、オープンソースの話題が再び人気を集めています。 「オープンソースがなければ、AI は何...

...

歴史上最も知られていないアルゴリズムとして知られる Paxos は、どのようにして理解しやすくなったのでしょうか?

背景分散コンセンサスアルゴリズム(Consensus Algorithm)は、分散コンピューティング...

ロボットは騙されることを恐れない

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...