世界トップ10のAIトレーニングチップの包括的なレビュー

世界トップ10のAIトレーニングチップの包括的なレビュー

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。

どの AI チップが最高ですか?今では、直接的な比較と参照が可能です。

英国のシニアチップエンジニア、ジェームズ・W・ハンロン氏が、AIトレーニングチップのトップ10をリストアップしました。

また、AIトレーニングチップの最新の議論と概要でもある、さまざまな指標の横並びの比較も提供します。

その中で、Huawei Ascend 910は唯一中国のチップメーカーが選んだチップであり、その性能も今回の比較で示されています。

*は推測、†は単一チップデータを表します。

セレブラス ウェーハスケールエンジン

このチップは今年8月に正式に発売され、「Cerebras Wafer Scale Engine」(略してWSE)と呼ばれています。

最大の特徴は、論理演算、通信、メモリを1つのシリコンチップに統合していること。ディープラーニング専用に設計されたチップです。

一気に 4 つの世界記録を樹立:

  • トランジスタ数が最も多いコンピューティング チップ: 合計 1.2 兆個のトランジスタが含まれています。サムスンはかつて2兆個のトランジスタを搭載したチップを製造しましたが、ストレージに使用したのはeUFSでした。
  • チップの面積は最大で、サイズは約20cm×23cm、総面積は46225平方ミリメートルです。
  • 最大のオンチップ キャッシュ: 18 GB のオンチップ SRAM メモリが含まれます。
  • 最も多くのコンピューティングコア: 410,592 個の処理コア

このような印象的なデータが得られる理由は、 84 個の高速相互接続チップを統合しているためです。FP32 上の単一チップのピーク性能は 40 テラフロップスで、チップ電力は 15 キロワットに達し、これは AI クラスターに匹敵します。

オンチップ キャッシュも 18GB に達し、これは GPU キャッシュの 3,000 倍です。1 秒あたり 9PB のメモリ帯域幅を提供でき、これは GPU よりも 10,000 倍高速です。

ウェーハスケールの統合は新しいアイデアではありませんが、歩留まり、電力供給、熱膨張に関連する問題により、商業化が困難になっています。これらの点において、Cerebras は対応するソリューションを提供しています。

  • 欠陥による歩留まり低下の問題を解決するために、セレブラスはチップの設計時に1~1.5%の冗長性を考慮し、コアを追加し、コアに問題が発生した場合にはシールドすることで、不純物によってチップ全体が廃棄されることがないようにしました。
  • Cerebras は TSMC と提携し、数兆個のトランジスタを搭載したチップのエッチングと通信の問題に対処するための新しい技術を発明しました。
  • チップの上に「コールドプレート」を設置し、垂直に取り付けられた複数の水パイプを使用してチップを直接冷却します。

Cerebras は、Sean Lie (チーフ ハードウェア アーキテクト)、Andrew Feldman (CEO) らによって 2016 年に設立されました。後者はマイクロサーバー会社 SeaMicro を設立し、同社を AMD に 3 億 3,400 万ドルで売却した。

同社はカリフォルニア州に194人の従業員を抱えており、そのうち173人はエンジニアで、これまでにベンチマークなどのベンチャーキャピタル企業から1億1200万ドルの資金を調達している。

さらに読む:

史上最大のAIチップが誕生:462平方センチメートル、40万コア、1兆2千億個のトランジスタ、4つの世界記録を樹立

Google TPU (v1、v2、v3)

Google の TPU シリーズ チップは 2016 年に正式にリリースされました。第 1 世代のチップである TPU v1 は推論にのみ使用され、整数演算のみをサポートしていました。

PCIe-3 を介して命令を送信し、行列乗算を実行し、活性化関数を適用することで、ホスト CPU を高速化し、設計と検証にかかる時間を大幅に節約します。主なデータは次のとおりです。

  • チップ面積331平方ミリメートル、28nmプロセス
  • 周波数は700MHz、消費電力は28~40W
  • オンチップストレージは28MBのSRAM:アクティベーション用に24MB、アキュムレータ用に4MB
  • チップ面積比:35%はメモリに、24%は行列乗算ユニットに、残りの41%はロジックに使用されます。
  • 256x256x8b シストリック行列乗算ユニット (64K MAC/サイクル)
  • Int8 および INT16 アルゴリズム (ピーク速度はそれぞれ 92 TOPs/s と 23 TOPs/s)

IOデータ:

  • 2 つのインターフェイスを介して 34 GB/秒でアクセス可能な 8 GB DDR3-2133 DRAM
  • PCIe-3x16 (14 GBps)

2017 年 5 月には、TPU v1 の浮動小数点演算機能が向上し、メモリ容量、帯域幅、HBM 統合メモリが強化された Google TPU v2 がリリースされ、推論だけでなくトレーニングにも役立つようになりました。単一チップのデータは次のとおりです。

  • 20nmプロセス、消費電力は200~250W(推定)
  • BFloat16 で 45 TFLOP、FP32 もサポート
  • スカラーおよびマトリックスユニットを備えたデュアルコア
  • 4つのチップを統合すると、ピーク性能は180TFLOPSになります。

シングルコアデータ:

  • 128x128x32b シストリック マトリックス ユニット (MXU)
  • 8GB専用HBM、アクセス帯域幅300GBps
  • BFloat16の最大スループットは22.5 TFLOPsです

IOデータ:

  • 16Gb HBM統合メモリ、600 GBps帯域幅(推定)
  • PCIe-3 x8 (8 GBps)

Google TPU v2 のリリースから 1 年後、Google はチップの新しいバージョンである TPU v3 をリリースしました。

[[279126]]

TPU v3 についての詳細はほとんどありませんが、TPU v2 の増分改訂版に過ぎず、パフォーマンスが 2 倍になり、HBM2 メモリが追加されて容量と帯域幅が 2 倍になると思われます。単一チップのデータは次のとおりです。

  • 16nmまたは12nmプロセスでは、消費電力は200Wと推定される
  • BFloat16は105TFLOPSの性能を持ち、これはおそらくMXUの2倍から4倍である。
  • 各MXUは8GBの専用メモリにアクセスできます
  • 4つのチップを統合すると、ピーク性能は420TFLOPSになります。

IOデータ:

  • 32GBの統合HBM2メモリ、帯域幅1200GBps(推定)
  • PCIe-3 x8 (8 GBps) (推定)

さらに読む:

TPU 3.0 について知りたいですか?ジェフ・ディーンがこのビデオを見ることを勧めています

グラフコアIPU

2016 年に設立された Graphcore は、資本や業界の大手企業から支持されているだけでなく、業界のリーダーからも認められています。

同社は2018年12月に、評価額17億ドルで2億ドルのシリーズD資金調達ラウンドを完了したことを発表した。投資家には、BMWやマイクロソフトなどの業界大手のほか、ソフィナやアトミコなどの有名ベンチャーキャピタル企業も含まれる。

AI界の巨人ヒントン氏とディープマインド創業者のハサビス氏は両者とも直接賞賛の意を表した。

Graphcore IPU は同社の主力製品であり、高帯域幅の「スイッチ」相互接続を介して相互に接続された、小さなメモリを備えた多数の単純なプロセッサを備えた高度な並列アーキテクチャを備えています。

[[279127]]

そのアーキテクチャは、バルク同期並列処理 (BSP) モデルに基づいて動作し、プログラムの実行は一連の計算および交換段階として進行します。同期は、すべてのプロセスがスワップを開始する準備ができていることを確認するために使用されます。

BSP モデルは、同時実行のリスクを排除する強力なプログラミング抽象化であり、BSP の実行により、計算段階と交換段階でチップのエネルギーを最大限に活用できるため、電力消費をより適切に制御できます。 10 個の IPU 間リンクをリンクすることで、より大きな IPU チップ システムを構築できます。主なデータは次のとおりです。

  • 16nmプロセス、236億個のトランジスタ、チップ面積は約800平方ミリメートル、消費電力は150W、PCIeカードは300W
  • 1216 個のプロセッサ、FP16 アルゴリズムは FP32 の累積で 125 TFLOP に達する
  • 300 MBのオンチップメモリ​​がプロセッサコア全体に分散され、合計45 TBpsのアクセス帯域幅を実現
  • すべてのモデル状態はDRAMに直接接続されずにオンチップに保存されます。

IOデータ:

  • 2x PCIe-4 ホスト転送リンク
  • カード間のIPUリンクが10倍
  • 総転送帯域幅384GBps

シングルコアデータ:

  • 混合精度浮動小数点ランダムアルゴリズム
  • 最大6スレッドを実行

さらに読む:

設立から2年後、17億ドルの価値を持つAIチップ企業はBMWとマイクロソフトから投資を受けた。

ハバナラボ ガウディ

同じく2016年に設立されたHabana Labsは、イスラエルのAIチップ企業です。

同社は2018年11月に7,500万ドルのシリーズB資金調達を完了し、総資金調達額は約1億2,000万ドルとなった。

Gaudiチップは今年6月に発表され、NvidiaのV100と直接競合する。

全体的な設計も GPU に似ており、特に SIMD 並列処理と HBM2 メモリが強化されています。

[[279128]]

このチップは 10 個の 100G イーサネット リンクを統合し、リモート ダイレクト メモリ アクセス (RDMA) をサポートします。 Nvidia の NVLink や OpenCAPI と比較すると、このデータ転送機能により、市販のネットワーク機器を使用して大規模なシステムを構築できるようになります。主なデータは次のとおりです。

  • TSMC 16nmプロセス(CoWoSプロセス)、チップサイズは約500平方ミリメートル
  • 異種アーキテクチャ: GEMM 演算エンジン、8 つのテンソル処理コア (TPC)
  • SRAMメモリ共有
  • PCIeカードの消費電力は200W、メザニンカードは300W
  • オンチップメモリ​​は不明

TPC コアデータ:

  • VLIW SIMD並列処理とローカルSRAMメモリ
  • 混合精度演算をサポート: FP32、BF16、整数形式演算 (INT32、INT16、INT8、UINT32、UINT8)
  • 乱数生成、超越関数: シグモイド、Tanh、GeLU

IOデータ:

  • 4xは32 GBのHBM2-2000 DRAMスタックを提供し、合計1 TBpsになります。
  • RDMA over Converged Ethernet (RoCE v2) をサポートするオンチップ 10x 100GbE インターフェイス
  • PCIe-4 x16 ホストインターフェース

ファーウェイ アセンド 910

NVIDIA V100を直接ターゲットにしたHuawei Ascend 910は、今年8月に正式に商用化され、業界最強のAIトレーニングチップとして知られている。同社はディープラーニングのトレーニングシナリオに重点を置いており、主な顧客は AI データサイエンティストやエンジニアです。

[[279129]]

コアデータは次のとおりです。

  • 7nm+EUVプロセス、456平方ミリメートル
  • 4つの96mm2 HBM2スタックとNimbus IOプロセッサチップを統合
  • 32 個の DaVinci コア
  • FP16のピークパフォーマンスは256TFLOP(32x4096x2)で、INT8の2倍です。
  • 32 MB オンチップ SRAM (L2 キャッシュ)
  • 消費電力350W

相互接続とIOデータ:

  • コアは6 x 4 2Dメッシュパケットスイッチネットワークで相互接続され、コアあたり128 GBpsの双方向帯域幅を提供します。
  • 4 TBps L2キャッシュアクセス
  • 1.2 TBps HBM2 アクセス帯域幅
  • 3x30GBpsチップ内部IO
  • 2 x 25 GBps RoCE ネットワーク インターフェース

単一の DaVinci カーネル データ:

  • 3D 16x16x16 行列乗算ユニット、4,096 FP16 MAC と 8,192 INT8 MAC を提供
  • FP32 (x64)、FP16 (x128)、INT8 (x256) 用の 2,048 ビット SIMD ベクトル演算
  • スカラー演算をサポート

さらに読む:

Huawei の最も強力な AI チップが市販されています。Nvidia V100 の 2 倍の性能です。オープンソースの AI フレームワーク、TensorFlow と PyTorch のベンチマーク

インテル NNP-T

これは、Xeon Phi に続く Intel の AI トレーニング チップへの 2 度目の進出です。4 年の歳月と 4 つのスタートアップ企業の買収が伴い、5 億ドル以上の費用がかかりました。今年 8 月にリリースされました。

ニューラル ネットワーク トレーニング プロセッサ NNP-T の「T」は Train の略で、このチップが AI 推論に使用されることを意味します。プロセッサのコード名は Spring Crest です。

NNP-Tは、Intelの競合企業TSMCによって16nm FF+プロセスを使用して製造される予定です。

NNP-T は 270 億個の 16nm トランジスタ、680 平方ミリメートルのシリコン ウェーハ面積、60mm x 60mm の 2.5D パッケージを備え、24 個のテンソル プロセッサのグリッドを内蔵しています。

[[279130]]

コア周波数は最大1.1GHzに達し、60MBのオンチップメモリ​​、4つの8GB HBM2-2000メモリを搭載し、x16 PCIe 4インターフェースを使用し、TDPは150〜250Wです。

各テンソル処理ユニットには、数学コプロセッサの操作を指示するマイクロコントローラがあり、カスタム マイクロコントローラ命令で拡張できます。

NNP-T は、TensorFlow、PyTorch、PaddlePaddle という 3 つの主要な主流の機械学習フレームワークと、C++ ディープラーニング ソフトウェア ライブラリおよびコンパイラー nGraph をサポートしています。

計算能力の点では、このチップは1秒間に最大119兆回の演算(119TOPS)に達することができるが、IntelはこれがINT8ベースかINT4ベースかを明らかにしていない。

比較すると、Nvidia Tesla T4 の計算能力は、INT8 で 130TOPS、INT4 で 260TOPS です。

さらに読む:

インテル初のAIチップがついにリリース。トレーニングと推論の両方に使用可能。4つの企業を買収するのに4年と5億ドルを要した

Nvidia Voltaアーキテクチャチップ

2017 年 5 月に発表された NVIDIA Volta では、Pascal アーキテクチャから Tensor コア、HBM2、NVLink 2.0 が導入されました。

[[279131]]

NVIDIA V100 チップはこのアーキテクチャに基づく最初の GPU チップであり、そのコア データは次のとおりです。

  • TSMC 12nm FFNプロセス、トランジスタ数211億個、面積815平方ミリメートル
  • 消費電力は300W、L2キャッシュは6MB
  • 84 個の SM。それぞれに 64 個の FP32 CUDA コア、32 個の FP64 CUDA コア、8 個の Tensor コア (5376 個の FP32 コア、2688 個の FP64 コア、672 個の TC) が含まれます。
  • 1 つの Tensor コアは 1 クロックあたり 64 回の FMA 操作 (合計 128 FLOPS) を実行し、各 SM には 8 つのこのようなコアがあり、SM あたり 1 クロックあたり 1024 FLOPS になります。
  • 比較すると、純粋な FP16 演算の場合でも、SM の標準 CUDA コアはクロックあたり 256 FLOPS しか生成できません。
  • SM ごとに、128 KB の L1 データ キャッシュ/共有メモリと 4 つの 16K 32 ビット レジスタ。

IOデータ:

  • 32 GB HBM2 DRAM、900 GBps 帯域幅
  • 300 GBps NVLink 2.0

Nvidia Turingアーキテクチャチップ

Turing アーキテクチャは、2018 年 9 月にリリースされた Volta アーキテクチャのアップグレード版ですが、CUDA コアと Tensor コアの数が少なくなっています。

そのため、サイズが小さくなり、消費電力も少なくなります。機械学習タスクに加えて、リアルタイムのレイトレーシングを実行するように設計されています。コアデータは次のとおりです。

  • TSMC 12nm FFNプロセス、面積754平方メートル、トランジスタ数186億個、消費電力260W
  • 72 個の SM、それぞれに 64 個の FP32 コア、64 個の INT32 コア、8 個の Tensor コア (4608 個の FP32 コア、4608 個の INT32 コア、576 個の TC) が含まれます。
  • ブーストクロックによるピーク性能: FP32 で 16.3 TFLOP、FP16 で 130.5 TFLOP、INT8 で 261 TFLOP、INT4 で 522 TFLOP
  • オンチップメモリ​​は24.5 MBで、6 MBのL2キャッシュと256 KBのSMレジスタファイルで構成されています。
  • ベースクロックは1455MHz

IOデータ:

  • 12x32ビットGDDR6メモリ、672 GBpsの総帯域幅を提供
  • 2x NVLink x8リンク、それぞれ最大26 GBpsの双方向速度を提供

参考文献:

https://www.jameswhanlon.com/new-chips-for-machine-intelligence.html

<<:  レビュー: 8 月に Github で注目すべき 7 つのデータ サイエンス プロジェクト

>>:  モデルはわずか1MBで、軽量な顔検出モデルはオープンソースであり、その効果は主流のアルゴリズムに劣らない。

ブログ    
ブログ    
ブログ    

推薦する

...

...

ディープラーニング入門: オートエンコーダから変分オートエンコーダまで

オートエンコーダ(AE)は、半教師あり学習や教師なし学習で使用される人工ニューラルネットワーク(AN...

米国、人工知能に関する大統領令を発表

人工知能には大きな可能性があり、その可能性と危険性の両方を兼ね備えています。 AI を責任を持って使...

ChatGPTを忘れてください。この新しいAIアシスタントは人々の働き方を永遠に変えるでしょう

翻訳者 |ブガッティレビュー | Chonglou私はしばらくの間ChatGPTとBardを使用して...

機械学習がゲーム・オブ・スローンズの結末を「ネタバレ」:3人の愚か者が最初に死に、ドラゴン・マザーとティリオンが最後に笑う

制作:ビッグデータダイジェスト編集部長い間待ち望まれていた『ゲーム・オブ・スローンズ』の最終シーズン...

子どもたちがロボットに出会うと、彼らの社会的交流はどのように変化するのでしょうか?

[[241846]]タイトル画像はVisual Chinaより過去2年間で、子供向けのロボット教育...

...

2023年ゴードン・ベル賞発表:最先端のスーパーコンピューターによる「量子レベルの精度」の材料シミュレーションが受賞

ACM ゴードン・ベル賞は 1987 年に設立され、計算機協会によって授与されます。スーパーコンピュ...

畳み込みニューラルネットワークの簡単な説明

畳み込みニューラルネットワークネットワーク構造図図2 畳み込みニューラルネットワークの構造図畳み込み...

映画はヒットできるでしょうか?機械学習を使用して正確な予測を行う

映画データベース (TMDB) は映画データ用の API を提供し、ユーザーはこのデータベースからデ...

データ管理はAI革命の最大の課題となるでしょうか?

最新のデータへの投資は人工知能の拡張を成功させる上で重要ですが、調査によると、企業の半数がコストの障...

校内暴力を予防し解決するために、AIは子どもたちのために何ができるでしょうか?

[[228688]]あなたはキャンパスライフに満足していますか?多くの人が「はい」と答えると思いま...

ヘルスケアにおける人工知能の応用

今年に入ってから、医療提供方法や患者がより積極的に医療に参加できる方法を変革するために AI を使用...

人工知能を使って手作業を置き換え、コストを削減し、効率を高めることは、まさに賢いことだ

「大丈夫ですよ。」 15年間工場で働いてきた「古い」労働者として、今日は人工知能についての私の見解を...