7nmプロセス限界を突破した世界初の3DウェーハレベルパッケージングプロセッサIPUがリリース

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式サイトにアクセスして許可を申請してください。

英国を拠点とするAIチップ企業Graphcoreは、次世代IPU製品である第3世代IPUシステム「Bow」をリリースしました。リリース後すぐに顧客に出荷されます。前世代の IPU と比較すると、Bow IPU はパフォーマンスが 40% 向上し、エネルギー効率が 16% 向上し、電力効率が 16% 向上しています。

注目すべきは、今回のBow IPUの性能向上は、より先進的なプロセスの使用に主に依存しているわけではないということだ。Bow IPUは前世代のIPUと同じTSMC 7nmを使用し、TSMCと共同開発した先進的なシリコンウェーハスタッキング技術（3D Wafer-on-Wafer）を採用することで、性能とエネルギー効率の向上を実現している。

世界初の 3D WoW プロセッサである Bow は、チップ性能向上のパラダイムを高度なプロセスから高度なパッケージングへと移行できる可能性を証明しています。

新世代IPUは、価格はそのままで、パフォーマンスが40%向上しています。

2016 年に Graphcore が設立され、新しいタイプのプロセッサアーキテクチャである IPU を開発しました。そのアーキテクチャの革新は、かつて英国の半導体の父であるヘルマンハウザーによってコンピューター史上の第三の革命と呼ばれました。

Graphcore の IPU は、6 年間の開発を経て、金融、医療、通信、ロボット工学、クラウド、インターネットなどの分野で徐々に成果を上げてきました。今週の木曜日、Graphcore は第 3 世代製品である Bow IPU を発売しました。

Graphcoreによれば、第3世代IPUは前世代のM2000と比較してパフォーマンスが40%向上し、ワットあたりのパフォーマンスが16%向上しており、エネルギー効率比が16%向上しているという。しかし、AI チップの真のパフォーマンスについては、さまざまな応用分野でまだ議論する必要があります。このため、Graphcore はさまざまな垂直分野での Bow のパフォーマンスも提供します。

画像に関して言えば、一般的なCNNネットワークでも、最近人気のVision Transformerネットワークでも、ディープテキスト・イメージネットワークでも、Bow IPUは前世代の製品に比べて30%～40%の性能向上を実現しており、EfficientNet-B4の項目では理論上の上限に近づいています。

BERT トレーニングモデルは、自然言語の古典的なモデルです。OpenAI は、BERT に基づいて、GPT-1、GPT-2、GPT-3 などの垂直または水平拡張を提案し、ネットワークレイヤーの深化とネットワーク幅の拡大により、モデルのパフォーマンスと精度をさらに向上させました。

「これらのモデルは、当社の最新のハードウェアフォームファクターで大幅なパフォーマンス向上を実現していることがわかります」と、Graphcoreの中国エンジニアリング担当副社長兼AIアルゴリズム科学者のJin Chen氏は述べています。

それだけでなく、実際のモデルのスループットに換算すると、IPU POD64と比較すると、Bow Pod64のスループットは、コンピュータービジョンのResNet50とEifficientNet-B4のトレーニングモデルでそれぞれ34%と39%のパフォーマンス向上を達成できます。自然言語に関しては、BERT-Large Ph1 事前トレーニング済みモデルと音声認識 Conformer Large トレーニングモデルの両方でスループットが 36% 向上しました。

Nvidia の競合企業として、Graphcore は当然のことながら Bow Pod16 と DGX-A100 の比較を忘れませんでした。実験データによると、EfficientNet-B4 バックボーンのトレーニングには DGX-A100 では 70 時間のトレーニング時間が必要ですが、Bow Pod16 では約 14 時間しかかかりません。

Graphcore Bow IPU はどのようにして理論限界に近いパフォーマンスの向上を実現するのでしょうか?

5nmはもはや第一選択肢ではなく、高度なパッケージングの方がコスト効率が高い

チップの仕様から判断すると、Bow IPUはTSMCの3D Wafer-On-Waferをベースにした世界初のプロセッサです。単一パッケージに600億個以上のトランジスタを搭載し、人工知能コンピューティング性能は350テラフロップスで、前世代のMK2 IPUの1.4倍です。オンチップストレージは前世代と比べて変更はなく、容量は依然として0.9GBを維持していますが、スループットは47.5TBから65TBに増加しています。

「主な変更点は、3Dパッケージプロセッサであり、トランジスタのサイズが大きくなり、計算能力とスループットが向上したことだ」と、Graphcore Greater Chinaの社長兼グローバル最高売上責任者であるLu Tao氏は述べた。皆さんが気になるプロセス技術に関しては、Bow IPUは前世代のTSMC 7nmプロセス技術を継承しており、変更はありません。

理論的には、チップの性能向上はプロセス技術の進歩に大きく依存しますが、プロセス技術が物理的限界に近づくにつれて、ムーアの法則は徐々に無効になり、業界はムーアの法則を継続するための新しい技術的方向性を見つける必要があります。その中でも、3D パッケージングは業界で広く支持されている技術方向性です。

中国工程院の院士であり、浙江大学マイクロナノエレクトロニクス学院の学長である呉漢明氏は、かつての講演で、チップ製造とチップパッケージングを組み合わせれば、40nmプロセスの性能と消費電力の要件を65nmプロセスで達成できると述べたことがある。

Bow IPU は、呉院士の見解を検証したばかりです。

Lu Tao氏は、Bow IPU製品のパフォーマンス向上は主に3D WoWと新しく追加されたダイによるものだと語った。

より高度なプロセスではなくパッケージング方法の変更を選択した理由について、Lu Tao 氏は、MK2 IPU には 594 億個のトランジスタがあり、面積は約 823 平方ミリメートルで、これはすでに単一の 7nm ダイで製造できる最も高度なチップであると述べました。

「7nm、5nm、3nmなど、異なるプロセスノードのメリットを評価したところ、7nmから5nmへの製造プロセス改善によってもたらされるメリットは、数十パーセントのメリットをもたらすことができた以前の28nmから14nmへのメリットとは異なり、20パーセントにまで低下していることがわかりました。現時点では、他の手段や方法で同じメリットを得ることができます。」

Bow IPUの2つのダイは、3Dスタッキングによりトランジスタ数が増加しています。ダイの1つ（Colossusダイ）は前世代と同じで、もう1つのダイは主にColossusダイ全体の電力伝送を改善し、Colossusダイの動作ノードを最適化するために使用され、効果的なクロック加速につながります。

TSMCとの協力について、Lu Tao氏はLeifeng.comに対し、Graphcoreは1年前にTSMCとテストチップで協力しており、TSMCとは非常に密接な関係にあると語った。また、AIプロセッサ自体は規模が大きく、実装をサポートするためにいくつかの新しい技術が必要である。TSMCの観点から見ると、新しい技術も需要のある製品と一緒に推進する必要がある。

パッケージ方法は変更されましたが、Bow IPU は箱から出してすぐに使用でき、コードを変更することなく前世代の製品と 100% ソフトウェア互換性があることは特筆に値します。古いユーザーはソフトウェアの適応作業を行わずにパフォーマンスの向上を得ることができ、価格も変わりません。

現在、米国のパシフィック・ノースウェスト国立研究所は、計算化学やネットワークセキュリティへの応用をターゲットに、Bow IPU に基づく Transformer ベースのモデルやグラフニューラルネットワークの開発を試みており、比較的肯定的なフィードバックを得ています。

3Dパッケージングを継続し、人間の脳を超える超知能機械を開発

Bow IPU の 3D パッケージングの使用は、単なる出発点にすぎません。Graphcore は将来を見据えて、人間の脳の処理能力を超える超インテリジェントマシンを開発しています。

Graphcore は開発中の製品を Good Computer と名付けました。一方では、コンピューターが世界に良い影響を与えることを期待し、他方では、有名なコンピューター科学者 Good に敬意を表しています。

3D WoW に基づき、将来 Good Computer には 8192 個の IPU が搭載され、10 エクサフロップス以上の AI コンピューティング能力が提供され、4 PB のストレージが実現され、500 兆を超えるパラメータ規模の人工知能モデルの開発を支援できるようになると予想されています。

構成に応じて、Good Computer のコストは 100 万ドルから 1 億 5000 万ドルになります。

陸涛氏は、Good Computerの開発は依然としてIPUアーキテクチャに従うと述べた。IPUのストレージはプロセッサ内部にある。脳のような、メモリコンピューティングやストレージとコンピューティングの統合とは呼ばれていないが、コンピューティングとストレージを組み合わせている点を除けば、IPUの動作メカニズムはある程度、脳コンピューティングの動作原理に近い。

さらに、Graphcore はソフトウェア側からのスパース化をより効果的にサポートし、脳のような計算能力を実現します。

<<: 2022年のインテリジェント運用保守（AIOps）の開発動向

>>: ドローン空気検知器は環境保護にどのように役立つのでしょうか?