7nmプロセス限界を突破した世界初の3DウェーハレベルパッケージングプロセッサIPUがリリース

7nmプロセス限界を突破した世界初の3DウェーハレベルパッケージングプロセッサIPUがリリース

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式サイトにアクセスして許可を申請してください。

英国を拠点とするAIチップ企業Graphcoreは、次世代IPU製品である第3世代IPUシステム「Bow」をリリースしました。リリース後すぐに顧客に出荷されます。前世代の IPU と比較すると、Bow IPU はパフォーマンスが 40% 向上し、エネルギー効率が 16% 向上し、電力効率が 16% 向上しています。

注目すべきは、今回のBow IPUの性能向上は、より先進的なプロセスの使用に主に依存しているわけではないということだ。Bow IPUは前世代のIPUと同じTSMC 7nmを使用し、TSMCと共同開発した先進的なシリコンウェーハスタッキング技術(3D Wafer-on-Wafer)を採用することで、性能とエネルギー効率の向上を実現している。

世界初の 3D WoW プロセッサである Bow は、チップ性能向上のパラダイムを高度なプロセスから高度なパッケージングへと移行できる可能性を証明しています。

新世代IPUは、価格はそのままで、パフォーマンスが40%向上しています。

2016 年に Graphcore が設立され、新しいタイプのプロセッサ アーキテクチャである IPU を開発しました。そのアーキテクチャの革新は、かつて英国の半導体の父であるヘルマン ハウザーによってコンピューター史上の第三の革命と呼ばれました。

Graphcore の IPU は、6 年間の開発を経て、金融、医療、通信、ロボット工学、クラウド、インターネットなどの分野で徐々に成果を上げてきました。今週の木曜日、Graphcore は第 3 世代製品である Bow IPU を発売しました。

Graphcoreによれば、第3世代IPUは前世代のM2000と比較してパフォーマンスが40%向上し、ワットあたりのパフォーマンスが16%向上しており、エネルギー効率比が16%向上しているという。しかし、AI チップの真のパフォーマンスについては、さまざまな応用分野でまだ議論する必要があります。このため、Graphcore はさまざまな垂直分野での Bow のパフォーマンスも提供します。

画像に関して言えば、一般的なCNNネットワークでも、最近人気のVision Transformerネットワークでも、ディープテキスト・イメージネットワークでも、Bow IPUは前世代の製品に比べて30%~40%の性能向上を実現しており、EfficientNet-B4の項目では理論上の上限に近づいています。

BERT トレーニング モデルは、自然言語の古典的なモデルです。OpenAI は、BERT に基づいて、GPT-1、GPT-2、GPT-3 などの垂直または水平拡張を提案し、ネットワーク レイヤーの深化とネットワーク幅の拡大により、モデルのパフォーマンスと精度をさらに向上させました。

「これらのモデルは、当社の最新のハードウェアフォームファクターで大幅なパフォーマンス向上を実現していることがわかります」と、Graphcoreの中国エンジニアリング担当副社長兼AIアルゴリズム科学者のJin Chen氏は述べています。

それだけでなく、実際のモデルのスループットに換算すると、IPU POD64と比較すると、Bow Pod64のスループットは、コンピュータービジョンのResNet50とEifficientNet-B4のトレーニングモデルでそれぞれ34%と39%のパフォーマンス向上を達成できます。自然言語に関しては、BERT-Large Ph1 事前トレーニング済みモデルと音声認識 Conformer Large トレーニング モデルの両方でスループットが 36% 向上しました。

Nvidia の競合企業として、Graphcore は当然のことながら Bow Pod16 と DGX-A100 の比較を忘れませんでした。実験データによると、EfficientNet-B4 バックボーンのトレーニングには DGX-A100 では 70 時間のトレーニング時間が必要ですが、Bow Pod16 では約 14 時間しかかかりません。

Graphcore Bow IPU はどのようにして理論限界に近いパフォーマンスの向上を実現するのでしょうか?

5nmはもはや第一選択肢ではなく、高度なパッケージングの方がコスト効率が高い

チップの仕様から判断すると、Bow IPUはTSMCの3D Wafer-On-Waferをベースにした世界初のプロセッサです。単一パッケージに600億個以上のトランジスタを搭載し、人工知能コンピューティング性能は350テラフロップスで、前世代のMK2 IPUの1.4倍です。オンチップストレージは前世代と比べて変更はなく、容量は依然として0.9GBを維持していますが、スループットは47.5TBから65TBに増加しています。

「主な変更点は、3Dパッケージプロセッサであり、トランジスタのサイズが大きくなり、計算能力とスループットが向上したことだ」と、Graphcore Greater Chinaの社長兼グローバル最高売上責任者であるLu Tao氏は述べた。皆さんが気になるプロセス技術に関しては、Bow IPUは前世代のTSMC 7nmプロセス技術を継承しており、変更はありません。

理論的には、チップの性能向上はプロセス技術の進歩に大きく依存しますが、プロセス技術が物理的限界に近づくにつれて、ムーアの法則は徐々に無効になり、業界はムーアの法則を継続するための新しい技術的方向性を見つける必要があります。その中でも、3D パッケージングは​​業界で広く支持されている技術方向性です。

中国工程院の院士であり、浙江大学マイクロナノエレクトロニクス学院の学長である呉漢明氏は、かつての講演で、チップ製造とチップパッケージングを組み合わせれば、40nmプロセスの性能と消費電力の要件を65nmプロセスで達成できると述べたことがある。

Bow IPU は、呉院士の見解を検証したばかりです。

Lu Tao氏は、Bow IPU製品のパフォーマンス向上は主に3D WoWと新しく追加されたダイによるものだと語った。

より高度なプロセスではなくパッケージング方法の変更を選択した理由について、Lu Tao 氏は、MK2 IPU には 594 億個のトランジスタがあり、面積は約 823 平方ミリメートルで、これはすでに単一の 7nm ダイで製造できる最も高度なチップであると述べました。

「7nm、5nm、3nmなど、異なるプロセスノードのメリットを評価したところ、7nmから5nmへの製造プロセス改善によってもたらされるメリットは、数十パーセントのメリットをもたらすことができた以前の28nmから14nmへのメリットとは異なり、20パーセントにまで低下していることがわかりました。現時点では、他の手段や方法で同じメリットを得ることができます。」

Bow IPUの2つのダイは、3Dスタッキングによりトランジスタ数が増加しています。ダイの1つ(Colossusダイ)は前世代と同じで、もう1つのダイは主にColossusダイ全体の電力伝送を改善し、Colossusダイの動作ノードを最適化するために使用され、効果的なクロック加速につながります。

TSMCとの協力について、Lu Tao氏はLeifeng.comに対し、Graphcoreは1年前にTSMCとテストチップで協力しており、TSMCとは非常に密接な関係にあると語った。また、AIプロセッサ自体は規模が大きく、実装をサポートするためにいくつかの新しい技術が必要である。TSMCの観点から見ると、新しい技術も需要のある製品と一緒に推進する必要がある。

パッケージ方法は変更されましたが、Bow IPU は箱から出してすぐに使用でき、コードを変更することなく前世代の製品と 100% ソフトウェア互換性があることは特筆に値します。古いユーザーはソフトウェアの適応作業を行わずにパフォーマンスの向上を得ることができ、価格も変わりません。

現在、米国のパシフィック・ノースウェスト国立研究所は、計算化学やネットワークセキュリティへの応用をターゲットに、Bow IPU に基づく Transformer ベースのモデルやグラフニューラルネットワークの開発を試みており、比較的肯定的なフィードバックを得ています。

3Dパッケージングを継続し、人間の脳を超える超知能機械を開発

Bow IPU の 3D パッケージングの使用は、単なる出発点にすぎません。Graphcore は将来を見据えて、人間の脳の処理能力を超える超インテリジェント マシンを開発しています。

Graphcore は開発中の製品を Good Computer と名付けました。一方では、コンピューターが世界に良い影響を与えることを期待し、他方では、有名なコンピューター科学者 Good に敬意を表しています。

3D WoW に基づき、将来 Good Computer には 8192 個の IPU が搭載され、10 エクサフロップス以上の AI コンピューティング能力が提供され、4 PB のストレージが実現され、500 兆を超えるパラメータ規模の人工知能モデルの開発を支援できるようになると予想されています。

構成に応じて、Good Computer のコストは 100 万ドルから 1 億 5000 万ドルになります。

陸涛氏は、Good Computerの開発は依然としてIPUアーキテクチャに従うと述べた。IPUのストレージはプロセッサ内部にある。脳のような、メモリコンピューティングやストレージとコンピューティングの統合とは呼ばれていないが、コンピューティングとストレージを組み合わせている点を除けば、IPUの動作メカニズムはある程度、脳コンピューティングの動作原理に近い。

さらに、Graphcore はソフトウェア側からのスパース化をより効果的にサポートし、脳のような計算能力を実現します。

<<:  2022年のインテリジェント運用保守(AIOps)の開発動向

>>:  ドローン空気検知器は環境保護にどのように役立つのでしょうか?

ブログ    
ブログ    
ブログ    

推薦する

地球は思考しており、人間は単なるニューロンです。科学者は初めて「惑星知性」を提唱した

生態圏が進化すると、地球は独自の生命を獲得しました。惑星が独自の生命を持つことができるなら、独自の知...

NLP における新たなマイルストーン!清華大学ヤオクラスの卒業生がKEARをリリース:人間を超える初の常識質問応答システム

[[443046]]人間はAIよりも常識があるとは言えなくなりました!最近、マイクロソフトの黄雪東と...

百度が銀川市で初のインテリジェントネットワーク試験ライセンスを獲得し、自動運転車が銀川市の公道でデビューした。

2020年銀川国際スマートシティ博覧会において、銀川市政府は百度に、同市初のインテリジェントコネク...

ロボット犬をDIYするにはどれくらいの費用がかかりますか?価格は900ドルと安く、スタンフォード大学が開発し、コードはオープンソースです

たった 900 ドルで四足ロボット犬を DIY できる?スタンフォード学生ロボットクラブの新メンバー...

業界初のNLPシナリオ向けディープラーニングフレームワークがオープンソースに

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

クアルコムがSnapdragon 845の機能を発表:より高速で、より電力効率が高く、AIパフォーマンスが2倍に

12月6日ハワイ時間、クアルコムは第2回Snapdragonテクノロジーサミットで、新型Snapdr...

...

個人情報を使って死者をデジタルで蘇らせるロボットを作る

[[378336]]死者を生き返らせるというのは非常に神秘的に聞こえますが、技術の進歩により、科学者...

MITの新しいAI研究:セーターが編めなくても問題ない、AIにやらせればいい

人工知能といえば、最先端のクールなアプリケーションのほかに、この話題になると「偽物」という言葉が思い...

百度のCTO王海鋒が百度ブレイン7.0をリリース: イノベーションを統合し障壁を下げる

火星の環境について知りたいですか?たった一文であなた自身のデジタル人物を生成したいですか?こうした最...

Meta AIは、ImageNetの事前トレーニングを超えて、小規模データセット向けの自己教師付き事前トレーニングであるSplitMaskを提案しています。

現在、コンピューター ビジョン ニューラル ネットワークは高度にパラメータ化されています。通常、数千...

この記事では、さまざまな教師なしクラスタリングアルゴリズムのPython実装について簡単に説明します。

教師なし学習は、データ内のパターンを見つけるために使用される機械学習技術の一種です。教師なし学習アル...

世界銀行:ロボットはまだ私たちの仕事を奪ってはいない

[[254699]]人間が機械に取って代わられるという悲観的な予測が広まっているにもかかわらず、自動...

世界で最も強力なオープンソース モデルが一夜にして所有者が変わりました。 Google Gemma 7B が Llama 2 13B を圧倒、オープンソース戦争が再燃

真夜中に雷鳴が轟いた。Google は本当に LLM をオープンソース化したのか? !今回、オープン...

人工知能の力: ウェブ開発者がいまだに雇用されている理由

記事ソース| https://dzone.com/articles/the-power-of-ai-...