3Dチップ技術がコンピューティングに破壊的な変化をもたらす3つの方法:AMD、Graphcore、Intelはそれぞれ独自の秘策を秘めている

3Dチップ技術がコンピューティングに破壊的な変化をもたらす3つの方法:AMD、Graphcore、Intelはそれぞれ独自の秘策を秘めている

高性能プロセッサに関する研究は、ムーアの法則を継続する新たな方向性が到来していることを示しています。各世代のプロセッサは、前世代よりも優れたパフォーマンスを発揮する必要があり、それはシリコン チップ上にさらに多くのロジック回路を統合することも意味します。しかし、チップ製造には 2 つの問題があります。トランジスタと、それが構成するロジックおよびメモリのブロックを縮小する能力が低下していること、そしてチップがサイズの限界に達していることです。

ムーアの法則。画像出典: wikipedia

リソグラフィーツールは、最上位のNvidia GPUとほぼ同じサイズである約850平方ミリメートルの領域しか印刷できません。

近年、システムオンチップの開発者は、より大きなチップ設計を小さなチップに分割し、それらを同じパッケージ内で接続し始めています。 CPU では、接続技術は主に 2.5D パッケージングであり、チップレットが互いに隣接して配置され、短くて高密度の相互接続を使用して接続されます。ほとんどのメーカーが 2.5D「チップレット間」通信規格に同意したため、この統合の勢いは今後も拡大し続けるでしょう。

しかし、データストレージのニーズが増加するにつれて、同じチップに大量のデータを保存するには、より短く高密度な接続が必要になり、これは 1 つのチップを別のチップの上に積み重ねることによってのみ実現できます。 2 つのチップを接続するということは、チップ間の 1 平方ミリメートルあたり数千の接続を作成することを意味します。

これを実現するには多くの革新が必要でした。エンジニアは、スタック内の 1 つのチップが過熱して別のチップを破壊しないようにする方法や、たまに不良チップが発生してシステム全体がダウンしないようにする方法などを考え出す必要があったからです。

最近、半導体担当のIEEE Spectrum上級編集者サミュエル・K・ムーア氏が、3Dチップ技術がコンピューティングに破壊的な変化をもたらす3つの方法を紹介する記事を執筆し、主にAMD、Graphcore、Intelの業界をリードする優位性を紹介しました。

AMD ゼン3

パーソナルコンピュータには、非常に大規模なアプリケーションやデータ集約型の作業を高速化するために、メモリを追加するオプションが長い間存在してきました。 AMD の次世代 CPU チップレットは、3D ダイ スタッキングによりこのオプションを提供します。

Zen 2 と Zen 3 のプロセッサ コアはどちらも同じ TSMC 製造プロセスを使用しているため、トランジスタや相互接続などのサイズは同じです。 AMD はアーキテクチャに多くの変更を加え、追加のキャッシュ メモリがなくても、Zen 3 は平均 19% のパフォーマンス向上を実現します。

Zen 3 アーキテクチャのハイライトの 1 つは、複数のチップを相互に接続する方法であるシリコン貫通ビア (TSV) を使用したチップの垂直スタッキングであることは特筆に値します。 TSV は、Zen 3 の最高レベルのキャッシュ、つまりコンピューティング チップレットの中央にあり、8 つのコアすべてで共有される L3 と呼ばれる SRAM ブロックに組み込まれています。

データ量の多いプロセッサでは、Zen 3 ウェーハの裏面が TSV が露出するまで薄くされ、その後、銅の冷間溶接に似たプロセスであるハイブリッド接合を使用して、64 メガバイトの SRAM チップレットが露出した TSV に接続されます。その結果、9 ミクロンという高密度の接続が実現します。最後に、構造の安定性と熱伝導のために、空のシリコン チップが Zen 3 CPU ダイの残りの部分に取り付けられます (ダイまたは CPU ダイは、プロセッサの製造プロセス中にウェーハから切り取られた小さな四角形を指します)。

AMD 3D V-Cache テクノロジーは、64 メガバイトの SRAM キャッシュ (赤) と 2 つの空のファブリック チップレットを Zen 3 コンピューティング チップレットにスタックします。

「CPU ダイの隣に空のシリコン チップレットを配置してメモリを追加することは、データがプロセッサ コアに到達するまでに時間がかかりすぎるため、お勧めできません。L3 キャッシュ サイズが 3 倍になったにもかかわらず、3D V-Cache ではレイテンシが 4 クロック サイクルしか追加されません。これは 3D スタッキングによってのみ可能になります」と、AMD のシニア デザイン エンジニアである John Wuu 氏は述べています。

大容量のキャッシュはハイエンドのゲームで役立ち、3D V-Cache を搭載したデスクトップ Ryzen CPU では 1080p ゲームが平均 15% 高速化されます。ウー氏は、ロジック機能の縮小に比べて、SRAM を縮小する業界の能力は低下していると指摘した。したがって、コンピューティング チップレットがムーアの法則の最前線に押し上げられる一方で、SRAM のスケーリングはより成熟した製造プロセスを使用して継続すると予測できます。

Graphcore Bow AI プロセッサー

3D 統合により、スタック内のチップにトランジスタがなくてもコンピューティングを高速化できます。英国を拠点とする AI コンピューター企業 Graphcore は、AI プロセッサに電力供給チップをインストールするだけで、システム パフォーマンスを大幅に向上させました。

電力供給シリコンの追加により、Bow と呼ばれる統合チップは、前世代のチップよりも高速 (1.85 GHz 対 1.35 GHz) かつ低電圧で動作できるようになります。これは、コンピューターがニューラル ネットワークを 40% 高速にトレーニングでき、前世代よりも 16% 少ないエネルギーでトレーニングできることを意味します。何よりも、ユーザーはこの改善を得るためにソフトウェアを変更する必要がありません。

電源管理ダイは、コンデンサとシリコン貫通ビアのスタックで構成されており、シリコン貫通ビアはプロセッサ チップに電力とデータを供給しますが、実際に違いを生み出すのはコンデンサです。 DRAM のビット ストレージ コンポーネントと同様に、これらのコンデンサはシリコンの深く狭い溝に形成されます。これらの電荷貯蔵庫はプロセッサのトランジスタに非常に近いため、電力供給がスムーズになり、プロセッサ コアはより低い電圧でより高速に動作できるようになります。

電力供給チップがなければ、プロセッサは 1.85 GHz で動作するために動作電圧を公称レベルより高くする必要があり、より多くの電力を消費することになります。パワーチップを使用することで、所定のクロック周波数を実現し、消費電力を抑えることもできます。

Graphcore Bow AI アクセラレータは 3D チップスタッキングを使用してパフォーマンスを 40% 向上させます。

Bow の製造工程は独特です。ほとんどの 3D スタッキングは、チップレットを別のチップレットに接着することによって行われます。チップレットの 1 つはまだウェーハ上にあり、チップオンウェーハと呼ばれます (上記の AMD の Zen 3 を参照)。代わりに、ボウ氏はTSMCの「ウェーハ・ツー・ウェーハ」プロセスを使用した。このプロセスでは、あるタイプのウェーハ全体を別のタイプのウェーハ全体に結合し、その後チップに切り分ける。

グラフコア社の最高技術責任者サイモン・ノウルズ氏は、このチップは市場で初めてこの技術を採用したものであり、この技術により、ウエハーベースのチッププロセスで達成できるものよりも高密度の2つのダイ間の接続が可能になると語った。

ボウ-2000

電力供給チップレットにはトランジスタはありませんが、近い将来に登場する可能性があります。ノウルズ氏は、この技術を電力伝送のみに使用するのは単なる第一歩に過ぎず、近い将来にはさらに進歩するだろうと述べた。

詳細については、https://spectrum.ieee.org/graphcore-ai-processor を参照してください。

インテルのポンテ・ヴェッキオ・スーパーコンピュータチップ

Aurora スーパーコンピュータは、エクサフロップスの壁(1 秒あたり 10 億回の高精度浮動小数点計算)を突破する米国初の高性能コンピュータ (HPC) の 1 つとなるように設計されています。 Aurora のこれらのパフォーマンス目標を達成するために、Ponte Vecchio は 47 枚のシリコン ウェハー上に 1,000 億を超えるトランジスタを 1 つのプロセッサに詰め込みました。 Intel は 2.5D と 3D の両方の技術を使用して、3,100 平方ミリメートルのシリコン (ほぼ 4 つの Nvidia A100 GPU のサイズ) を 2,330 平方ミリメートルのスペースに押し込みました。

Intel の Ponte Vecchio プロセッサは、47 個のチップレットを 1 つのプロセッサに統合しています。

各 Ponte Vecchio は、実際には Intel の 2.5D 統合テクノロジ Co-EMIB を使用して互いに接続された 2 セットのミラー チップであり、2 つの 3D チップレット スタック間に高密度相互接続ブリッジを形成します。 「ブリッジ」自体は、カプセル化する有機基板に埋め込まれた小さなシリコン片であり、シリコン上の相互接続の密度は有機基板上の密度の 2 倍になることがあります。 Co-EMIB ダイは、高帯域幅メモリと I/O チップレットをベース タイル (他のチップレットが積み重ねられる最大のチップレット) に接続します。

ベース タイルは、コンピューティング チップレットとキャッシュ チップレットが積み重ねられる、Foveros と呼ばれる Intel の 3D スタッキング テクノロジを使用します。この技術により、2 つのチップ間に 36 ミクロンのダイツーダイ垂直接続の高密度アレイが作成されます。信号と電力は、シリコンの大きな部分を直接貫通する幅広の垂直相互接続であるシリコン貫通ビアを通じてこのスタックに入ります。

フォベロス

8 つのコンピューティング タイル、4 つのキャッシュ タイル、およびプロセッサ冷却用の 8 つの空白タイルがすべてベース タイルに接続されています。ベース タイル自体は、キャッシュ メモリと、コンピューティング タイルがメモリにアクセスできるようにするネットワークを提供します。

インテルの研究者ゴメス氏はこう語った。「どれも簡単なことではありません。ポンテ・ヴェッキオは、歩留まり管理、クロック回路、熱制御、電力供給において革新を起こしてきました。」たとえば、Intel のエンジニアは、パッケージングを簡素化できるほど電流が低くなるように、プロセッサに通常よりも高い電圧 (1.8 ボルト) を供給することを選択しました。ベース タイルの回路はコンピューティング タイルの電圧を約 0.7 V まで下げるため、各コンピューティング タイルにはベース タイル内に独自の電源ドメインが必要です。鍵となるのは、同軸磁気集積インダクタと呼ばれる新しいタイプの高効率インダクタです。これらはパッケージ基板に組み込まれているため、コンピューティング タイルに電圧が供給される前に、回路はベース タイルとパッケージの間を実際に行き来します。

ゴメス氏は、2008年の最初のペタフロップス・スーパーコンピューターから今年のエクサフロップスまで14年かかり、3Dスタッキングなどの高度なパッケージング技術が計算能力の向上に役立つだろうと述べた。​

<<:  清華大学、DeepMindなどは、既存の小サンプル学習法は安定的かつ効果的ではないと指摘し、評価フレームワークを提案した。

>>:  なぜ私たちは、AI による顔の変形が「偽物」だと今でも思っているのでしょうか?

ブログ    
ブログ    
ブログ    

推薦する

人工知能は人類を情報社会から知能社会へと導く

[[315663]]人工知能(AI)とは、人間と同等かそれ以上の知覚、認知、行動などの知能を機械に実...

寒波警報(黄色)発令中、ドローンの使用にはご注意ください!

11月3日、中央気象台は今年初の黄色寒波警報を発令し、最強の寒波が来ています!警報によると、11月...

...

建設業界における人工知能のメリット

建設における AI は、設計、入札、資金調達、調達、建設、運用、資産管理、ビジネス モデルの変革など...

...

...

プログラム分析を通じてニューラルネットワーク プログラムのバックドアを見つける方法

1 ニューラルネットワークにはさまざまな問題がある従来のプログラムには、よく知られたエラー、抜け穴、...

年末総括:2020年の顔認識業界の注目イベント一覧

「顔スキャン」時代の到来が加速するにつれ、人々が旅行したり、出勤記録を取ったり、医療の予約を取ったり...

トレンドにおける危険とチャンス: 生成 AI の黄金期をどう捉えるか?

ChatGPTは今年9月末に音声チャットと画像認識機能を追加しました。テキスト駆動型と比較して、C...

...

人工知能とビッグデータが私たちの生活に何をもたらすかご存知ですか?

「ビッグデータ」と「人工知能」はテクノロジー業界で最も価値のある分野となっている。Apple、Go...

コンピュータービジョンを使用してフィッシング攻撃を検出するにはどうすればよいでしょうか?

好きでも嫌いでも、あるいは恐れていても、ChatGPT に代表される新興の人工知能 (AI) プラッ...

中国がAI技術をリードしているのは数学が優れているからでしょうか?米誌、中国と米国の数学教育の格差を指摘

米国のコンピューターサイエンス分野の博士課程学生の 64% 以上と修士課程学生の 70% 近くが留学...