3Dチップ技術がコンピューティングに破壊的な変化をもたらす3つの方法：AMD、Graphcore、Intelはそれぞれ独自の秘策を秘めている

高性能プロセッサに関する研究は、ムーアの法則を継続する新たな方向性が到来していることを示しています。各世代のプロセッサは、前世代よりも優れたパフォーマンスを発揮する必要があり、それはシリコンチップ上にさらに多くのロジック回路を統合することも意味します。しかし、チップ製造には 2 つの問題があります。トランジスタと、それが構成するロジックおよびメモリのブロックを縮小する能力が低下していること、そしてチップがサイズの限界に達していることです。

ムーアの法則。画像出典: wikipedia

リソグラフィーツールは、最上位のNvidia GPUとほぼ同じサイズである約850平方ミリメートルの領域しか印刷できません。

近年、システムオンチップの開発者は、より大きなチップ設計を小さなチップに分割し、それらを同じパッケージ内で接続し始めています。 CPU では、接続技術は主に 2.5D パッケージングであり、チップレットが互いに隣接して配置され、短くて高密度の相互接続を使用して接続されます。ほとんどのメーカーが 2.5D「チップレット間」通信規格に同意したため、この統合の勢いは今後も拡大し続けるでしょう。

しかし、データストレージのニーズが増加するにつれて、同じチップに大量のデータを保存するには、より短く高密度な接続が必要になり、これは 1 つのチップを別のチップの上に積み重ねることによってのみ実現できます。 2 つのチップを接続するということは、チップ間の 1 平方ミリメートルあたり数千の接続を作成することを意味します。

これを実現するには多くの革新が必要でした。エンジニアは、スタック内の 1 つのチップが過熱して別のチップを破壊しないようにする方法や、たまに不良チップが発生してシステム全体がダウンしないようにする方法などを考え出す必要があったからです。

最近、半導体担当のIEEE Spectrum上級編集者サミュエル・K・ムーア氏が、3Dチップ技術がコンピューティングに破壊的な変化をもたらす3つの方法を紹介する記事を執筆し、主にAMD、Graphcore、Intelの業界をリードする優位性を紹介しました。

AMD ゼン3

パーソナルコンピュータには、非常に大規模なアプリケーションやデータ集約型の作業を高速化するために、メモリを追加するオプションが長い間存在してきました。 AMD の次世代 CPU チップレットは、3D ダイスタッキングによりこのオプションを提供します。

Zen 2 と Zen 3 のプロセッサコアはどちらも同じ TSMC 製造プロセスを使用しているため、トランジスタや相互接続などのサイズは同じです。 AMD はアーキテクチャに多くの変更を加え、追加のキャッシュメモリがなくても、Zen 3 は平均 19% のパフォーマンス向上を実現します。

Zen 3 アーキテクチャのハイライトの 1 つは、複数のチップを相互に接続する方法であるシリコン貫通ビア (TSV) を使用したチップの垂直スタッキングであることは特筆に値します。 TSV は、Zen 3 の最高レベルのキャッシュ、つまりコンピューティングチップレットの中央にあり、8 つのコアすべてで共有される L3 と呼ばれる SRAM ブロックに組み込まれています。

データ量の多いプロセッサでは、Zen 3 ウェーハの裏面が TSV が露出するまで薄くされ、その後、銅の冷間溶接に似たプロセスであるハイブリッド接合を使用して、64 メガバイトの SRAM チップレットが露出した TSV に接続されます。その結果、9 ミクロンという高密度の接続が実現します。最後に、構造の安定性と熱伝導のために、空のシリコンチップが Zen 3 CPU ダイの残りの部分に取り付けられます (ダイまたは CPU ダイは、プロセッサの製造プロセス中にウェーハから切り取られた小さな四角形を指します)。

AMD 3D V-Cache テクノロジーは、64 メガバイトの SRAM キャッシュ (赤) と 2 つの空のファブリックチップレットを Zen 3 コンピューティングチップレットにスタックします。

「CPU ダイの隣に空のシリコンチップレットを配置してメモリを追加することは、データがプロセッサコアに到達するまでに時間がかかりすぎるため、お勧めできません。L3 キャッシュサイズが 3 倍になったにもかかわらず、3D V-Cache ではレイテンシが 4 クロックサイクルしか追加されません。これは 3D スタッキングによってのみ可能になります」と、AMD のシニアデザインエンジニアである John Wuu 氏は述べています。

大容量のキャッシュはハイエンドのゲームで役立ち、3D V-Cache を搭載したデスクトップ Ryzen CPU では 1080p ゲームが平均 15% 高速化されます。ウー氏は、ロジック機能の縮小に比べて、SRAM を縮小する業界の能力は低下していると指摘した。したがって、コンピューティングチップレットがムーアの法則の最前線に押し上げられる一方で、SRAM のスケーリングはより成熟した製造プロセスを使用して継続すると予測できます。

Graphcore Bow AI プロセッサー

3D 統合により、スタック内のチップにトランジスタがなくてもコンピューティングを高速化できます。英国を拠点とする AI コンピューター企業 Graphcore は、AI プロセッサに電力供給チップをインストールするだけで、システムパフォーマンスを大幅に向上させました。

電力供給シリコンの追加により、Bow と呼ばれる統合チップは、前世代のチップよりも高速 (1.85 GHz 対 1.35 GHz) かつ低電圧で動作できるようになります。これは、コンピューターがニューラルネットワークを 40% 高速にトレーニングでき、前世代よりも 16% 少ないエネルギーでトレーニングできることを意味します。何よりも、ユーザーはこの改善を得るためにソフトウェアを変更する必要がありません。

電源管理ダイは、コンデンサとシリコン貫通ビアのスタックで構成されており、シリコン貫通ビアはプロセッサチップに電力とデータを供給しますが、実際に違いを生み出すのはコンデンサです。 DRAM のビットストレージコンポーネントと同様に、これらのコンデンサはシリコンの深く狭い溝に形成されます。これらの電荷貯蔵庫はプロセッサのトランジスタに非常に近いため、電力供給がスムーズになり、プロセッサコアはより低い電圧でより高速に動作できるようになります。

電力供給チップがなければ、プロセッサは 1.85 GHz で動作するために動作電圧を公称レベルより高くする必要があり、より多くの電力を消費することになります。パワーチップを使用することで、所定のクロック周波数を実現し、消費電力を抑えることもできます。

Graphcore Bow AI アクセラレータは 3D チップスタッキングを使用してパフォーマンスを 40% 向上させます。

Bow の製造工程は独特です。ほとんどの 3D スタッキングは、チップレットを別のチップレットに接着することによって行われます。チップレットの 1 つはまだウェーハ上にあり、チップオンウェーハと呼ばれます (上記の AMD の Zen 3 を参照)。代わりに、ボウ氏はTSMCの「ウェーハ・ツー・ウェーハ」プロセスを使用した。このプロセスでは、あるタイプのウェーハ全体を別のタイプのウェーハ全体に結合し、その後チップに切り分ける。

グラフコア社の最高技術責任者サイモン・ノウルズ氏は、このチップは市場で初めてこの技術を採用したものであり、この技術により、ウエハーベースのチッププロセスで達成できるものよりも高密度の2つのダイ間の接続が可能になると語った。

ボウ-2000

電力供給チップレットにはトランジスタはありませんが、近い将来に登場する可能性があります。ノウルズ氏は、この技術を電力伝送のみに使用するのは単なる第一歩に過ぎず、近い将来にはさらに進歩するだろうと述べた。

詳細については、https://spectrum.ieee.org/graphcore-ai-processor を参照してください。

インテルのポンテ・ヴェッキオ・スーパーコンピュータチップ

Aurora スーパーコンピュータは、エクサフロップスの壁（1 秒あたり 10 億回の高精度浮動小数点計算）を突破する米国初の高性能コンピュータ (HPC) の 1 つとなるように設計されています。 Aurora のこれらのパフォーマンス目標を達成するために、Ponte Vecchio は 47 枚のシリコンウェハー上に 1,000 億を超えるトランジスタを 1 つのプロセッサに詰め込みました。 Intel は 2.5D と 3D の両方の技術を使用して、3,100 平方ミリメートルのシリコン (ほぼ 4 つの Nvidia A100 GPU のサイズ) を 2,330 平方ミリメートルのスペースに押し込みました。

Intel の Ponte Vecchio プロセッサは、47 個のチップレットを 1 つのプロセッサに統合しています。

各 Ponte Vecchio は、実際には Intel の 2.5D 統合テクノロジ Co-EMIB を使用して互いに接続された 2 セットのミラーチップであり、2 つの 3D チップレットスタック間に高密度相互接続ブリッジを形成します。「ブリッジ」自体は、カプセル化する有機基板に埋め込まれた小さなシリコン片であり、シリコン上の相互接続の密度は有機基板上の密度の 2 倍になることがあります。 Co-EMIB ダイは、高帯域幅メモリと I/O チップレットをベースタイル (他のチップレットが積み重ねられる最大のチップレット) に接続します。

ベースタイルは、コンピューティングチップレットとキャッシュチップレットが積み重ねられる、Foveros と呼ばれる Intel の 3D スタッキングテクノロジを使用します。この技術により、2 つのチップ間に 36 ミクロンのダイツーダイ垂直接続の高密度アレイが作成されます。信号と電力は、シリコンの大きな部分を直接貫通する幅広の垂直相互接続であるシリコン貫通ビアを通じてこのスタックに入ります。

フォベロス

8 つのコンピューティングタイル、4 つのキャッシュタイル、およびプロセッサ冷却用の 8 つの空白タイルがすべてベースタイルに接続されています。ベースタイル自体は、キャッシュメモリと、コンピューティングタイルがメモリにアクセスできるようにするネットワークを提供します。

インテルの研究者ゴメス氏はこう語った。「どれも簡単なことではありません。ポンテ・ヴェッキオは、歩留まり管理、クロック回路、熱制御、電力供給において革新を起こしてきました。」たとえば、Intel のエンジニアは、パッケージングを簡素化できるほど電流が低くなるように、プロセッサに通常よりも高い電圧 (1.8 ボルト) を供給することを選択しました。ベースタイルの回路はコンピューティングタイルの電圧を約 0.7 V まで下げるため、各コンピューティングタイルにはベースタイル内に独自の電源ドメインが必要です。鍵となるのは、同軸磁気集積インダクタと呼ばれる新しいタイプの高効率インダクタです。これらはパッケージ基板に組み込まれているため、コンピューティングタイルに電圧が供給される前に、回路はベースタイルとパッケージの間を実際に行き来します。

ゴメス氏は、2008年の最初のペタフロップス・スーパーコンピューターから今年のエクサフロップスまで14年かかり、3Dスタッキングなどの高度なパッケージング技術が計算能力の向上に役立つだろうと述べた。

<<: 清華大学、DeepMindなどは、既存の小サンプル学習法は安定的かつ効果的ではないと指摘し、評価フレームワークを提案した。

>>: なぜ私たちは、AI による顔の変形が「偽物」だと今でも思っているのでしょうか?