3Dチップ技術がコンピューティングに破壊的な変化をもたらす3つの方法:AMD、Graphcore、Intelはそれぞれ独自の秘策を秘めている

3Dチップ技術がコンピューティングに破壊的な変化をもたらす3つの方法:AMD、Graphcore、Intelはそれぞれ独自の秘策を秘めている

高性能プロセッサに関する研究は、ムーアの法則を継続する新たな方向性が到来していることを示しています。各世代のプロセッサは、前世代よりも優れたパフォーマンスを発揮する必要があり、それはシリコン チップ上にさらに多くのロジック回路を統合することも意味します。しかし、チップ製造には 2 つの問題があります。トランジスタと、それが構成するロジックおよびメモリのブロックを縮小する能力が低下していること、そしてチップがサイズの限界に達していることです。

ムーアの法則。画像出典: wikipedia

リソグラフィーツールは、最上位のNvidia GPUとほぼ同じサイズである約850平方ミリメートルの領域しか印刷できません。

近年、システムオンチップの開発者は、より大きなチップ設計を小さなチップに分割し、それらを同じパッケージ内で接続し始めています。 CPU では、接続技術は主に 2.5D パッケージングであり、チップレットが互いに隣接して配置され、短くて高密度の相互接続を使用して接続されます。ほとんどのメーカーが 2.5D「チップレット間」通信規格に同意したため、この統合の勢いは今後も拡大し続けるでしょう。

しかし、データストレージのニーズが増加するにつれて、同じチップに大量のデータを保存するには、より短く高密度な接続が必要になり、これは 1 つのチップを別のチップの上に積み重ねることによってのみ実現できます。 2 つのチップを接続するということは、チップ間の 1 平方ミリメートルあたり数千の接続を作成することを意味します。

これを実現するには多くの革新が必要でした。エンジニアは、スタック内の 1 つのチップが過熱して別のチップを破壊しないようにする方法や、たまに不良チップが発生してシステム全体がダウンしないようにする方法などを考え出す必要があったからです。

最近、半導体担当のIEEE Spectrum上級編集者サミュエル・K・ムーア氏が、3Dチップ技術がコンピューティングに破壊的な変化をもたらす3つの方法を紹介する記事を執筆し、主にAMD、Graphcore、Intelの業界をリードする優位性を紹介しました。

AMD ゼン3

パーソナルコンピュータには、非常に大規模なアプリケーションやデータ集約型の作業を高速化するために、メモリを追加するオプションが長い間存在してきました。 AMD の次世代 CPU チップレットは、3D ダイ スタッキングによりこのオプションを提供します。

Zen 2 と Zen 3 のプロセッサ コアはどちらも同じ TSMC 製造プロセスを使用しているため、トランジスタや相互接続などのサイズは同じです。 AMD はアーキテクチャに多くの変更を加え、追加のキャッシュ メモリがなくても、Zen 3 は平均 19% のパフォーマンス向上を実現します。

Zen 3 アーキテクチャのハイライトの 1 つは、複数のチップを相互に接続する方法であるシリコン貫通ビア (TSV) を使用したチップの垂直スタッキングであることは特筆に値します。 TSV は、Zen 3 の最高レベルのキャッシュ、つまりコンピューティング チップレットの中央にあり、8 つのコアすべてで共有される L3 と呼ばれる SRAM ブロックに組み込まれています。

データ量の多いプロセッサでは、Zen 3 ウェーハの裏面が TSV が露出するまで薄くされ、その後、銅の冷間溶接に似たプロセスであるハイブリッド接合を使用して、64 メガバイトの SRAM チップレットが露出した TSV に接続されます。その結果、9 ミクロンという高密度の接続が実現します。最後に、構造の安定性と熱伝導のために、空のシリコン チップが Zen 3 CPU ダイの残りの部分に取り付けられます (ダイまたは CPU ダイは、プロセッサの製造プロセス中にウェーハから切り取られた小さな四角形を指します)。

AMD 3D V-Cache テクノロジーは、64 メガバイトの SRAM キャッシュ (赤) と 2 つの空のファブリック チップレットを Zen 3 コンピューティング チップレットにスタックします。

「CPU ダイの隣に空のシリコン チップレットを配置してメモリを追加することは、データがプロセッサ コアに到達するまでに時間がかかりすぎるため、お勧めできません。L3 キャッシュ サイズが 3 倍になったにもかかわらず、3D V-Cache ではレイテンシが 4 クロック サイクルしか追加されません。これは 3D スタッキングによってのみ可能になります」と、AMD のシニア デザイン エンジニアである John Wuu 氏は述べています。

大容量のキャッシュはハイエンドのゲームで役立ち、3D V-Cache を搭載したデスクトップ Ryzen CPU では 1080p ゲームが平均 15% 高速化されます。ウー氏は、ロジック機能の縮小に比べて、SRAM を縮小する業界の能力は低下していると指摘した。したがって、コンピューティング チップレットがムーアの法則の最前線に押し上げられる一方で、SRAM のスケーリングはより成熟した製造プロセスを使用して継続すると予測できます。

Graphcore Bow AI プロセッサー

3D 統合により、スタック内のチップにトランジスタがなくてもコンピューティングを高速化できます。英国を拠点とする AI コンピューター企業 Graphcore は、AI プロセッサに電力供給チップをインストールするだけで、システム パフォーマンスを大幅に向上させました。

電力供給シリコンの追加により、Bow と呼ばれる統合チップは、前世代のチップよりも高速 (1.85 GHz 対 1.35 GHz) かつ低電圧で動作できるようになります。これは、コンピューターがニューラル ネットワークを 40% 高速にトレーニングでき、前世代よりも 16% 少ないエネルギーでトレーニングできることを意味します。何よりも、ユーザーはこの改善を得るためにソフトウェアを変更する必要がありません。

電源管理ダイは、コンデンサとシリコン貫通ビアのスタックで構成されており、シリコン貫通ビアはプロセッサ チップに電力とデータを供給しますが、実際に違いを生み出すのはコンデンサです。 DRAM のビット ストレージ コンポーネントと同様に、これらのコンデンサはシリコンの深く狭い溝に形成されます。これらの電荷貯蔵庫はプロセッサのトランジスタに非常に近いため、電力供給がスムーズになり、プロセッサ コアはより低い電圧でより高速に動作できるようになります。

電力供給チップがなければ、プロセッサは 1.85 GHz で動作するために動作電圧を公称レベルより高くする必要があり、より多くの電力を消費することになります。パワーチップを使用することで、所定のクロック周波数を実現し、消費電力を抑えることもできます。

Graphcore Bow AI アクセラレータは 3D チップスタッキングを使用してパフォーマンスを 40% 向上させます。

Bow の製造工程は独特です。ほとんどの 3D スタッキングは、チップレットを別のチップレットに接着することによって行われます。チップレットの 1 つはまだウェーハ上にあり、チップオンウェーハと呼ばれます (上記の AMD の Zen 3 を参照)。代わりに、ボウ氏はTSMCの「ウェーハ・ツー・ウェーハ」プロセスを使用した。このプロセスでは、あるタイプのウェーハ全体を別のタイプのウェーハ全体に結合し、その後チップに切り分ける。

グラフコア社の最高技術責任者サイモン・ノウルズ氏は、このチップは市場で初めてこの技術を採用したものであり、この技術により、ウエハーベースのチッププロセスで達成できるものよりも高密度の2つのダイ間の接続が可能になると語った。

ボウ-2000

電力供給チップレットにはトランジスタはありませんが、近い将来に登場する可能性があります。ノウルズ氏は、この技術を電力伝送のみに使用するのは単なる第一歩に過ぎず、近い将来にはさらに進歩するだろうと述べた。

詳細については、https://spectrum.ieee.org/graphcore-ai-processor を参照してください。

インテルのポンテ・ヴェッキオ・スーパーコンピュータチップ

Aurora スーパーコンピュータは、エクサフロップスの壁(1 秒あたり 10 億回の高精度浮動小数点計算)を突破する米国初の高性能コンピュータ (HPC) の 1 つとなるように設計されています。 Aurora のこれらのパフォーマンス目標を達成するために、Ponte Vecchio は 47 枚のシリコン ウェハー上に 1,000 億を超えるトランジスタを 1 つのプロセッサに詰め込みました。 Intel は 2.5D と 3D の両方の技術を使用して、3,100 平方ミリメートルのシリコン (ほぼ 4 つの Nvidia A100 GPU のサイズ) を 2,330 平方ミリメートルのスペースに押し込みました。

Intel の Ponte Vecchio プロセッサは、47 個のチップレットを 1 つのプロセッサに統合しています。

各 Ponte Vecchio は、実際には Intel の 2.5D 統合テクノロジ Co-EMIB を使用して互いに接続された 2 セットのミラー チップであり、2 つの 3D チップレット スタック間に高密度相互接続ブリッジを形成します。 「ブリッジ」自体は、カプセル化する有機基板に埋め込まれた小さなシリコン片であり、シリコン上の相互接続の密度は有機基板上の密度の 2 倍になることがあります。 Co-EMIB ダイは、高帯域幅メモリと I/O チップレットをベース タイル (他のチップレットが積み重ねられる最大のチップレット) に接続します。

ベース タイルは、コンピューティング チップレットとキャッシュ チップレットが積み重ねられる、Foveros と呼ばれる Intel の 3D スタッキング テクノロジを使用します。この技術により、2 つのチップ間に 36 ミクロンのダイツーダイ垂直接続の高密度アレイが作成されます。信号と電力は、シリコンの大きな部分を直接貫通する幅広の垂直相互接続であるシリコン貫通ビアを通じてこのスタックに入ります。

フォベロス

8 つのコンピューティング タイル、4 つのキャッシュ タイル、およびプロセッサ冷却用の 8 つの空白タイルがすべてベース タイルに接続されています。ベース タイル自体は、キャッシュ メモリと、コンピューティング タイルがメモリにアクセスできるようにするネットワークを提供します。

インテルの研究者ゴメス氏はこう語った。「どれも簡単なことではありません。ポンテ・ヴェッキオは、歩留まり管理、クロック回路、熱制御、電力供給において革新を起こしてきました。」たとえば、Intel のエンジニアは、パッケージングを簡素化できるほど電流が低くなるように、プロセッサに通常よりも高い電圧 (1.8 ボルト) を供給することを選択しました。ベース タイルの回路はコンピューティング タイルの電圧を約 0.7 V まで下げるため、各コンピューティング タイルにはベース タイル内に独自の電源ドメインが必要です。鍵となるのは、同軸磁気集積インダクタと呼ばれる新しいタイプの高効率インダクタです。これらはパッケージ基板に組み込まれているため、コンピューティング タイルに電圧が供給される前に、回路はベース タイルとパッケージの間を実際に行き来します。

ゴメス氏は、2008年の最初のペタフロップス・スーパーコンピューターから今年のエクサフロップスまで14年かかり、3Dスタッキングなどの高度なパッケージング技術が計算能力の向上に役立つだろうと述べた。​

<<:  清華大学、DeepMindなどは、既存の小サンプル学習法は安定的かつ効果的ではないと指摘し、評価フレームワークを提案した。

>>:  なぜ私たちは、AI による顔の変形が「偽物」だと今でも思っているのでしょうか?

ブログ    
ブログ    

推薦する

NLPとナレッジグラフの統合

この記事は、中国情報処理学会の事務局長である白碩博士が杭州金融ナレッジグラフフォーラムで行った講演を...

企業が人工知能を応用する際に直面する課題

[[340820]] [51CTO.com クイック翻訳] 過去10年間、人工知能をめぐって大きな議...

ヘルスケアにおける人工知能の機会とリスク

人工知能 (AI) が医療分野において大きなチャンスと潜在的なリスクを抱えていることはよく知られてい...

著者の半数以上が中国人です! Google Researchの画像表現モデルALIGNがImageNetを支配

[[399343]]ニューラル ネットワークは実際には表現を学習しています。CV の分野では、優れ...

...

「アルゴリズムとデータ構造」では、バックトラッキングアルゴリズムの美しさを紹介します。

[[345679]]序文今回は、バックトラッキング アルゴリズムについて確認します。この問題解決の...

10年後の市場規模は1.3兆ドル。「モデル電源時代」到来

半年以上にわたる大規模なモデル嵐の後、AIGC 市場には新たな変化が起こり始めました。クールな技術デ...

...

自動運転車がキャンパスの食事を配達するために走行中:サービス料金は15分以内で13元にも達する

海外メディアの報道によると、米国のジョージ・メイソン大学は、無人車両による食品配達サービスを開始し、...

ジャック・マー:機械が人間に取って代わることは決してできない!それは何に代わるのでしょうか?

近年、人工知能、クラウドコンピューティング、ビッグデータ、モノのインターネット、産業用インターネット...

AIの威力を改めて見せつける! Baidu Map 20分間のカスタマイズされたパーソナル音声パッケージ

百度地図は9月19日、「あなたのための『音声』、そして『AI』」記者会見で「音声カスタマイズ機能」を...

優れたオープンソース音声認識エンジン13選

自動音声認識 (ASR) は、人間とコンピュータの相互作用において重要な役割を果たし、転写、翻訳、デ...

GPT-4を無料で入手するための5つのツール

翻訳者 |陳俊レビュー | Chonglou OpenAIがもたらしたGPT-4が、世界で最も人気が...

...

AIが有名人に似た人を紹介

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...