NVIDIA H100の覇権に挑戦! IBMは人間の脳をシミュレートしてニューラルネットワークチップを作成し、効率を14倍向上させ、AIモデルの電力消費問題を解決しました

NVIDIA H100の覇権に挑戦! IBMは人間の脳をシミュレートしてニューラルネットワークチップを作成し、効率を14倍向上させ、AIモデルの電力消費問題を解決しました

最近、IBM は主要な GPU よりも 14 倍効率の高い新しい 14nm アナログ AI チップを発売し、H100 は価格以上の価値があるものとなりました。

論文アドレス: https://www.nature.com/articles/s41928-023-01010-1

現在、生成 AI の開発における最大の障害は、その驚異的な電力消費です。 AIに必要なリソースは持続的に増加することはできません。

IBM は AI コンピューティングを再構築する方法を研究してきました。彼らの主要な成果の 1 つは、アナログ インメモリ コンピューティング/アナログ人工知能アプローチです。これは、生物の脳内で実行されるニューラル ネットワークの主要な機能を活用して、エネルギー消費を削減できます。

このアプローチにより、計算に費やす時間と労力を最小限に抑えることができます。

Nvidia の独占は覆されるのか?

IBMのAIの未来に向けた最新の青写真:アナログAIチップはエネルギー効率が14倍向上

海外メディアInsiderによると、半導体調査会社SemiAnalysisの主任アナリストDylan Patel氏は、ChatGPTの運用には1日あたり70万ドル以上のコストがかかると分析した。

ChatGPT は、ユーザーのプロンプトに基づいて回答を生成するために大量の計算能力を必要とします。コストのほとんどは高価なサーバーで発生します。

今後、モデルのトレーニングとインフラストラクチャの実行にかかるコストは急騰するばかりです。

IBMはNature誌に論文を発表し、この新しいチップはエネルギー消費を削減することで、MidjourneyやGPT-4などの生成AI企業の構築と運営のプレッシャーを軽減できると述べた。

これらのアナログ チップは、アナログ信号で動作し、0 と 1 の間の段階的な遷移を理解できるが、異なるバイナリ信号でのみ動作するデジタル チップとは異なる方法で構築されています。

シミュレートされたメモリコンピューティング/シミュレートされた AI

IBM の新しいアプローチは、アナログ インメモリ コンピューティング、略してアナログ AI です。生物学的脳内でニューラル ネットワークが動作する主要な機能を活用することで、エネルギー消費を削減します。

人間や他の動物の脳では、シナプスの強さ(または「重み」)によってニューロンの通信方法が決まります。

アナログ AI システムの場合、IBM はこれらのシナプス重みをナノスケールの抵抗メモリ デバイス (相変化メモリ PCM など) のコンダクタンス値に保存し、回路法則を使用して、DNN の主な操作である乗算累算 (MAC) 操作を実行するためにメモリとプロセッサ間でデータを絶えず送信する必要性を減らします。

現在、多くの生成 AI プラットフォームは Nvidia の H100 と A100 を搭載しています。

しかし、IBM がチップのプロトタイプを繰り返し改良し、それを大衆市場に投入することに成功した場合、この新しいチップは Nvidia に取って代わり、新たな主力となる可能性が高い。

この 14nm アナログ AI チップは、各コンポーネントに 3,500 万個の相変化メモリ デバイスをエンコードし、最大 1,700 万個のパラメータをシミュレートできます。

さらに、このチップは人間の脳の働きを模倣しており、マイクロチップがメモリ内で直接計算を実行します。

このチップのシステムにより、デジタル ハードウェア設備に近い精度で、効率的な音声認識と文字起こしが可能になります。

このチップは約 14 倍強力で、以前のシミュレーションでは、このハードウェアは現在の主要な GPU よりも 40 ~ 140 倍のエネルギー効率が高いことが示されています。

PCMクロスバーアレイ、プログラミング、デジタル信号処理

この生成 AI 革命はまだ始まったばかりです。ディープニューラルネットワーク (DNN) は AI 分野に革命をもたらし、基本モデルと生成 AI の開発により注目を集めています。

ただし、これらのモデルを従来の数学コンピューティング アーキテクチャで実行すると、パフォーマンスとエネルギー効率が制限されます。

AI 推論用のハードウェアの開発は進歩していますが、これらのアーキテクチャの多くは、メモリと処理ユニットを物理的に分割しています。

つまり、AI モデルは通常、個別のメモリ位置に保存され、コンピューティング タスクを完了するには、データをメモリと処理ユニット間で絶えずシャッフルする必要があります。このプロセスにより計算速度が大幅に低下し、達成できる最大のエネルギー効率が制限されます。

位相構成とアドミタンスを使用してアナログシナプス重みを格納するPCMデバイスのパフォーマンス特性

IBM の相変化メモリ (PCM) ベースの AI アクセラレーション チップは、この制限を打ち破ります。

相変化メモリ (PCM) は、コンピューティングとストレージの融合を実現し、行列ベクトル乗算をメモリ内で直接実行できるため、データ転送の問題を回避できます。

同時に、IBMのアナログAIチップは、ハードウェアレベルのコンピューティングとストレージの融合を通じて効率的な人工知能推論の加速を実現しており、これはこの分野における重要な進歩です。

AIシミュレーションにおける2つの重要な課題

シミュレートされた AI の概念を現実のものにするには、次の 2 つの重要な課題を克服する必要があります。

1. メモリアレイの計算精度は、既存のデジタルシステムと同等でなければならない

2. メモリアレイは、アナログAIチップ上の他のデジタルコンピューティングユニットやデジタル通信構造とシームレスにインターフェースできる。

IBM は、この相変化メモリベースの AI アクセラレーション チップを、アルバニー ナノ テクノロジー センターで製造しました。

このチップは 64 個のアナログ インメモリ コンピューティング コアで構成されており、各コアにはシナプス ユニットの 256×256 クロスバー アレイが含まれています。

さらに、アナログとデジタルの世界間の変換を行うためのコンパクトな時間ベースのアナログ/デジタル コンバータが各チップに統合されています。

チップ内の軽量デジタル処理ユニットは、単純な非線形ニューロン活性化関数とスケーリング操作も実行できます。

各コアは、ディープ ニューラル ネットワーク (DNN) モデルのレイヤー (畳み込みレイヤーなど) に関連付けられた行列ベクトル乗算やその他の演算を実行できるタイルとして見ることができます。

重みマトリックスは PCM デバイスのアナログコンダクタンス値にエンコードされ、チップに保存されます。

チップのコアアレイの中央にグローバル デジタル処理ユニットが統合されており、行列ベクトル乗算よりも複雑ないくつかの演算を実行します。これは、特定の種類のニューラル ネットワーク (LSTM など) の実行に不可欠です。

コア間およびコアとグローバル ユニット間のデータ転送のために、チップ上のすべてのコアとグローバル デジタル処理ユニットの間にデジタル通信パスが統合されています。

a: 64 個のコアと 5616 個のパッドを示す電子設計自動化スナップショットとチップ顕微鏡写真

b: 64 個のコア、8 つのグローバル デジタル処理ユニット、コア間のデータ リンクなど、チップのさまざまなコンポーネントの概略図

c: 単一の PCM ベースのメモリ コンピューティング コアの構造

d: LSTM関連の計算に使用されるグローバルデジタル処理ユニットの構造

IBM はこのチップを使用して、アナログ インメモリ コンピューティングの計算精度に関する包括的な調査を実施し、CIFAR-10 画像データセットで 92.81% の精度を達成しました。

a: CIFAR-10 の ResNet-9 ネットワーク構造

b: ネットワークをチップ上にマッピングする方法

c: ハードウェアによるCIFAR-10テスト精度の達成

これは、同様の技術を使用したチップに関してこれまでに報告された中で最高の精度です。

IBM は、アナログ インメモリ コンピューティングを複数のデジタル処理ユニットおよびデジタル通信ファブリックとシームレスに組み合わせます。

このチップは、8 ビット入出力行列乗算で 400 GOPS/mm2 の面積スループットを実現しており、これは抵抗メモリに基づく従来のマルチコア メモリ コンピューティング チップの 15 倍以上であり、同等のエネルギー効率も達成しています。

IBM は、文字予測タスクと画像注釈生成タスクにおいて、ハードウェア上で測定した結果と他の方法を比較することにより、シミュレートされた AI チップ上で実行される関連タスクのネットワーク構造、重みプログラミング、および測定結果を実証しました。

文字予測のためのLSTM測定結果

画像キャプション生成のためのLSTMネットワークの測定結果

ウェイトプログラミングプロセス

Nvidia の堀は底なしなのか?

Nvidia の独占を打ち破るのはそんなに簡単なのでしょうか?

ナヴィーン・ラオ氏は神経科学出身のテクノロジー起業家で、世界有数の人工知能メーカーであるNvidiaと競争しようとしてきた。

「誰もがNvidiaをベースに構築している」とラオ氏は言う。「新しいハードウェアを発売したいなら、Nvidiaに追いついて競争しなければならない」

ラオ氏はインテルに買収されたスタートアップ企業で、Nvidia GPU を置き換えるよう設計されたチップの開発に携わっていたが、インテルを退職した後は、自身が率いるソフトウェアスタートアップ企業 MosaicML で Nvidia チップを使用していた。

ラオ氏は、NVIDIA はチップ分野で他の製品との大きな差を作っただけでなく、AI プログラマーの大規模なコミュニティを作ることでチップを超えた差別化も実現したと述べた。

AIプログラマーたちは同社の技術を活用して革新を起こしてきた。

Nvidia は 10 年以上にわたり、画像、顔、音声認識などの複雑な AI タスクを実行したり、ChatGPT のようなチャットボット用のテキストを生成したりできるチップの製造において、ほぼ揺るぎないリードを確立してきました。

このかつての業界の新興企業が AI チップ製造で優位に立つことができたのは、AI の発展動向を早くから認識し、これらのタスクに特化したチップをカスタマイズし、AI 開発を促進するための重要なソフトウェアを開発したためです。

それ以来、Nvidia の共同創設者兼 CEO である Jensen Huang 氏は、Nvidia の水準を引き上げ続けています。

これにより、Nvidia は AI 開発のワンストップサプライヤーになります。

調査会社オムディアによると、グーグル、アマゾン、メタ、IBMなどもAIチップを製造しているが、今のところAIチップの売り上げの70%以上をNvidiaが占めている。

今年6月、Nvidiaの時価総額は1兆ドルを超え、世界で最も価値の高いチップメーカーとなった。

「顧客が新興企業や他の競合他社の既成チップを買う代わりに、エヌビディアのシステムを買うのに18カ月も待つというのは信じられないことだ」とフューチュラム・グループのアナリスト、スティーブ・ジョブズ氏は語った。

NVIDIA、コンピューティングを改革

黄氏は1993年にビデオゲームのグラフィックをレンダリングするためのチップを製造するためにNvidiaを共同設立した。当時の標準的なマイクロプロセッサは複雑な計算を順番に実行するのに優れていましたが、Nvidia は複数の単純なタスクを同時に処理できる GPU を製造しました。

2006年、黄氏はこのプロセスをさらに一歩進めました。彼はCUDAと呼ばれるソフトウェア技術をリリースしました。これは、GPUを新しいタスク用にプログラムするのを支援し、GPUを単一目的のチップから、物理学や化学のシミュレーションなどの分野で他の作業を引き受けることができるより汎用的なチップへと変革します。

2012 年、研究者たちは GPU を使用して、画像内の猫の識別などのタスクで人間のような精度を達成しました。これは、テキスト プロンプトに基づいて画像を生成するなどの最近の開発の先駆けとなる大きな進歩でした。

Nvidia は、この作業に 10 年間で 300 億ドル以上の費用がかかり、同社が単なる部品サプライヤー以上の存在になったと見積もっています。同社は、一流の科学者やスタートアップ企業と協力するだけでなく、言語モデルの作成やトレーニングなど、AI 活動に直接関与するチームも編成しています。

さらに、実践者のニーズにより、NVIDIA は CUDA を超えて、数百のビルド済みコードのライブラリを含む、複数レイヤーの重要なソフトウェアを開発しました。

ハードウェアの面では、Nvidia は 2 ~ 3 年ごとにより高速なチップを継続的に提供することで定評を得ています。 2017年、Nvidiaは特定のAI計算を処理するためにGPUの調整を開始しました。

昨年9月、Nvidiaは、いわゆるTransformer操作を処理できるように改良されたH100という新しいチップを発表した。この種の計算は ChatGPT などのサービスの基礎であることが証明されており、Huang Renxun 氏はこれを生成 AI の「iPhone の瞬間」と呼んでいます。

現在、他のメーカーの製品がNvidiaのGPUと真っ向から競合できない限り、AIコンピューティング能力におけるNvidiaの現在の独占を打ち破ることは可能です。

IBMのアナログAIチップ、これは可能か?

<<:  3,000以上のデータから200を選択する方が実際にはより効果的であり、MiniGPT-4は同じ構成のモデルよりも優れている。

>>:  NVIDIA DLSS 3.5 がリリースされました!新しいAI「光再構成」は超リアルな光と影を実現し、新旧両方のグラフィックカードでサポートされています。

推薦する

自動運転における機械学習アルゴリズムの理解

機械学習アルゴリズムは、自動運転のさまざまなソリューションで広く使用されています。電子制御ユニットで...

...

...

AIに対する人々の偏見が良いことかもしれない理由

人工知能 (AI) や機械学習は人間よりも優れた能力を発揮するとよく言われますが、実際は AI や機...

最高裁判所も顔認識の乱用に対して行動を起こした。

生体認証技術である顔認証は、非接触、非強制、同時性などの特徴から、ますます広く利用され、人々の生活の...

...

...

配達員はSF映画のハイテク技術を駆使し、平地を歩いているかのように100キロの重量を運ぶ。

昨日、配達員の動画がインターネット上で話題になった。動画では、ハミングバードデリバリーの配達員がテイ...

農業ロボットは好機を迎え、10億ドル規模のビジネスになりつつある

最近、国連経済社会局は「世界人口見通し2022」を発表しました。この報告書によると、世界の人口は20...

新浪微博廖博:WAICリアルタイムストリームコンピューティングプラットフォームの成長と発展

[51CTO.com からのオリジナル記事] 7 年間の努力と見事な変貌。 2012年以降、6年連続...

...

アルゴリズムから離れた「ジレンマ」に直面し、専門家はシナリオベースの洗練されたガバナンスの実行を提案している。

アルゴリズムは人間の行動に基づいて「ロックイン効果」を生み出します。この法律では、ユーザーにパーソナ...

AI はクラウド コンピューティングをどのように改善するのでしょうか?

今日、AI とクラウド コンピューティングを組み合わせることで、企業はデータを管理し、情報のパターン...

ビッグデータは経済生活に影響を与え、AIの基礎となる

[[204536]] AIと企業にとってビッグデータの重要性とは何でしょうか?ビッグデータマイニング...

神州太悦:インテリジェントセマンティック産業プラットフォームが正式に開始、無料かつオープンなセマンティック基本サービス

諺にあるように、森の中で目立ち、評判の良い木は、多くの貪欲な人々を引き付けます。認知知能は、業界では...