NVIDIA H100の覇権に挑戦！ IBMは人間の脳をシミュレートしてニューラルネットワークチップを作成し、効率を14倍向上させ、AIモデルの電力消費問題を解決しました

最近、IBM は主要な GPU よりも 14 倍効率の高い新しい 14nm アナログ AI チップを発売し、H100 は価格以上の価値があるものとなりました。

論文アドレス: https://www.nature.com/articles/s41928-023-01010-1

現在、生成 AI の開発における最大の障害は、その驚異的な電力消費です。 AIに必要なリソースは持続的に増加することはできません。

IBM は AI コンピューティングを再構築する方法を研究してきました。彼らの主要な成果の 1 つは、アナログインメモリコンピューティング/アナログ人工知能アプローチです。これは、生物の脳内で実行されるニューラルネットワークの主要な機能を活用して、エネルギー消費を削減できます。

このアプローチにより、計算に費やす時間と労力を最小限に抑えることができます。

Nvidia の独占は覆されるのか?

IBMのAIの未来に向けた最新の青写真：アナログAIチップはエネルギー効率が14倍向上

海外メディアInsiderによると、半導体調査会社SemiAnalysisの主任アナリストDylan Patel氏は、ChatGPTの運用には1日あたり70万ドル以上のコストがかかると分析した。

ChatGPT は、ユーザーのプロンプトに基づいて回答を生成するために大量の計算能力を必要とします。コストのほとんどは高価なサーバーで発生します。

今後、モデルのトレーニングとインフラストラクチャの実行にかかるコストは急騰するばかりです。

IBMはNature誌に論文を発表し、この新しいチップはエネルギー消費を削減することで、MidjourneyやGPT-4などの生成AI企業の構築と運営のプレッシャーを軽減できると述べた。

これらのアナログチップは、アナログ信号で動作し、0 と 1 の間の段階的な遷移を理解できるが、異なるバイナリ信号でのみ動作するデジタルチップとは異なる方法で構築されています。

シミュレートされたメモリコンピューティング/シミュレートされた AI

IBM の新しいアプローチは、アナログインメモリコンピューティング、略してアナログ AI です。生物学的脳内でニューラルネットワークが動作する主要な機能を活用することで、エネルギー消費を削減します。

人間や他の動物の脳では、シナプスの強さ（または「重み」）によってニューロンの通信方法が決まります。

アナログ AI システムの場合、IBM はこれらのシナプス重みをナノスケールの抵抗メモリデバイス (相変化メモリ PCM など) のコンダクタンス値に保存し、回路法則を使用して、DNN の主な操作である乗算累算 (MAC) 操作を実行するためにメモリとプロセッサ間でデータを絶えず送信する必要性を減らします。

現在、多くの生成 AI プラットフォームは Nvidia の H100 と A100 を搭載しています。

しかし、IBM がチップのプロトタイプを繰り返し改良し、それを大衆市場に投入することに成功した場合、この新しいチップは Nvidia に取って代わり、新たな主力となる可能性が高い。

この 14nm アナログ AI チップは、各コンポーネントに 3,500 万個の相変化メモリデバイスをエンコードし、最大 1,700 万個のパラメータをシミュレートできます。

さらに、このチップは人間の脳の働きを模倣しており、マイクロチップがメモリ内で直接計算を実行します。

このチップのシステムにより、デジタルハードウェア設備に近い精度で、効率的な音声認識と文字起こしが可能になります。

このチップは約 14 倍強力で、以前のシミュレーションでは、このハードウェアは現在の主要な GPU よりも 40 ～ 140 倍のエネルギー効率が高いことが示されています。

PCMクロスバーアレイ、プログラミング、デジタル信号処理

この生成 AI 革命はまだ始まったばかりです。ディープニューラルネットワーク (DNN) は AI 分野に革命をもたらし、基本モデルと生成 AI の開発により注目を集めています。

ただし、これらのモデルを従来の数学コンピューティングアーキテクチャで実行すると、パフォーマンスとエネルギー効率が制限されます。

AI 推論用のハードウェアの開発は進歩していますが、これらのアーキテクチャの多くは、メモリと処理ユニットを物理的に分割しています。

つまり、AI モデルは通常、個別のメモリ位置に保存され、コンピューティングタスクを完了するには、データをメモリと処理ユニット間で絶えずシャッフルする必要があります。このプロセスにより計算速度が大幅に低下し、達成できる最大のエネルギー効率が制限されます。

位相構成とアドミタンスを使用してアナログシナプス重みを格納するPCMデバイスのパフォーマンス特性

IBM の相変化メモリ (PCM) ベースの AI アクセラレーションチップは、この制限を打ち破ります。

相変化メモリ (PCM) は、コンピューティングとストレージの融合を実現し、行列ベクトル乗算をメモリ内で直接実行できるため、データ転送の問題を回避できます。

同時に、IBMのアナログAIチップは、ハードウェアレベルのコンピューティングとストレージの融合を通じて効率的な人工知能推論の加速を実現しており、これはこの分野における重要な進歩です。

AIシミュレーションにおける2つの重要な課題

シミュレートされた AI の概念を現実のものにするには、次の 2 つの重要な課題を克服する必要があります。

1. メモリアレイの計算精度は、既存のデジタルシステムと同等でなければならない

2. メモリアレイは、アナログAIチップ上の他のデジタルコンピューティングユニットやデジタル通信構造とシームレスにインターフェースできる。

IBM は、この相変化メモリベースの AI アクセラレーションチップを、アルバニーナノテクノロジーセンターで製造しました。

このチップは 64 個のアナログインメモリコンピューティングコアで構成されており、各コアにはシナプスユニットの 256×256 クロスバーアレイが含まれています。

さらに、アナログとデジタルの世界間の変換を行うためのコンパクトな時間ベースのアナログ/デジタルコンバータが各チップに統合されています。

チップ内の軽量デジタル処理ユニットは、単純な非線形ニューロン活性化関数とスケーリング操作も実行できます。

各コアは、ディープニューラルネットワーク (DNN) モデルのレイヤー (畳み込みレイヤーなど) に関連付けられた行列ベクトル乗算やその他の演算を実行できるタイルとして見ることができます。

重みマトリックスは PCM デバイスのアナログコンダクタンス値にエンコードされ、チップに保存されます。

チップのコアアレイの中央にグローバルデジタル処理ユニットが統合されており、行列ベクトル乗算よりも複雑ないくつかの演算を実行します。これは、特定の種類のニューラルネットワーク (LSTM など) の実行に不可欠です。

コア間およびコアとグローバルユニット間のデータ転送のために、チップ上のすべてのコアとグローバルデジタル処理ユニットの間にデジタル通信パスが統合されています。

a: 64 個のコアと 5616 個のパッドを示す電子設計自動化スナップショットとチップ顕微鏡写真

b: 64 個のコア、8 つのグローバルデジタル処理ユニット、コア間のデータリンクなど、チップのさまざまなコンポーネントの概略図

c: 単一の PCM ベースのメモリコンピューティングコアの構造

d: LSTM関連の計算に使用されるグローバルデジタル処理ユニットの構造

IBM はこのチップを使用して、アナログインメモリコンピューティングの計算精度に関する包括的な調査を実施し、CIFAR-10 画像データセットで 92.81% の精度を達成しました。

a: CIFAR-10 の ResNet-9 ネットワーク構造

b: ネットワークをチップ上にマッピングする方法

c: ハードウェアによるCIFAR-10テスト精度の達成

これは、同様の技術を使用したチップに関してこれまでに報告された中で最高の精度です。

IBM は、アナログインメモリコンピューティングを複数のデジタル処理ユニットおよびデジタル通信ファブリックとシームレスに組み合わせます。

このチップは、8 ビット入出力行列乗算で 400 GOPS/mm2 の面積スループットを実現しており、これは抵抗メモリに基づく従来のマルチコアメモリコンピューティングチップの 15 倍以上であり、同等のエネルギー効率も達成しています。

IBM は、文字予測タスクと画像注釈生成タスクにおいて、ハードウェア上で測定した結果と他の方法を比較することにより、シミュレートされた AI チップ上で実行される関連タスクのネットワーク構造、重みプログラミング、および測定結果を実証しました。

文字予測のためのLSTM測定結果

画像キャプション生成のためのLSTMネットワークの測定結果

ウェイトプログラミングプロセス

Nvidia の堀は底なしなのか?

Nvidia の独占を打ち破るのはそんなに簡単なのでしょうか?

ナヴィーン・ラオ氏は神経科学出身のテクノロジー起業家で、世界有数の人工知能メーカーであるNvidiaと競争しようとしてきた。

「誰もがNvidiaをベースに構築している」とラオ氏は言う。「新しいハードウェアを発売したいなら、Nvidiaに追いついて競争しなければならない」

ラオ氏はインテルに買収されたスタートアップ企業で、Nvidia GPU を置き換えるよう設計されたチップの開発に携わっていたが、インテルを退職した後は、自身が率いるソフトウェアスタートアップ企業 MosaicML で Nvidia チップを使用していた。

ラオ氏は、NVIDIA はチップ分野で他の製品との大きな差を作っただけでなく、AI プログラマーの大規模なコミュニティを作ることでチップを超えた差別化も実現したと述べた。

AIプログラマーたちは同社の技術を活用して革新を起こしてきた。

Nvidia は 10 年以上にわたり、画像、顔、音声認識などの複雑な AI タスクを実行したり、ChatGPT のようなチャットボット用のテキストを生成したりできるチップの製造において、ほぼ揺るぎないリードを確立してきました。

このかつての業界の新興企業が AI チップ製造で優位に立つことができたのは、AI の発展動向を早くから認識し、これらのタスクに特化したチップをカスタマイズし、AI 開発を促進するための重要なソフトウェアを開発したためです。

それ以来、Nvidia の共同創設者兼 CEO である Jensen Huang 氏は、Nvidia の水準を引き上げ続けています。

これにより、Nvidia は AI 開発のワンストップサプライヤーになります。

調査会社オムディアによると、グーグル、アマゾン、メタ、IBMなどもAIチップを製造しているが、今のところAIチップの売り上げの70％以上をNvidiaが占めている。

今年6月、Nvidiaの時価総額は1兆ドルを超え、世界で最も価値の高いチップメーカーとなった。

「顧客が新興企業や他の競合他社の既成チップを買う代わりに、エヌビディアのシステムを買うのに18カ月も待つというのは信じられないことだ」とフューチュラム・グループのアナリスト、スティーブ・ジョブズ氏は語った。

NVIDIA、コンピューティングを改革

黄氏は1993年にビデオゲームのグラフィックをレンダリングするためのチップを製造するためにNvidiaを共同設立した。当時の標準的なマイクロプロセッサは複雑な計算を順番に実行するのに優れていましたが、Nvidia は複数の単純なタスクを同時に処理できる GPU を製造しました。

2006年、黄氏はこのプロセスをさらに一歩進めました。彼はCUDAと呼ばれるソフトウェア技術をリリースしました。これは、GPUを新しいタスク用にプログラムするのを支援し、GPUを単一目的のチップから、物理学や化学のシミュレーションなどの分野で他の作業を引き受けることができるより汎用的なチップへと変革します。

2012 年、研究者たちは GPU を使用して、画像内の猫の識別などのタスクで人間のような精度を達成しました。これは、テキストプロンプトに基づいて画像を生成するなどの最近の開発の先駆けとなる大きな進歩でした。

Nvidia は、この作業に 10 年間で 300 億ドル以上の費用がかかり、同社が単なる部品サプライヤー以上の存在になったと見積もっています。同社は、一流の科学者やスタートアップ企業と協力するだけでなく、言語モデルの作成やトレーニングなど、AI 活動に直接関与するチームも編成しています。

さらに、実践者のニーズにより、NVIDIA は CUDA を超えて、数百のビルド済みコードのライブラリを含む、複数レイヤーの重要なソフトウェアを開発しました。

ハードウェアの面では、Nvidia は 2 ～ 3 年ごとにより高速なチップを継続的に提供することで定評を得ています。 2017年、Nvidiaは特定のAI計算を処理するためにGPUの調整を開始しました。

昨年9月、Nvidiaは、いわゆるTransformer操作を処理できるように改良されたH100という新しいチップを発表した。この種の計算は ChatGPT などのサービスの基礎であることが証明されており、Huang Renxun 氏はこれを生成 AI の「iPhone の瞬間」と呼んでいます。

現在、他のメーカーの製品がNvidiaのGPUと真っ向から競合できない限り、AIコンピューティング能力におけるNvidiaの現在の独占を打ち破ることは可能です。

IBMのアナログAIチップ、これは可能か？

<<: 3,000以上のデータから200を選択する方が実際にはより効果的であり、MiniGPT-4は同じ構成のモデルよりも優れている。

>>: NVIDIA DLSS 3.5 がリリースされました!新しいAI「光再構成」は超リアルな光と影を実現し、新旧両方のグラフィックカードでサポートされています。

ブログ

バブルソートに加えて、Python の組み込みソートアルゴリズムをご存知ですか?

NVIDIA H100の覇権に挑戦！ IBMは人間の脳をシミュレートしてニューラルネットワークチップを作成し、効率を14倍向上させ、AIモデルの電力消費問題を解決しました

IBMのAIの未来に向けた最新の青写真：アナログAIチップはエネルギー効率が14倍向上

シミュレートされたメモリコンピューティング/シミュレートされた AI

AIシミュレーションにおける2つの重要な課題

Nvidia の堀は底なしなのか?

NVIDIA、コンピューティングを改革

AIがコンピューティングをエッジに押し上げる

2019年、AIバブルは崩壊寸前

人工知能が人間の仕事の6%を奪い、置き換える可能性がある

顔スキャンの時代、顔認識起業家の進むべき道

バブルソートに加えて、Python の組み込みソートアルゴリズムをご存知ですか?

今年の春節旅行は異例、テクノロジーが鍵

エンタープライズソフトウェアベンダーのジェネレーティブ AI への取り組み

推薦する

AIに関する哲学的考察 - 認知不変性とAI

追跡！フレーム！明らかにする！秘密！ついにボストンダイナミクスのロボットの詳細が明らかになった

両手で操作する初の脳コンピューターインターフェース：10時間の開頭手術後に6つの電極を埋め込み、麻痺した人が心でケーキを食べる

よりスケーラブルになるにはどうすればよいでしょうか?

海外メディアが最初にソラをテストしたが、ビデオはひどい失敗だった？彼らは物理学/動物の変化/非常に遅いことを理解していませんが、スタートアップはすでに衰退しています。

会話型 AI とは何ですか?

びっくり！ 7万時間の訓練を経て、OpenAIのモデルは「Minecraft」で木材の設計を学習した。

DeepSense: モバイルセンサーの時系列データを処理するためのディープラーニングフレームワーク

脳内の画像を高解像度で復元できるようになりました

伝染病警報！人工知能は何をするのでしょうか?

工業情報化部の李英査察官：我が国の人工知能の発展は歴史的な好機を迎えている

TPU v4 チップの計算能力が新たな高みに到達しました。 Googleが世界最大の機械学習センターを建設

本当に良いものです！機械学習技術と市場の最強評価ガイド