膨大な数の演算回路を搭載した NVIDIA GPU により、AI、高性能コンピューティング、コンピューター グラフィックスのかつてない高速化が実現します。したがって、これらの演算回路の設計を改善することは、GPU のパフォーマンスと効率を向上させるために非常に重要です。 AI がこれらの回路の設計を学習したらどうなるでしょうか?最近の NVIDIA の論文「PrefixRL: 深層強化学習を使用した並列プレフィックス回路の最適化」で、研究者らは、AI がこれらの回路をゼロから設計できるだけでなく、AI 設計の回路は最先端の電子設計自動化 (EDA) ツールで設計された回路よりも小型で高速であることを実証しました。 論文アドレス: https://arxiv.org/pdf/2205.07000.pdf 最新の Nvidia Hopper GPU アーキテクチャには、AI 設計の回路インスタンスが約 13,000 個あります。下の図 1 の左側にある PrefixRL AI によって設計された 64 ビット加算器回路は、図 1 の右側にある最先端の EDA ツールによって設計された回路よりも 25% 小さくなっています。 回路設計の概要コンピュータ チップ内の演算回路は、論理ゲート (NAND、NOR、XOR など) とワイヤのネットワークで構成されています。理想的な回路には次の特性が必要です。
この Nvidia の研究では、研究者は回路面積とレイテンシに焦点を当てました。彼らは、消費電力が対象回路の面積と密接に関係していることを発見しました。回路面積と遅延は競合する特性であることが多いため、これらの特性を効果的にトレードオフする設計のパレート最適点を見つけることが望ましいです。つまり、研究者は遅延ごとに回路面積が最小化されることを期待しているのです。 研究者たちは回路ジェネレーターを使用して、プレフィックス グラフをワイヤと論理ゲートを含む回路に変換しました。次に、生成された回路は、ゲート サイズ、複製、バッファ挿入などの物理合成最適化を使用する物理合成ツールによって最適化されます。 これらの物理合成の最適化により、最終的な回路プロパティ (遅延、面積、電力) は、元のプレフィックス グラフ プロパティ (レベルやノード数など) から直接変換されません。 AI エージェントがプレフィックス グラフの設計を学習するだけでなく、プレフィックス グラフから生成される最終回路の特性を最適化するのはこのためです。 我々は、演算回路の設計を強化学習 (RL) タスクとして定式化し、エージェントが演算回路の面積とレイテンシ特性を最適化するようにトレーニングします。プレフィックス回路の場合、RL エージェントがプレフィックス グラフ内のノードを追加または削除し、次の手順を実行できる環境を設計しました。
次のアニメーションでは、RL エージェントがノードを追加または削除することで、プレフィックス グラフを段階的に構築します。各ステップで、エージェントは回路面積とレイテンシの改善という報酬を得ます。 オリジナル画像はインタラクティブバージョンです。 完全畳み込みQ学習エージェント研究者たちは、Q学習アルゴリズムを使用してインテリジェントエージェントの回路設計をトレーニングしました。下の図 3 に示すように、プレフィックス グラフをグリッド表現に分解し、グリッド内の各要素をプレフィックス ノードに一意にマッピングします。このグリッドは、Q ネットワークの入力と出力を表します。入力グリッド内の各要素は、ノードが存在するかどうかを示します。出力グリッド内の各要素は、追加または削除されたノードの Q 値を表します。 図 3: 4b プレフィックス グラフ表現 (左) と完全畳み込み Q 学習エージェント アーキテクチャ (右)。 分散トレーニングのためのRaptor PrefixRL は計算負荷が高く、物理シミュレーションには GPU あたり 256 個の CPU が必要で、64 ビットのタスクをトレーニングするには 32,000 時間以上の GPU 時間が必要です。今回、NVIDIA は、NVIDIA ハードウェアの利点を最大限に活用して、この産業レベルの強化学習を可能にする、社内分散型強化学習プラットフォーム Raptor を開発しました (下の図 4 を参照)。
最後に、Raptor は、複数のワーカーからの経験を受け取り、データを並列にバッチ処理して GPU に事前ロードするためのマルチスレッド サービスを備えたリプレイ バッファーなどの GPU 対応データ構造を提供します。 図 4: 研究者は Raptor を使用して並列トレーニングと報酬計算を切り離し、回路合成の遅延を克服します。 報酬計算面積とレイテンシの目標を組み合わせるために、トレードオフ重みw(範囲[0,1])を採用します。さまざまなエージェントを異なる重みでトレーニングして、面積とレイテンシのトレードオフのバランスをとるパレート境界を取得します。
ただし、物理合成の実行は低速なプロセス (64 ビット加算器の場合は約 35 秒) であり、RL のトレーニングと探索が大幅に遅くなる可能性があります。 結果と展望下の図 5 は、PrefixRL と最先端の EDA ツールの Pareto 優位加算回路を使用して設計された 64 ビット加算回路の面積と遅延を示しています。 図5: PrefixRL を使用して設計された演算回路は、最先端の EDA ツールを使用して設計された回路よりも小型で高速です。 (左) 回路アーキテクチャ; (右) 対応する 64b 加算器回路特性図 私たちの知る限り、これは深層強化学習エージェントを使用して演算回路を設計する最初の方法です。 Nvidia は青写真を描いています。このアプローチにより、AI を現実世界の回路設計問題に適用し、アクション空間、状態表現、RL エージェント モデルを構築し、複数の競合する目的を最適化し、遅い報酬計算プロセスを克服できると期待しています。 |
<<: 近年、軍事用人工知能スタートアップが人気を集めている理由
会話型 AI は今日のイノベーションに不可欠な要素であり、多くの企業のビジネスを変革するでしょう。 ...
AIチップ・AIフレームワークの代表的企業コンピューティングアルゴリズムの重要な基盤として、人工知能...
この記事の主な対象読者は、機械学習の愛好家やデータサイエンスの初心者、そして機械学習アルゴリズムを学...
データ中心の機能と対象顧客への理解を備えた人工知能とデータサイエンスが世界を席巻しています。企業は、...
ML と GenAI の世界に深く入り込むにつれて、データ品質への重点が重要になります。 KMS T...
人工知能(AI)について話すとき、いつも恐怖を感じる人がいます。一体何を恐れているのですか?何か証拠...
この記事は公開アカウント「Reading Core Technique」(ID: AI_Discov...
現在、カリフォルニア大学リバーサイド校が率いるチームは、ジョージ・メイソン大学およびノートルダム...
ChatGPT の 1 周年に、OpenAI は公式発表を行いました: Sam Altman が O...
[[402555]]はじめに: 機械学習は学術界と産業界の両方でますます重要な役割を果たしています...
機械学習モデルが現実世界でますます使用され、導入されるようになると、AI の意思決定は人々の日常生活...
クラウド コンピューティング サービス プロバイダーの Rackspace Technology が...
サイバーセキュリティは AI と ML の進歩の恩恵を受けています。今日のセキュリティ チームは、疑...