膨大な数の演算回路を搭載した NVIDIA GPU により、AI、高性能コンピューティング、コンピューター グラフィックスのかつてない高速化が実現します。したがって、これらの演算回路の設計を改善することは、GPU のパフォーマンスと効率を向上させるために非常に重要です。 AI がこれらの回路の設計を学習したらどうなるでしょうか?最近の NVIDIA の論文「PrefixRL: 深層強化学習を使用した並列プレフィックス回路の最適化」で、研究者らは、AI がこれらの回路をゼロから設計できるだけでなく、AI 設計の回路は最先端の電子設計自動化 (EDA) ツールで設計された回路よりも小型で高速であることを実証しました。 論文アドレス: https://arxiv.org/pdf/2205.07000.pdf 最新の Nvidia Hopper GPU アーキテクチャには、AI 設計の回路インスタンスが約 13,000 個あります。下の図 1 の左側にある PrefixRL AI によって設計された 64 ビット加算器回路は、図 1 の右側にある最先端の EDA ツールによって設計された回路よりも 25% 小さくなっています。 回路設計の概要コンピュータ チップ内の演算回路は、論理ゲート (NAND、NOR、XOR など) とワイヤのネットワークで構成されています。理想的な回路には次の特性が必要です。
この Nvidia の研究では、研究者は回路面積とレイテンシに焦点を当てました。彼らは、消費電力が対象回路の面積と密接に関係していることを発見しました。回路面積と遅延は競合する特性であることが多いため、これらの特性を効果的にトレードオフする設計のパレート最適点を見つけることが望ましいです。つまり、研究者は遅延ごとに回路面積が最小化されることを期待しているのです。 研究者たちは回路ジェネレーターを使用して、プレフィックス グラフをワイヤと論理ゲートを含む回路に変換しました。次に、生成された回路は、ゲート サイズ、複製、バッファ挿入などの物理合成最適化を使用する物理合成ツールによって最適化されます。 これらの物理合成の最適化により、最終的な回路プロパティ (遅延、面積、電力) は、元のプレフィックス グラフ プロパティ (レベルやノード数など) から直接変換されません。 AI エージェントがプレフィックス グラフの設計を学習するだけでなく、プレフィックス グラフから生成される最終回路の特性を最適化するのはこのためです。 我々は、演算回路の設計を強化学習 (RL) タスクとして定式化し、エージェントが演算回路の面積とレイテンシ特性を最適化するようにトレーニングします。プレフィックス回路の場合、RL エージェントがプレフィックス グラフ内のノードを追加または削除し、次の手順を実行できる環境を設計しました。
次のアニメーションでは、RL エージェントがノードを追加または削除することで、プレフィックス グラフを段階的に構築します。各ステップで、エージェントは回路面積とレイテンシの改善という報酬を得ます。 オリジナル画像はインタラクティブバージョンです。 完全畳み込みQ学習エージェント研究者たちは、Q学習アルゴリズムを使用してインテリジェントエージェントの回路設計をトレーニングしました。下の図 3 に示すように、プレフィックス グラフをグリッド表現に分解し、グリッド内の各要素をプレフィックス ノードに一意にマッピングします。このグリッドは、Q ネットワークの入力と出力を表します。入力グリッド内の各要素は、ノードが存在するかどうかを示します。出力グリッド内の各要素は、追加または削除されたノードの Q 値を表します。 図 3: 4b プレフィックス グラフ表現 (左) と完全畳み込み Q 学習エージェント アーキテクチャ (右)。 分散トレーニングのためのRaptor PrefixRL は計算負荷が高く、物理シミュレーションには GPU あたり 256 個の CPU が必要で、64 ビットのタスクをトレーニングするには 32,000 時間以上の GPU 時間が必要です。今回、NVIDIA は、NVIDIA ハードウェアの利点を最大限に活用して、この産業レベルの強化学習を可能にする、社内分散型強化学習プラットフォーム Raptor を開発しました (下の図 4 を参照)。
最後に、Raptor は、複数のワーカーからの経験を受け取り、データを並列にバッチ処理して GPU に事前ロードするためのマルチスレッド サービスを備えたリプレイ バッファーなどの GPU 対応データ構造を提供します。 図 4: 研究者は Raptor を使用して並列トレーニングと報酬計算を切り離し、回路合成の遅延を克服します。 報酬計算面積とレイテンシの目標を組み合わせるために、トレードオフ重みw(範囲[0,1])を採用します。さまざまなエージェントを異なる重みでトレーニングして、面積とレイテンシのトレードオフのバランスをとるパレート境界を取得します。
ただし、物理合成の実行は低速なプロセス (64 ビット加算器の場合は約 35 秒) であり、RL のトレーニングと探索が大幅に遅くなる可能性があります。 結果と展望下の図 5 は、PrefixRL と最先端の EDA ツールの Pareto 優位加算回路を使用して設計された 64 ビット加算回路の面積と遅延を示しています。 図5: PrefixRL を使用して設計された演算回路は、最先端の EDA ツールを使用して設計された回路よりも小型で高速です。 (左) 回路アーキテクチャ; (右) 対応する 64b 加算器回路特性図 私たちの知る限り、これは深層強化学習エージェントを使用して演算回路を設計する最初の方法です。 Nvidia は青写真を描いています。このアプローチにより、AI を現実世界の回路設計問題に適用し、アクション空間、状態表現、RL エージェント モデルを構築し、複数の競合する目的を最適化し、遅い報酬計算プロセスを克服できると期待しています。 |
<<: 近年、軍事用人工知能スタートアップが人気を集めている理由
Facebookの公式ブログが更新されました。FAIRのディレクターでディープラーニングの代表である...
教育の分野では、人工知能の倫理に関する人々の考え方には複数の道が存在します。例えば、主観に基づく検討...
[[399636]] 【51CTO.com クイック翻訳】自然言語処理 (NLP) の定義自然言語...
私は二人の女の子の母親です。親は子供に何でも良いものを残そうとすると言われていますが、子育ての過程で...
春の始まりの2月4日、世界の注目は北京に集まった。音楽、光、影が流れる中、オリーブの枝に囲まれた巨大...
SHRMのレポートによると、中小企業経営者の43%がパンデミック中に事業を生き残るための新たな方法を...
合成現実(1)課題人工知能は、人々がこれまでしたことのない、または言ったことのないことをしたり、した...
いつもトラブルを起こしているAI分野の花形研究機関OpenAIが最近また別のことをしました。GPT-...
最近発表された論文で、チューリング賞受賞者のヨシュア・ベンジオ氏らは、チームの現在の研究の焦点である...
1950 年 10 月に、「機械は考えることができるか?」と題する論文が発表されました。この論文で...
コンピュータの出現以来、人類は思考できる機械を創ることを夢見てきました。 1956 年、ジョン マッ...
近年、人工肉は急速に発展していますが、本物の肉と比較すると、味や食感にはまだ明らかな差があります。最...