「人工太陽」が正確に放電します！ DeepMind、AI制御の核融合で新たなブレークスルーを達成

AI制御の核融合はもうすぐ実現します。

ディープマインドは3年間の秘密の研究開発を経て、昨年、AIを使って初めてトカマク内のプラズマを制御することに成功したと発表した。その主要な結果はNature誌に掲載されました。

1年後、Google の AI チームはこの分野で新たな進歩を遂げました。

最新の実験シミュレーションでは、プラズマ形状の精度が65％向上しました。

これまでの研究に基づいて、DeepMind チームはエージェントのアーキテクチャとトレーニングプロセスに対するアルゴリズムの改善を提案しました。

研究では、プラズマの形状精度が向上した一方で、電流の定常誤差も減少したことが判明しました。

実際、新しいタスクを学習するために必要なトレーニング時間は 3 倍以上短縮されました。

論文アドレス: https://arxiv.org/pdf/2307.11546.pdf

「スタークラフト」でAIが人間を圧倒することから、AlphaGoとイ・セドルの戦い、そしてAIがタンパク質の折り畳みを予測することまで、DeepMindはすでに人工知能アルゴリズムを世界を変えるほどのさまざまな分野に進出させています。

今回、DeepMind の最も詳細な実験シミュレーション結果により、RL が正確な放電を実現する道が示されました。

この画期的な成果は、「人工太陽」の制御可能な放電が人類の究極のエネルギーの未来に一歩近づいたことを示しています。

RLが核融合の謎を解明

人類が制御された核融合エネルギーを習得すれば、無限のクリーンエネルギーを手に入れることができるだろう。

ご存知のとおり、フィードバック制御はトカマク装置の動作にとって非常に重要です。

制御システムは磁気コイルを積極的に管理して、細長いプラズマの不安定性を制御し、破壊的な垂直イベントの発生を防ぎます。

さらに、人間がプラズマの電流、位置、形状を正確に制御できれば、熱放出も実現でき、エネルギーの管理も可能になります。

科学者たちは長い間、プラズマ構成の変化がこれらの関連量に与える影響を研究してきました。新しい構成で使用でき、通常のシナリオを迅速に変更できるシステムが必要です。

従来、プラズマの正確な制御は、プラズマの電流、形状、位置の連続的な閉ループを通じて実現されています。

このモードでは、制御設計者はフィードフォワードコイル電流のセットを事前に計算し、制御される量ごとにフィードバックループを構築します。プラズマの形状と位置は直接測定することができないため、磁場測定を通じてリアルタイムで間接的に推定する必要があります。

特に、プラズマの形状は、平衡再構成コードを使用してリアルタイムで推定する必要があります。

このようなシステムは広範囲の放電を安定化することに成功していますが、特に新しいプラズマ状況では、その設計は困難で時間がかかります。

強化学習 (RL) がリアルタイム制御システムを構築するための新たなパラダイムとして登場したことは注目に値します。

2022年にDeepMindチームがNatureに発表した論文では、RL設計のシステムが「トカマク磁気制御」の主要機能を正常に実現できることが示されました。

論文アドレス: https://www.nature.com/articles/s41586-021-04301-9

この研究では、RL エージェントが FGE トカマクシミュレータと対話することでトカマク構成変数 (TCV) を制御することを学習するシステムを提案します。

エージェントによって学習された制御戦略は、TCV の磁場測定値を観察し、19 個の磁気制御コイルすべてに制御コマンドを出力することによって、TCV 制御システムに統合されます。

特に、研究者らは、非常に細長いプラズマや雪片など、さまざまな状況を制御する RL エージェントの能力を実証しました。

彼らは、真空チャンバー内で 2 つの独立したプラズマを同時に使用して「液滴」構成を安定させる新しい方法も実証しました。

AI制御により生成されたいくつかの異なるプラズマ形状

しかし、RL アプローチには、トカマクプラズマを制御するための実用的なソリューションとしての適用を制限するいくつかの欠点があります。

最新の研究では、DeepMind は次の 3 つの課題を解決することを決定しました。

- 学習可能で、正確なコントローラのパフォーマンスを奨励するスカラー報酬関数を指定します

- トラッキングエラーの定常誤差

- トレーニング時間が長くなる

まず、研究チームは制御精度を向上させるために「報酬形成」手法を提案した。

次に、エージェントに明示的なエラー信号を提供し、エラー信号を積分することで、積分フィードバックの定常エラー問題を解決します。これにより、従来のコントローラーと強化学習コントローラー間の精度のギャップが解消されます。

最後に、フラグメントセグメンテーションと転移学習では、制御ポリシーを生成するために必要なトレーニング時間の問題が解決されます。

研究者らは、複雑な放電状況に対処するためにマルチスタート方式を採用し、これによりトレーニング時間が大幅に短縮されました。

さらに、この研究では、関連する新しいシナリオが以前のシナリオに近い場合、既存の制御戦略を使用したウォームスタートトレーニングが非常に効果的なツールであることが示されました。

これらの技術を組み合わせることで、トレーニング時間が大幅に短縮され、精度が向上し、RL をプラズマ制御に日常的に利用できる技術にするための大きな進歩がもたらされます。

プラズマを制御するための強化学習

最新の論文では、研究者らはネイチャー誌の論文と同じ基本的な実験を使用した。

RL は、シミュレートされた環境と対話することによって特定の実験の制御ポリシー 𝜋 を学習し、結果として得られた放電ポリシーを TCV に展開します。

具体的には、自由境界シミュレータ FGE を使用して動的モデリングを行い、追加のランダム性を追加して、センサー値や電源のノイズをシミュレートし、プラズマのパラメータを変化させました。

センサーノイズは各環境ステップに適用されますが、プラズマパラメータの変動（プラズマ抵抗率 𝑅𝑝、正規化されたプラズマ圧力 𝛽𝑝、プラズマ軸安全係数）は、イベント内では値が一定であるが、2つのイベント間ではランダムにサンプリングされるように簡略化されます。

その後、研究者らは最大事後最適化（MPO）アルゴリズムを使用して制御戦略を開発しました。

MPO は、現在のポリシー 𝜋 を出力するアクターネットワークと、ポリシーの予想される累積報酬を近似する批評家ネットワークの 2 つのニューラルネットワークに依存します。

エージェントは 1,000 個の FGE 環境と対話し、観察された内容、実行されたアクション、受け取った報酬を収集します。

各ステップで得られる報酬は、プラズマ状態が基準値に含まれる目標値にどれだけ近いかに基づいて計算され、望ましくないプラズマ状態を回避するなどの他の要素によって補完されます。

最適制御パラダイムから強化学習への直接的な変換は、最小化される各誤差項の報酬成分を設定することです。ここで、各成分 𝑖 はスカラー値 𝑥𝑖 にマッピングされます。

これらの値は、単一のスカラー報酬値に結合されます。

記録された一連の観察、アクション、報酬に基づいて、エージェントは正規化された損失関数の勾配降下法を使用して、ポリシーネットワークと批評家ネットワークを交互に更新します。更新されたアクターネットワークパラメータは、環境との今後のやり取りに使用されます。

プラズマ放電の場合、アクターネットワークは 10kHz で実行できる小さなアーキテクチャに制限されますが、批評家ネットワークはトレーニング中にのみ使用されるため、環境のダイナミクスを学習するのに十分な複雑さになります。

実用的アプリケーションのための強化学習コントローラ

研究者らは、具体的なタスクの実際の操作において、インテリジェントエージェントの具体的なトレーニングプロセスを実証しました。

まず、報酬形成による制御精度の向上について説明します。次に、観測結果を統合することで定常誤差を減らす取り組みを紹介し、現実的なトレーニング時間を改善するための「エピソードチャンキング」の使用について説明します。最後に、トレーニング効率を向上させる手段として転移学習について説明します。

報酬形成

従来の制御アルゴリズムは、アクティブに測定された（または推定された）量の誤差を最小限に抑えるためにさまざまな方法を使用しますが、強化学習（RL）アルゴリズムは、一般的に定義された報酬信号を最大化することを目的としています。

トレーニング中、この報酬最大化の目標はエージェントの動作の進化を促進しますが、展開時には報酬は計算されません。

従来の制御アルゴリズムでは、制御ゲインを明示的に調整し（応答性や外乱除去の変更など）、複数入力複数出力（MIMO）システムのトレードオフ重みを調整することで、コントローラのパフォーマンスを調整できます。

対照的に、強化学習では、報酬関数は学習されるコントローラーの動作にとって非常に重要です。

したがって、コントローラーの動作を調整するには、報酬関数を慎重に設計する必要があります。

このセクションでは、研究者は、最終的に訓練されたエージェントが望ましい動作を実行するように誘導するために報酬の設計を変更する方法を検討します。

研究者たちは、報酬関数の設計を調整することで、エージェントの行動を素早く適応させ、目的のさまざまな側面を重視できることを発見しました。

さらに、研究者らは、報酬関数の形成が正確な強化学習制御ポリシーの作成に不可欠であることを実証しました。

さらに、更新された報酬関数を使用してトレーニングを継続することで、エージェントが新しい目標に適応できることも示しています。

報酬デザインの紹介

研究者らは、これまでの研究に基づいて、磁気制御用に設計された報酬関数を修正した。

研究者らは、重み付けされた SmoothMax 関数を使用して報酬コンポーネントの値を組み合わせました。

場合によっては、単一の報酬コンポーネントが、複数の制御ポイントでの形状エラーなど、複数の関連するエラー量で構成されます。

研究者らは、SmoothMax 関数を使用してこれらのエラーを単一のスカラー報酬コンポーネントに組み合わせました。

SmoothMax 関数の定義は次のとおりです。

SmoothMax 関数に供給する個々のコンポーネントの多くは、従来のコントローラーと同様に構築されています (たとえば、プラズマ電流を目的の値に近づけるなど)。

ただし、報酬コンポーネントはセンサー測定から得られるものに限定されず、構築の柔軟性が高まります。

報酬コンポーネントはマルチモーダルにすることもできます。たとえば、エージェントが、シミュレータによって望ましくない、または適切にモデル化されていない状態空間の領域から離れるように促すことができます。

研究者は、スカラー報酬コンポーネントを取得するために SoftPlus 変換を使用しました。

理論的には、パラメータの多くの選択は報酬に対する単調な調整であり、最適なポリシーに大きな影響を与えないはずなので、ほぼ同等であるはずです。

しかし、実際には研究者は勾配降下法に依存しており、完璧なグローバル最適化手法は存在しません。

研究者は確率的リターンに直面してグローバル空間を探索する必要があります。

非常に良い値と非常に悪い値が緊密に混在しているため、目に見える報酬の領域（または改善方法の明確な勾配）を見つけるのが困難です。

一方、誤差値が緩いと、報酬信号を見つけるのは簡単になりますが、改善したときに報酬の変化が少なくなるため、正確な制御を見つけるのは難しくなります。

したがって、直感的には、初期条件が目標状態に近い状況では「タイト」な報酬パラメータの方が適切である可能性があり、したがって報酬は目標の発見を形作る必要はなく、精度に重点を置く必要があります。

シンプルな環境における報酬形成

研究者らの初期実験では、「shape_70166」タスクにおける形状誤差の報酬成分のハイパーパラメータを変更することで形状誤差を最小限に抑えることに重点を置いた 3 つのトレーニング方法が検討されました。

1. ベースライン: 以前の研究からのデフォルトの報酬パラメータを使用します - 良い = 0.005、悪い = 0.05。

基準値はより緩和された報酬関数を生成し、報酬信号がより高いエラー値に集中するようにし、より小さなエラー値に対してもガイド信号を提供して、形状制御の精度の向上を促進します。

2. 報酬を絞り込む: パラメータを good = 0、bad = 0.025 に更新します。

これらの参照値により、より厳密な報酬関数が生成されます。この設定では、低いエラー値に報酬信号が集中し、小さなエラー値でもガイダンス信号が提供され、形状の制御の精度が向上します。

3. 報酬スケジュール：トレーニング中に、good と bad の値が徐々にピークになるように調整します。good = 0、bad は 0.1 から 0.025 まで徐々に減少し、合計 600 万回のポリシー更新ステップを実行します。

このスケジュールは、探索を支援するためにトレーニングの開始時に広い報酬領域を提供し、トレーニングが進むにつれて報酬関数を徐々に厳しくして正確性を促進します。

報酬関数の進化中に履歴データが再ラベル付けされることはありませんが、古くなったデータは最終的に学習エージェントの再生バッファーから消えます。

この一連の実験の結果は下の図に示されています。この研究は、トレーニングに使用される報酬の選択が、最終的にトレーニングされたエージェントのパフォーマンスに大きな影響を与えることを示しています。

研究者たちは、形状誤差に焦点を当てることで、非常に厳格な静的報酬関数を使用した「狭い報酬」が最終的なエージェントのパフォーマンスに最も大きな影響を与えることに気づきました。

この単純なタスクでは、より正確な報酬関数がコントローラーに正確さを求める強いインセンティブを提供します。

このような鋭い報酬信号は、前述のようにポリシーの発見に影響を与える可能性がありますが、このタスクの目標はハンドオフ位置を維持することであるため、探索はこのタスクにおける大きな課題ではありません。

報酬の高い状態を見つけるのにほとんど探索が必要ないため、エージェントは厳密な報酬信号を満たすことに集中できます。

さらに、タスクが単純であるということは、報酬コンポーネント間の正確な制御に必要なトレードオフがほとんどないかまったくないことを意味します。

複雑なタスクに対する報酬形成

研究者らは「snowflake_to_perfect」タスクに着目した。このタスクは、時間によって変化する目標とより多くの注意指標を伴うため、トレーニングにコストがかかり、報酬の調整がより複雑である。

そして、彼らは、形を整えることに報酬を与えることで、ポイント X の位置の精度を向上させようとしました。

ポイント X の位置精度のボーナスを形成する方法は次のとおりです。

1. ベースライン: Degrave らから取得したデフォルトパラメータ good = 0.005、bad = 0.05 でトレーニングしました。

2. X ポイントの微調整: 最初にデフォルトのパラメータでトレーニングし、次に X ポイントの位置の精度を重視するより厳しい報酬を使用して 2 番目のフェーズのトレーニングを行います (良好 = 0、不良 = 0.025)。

3. 狭い X ポイント報酬: トレーニングの最初からより厳密な報酬関数を使用します (良い = 0、悪い = 0.025)。

4. 追加トレーニング: 報酬関数を更新せずに追加トレーニングを実行します。これにより、研究者はさらなる訓練と報酬関数の変更による効果を解明することができました。

研究者らは、上記の 4 つの異なるトレーニング構成のパフォーマンスを比較し、その結果を以下の表にまとめました。

インテグレーターのフィードバック

統合誤差の近似値はリカレントニューラルネットワークを使用して計算できますが、シミュレーションダイナミクスに過剰適合する傾向があります。

この研究では、研究者はより単純な解決策を採用しています。つまり、ポリシーに統合エラーを学習させるのではなく、手動で計算し、フィードフォワードポリシーによって検出された観測セットに追加します。

特に、彼らはプラズマ電流 (𝐼𝑝) の定常誤差を減らすことに焦点を当てました。これについては、以前に研究されたトレーニング戦略では大きな偏差が見られ、簡単に計算できます。

研究者らは従来の方法とは少し異なり、以下のように定義される時間𝑡における平均プラズマ電流誤差をネットワークに提供した。

研究者らは、「shape_70166」タスクで平均エラー信号を考慮することの利点を評価しました。

このタスクでは、プラズマ電流と形状の基準値は一定であり、環境が初期化された後、実際の値は基準値に近くなります。

したがって、エージェントの主な目標は定常誤差を制御することです。

下の図は、インテグレータフィードバックありとなしでトレーニングされた戦略について、各ケースで 3 回のランダム実行を実行した際の、シミュレートされたプラズマ電流エラー軌跡を示しています。

研究者らは、積分器フィードバックによってプラズマ電流の偏差が予想通り大幅に減少することを発見した。

エピソードのチャンキング

TCV の実験は 1 ～ 2 秒間続き、制御周波数 10 kHz で 10,000 ～ 20,000 タイムステップに相当します。

FGE シミュレーター (上記のようにエージェントのトレーニングに使用) は、トレーニング中に 1 つの AMD EPYC 7B12 CPU コアを使用し、ランダムアクションを使用した通常のシミュレーションステップごとに約 2 秒かかります。

したがって、FGE が 10,000 ステップの完全なエピソードを生成するには約 5 時間かかります。

つまり、エージェントが最初の試行の前に最適なポリシーをすでに知っている最良のシナリオでも、トレーニング時間は依然として約 5 時間になります (高品質の結果を観察するため)。

実際には、強化学習エージェントは最適なポリシーを見つけるためにアクション空間を探索する必要があります。したがって、トレーニング時間は、タスクの複雑さに応じて数日から数週間まで変化する可能性があります。

さらに、研究者のタスク構造では、エージェントが比較的独立した「スキル」を順番に学習する必要があります。たとえば、「showcase_xpoint」タスクでは、エージェントは最初にプラズマを変形し、次にその垂直位置を移動し、流れの方向を変更し、最後に元の形状を復元する必要があります (下の図 1 を参照)。研究者たちは、このタスクの学習プロセスが 2 つの異なる段階で発生することを観察しました (下の図 2a を参照)。

まず、エージェントは限られた量の血漿を操作することを学習し、血漿を伸ばし、動かし、維持する方法を理解します。これは、0 から約 80 までスムーズに上昇する報酬曲線に対応します。

この段階では、エージェントは回転形状を生成しようとしますが失敗し、代わりに上記の図 2b に示すように、非アクティブな X ポイントを持つ円形の LCFS を取得します。

報酬はこのレベルで安定していますが、最終的にエージェントがプラズマをうまく転用する方法を見つけ出すと、報酬は突然 80 から 1 近くまで跳ね上がります。

チャンク化をshowcase_xpointタスクに適用し、それぞれ2つまたは3つのチャンクを使用すると（下の図1を参照）、下の図2に示すように、トレーニング時間を大幅に短縮できます。

xxin

2 ブロックのセットアップ (オレンジ色の曲線) はすでにベースライン (青色の曲線) よりも高速です。 3 つのチャンク設定 (3_chunks と 3_chunks_eq_weights) は、トレーニングのさらなる高速化だけでなく、よりスムーズな学習曲線も提供します。

エージェントは約 10 時間で 100 点中 96 点の報酬に到達できましたが、ベースラインでは 40 時間かかりました。

ここで、研究者は 2 つの異なる 3 つのチャンク設定を試しました。すべての俳優を均等に同じサイズのグループに分割し (3_chunks_eq_weights)、エピソード全体で他のチャンクと比較して 3 倍多くの俳優を使用しました。どちらの設定でも同様の結果が得られました。

転移学習

トレーニング時間を短縮しようとする場合、当然の疑問として、前回の放電でトレーニングされたモデルを再利用できるかどうか、つまり、エージェントが初期タスクを解決する際に蓄積した知識を、関連するターゲットタスクにどの程度転送できるかが挙げられます。

研究者は転移学習のパフォーマンスを 2 つの形式で調査しました。

1. ゼロショット: 研究者は、追加のデータ収集やポリシーパラメータの更新を行わずに、初期タスクで学習したポリシーをターゲットタスクで実行します。

2. 微調整: 研究者は、初期タスクで学習したモデルの重みを使用してポリシーと価値関数を初期化し、これらの重みを使用して、環境と対話することで新しいターゲットタスクをトレーニングします。ターゲットタスクは報酬として機能します。両方のタスクで同じアーキテクチャ (アクターと批評家のネットワーク) を使用する必要があることに注意してください。

どちらの場合も、研究者はshowcase_xpointタスクでトレーニングされたエージェントのパラメータを転送の初期パラメータとして使用しました。

最初の実験では、研究者らは基準プラズマ電流が新しい基準レベルに調整されたときの転移学習を調べました。

具体的には、研究者らは、目標電流がベースラインの -150 kA から -160 kA、次に -170 kA、最後に -100 kA に調整される 3 つのバリエーションを選択しました (具体的には、図 1 の初期ハンドオーバーレベルと最終クールダウンレベルを除くすべてのタイムスライスで基準電流が調整されました)。

研究者らは、showcase_xpoint でトレーニングされたポリシーを、最初はターゲットタスクでの追加トレーニングなしでテストし、次にターゲットタスクでの新しいトレーニングを許可してテストしました。

ゼロショットの結果の報酬と𝐼𝑝誤差を下の表に示します。エージェントは𝐼𝑝の小さな変化に対しては良好なパフォーマンスを発揮しますが、大きな変化、特に𝐼𝑝の大きな変化に対してはパフォーマンスが低下します。

微調整の結果は、以下の図 1、2、3 に示されています。微調整されたエージェントは、すべてのケースで最初からトレーニングされたエージェントよりも速く、ほぼ最適なポリシーに収束しますが、最大の変更が 50𝑘𝐴 の場合、その差は小さくなります。

2 番目の実験では、プラズマターゲットの位置の変化を調べました。

具体的には、研究者らはターゲットの形状を Z 軸に沿って下方向に 2 cm、10 cm、20 cm ずつ移動させて調整しました。この実験では、研究者たちは次のような結果を観察しました。

1. ゼロショット: 結果は次の表に示します。研究者らは、最小の移動（2 cm）ではゼロショット転送が非常にうまく機能し、非常に小さな形状誤差でタスクで達成可能な最高パフォーマンス（100点満点中）の97%以上を達成できることを発見しました。

より大きな 10 cm の移動では、パフォーマンスは平凡で、報酬はわずか 85 で、形状の位置の誤差が大きくなりました。最大 20 cm の移動では、プラズマに向かう試みが失敗したため、パフォーマンスは低下し、報酬はわずか 35 でした。

2. 微調整: 微調整の結果は、上の図 d、e、f に示されており、2 cm の移動では転移学習の効果が顕著であり、10 cm の移動では 3 つの異なるシードのうち 2 つが有効であることがわかります。より大きな 20 cm の移動の場合、転移学習はパフォーマンスに悪影響を及ぼすようです。

全体的に、結果は、転移学習は現在の形では有用であるが、一定の限界があることを示唆しています。

予想どおり、ターゲットタスクと初期タスクのギャップが大きいほど、特にゼロショット学習の場合、転移学習のパフォーマンスが低下します。

ただし、ハードウェア実験を実行する前にシミュレーションを介してゼロショット評価を実行するコストは比較的低い (CPU 時間単位) ことに留意する価値があります。

研究者らはまた、特定の種類のタスク変更は他のタスク変更よりも転移学習に適応しやすいことも発見した。実験では、プラズマ電流の比較的大きな変化は、大きな位置変化よりも転移学習に適応しやすいようで、これはタスクの相対的な複雑さを考えると当然のことである。

どのタスクが転移学習に適しているか、また、ゼロショット学習や微調整学習を含めて効果的な転移の範囲をどのように拡大するかを理解するには、さらなる研究が必要です。

TCVにおけるトカマク放電実験

前のセクションでは、FGE シミュレータを使用した制御戦略のシミュレーション、トレーニング、および評価にのみ焦点を当てました。

トカマクモデリングの複雑さと課題を考慮すると、シミュレーションにおけるパフォーマンスの向上が実際の放電におけるパフォーマンスの向上とまったく同じであると盲目的に想定しないことが重要です。

実際のトカマクでの結果を改善するには、より優れたシミュレーション結果が必要になる場合がありますが、それだけでは十分ではないことがよくあります。

シミュレーションと現実のギャップを減らすための追加の明示的な作業がなければ、モデルの不一致エラーが大きな問題になる可能性があります。

これは、不完全なシミュレータに過剰適合することが知られている強化学習を使用して取得されたポリシーの場合に特に当てはまります。

そのため、研究者らは上記のシミュレーション改善のいくつかを TCV トカマクでテストしました。

このようにして、研究者は現在の研究の長所と限界を評価し、さらなる改善の方向性を示すことができます。

プラズマ形状の精度を高く評価する

研究者らは、報酬形成によってもたらされる精度の向上を、2 つの異なる構成と目的、つまり形状安定化タスクにおける LCFS エラーの削減と、「snowflake_to_perfect」タスク構成における X ポイント精度の向上について調査しました。

研究者らは、シミュレーション結果をTCVの実験結果およびDegraveら（2022）による類似の実験と比較した。以前の研究と同様に、研究者は、共有ライブラリオブジェクトとしてアクターのネットワーク (JAX グラフで定義) を作成することによって制御ポリシーを展開しました。ここで、コマンドされたアクションは、出力ガウス分布の平均です。

研究者らはまず、報酬形成セクションで説明した報酬形成方法を使用して、shape_70166 安定化タスクにおける LCFS エラーを減らす制御戦略をテストしました。

この安定化タスクのために、研究者らは TCV の標準的な分解プロセスと初期プラズマコントローラーを使用しました。 0.45 秒で、制御は学習した制御戦略に引き継がれ、その後 1 秒間、固定されたプラズマ電流と形状を維持しようとします。

退院後、研究者らはLIUQEコードを使用して再構築された平衡状態を計算しました。研究者たちは、1秒間の放電の各0.1ミリ秒の時間スライス中にプラズマの形状の誤差を計算しました。研究者らは、シミュレーション放電と TCV 放電からの形状誤差を測定する 3 つの実験の精度を比較しました。

(a) この研究の前に存在していたベースライン RL コントローラー (「以前」)、(b) この研究の更新されたトレーニングインフラストラクチャを使用した更新されたベースラインエージェント (「更新」)、および (c) 報酬形成セクションで説明した固定報酬と同様に、報酬形成を使用してトレーニングされたエージェント。

これらの実行の結果は以下の表に示されています。

Xポイントの位置精度を高めるボーナスシェーピング

次に、研究者らは、下の図に示すように、より複雑な「スノーフレーク」構成における報酬形成の効果を比較しました。

ポリシーのトレーニング報酬は、ポイント X 制御の精度を高めるように形成されます。

安定化実験と同様に、プラズマは標準の TCV 手順によって生成され、最初に制御され、0.45 秒で制御が強化学習コントローラーに引き渡されました。

この実験では、RL トレーニングされたポリシーにより、2 つの X ポイント間の距離が 34 cm の雪片を正常に構築できました。

この戦略により、2つのXポイントを目標距離の6.7センチメートルまで近づけることに成功し、いわゆる「完璧な雪の結晶」の作成に近づきました。

しかし、1.0278秒（ハンドオーバーから0.5778秒後）に、垂直方向の不安定性によりプラズマが崩壊しました。

検査の結果、コントローラーが一定の形状を維持するのが困難で、垂直方向の振動が増加し、アクティブな X ポイントが 2 つの X ポイント間で切り替わり、制御が失われていることが判明しました。

以下の表は、プラズマ制御が成功した場合の X ポイントの追跡精度を示しています。

エピソードチャンキングでトレーニングをスピードアップ

最後に、研究者らはトレーニング時間を短縮するために「エピソードチャンキング」の使用を検証し、特に TCV 放電で起こり得る「不連続性」が発生するかどうかを検証しました。

研究者らは、ショーケース構成でのトレーニングに 3 つのブロックを使用した実験を実施しました。この実験で再構築された平衡状態の時間トレースは、下の図に示されています。

研究者らは、実験が予想通りに機能し、「エピソードチャンキング」による目立ったアーティファクトは見られなかったことを発見した。

これは、このトレーニング加速方法では品質が低下しないことを示しています。

1950 年代以来、多くの科学者が制御された核融合という困難な問題の探求と解決に取り組んできました。

DeepMind の最新の研究では、強化学習アルゴリズムを使用してプラズマの精度を大幅に向上させ、新しいタスクを学習するためのトレーニング時間を大幅に短縮しました。

これにより、将来的には制御核融合における「精密放電」とエネルギー管理の実現への道が開かれます。

DeepMind は、人類が大量のクリーンエネルギーを獲得し、将来のエネルギーロードマップを変えることを支援するという道しるべを再び灯しました。

<<: 強力なオープンソース SDXL 1.0 がリリースされました!高品質、超シンプルなプロンプトワンクリック生成

>>: 「初の常温常圧超伝導体」に対する共同研究者の反応：内容に欠陥あり

「人工太陽」が正確に放電します！ DeepMind、AI制御の核融合で新たなブレークスルーを達成

RLが核融合の謎を解明

実用的アプリケーションのための強化学習コントローラ

TCVにおけるトカマク放電実験

注目すべきAIハードウェアスタートアップ3社

産業用拡張現実（AR）は、機器のメンテナンス、現場サービス、従業員のトレーニングを容易にします。

画像とテキストを統合的に生成するMiniGPT-5が登場:トークンがVokenになり、モデルは書き込みを継続できるだけでなく、自動的に画像を追加することもできます

コンピューティングパワーとは正確には何でしょうか?

電子商取引の製品推奨におけるディープラーニングの応用

ミストラルAIの新モデルはGPT-4をベンチマークしており、オープンソースではなくマイクロソフトと協力、ネットユーザー：当初の意図を忘れた

2つのセッション「チップ」提案：自動車用チップに焦点を当て、サプライチェーンを開放し、「ボトルネック」を突破する

AIがスマートホームとどのように統合されるか

ナレッジグラフを使用して RAG 機能を改善し、大規模モデルの幻覚を軽減する

推薦する

ガートナーレポート: 世界のカスタマーサービスセンターが会話型 AI を導入、今年の支出は 16.2% 増加

ネットワーク攻撃と防御における人工知能の応用と問題分析

プログラマーはAIアルゴリズムを使用して3,000匹の新しいポケモンを生成した

CV モデルのトレーニングに関する新しいアイデア: パフォーマンスを向上させるために微調整の代わりに NLP の人気の Prompt を使用する

スタンフォード大学の人工知能レポート: 今からでも遅くはない

一枚の紙で AI を騙せる。これが OpenAI の最も先進的な視覚モデルでしょうか?

人工知能関連のキャリアと給与に関する 7 つの統計

Pythonで簡単な顔認識を実装すると、私はこの星にとても似ていることが判明しました

ディープラーニング: シンプルだが限界のあるソリューション

私の世界では、ステーションBのUPホストが世界初の純粋なレッドストーンニューラルネットワークを構築し、チューリング賞を受賞したヤン・ルカンがいいねを転送しました。