深層強化学習における敵対的攻撃と防御

深層強化学習における敵対的攻撃と防御

01 はじめに

この論文は、深層強化学習に対する敵対的攻撃に関する研究です。本論文では、著者らは、堅牢な最適化の観点から、敵対的攻撃に対する深層強化学習戦略の堅牢性を研究します。ロバスト最適化のフレームワークでは、戦略の期待収益を最小化することによって最適な敵対的攻撃が与えられ、それに応じて、最悪のシナリオに対処する戦略のパフォーマンスを向上させることによって、優れた防御メカニズムが実現されます。

攻撃者は通常、トレーニング環境では攻撃できないことを考慮して、環境と相互作用せずに戦略の期待収益を最小化しようとする貪欲攻撃アルゴリズムを提案しました。さらに、著者らは、最大最小ゲームを使用して深層強化学習アルゴリズムの敵対的トレーニングを実行する防御アルゴリズムも提案しました。

Atari ゲーム環境での実験結果から、著者らが提案した敵対的攻撃アルゴリズムは既存の攻撃アルゴリズムよりも効果的であり、戦略のリターンが悪いことがわかりました。この論文で提案されている敵対的防御アルゴリズムは、既存の防御方法よりもさまざまな敵対的攻撃に対してより堅牢な戦略を生成します。

02 予備知識

2.1 敵対的攻撃

任意のサンプル (x, y) とニューラル ネットワーク f が与えられた場合、敵対的サンプルを生成する最適化目標は次のようになります。

ここで、 はニューラル ネットワーク f のパラメーター、L は損失関数、 は敵対的摂動の集合、 は x を中心とし を半径とするノルム制約球です。 PGD​​ 攻撃による敵対的サンプルを生成するための計算式は次のとおりです。

ここで、は投影演算を表します。入力がノルム球の外側にある場合、入力は x を中心、 を半径とする球に投影されます。は、PGD 攻撃の単一ステップの摂動サイズを表します。

2.2 強化学習とポリシー勾配

強化学習の問題は、マルコフ決定プロセスとして記述できます。マルコフ決定プロセスは 5 つの要素として定義できます。ここで、S は状態空間、A はアクション空間、は状態遷移確率、r は報酬関数、そして は割引率を表します。強力な学習の目的は、価値関数を最大化するパラメータ ポリシー分布を学習することです。

ここで、は初期状態を表します。堅牢な学習には行動価値関数の評価が含まれる

上記の式は、状態実行後のポリシーに従うことの数学的期待値を表します。定義から、価値関数とアクション価値関数は次の関係を満たすことがわかります。

説明を簡単にするために、ここでは主に離散アクション空間におけるマルコフ過程に焦点を当てますが、すべてのアルゴリズムと結果は連続設定にも直接適用できます。

03 紙方式

深層強化学習戦略の敵対的攻撃と防御は、堅牢な最適化PGDのフレームワークに基づいて構築されています。

ここで、は敵対的摂動シーケンスの集合を表し、すべての に対して、上記の式を満たすことで、深層強化学習による敵対的攻撃と防御のための統一されたフレームワークが提供されます。

一方、内部最小化最適化は、現在の戦略が誤った決定を下す原因となる敵対的妨害シーケンスを見つけるために使用されます。一方、外部最大化の目的は、摂動政策の下で期待収益を最大化する政策配分パラメータを見つけることです。上記の敵対的攻撃と防御ゲームの後、トレーニング プロセスにおける戦略パラメータは敵対的攻撃に対してより耐性を持つようになります。

内部目的関数を最小化する目的は、敵対的摂動を生成することです。しかし、強化学習アルゴリズムが最適な敵対的摂動を学習するのは非常に時間がかかり、労力がかかります。また、トレーニング環境は攻撃者にとってブラックボックスであるため、本論文では、攻撃者がさまざまな状態で摂動を注入する実用的な設定を検討しています。教師あり学習の攻撃シナリオとは異なり、攻撃者は分類モデルを欺いて誤分類させ、間違ったラベルを生成させるだけで済みます。強化学習の攻撃シナリオでは、アクション値関数の攻撃者は追加情報を提供します。つまり、動作値が小さいと期待される報酬も小さくなります。したがって、著者らは深層強化学習における最適な敵対的摂動を次のように定義する。

定義1: 状態sに対する最適な敵対的摂動は、状態の期待報酬を最小化する。

上記の式の解を最適化するのは非常に難しいことに注意してください。攻撃者がエージェントを欺いて最悪の決定行動を選択できるようにする必要があります。ただし、エージェントのアクション価値関数は攻撃者にはわからないため、敵対的摂動が最適であるという保証はありません。次の定理は、ポリシーが最適であれば、アクション値関数にアクセスせずに最適な敵対的摂動を生成できることを示しています。

定理1: 制御戦略が最適な場合、行動価値関数と戦略は次の関係を満たす。

ここで、はポリシーエントロピーを表し、は状態に依存する定数であり、が 0 に変化すると、も 0 に変化し、次の式が得られます。

証明: ランダム戦略が最適値に達すると、価値関数も最適値に達します。つまり、各状態 s では、価値関数を増加させる他の動作分布は存在しません。同様に、最適な行動価値関数が与えられた場合、制約付き最適化問題を解くことによって最適な戦略が得られる。

2 行目と 3 行目は確率分布であることを示しており、最後の行は戦略がランダム戦略であることを示しています。KKT 条件によれば、上記の最適化問題は次の形式に変換できます。

で。すべてのアクションが正定値であると仮定すると、次のようになります。

のとき、 が存在しなければならない。また、任意の に対して が存在し、これは行動価値関数と戦略のソフトマックスとの関係を与える。

その中には

上記の最初の式を2番目の式に代入すると、

上記の式では、 はソフトマックス形式の確率分布を表し、そのエントロピーは に等しくなります。が 0 に等しい場合、 も 0 になります。この場合、 は 0 より大きいので、この時点では となります。

定理 1 は、ポリシーが最適な場合、摂動されたポリシーと元のポリシー間のクロスエントロピーを最大化することによって最適な摂動が得られることを示しています。議論を簡略化するために、著者は定理 1 の攻撃を戦略的攻撃と呼び、PGD アルゴリズム フレームワークを使用して最適な戦略的攻撃を計算します。具体的なアルゴリズムのフローチャートは、以下のアルゴリズム 1 に示されています。

敵対的摂動から防御するために著者が提案した堅牢な最適化アルゴリズムのフローチャートを、以下のアルゴリズム 2 に示します。このアルゴリズムは、戦略的攻撃敵対的トレーニングと呼ばれます。トレーニングフェーズでは、摂動ポリシーを使用して環境と対話し、摂動ポリシーのアクション値関数を推定してポリシーのトレーニングに役立てます。

具体的な内容としては、まずトレーニング段階で、価値関数が削減される保証はないものの、著者らは戦略的な攻撃を使用して摂動を生成します。トレーニングの初期段階では、ポリシーはアクション価値関数に関連していない可能性がありますが、トレーニングが進むにつれて、徐々にソフトマックス関係を満たすようになります。

一方、行動価値関数を正確に推定する必要性は、摂動されたポリシーを実行することによって軌跡が収集され、このデータを使用して摂動されていないポリシーの行動価値関数を推定すると非常に不正確になる可能性があるため、処理が困難です。

PPOを用いた最適化摂動戦略の目的関数は

ここで、 は摂動政策平均関数の推定値です。実際にはGAE法によって推定されます。具体的なアルゴリズムのフローチャートを下図に示します。

04 実験結果

下の右側の 3 つのサブ図は、さまざまな攻撃の摂動の結果を示しています。逆トレーニング戦略と標準戦略の両方がランダムな摂動に対して耐性があることがわかります。対照的に、敵対的攻撃はさまざまな戦略のパフォーマンスを低下させる可能性があります。結果はテスト環境と防御アルゴリズムによって異なります。さらに、3 つの敵対的攻撃アルゴリズム間のパフォーマンスの差は非常に小さいことがわかります。

対照的に、比較的困難な設定では、著者らが提案した攻撃アルゴリズムによって乱された戦略は、はるかに低いリターンを生み出しました。全体的に、この論文で提案された戦略的攻撃アルゴリズムは、ほとんどの場合、最も低い報酬を生み出しており、これは、テストされたすべての敵対的攻撃アルゴリズムの中で最も効率的であることを示しています。

次の図は、さまざまな防御アルゴリズムと標準 PPO の学習曲線を示しています。パフォーマンス曲線は、環境と対話するために使用される戦略の期待収益のみを表すことに注意することが重要です。すべてのトレーニング アルゴリズムの中で、論文で提案されている ATPA はトレーニング分散が最も低く、他のアルゴリズムよりも安定しています。また、特にトレーニングの初期段階では、ATPA の進行が標準的な PPO よりもはるかに遅いことにも気づくでしょう。これにより、トレーニングの初期段階では、悪影響要因によって妨害され、ポリシー トレーニングが非常に不安定になる可能性があります。

この表は、さまざまなアルゴリズムを使用したさまざまな摂動下での戦略の期待収益をまとめたものです。 ATPA によってトレーニングされた戦略は、さまざまな敵対的干渉に抵抗できることがわかります。対照的に、StageWise と DataAugment は敵対的攻撃にある程度対処することを学習しますが、すべてのケースで ATPA ほど効果的ではありません。

より広範囲な比較のために、最も効果的な戦略的攻撃アルゴリズムによって生成されるさまざまなレベルの敵対的摂動に対するこれらの防御アルゴリズムの堅牢性も評価します。下の図に示すように、ATPA は今回もすべてのケースで最高得点を達成しました。さらに、ATPA の評価変動は StageWise や DataAugment よりもはるかに小さく、ATPA の生成能力が優れていることがわかります。

同様のパフォーマンスを達成するには、ATPA では標準の PPO アルゴリズムよりも多くのトレーニング データが必要です。著者らは、摂動戦略の安定性を研究することで、この問題をさらに深く掘り下げています。トレーニングプロセスの途中と最後に異なるランダム初期化ポイントを使用して PGD によるポリシー攻撃を実行して得られた摂動ポリシーの KL ダイバージェンス値を計算しました。下の図に示すように、敵対的トレーニングを行わない場合、標準的な PPO が収束した後でも大きな KL ダイバージェンス値が継続的に観測され、異なる初期点で PGD を実行することによって引き起こされる摂動に対して戦略が非常に不安定であることがわかります。

下の図は、異なる初期点を持つ摂動戦略の KL ダイバージェンス グラフを示しています。図の各ピクセルは、ATPA アルゴリズムのコア式を最大化することによって得られる 2 つの摂動戦略の KL ダイバージェンス値を表しています。 KL ダイバージェンスは非対称の尺度であるため、これらのマッピングも非対称であることに注意してください。

<<:  人工知能は人間の弱点を克服できる

>>:  人工知能がデータセンターのネットゼロカーボン達成を支援

ブログ    
ブログ    

推薦する

Python 向け 5 つの強化学習フレームワーク

独自の強化学習実装をゼロから作成するのは大変な作業になる可能性がありますが、そうする必要はありません...

フロントエンドでも機械学習を理解する必要がある

[[374893]]背景:近年、機械学習の人気は高まり続けており、フロントエンド分野も継続的に展開さ...

...

データマイニングのためのK平均法アルゴリズムのグラフィカルな説明

K-means クラスタリング アルゴリズム 中国語名は「K-means クラスタリング アルゴリズ...

4つのPythonソートアルゴリズムをマスターする

プログラミングにおいて、ソートはデータをより速く簡単に見つけるのに役立つ重要なアルゴリズムです。この...

27,303件のホットなコメントを調べた結果、なぜ「紅炎火水」は未だに世間から嘲笑されているのか?

AI開発者会議でスピーチをしている最中に、ロビン・リーは見知らぬ人から頭に水の入ったボトルをかけら...

8つの予測分析ツールの比較

予測分析ツールとは何ですか?予測分析ツールは、人工知能とビジネスレポートを融合します。これらのツール...

AI研究所が超大規模知能モデル「Wudao 1.0」をリリース

3月20日、北京人工知能研究院は超大規模知能モデル「五道1.0」を発表した。 「五道1.0」は中国初...

...

Baidu World 2020 | Baidu CTO 王海鋒が Baidu Brain 6.0 をリリース、AI の新インフラストラクチャが業界インテリジェンスを加速

もし20年前の自分に会って会話ができたら、何を話しますか?想像する必要はありません。まるでSF映画の...

...

大規模言語モデルの詳細な分析: トレーニングから大規模モデルの展開まで

導入データサイエンスの分野が進歩するにつれ、複雑な自然言語を処理および生成できる高度な AI システ...

人工知能企業が大規模なデータ漏洩事件に見舞われ、250万人以上のデータが流出

[[258473]]最近、セキュリティ分野に注力する国内の人工知能企業で大規模なデータ漏洩事件が発生...

データセンターにおけるAI技術の応用

AI技術はここ数年で進歩しており、データセンターを含む多くの業界で導入されています。たとえば、Goo...

2024年のAIトレンド、このグラフをご覧ください、LeCun: オープンソースのビッグモデルがクローズドソースを上回る

2023年ももうすぐ終わりです。過去1年間で、さまざまな大型モデルがリリースされました。 OpenA...