パフォーマンスが20%向上しました! USTCの「状態シーケンス周波数領域予測」手法:学習サンプル効率の最大化の特徴

パフォーマンスが20%向上しました! USTCの「状態シーケンス周波数領域予測」手法:学習サンプル効率の最大化の特徴

強化学習 (RL) アルゴリズムのトレーニング プロセスでは、サポートとして環境との相互作用のサンプル データが大量に必要になることがよくあります。しかし、ドローン空中戦闘訓練や自律運転訓練など、現実世界で大量の相互作用サンプルを収集することは、通常、コストがかかったり、サンプル収集プロセスの安全性を確保したりすることが困難です。

トレーニングプロセス中の強化学習アルゴリズムのサンプル効率を向上させるために、一部の研究者は、表現学習を利用して将来の状態信号を予測する補助タスクを設計し、表現が元の環境状態から将来の決定に関連する特徴をエンコードできるようにしました。

この考えに基づいて、本研究では、より長期的な将来の意思決定の特徴を捉え、それによってアルゴリズムのサンプル効率を向上させるために、複数のステップにわたる将来の状態シーケンスの周波数領域分布を予測する補助タスクを設計しました。

この研究は、「表現学習のためのフーリエ変換による状態シーケンス予測」と題され、NeurIPS 2023 に掲載され、Spotlight として採択されました。

著者リスト: Ye Mingxuan、Kuang Yufei、Wang Jie*、Yang Rui、Zhou Wengang、Li Houqiang、Wu Feng

論文リンク: https://openreview.net/forum?id=MvoMDD6emT

コードリンク: https://github.com/MIRALab-USTC/RL-SPF/

研究の背景と動機

深層強化学習アルゴリズムは、ロボット制御[1]、ゲームインテリジェンス[2]、組み合わせ最適化[3]などの分野で大きな成功を収めています。しかし、現在の強化学習アルゴリズムには依然として「サンプル効率が低い」という問題があり、つまり、ロボットが優れたパフォーマンスの戦略をトレーニングするには、環境との相互作用に関する大量のデータが必要になります。

サンプル効率を向上させるために、研究者は表現学習に注目し、訓練された表現が環境の元の状態から十分かつ価値のある特徴情報を抽出し、それによってロボットの状態空間の探索効率を向上させることを期待しています。

表現学習に基づく強化学習アルゴリズムフレームワーク

順次的な意思決定タスクでは、 「長期的順次信号」には、単一ステップ信号よりも長期的な意思決定に役立つ将来の情報がより多く含まれています。このアイデアに触発されて、一部の研究者は、将来の複数のステップの状態シーケンス信号を予測することで表現学習を支援することを提案しました[4,5]。しかし、表現学習を支援するために状態シーケンスを直接予測することは非常に困難です。

既存の2つの方法のうち、1つのクラスの方法は、単一ステップの確率遷移モデルを学習して、単一瞬間の将来の状態を徐々に生成し、間接的に複数ステップの状態シーケンスを予測します[6,7]。ただし、このタイプの方法では、予測シーケンスの長さが長くなるにつれて各ステップでの予測誤差が蓄積されるため、トレーニングされた確率転送モデルの精度に対する要件が高くなります。

別のタイプの方法は、将来の複数のステップの状態シーケンスを直接予測することによって表現学習を支援する[8]。しかし、このタイプの方法では、複数のステップの実際の状態シーケンスを予測タスクのラベルとして保存する必要があり、大量のストレージを消費します。したがって、環境の状態シーケンスから長期的な意思決定に有益な将来の情報を効果的に抽出し、それによって連続制御ロボットのトレーニング中のサンプル効率を向上させる方法が解決すべき問題です。

上記の問題を解決するために、我々は状態シーケンス周波数領域予測( State Sequences Prediction via Fourth Transform、 SPF )に基づく表現学習法を提案しました。その考え方は、 「状態シーケンスの周波数領域分布」を使用して、状態シーケンスデータ内の傾向と規則性の情報を明示的に抽出し、それによって表現が長期的な将来の情報を効率的に抽出するのを支援するというものです。

状態シーケンスにおける構造情報の分析

我々は、状態系列には「2種類の構造情報」が存在し、1つは戦略パフォーマンスに関する傾向情報であり、もう1つは状態の周期性に関する規則性情報であることを理論的に証明しました

マルコフ決定過程

2 種類の構造情報を詳細に分析する前に、まず状態シーケンスを生成するマルコフ決定プロセス (MDP) の関連定義を紹介します。

連続制御問題に対する古典的なマルコフ決定過程を考えます。これは 5 つの要素で表すことができます。このうち、 は対応する状態と行動空間、 は報酬関数、 は環境の状態遷移関数、 は状態の初期分布、 は割引率です。さらに、状態 t におけるポリシーのアクション分布を表すために t を使用します。

時刻におけるエージェントの状態を 、選択されたアクションを として記録します。エージェントがアクションを実行した後、環境は次の状態に移行し、エージェントに報酬 を与えます。エージェントと環境の相互作用中に得られる状態とアクションに対応する軌道を と表し、軌道は分布 に従います。

強化学習アルゴリズムの目標は、将来の期待累積収益を最大化することです。現在の戦略と環境モデルでの平均累積収益を表すために を使用し、次のように定義される と略記します。

現在の戦略のパフォーマンスを表示します。

トレンド情報

次に、状態シーケンスと対応する報酬シーケンス間の依存関係を含み、現在の戦略のパフォーマンスの傾向を示すことができる状態シーケンスの「最初の構造的特徴」を紹介します。

強化学習タスクでは、将来の状態シーケンスによって、エージェントが将来実行するアクション シーケンスがほぼ決定され、さらに対応する報酬シーケンスも決定されます。したがって、将来の状態シーケンスには、環境に固有の確率遷移関数に関する情報が含まれているだけでなく、現在の戦略を反映する傾向を捉えるのにも役立ちます。

上記の構造に着想を得て、この構造依存性の存在をさらに証明する次の定理を証明します。

定理 1 : 報酬関数が状態にのみ関連している場合、任意の 2 つの戦略とについて、それらのパフォーマンスの違いは、2 つの戦略によって生成される状態シーケンスの分布の違いによって制御できます。

上記の式において、 は指定された戦略と遷移確率関数の下での状態シーケンスの確率分布を表し、 はノルムを表します。

上記の定理は、2 つの戦略間のパフォーマンスの差が大きいほど、対応する 2 つの状態シーケンス間の分布の差が大きくなることを示しています。これは、良い戦略と悪い戦略が 2 つの非常に異なる状態シーケンスを生成することを意味し、状態シーケンスに含まれる長期的な構造情報が、優れたパフォーマンスを持つ戦略の検索の効率に影響を与える可能性があることをさらに示しています。

一方、特定の条件下では、状態シーケンスの周波数領域分布の差は、次の定理に示すように、対応する戦略パフォーマンスの差の上限も提供できます。

定理 2 : 状態空間が有限次元であり、報酬関数が状態に関連する n 次多項式である場合、任意の 2 つの戦略とについて、それらのパフォーマンスの違いは、2 つの戦略によって生成される状態シーケンスの周波数領域分布の違いによって制御できます。

上記の式では、戦略によって生成された状態シーケンスのべき乗シーケンスのフーリエ関数を表し、フーリエ関数の 番目の成分を表します。

この定理は、状態シーケンスの周波数領域分布に、現在の戦略のパフォーマンスに関連する特徴がまだ含まれていることを示しています。

規則性情報

次に、状態シーケンスに存在する「第 2 の構造的特徴」を紹介します。これは、状態信号間の時間依存性、つまり、より長い期間にわたって状態シーケンスによって示される規則的なパターンに関係します。

多くの現実世界のタスクでは、環境の状態遷移関数自体が周期的であるため、エージェントも周期的な動作を示します。産業用組み立てロボットを例に挙げてみましょう。ロボットは部品を組み立てて最終製品を作成するようにトレーニングされています。ポリシー トレーニングが安定すると、部品を効果的に組み立てることができるように、定期的な一連のアクションを実行します。

上記の例を参考にして、有限状態空間において、遷移確率行列が特定の仮定を満たす場合、エージェントが安定した戦略に到達したときに、対応する状態シーケンスが「漸近周期性」を示す可能性があることを証明する理論的分析を示します。具体的な定理は次のとおりです。

定理3 : 状態転送行列を持つ有限次元状態空間について、 が巡回クラスを持つと仮定すると、対応する状態転送部分行列は​​です。この行列の 1 を法とする固有値の数が であるとすると、任意の初期状態分布に対して、状態分布は の周期で漸近周期性を示します。

MuJoCo タスクでは、ポリシー トレーニングが安定すると、エージェントは周期的な動きも示します。下の図は、一定期間にわたる MuJoCo タスクにおける HalfCheetah エージェントの状態シーケンスの例を示しており、明らかな周期性が見られます。 (MuJoCoタスクにおける周期的な状態シーケンスのさらなる例については、この論文の付録のセクションEを参照してください)

MuJoCoタスクにおけるHalfCheetahエージェントの状態の周期性

時間領域で時系列によって提示される情報は比較的散在していますが、周波数領域では、シーケンス内の規則的な情報はより集中した形で提示されます。周波数領域で周波数成分を分析することにより、状態シーケンスに存在する周期的な特性を明示的に捉えることができます。

方法の紹介

前のセクションでは、状態シーケンスの周波数領域分布が戦略のパフォーマンスを反映できることを理論的に証明し、周波数領域で周波数成分を分析することで、状態シーケンスの周期的な特性を明示的に捉えることができることを示しました。

上記の分析にヒントを得て、抽出された状態シーケンスにおける構造情報の表現を促進するために、 「無限未来の状態シーケンスのフーリエ変換を予測する」という補助タスクを設計しました。

SPF法の損失関数

以下では、この補助タスクのモデル化について説明します。現在の状態とアクションが与えられた場合、将来の状態シーケンスの期待値を次のように定義します。

私たちの補助タスクは、上記の状態シーケンスの期待される離散時間フーリエ変換 (DTFT) を予測するための表現をトレーニングします。

上記のフーリエ変換式は、次の再帰形式として書き直すことができます。

で、

このうち、 は状態空間の次元であり、 は予測される状態シーケンスのフーリエ関数の離散化された点の数です。

Q学習におけるQ値ネットワークを最適化するためのTD誤差損失関数[9]に触発されて、私たちは次の損失関数を設計しました。

このうち、 は損失関数によって最適化されるエンコーダとフーリエ関数予測器のニューラル ネットワーク パラメータであり、 はサンプル データを格納するための経験プールです。

さらに、上記の再帰式は圧縮マップとして表現できることを証明できます。

定理4 : 関数の族を表し、ノルムを次のように定義します。

ここで は行列の行ベクトルを表します。マッピングは次のように定義されます。

すると、 が圧縮マップであることが証明されます。

圧縮マッピングの原理によれば、演算子を反復的に使用して、実際の状態シーケンスの周波数領域分布に近づき、表形式の設定で収束が保証されるようにすることができます。

さらに、私たちが設計した損失関数は、現時点と次の瞬間の状態にのみ依存するため、将来の複数ステップの状態データを予測ラベルとして保存する必要がなく、 「実装が簡単で、ストレージ容量が少ない」という利点があります。

SPF方式アルゴリズムフレームワーク

以下では、本論文の方法 (SPF) のアルゴリズムのフレームワークを紹介します。

状態シーケンス周波数領域予測に基づく表現学習法(SPF)のアルゴリズムフレームワーク図

現在の瞬間と次の瞬間の状態-行動データをそれぞれオンライン表現エンコーダーとターゲット表現エンコーダーに入力して状態-行動表現データを取得し、次に表現データをフーリエ関数予測器に入力して、現在の瞬間と次の瞬間の2セットの状態シーケンスフーリエ関数予測値を取得します。これら 2 つのフーリエ関数予測セットを代入することで、損失関数の値を計算できます。

損失関数を最小化することで表現エンコーダとフーリエ関数予測器の更新を最適化し、予測器の出力が真の状態シーケンスのフーリエ変換に近づくようにすることで、表現エンコーダが将来の長期状態シーケンスの構造情報を含む特徴を抽出できるようにします。

元の状態とアクションを表現エンコーダーに入力し、得られた特徴を強化学習アルゴリズムのアクターネットワークと批評家ネットワークの入力として使用し、古典的な強化学習アルゴリズムを使用してアクターネットワークと批評家ネットワークを最適化します。

実験結果

(注:このセクションでは、いくつかの実験結果のみを取り上げています。より詳細な結果については、元の論文のセクション 6 と付録を参照してください。)

アルゴリズムのパフォーマンス比較

MuJoCo シミュレーションロボット制御環境で SPF 方式をテストし、次の 6 つの方法を比較しました。

  • SAC :従来の強化学習アルゴリズムであるQ値学習[10]に基づくソフトアクタークリティックアルゴリズム。
  • PPO :従来の強化学習アルゴリズムであるポリシー最適化[11]に基づく近似ポリシー最適化アルゴリズム。
  • SAC-OFE : 単一ステップの将来の状態を予測する補助タスクを使用して表現を学習することにより、SAC アルゴリズムを最適化します。
  • PPO-OFE : 表現学習のための単一ステップの将来の状態を予測する補助タスクを使用して、PPO アルゴリズムを最適化します。
  • SAC-SPF : 表現学習のための無限状態シーケンスの周波数領域関数を予測する補助タスクを使用して SAC アルゴリズムを最適化します (当社のアプローチ)。
  • PPO-SPF : 表現学習のための無限状態シーケンスの周波数領域関数を予測する補助タスクを使用して PPO アルゴリズムを最適化します (当社のアプローチ)。

6つのMuJoCoタスクに基づく比較実験結果

上の図は、6 つの MuJoCo タスクにおける、提案する SPF 方式 (赤線とオレンジ線) と他の比較方式のパフォーマンス曲線を示しています。結果は、提案された方法が他の方法と比較して19.5% のパフォーマンス向上を達成できることを示しています。

アブレーション実験

SPF 方式の各モジュールに対してアブレーション実験を行い、プロジェクター モジュールを使用しない場合 (noproj)、ターゲット ネットワーク モジュールを使用しない場合 (notarg)、予測損失を変更する場合 (nofreqloss)、特徴エンコーダ ネットワーク構造を変更する場合 (mlp、mlp_cat) とこの方式のパフォーマンスを比較しました。

SACアルゴリズムにSPF法を適用し、HalfCheetahタスクでテストしたアブレーション実験結果

可視化実験

SPF 法でトレーニングされた予測器出力状態シーケンスのフーリエ関数を使用し、逆フーリエ変換によって復元された 200 ステップの状態シーケンスを実際の 200 ステップの状態シーケンスと比較します。

Walker2d タスクでテストされた、フーリエ関数の予測値に基づいて復元された状態シーケンスの概略図。このうち、青い線は実際の状態シーケンスの模式図であり、5 本の赤い線は復元された状態シーケンスの模式図です。より低く、より薄い色の赤い線は、より古い歴史的状態を使用して復元された状態シーケンスを表しています。

結果は、古い状態を入力として使用した場合でも、復元された状態シーケンスが実際の状態シーケンスと非常に類似していることを示しており、これは、SPF メソッドによって学習された表現が、状態シーケンスに含まれる構造情報を効果的にエンコードできることを示しています。

<<:  DDLは第一の生産力です。科学的な説明があります。ネットユーザー:ビッグモデルで試してみましょう

>>: 

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

エッジ vs. クラウド: どちらの AI インフラストラクチャを選択すべきか?

エッジコンピューティングは最近ホットな話題です。近年最もエキサイティングな技術革新として称賛され、そ...

...

人工知能市場の需要と応用

「人工知能」は3年連続で政府活動報告に盛り込まれており、2019年にはビッグデータ、人工知能などの研...

元Googleロボット部門責任者が伸縮自在のアシスタントロボットを開発

海外メディアの報道によると、過去3年間、グーグルの元ロボット工学部長であるアーロン・エドシンガー博士...

AIエージェントを実装するには? 6 枚の写真 4090 Magic Llama2: タスクを分割して 1 つのコマンドで関数を呼び出す

AIエージェントは今話題になっています。OpenAIの応用研究ディレクターであるLilian Wen...

なぜ人工知能は第四次産業革命と呼ばれるのでしょうか?

[[234940]]過去2年間、世界のIT大手は人工知能の分野で展開してきました。GoogleはD...

ディープラーニング以外に機械翻訳には何が必要ですか?

[[200675]]視聴者が足りないなら、噂話で十分だまずは噂話から始めましょう。この記事を書き始...

2021 年のテクノロジートレンドはどこに向かうのでしょうか? IEEEが答えを教えます

[[357414]]この記事はLeiphone.comから転載したものです。転載する場合は、Leip...

自動運転車は見たことのない物体を避けることができないのか?問題はトレーニングパイプラインにある

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...

...

間違い:2017 年に人工知能分野で何が起こったか

今年、AIプロジェクトのAlphaGoとLibratusが、それぞれ人間の最強の囲碁プレイヤーとポー...

ウエストワールドがやってくる: ロボットは独自の言語を使ってコミュニケーションとコラボレーションを学ぶ

人工知能研究チームOpenAIが発表した最新の報告書は、ロボットが自ら作成した新しい言語を使って互い...

...

ChatGPTに対抗できるAIモデル6つと中国企業の製品2つが選定

ChatGPT は、大規模言語モデル (LLM) に基づく業界をリードするチャットボットとして、テク...

...