Google Brain、ロボットアームの把持速度を2倍にする並行RLアルゴリズムを提案

RL アルゴリズムでは通常、観測値の取得、アクションの計算、およびそれらの実行の間で環境の状態が変化しないと想定されます。この仮定はシミュレーション環境では簡単に実装できますが、実際のロボット制御では当てはまらず、制御戦略の実行が遅くなったり、失敗したりする可能性があります。上記の問題を軽減するために、Google Brain、カリフォルニア大学バークレー校、X Lab は最近、ロボットが人間のように「行動しながら考える」ことを可能にする並行 RL アルゴリズムを提案しました。現在、この論文はICLR 2020に採択されています。

この研究では、制御対象システムが時間の経過とともに進化する間のサンプリング動作のコンテキストにおける強化学習を研究します。言い換えれば、研究対象のロボットは、前のアクションを実行しながら次のアクションを考慮する必要があります。人間や動物と同じように、ロボットも同時に考えながら行動し、前の行動が完了する前に次の行動を決定する必要があります。

このような同時制御問題のためのアルゴリズムフレームワークを開発するために、研究者は連続時間ベルマン方程式から始めて、システム遅延を考慮した方法でそれを離散化しました。既存の価値ベースの深層強化学習アルゴリズムに単純なアーキテクチャ拡張を加えることで、チームは新しいクラスの近似動的プログラミング手法を提案し、シミュレートされたベンチマークタスクと大規模なロボット把持タスク（ロボットが「歩きながら考える」必要がある）で評価しました。

この方法によるシミュレーションおよび実際のロボットでの実行効果は次のとおりです。

論文アドレス: https://arxiv.org/abs/2004.06089

プロジェクトウェブサイト: https://sites.google.com/view/thinkingwhilemoving

同時アクション環境

次の図 (a) は、ブロッキング環境において、状態の取得とアクションの実行の間で環境状態が変化しないと仮定して、アクションが順次ブロッキング方式で実行されることを示しています。エージェントの観点から見ると、状態の取得と戦略の推論が瞬時に完了するとも解釈できます。対照的に、図(b)に示す並行環境では、状態の取得とポリシーの推論の間で環境が変化しないことを前提とせず、その間に環境が変化することを許可します。

ブロッキング環境と並行環境におけるさまざまなステージの実行順序の比較。

価値ベースの連続および離散同時強化学習アルゴリズム

研究者たちは、システムの同時性を簡単に表現できるため、連続時間強化学習の観点から調査を始めました。その後、研究者らは、連続的なケースから得られた結論が、その後のすべての実験で使用されるより一般的な離散的な設定にも当てはまることを実証しました。

連続環境方程式

並行環境をさらに分析するために、研究者は次の表記法を導入しました。エージェントは 1 サイクルで N 個のアクション軌道 (a_1、...、a_N) を選択します。ここで、各 a_i(t) は、時間 t を変数として制御を生成するために使用される連続関数です。 t_{AS} を、状態の取得、ポリシーの推論、および追加の通信遅延の間の時間とします。時刻tに、エージェントは状態s(t)におけるi番目のアクションa_i(t)の計算を開始します。同時に、以前に選択されたアクションa_{i−1}(t)が時間間隔(t − H + t_{AS}、t+t_{AS})内で実行されます。時刻t+t_{AS}（t ≤ t+t_{AS} ≤ t+H）に、エージェントはa_i(t)からのアクションを実行するように切り替わります。並行環境における連続 Q 関数は次のように表現できます。

最初の2つの項は、それぞれ時刻(t,t + t_{AS})でのアクションa_{i−1}(t)の実行と時刻(t + t_{AS},t + t_{AS} + H)でのアクションa_i(t)の実行の期待割引収益に対応します。ランダム関数pをサンプリングすることで、ポリシーの展開のみを対象とした単一サンプルのモンテカルロ推定量Qを得ることができます。

次に、連続時間の場合、研究者は新しい並行ベルマンバックアップ演算子を定義しました。

上記の演算子は、同時動作を考慮するためにベルマン演算子を拡張します。研究者は、改良された演算子が Q 学習の収束に重要なその吸引領域の特性を維持することを証明しています。

離散環境方程式

離散的なケース（動作方程式a_i(t)と時刻tにおけるその値a_i(t)が不要な場合）での表記を簡略化するために、現在の状態をs_t、現在の動作をa_t、前の瞬間の動作をa_{t−1}（それぞれ添え字iをtに置き換える）に設定します。上記の表記法を使用して、研究者は離散的なケースにおける同時 Q 方程式を定義しました。

ここで、t_{AS′}は、アクションa_tが時刻t + t_{AS}に実行を開始したときのスピルオーバー期間です。したがって、同時ベルマン演算子（下付き文字 c で表される）は次のようになります。

連続の場合と同様に、研究者らは離散ベルマン演算子も吸引領域であることを証明しました。

実験結果

単純な一次制御問題

まず、標準の Cartpole 環境と Pendulum 環境の並行バージョンで制御変数の調査を実施することにより、並行制御パラダイムが値ベースの DRL アプローチに与える影響を説明します。

異なる同時知識表現の相対的な重要性を推定するために、研究者は、次の図に示すように、各同時知識表現のハイパーパラメータ値の他の組み合わせに対する感度を分析しました。

Cartpole 環境と Pendulum 環境での実験結果。

大規模ロボット把持作業

次に、研究者たちはシミュレーションと実際のロボットアームの両方で実験を実施しました。

図 3: シミュレーションと実際の環境でのロボットアームの把持タスクの図解。

表 1 は、無条件モデルと並行知識モデルを比較して、ブロッキングモードと並行モードのパフォーマンスをまとめたものです。同時知識モデルはより高速な軌道を学習することができ、ブロッキング無条件モデルと比較してサイクル期間が 31.3% 短縮されます。

表 1: ロボットの把持タスクの大規模シミュレーションの実験結果。

さらに、研究者らは、図 3b に示すように、実際のロボットの把持タスクにおける並行モデルとブロッキングモデルの定性的な戦略的動作を比較しました。

表 2 に示すように、クロール成功の点ではモデルのパフォーマンスは同等ですが、ポリシー期間の点では同時実行モデルの方がブロッキングモデルより 49% 高速です (ポリシー期間はポリシーの合計実行時間を測定しますが、同時実行操作では最適化できないインフラストラクチャのセットアップ時間とティアダウン時間はサイクル期間に含まれません)。

表2: 実際のロボットの把持結果。

<<: AIが医療をどう変えるかリアルタイムのデータ分析は医療にとって重要

>>: AIがクラウドコンピューティングを再定義し、ビジネス効率を向上させる方法