LSTMとトランスフォーマーの利点を組み合わせることで、DeepMindの強化学習エージェントはデータ効率を向上させます

LSTMとトランスフォーマーの利点を組み合わせることで、DeepMindの強化学習エージェントはデータ効率を向上させます

  [[423163]]

近年、マルチエージェント強化学習は飛躍的な進歩を遂げています。例えば、DeepMindが開発したAlphaStarは、StarCraft IIでプロのStarCraftプレイヤーに勝利し、人間のプレイヤーの99.8%を超えました。OpenAI FiveはDOTA2で世界チャンピオンチームを何度も破り、eスポーツ大会でチャンピオンを破った最初の人工知能システムです。ただし、多くの強化学習 (RL) エージェントでは、タスクを解決するために多数の実験が必要になります。

最近、DeepMind の研究者は、新しいコントラスト損失とハイブリッド LSTM トランスフォーマー アーキテクチャを組み合わせてデータ処理効率を向上させる CoBERL (Contrastive BERT for RL) エージェントを提案しました。 CoBERL は、より広範囲のドメインからのピクセルレベルの情報を使用して、効率的で堅牢な学習を可能にします。

具体的には、双方向マスク予測と一般化を最新の比較方法と組み合わせて使用​​し、手動によるデータ拡張を必要とせずに、RL におけるトランスフォーマーのより優れた表現を学習します。実験では、CoBERL が Atari スイート全体、一連の制御タスク、および困難な 3D 環境全体で一貫してパフォーマンスを向上させることが示されています。

論文アドレス: https://arxiv.org/pdf/2107.05431.pdf

方法の紹介

深層強化学習におけるデータ効率の問題に対処するために、研究者らは現在の研究に 2 つの修正を提案しました。

  • まず、マスク入力予測における自己注意の一貫性を強制することで、より良い表現を学習することを目的とした新しい表現学習目標を提案します。
  • 次に、LSTM とトランスフォーマーの利点を組み合わせることができるアーキテクチャの改善が提案されています。

CoBERL の全体的なアーキテクチャ図。

表現学習

研究者たちはBERTと対照学習を組み合わせました。本研究では、BERT方式をベースに、トランスフォーマーの双方向処理メカニズムとマスク予測設定を組み合わせます。双方向処理メカニズムにより、エージェントは時間的環境に基づいて特定の状態のコンテキストを理解することができます。一方、マスクされた位置での予測入力は、後続の時間ステップを予測する確率を減らすことで相関入力の問題を軽減します。

研究者らは対照学習も使用しました。多くの対照損失 (SimCLR など) は、比較可能なデータ グループを作成するためにデータ拡張に依存していますが、この研究では、プロキシ タスクを構築するためにこれらの手作業によるデータ拡張を使用する必要はありません。

代わりに、入力データの連続的な性質を利用して、画像観察のみに依存するデータ拡張 (切り抜きやピクセルの変更など) を必要とせずに、対照学習に必要な類似点と相違点のグループ化を作成します。対照損失については、研究者らは時間領域にも適応した RELIC を使用しました。研究者らは、GTrXL トランスフォーマーの入力と出力を揃えてデータのグループ化を作成し、KL 正則化として RELIC を使用して、画像分類分野の SimCLR や RL 分野の Atari などの使用される方法のパフォーマンスを向上させました。

CoBERL アーキテクチャ

トランスフォーマーは、自然言語処理やコンピューター ビジョンのタスクにおける長距離データ依存関係をリンクするのに非常に効果的ですが、RL 設定では、トランスフォーマーのトレーニングが難しく、過剰適合が発生しやすくなります。それどころか、LSTM は RL で非常に有用であることが証明されています。 LSTM は長距離の依存関係をうまくキャプチャできませんが、短距離の依存関係を効率的にキャプチャできます。

この研究では、シンプルだが強力なアーキテクチャの変更を提案しています。GTrXLの上に LSTM レイヤーを追加し、LSTM と GTrXL の間に GTrXL の入力によって変調されるゲート残差接続を追加します。さらに、このアーキテクチャには、トランスフォーマー入力から LSTM 出力へのスキップ接続が含まれています。具体的には、Y_t は時刻 t におけるエンコーダ ネットワークの出力であり、追加モジュールは次の式で定義できます。

これらのモジュールは、トランスフォーマーには最近のバイアスがないのに対し、LSTM バイアスは最新の入力を表すことができるため、補完的です。式 6 のゲートにより、エンコーダー表現とトランスフォーマー出力を混合できます。このメモリ アーキテクチャは、RL メカニズムの選択に依存せず、オン ポリシー設定とオフ ポリシー設定の両方で評価されます。オンポリシー設定では、この研究では RL アルゴリズムとして V-MPO を使用します。 V-MPO は、ポリシー更新にターゲット分布を使用し、KL 制約の下でパラメータをターゲットに向かって部分的に移動します。オフポリシー設定では、研究者は R2D2 を使用しました。

R2D2 エージェント: R2D2 (Recurrent Replay Distributed DQN) は、リプレイと RL 学習目標を適応させて、リカレント アーキテクチャを持つエージェントで動作させる方法を示します。 Atari-57 および DMLab-30 での競争力のあるパフォーマンスを考慮して、研究者は CoBERL アーキテクチャを R2D2 のコンテキストで実装しました。彼らは、LSTM をゲート トランスフォーマーと LSTM の組み合わせに効果的に置き換え、対照的表現学習損失を追加しました。したがって、R2D2 と分散エクスペリエンス収集の利点により、再帰エージェント状態はリプレイ バッファーに保存され、リプレイ シーケンスが展開されたネットワークの一部としてトレーニング中に「焼き付けられ」ます。

V-MPO エージェント: DMLab-30 での V-MPO の優れたパフォーマンス、特に CoBERL の主要コンポーネントである GTrXL アーキテクチャとの組み合わせを考慮して、この研究では V-MPO と DMLab30 を使用して、オンポリシー アルゴリズムでの CoBERL の使用を実証します。 V-MPO は、最大事後確率ポリシー最適化 (MPO) に基づくポリシー適応型アルゴリズムです。ポリシー勾配法でよく見られる高い分散を回避するために、V-MPO は、サンプルベースの KL 制約に従ってポリシー更新にターゲット分布を使用し、パラメータをターゲットに向かって部分的に移動する勾配を計算します。ターゲットも KL 制約に従います。 MPOとは異なり、V-MPOは状態アクション価値関数の代わりに学習可能な状態価値関数V(s)を使用します。

実験の詳細

研究者らは、1) CoBERL はより広範囲の環境とタスクにわたってパフォーマンスを向上させること、2) パフォーマンスを最大化するにはすべてのコンポーネントが必要であることを実証しました。実験では、Atari57、DeepMind Control Suite、および DMLab-30 での CoBERL のパフォーマンスを実証します。

以下の表 1 に、現在利用可能なさまざまなエージェントの結果を示します。結果は、CoBERL がほとんどのゲームで人間の平均を上回り、同様のアルゴリズムの平均パフォーマンスよりも大幅に高いパフォーマンスを発揮することを示しています。 R2D2-GTrXL の中央値は CoBERL よりわずかに優れており、R2D2-GTrXL が確かに Atari の強力なバリアントであることを示しています。研究者らはまた、「25th Pct と 5th Pct」を調べたところ、CoBERL のパフォーマンスと他のアルゴリズムの差がより大きく、CoBERL がデータ効率を向上させることを示していることを観察しました。

困難な 3D 環境で CoBERL をテストするために、以下の図 2 に示すように、DmLab30 で調査が実行されました。

以下の表 3 の結果は、コントラスト損失なしの CoBERL と比較して、コントラスト損失によって Atari および DMLab-30 のパフォーマンスが大幅に向上することを示しています。さらに、DmLab-30 のような厳しい環境でも、追加損失のない CoBERL はベースライン メソッドよりも優れたパフォーマンスを発揮します。

以下の表 4 は、本研究で提案されたコントラスト損失と SimCLR および CURL との比較を示しています。結果は、コントラスト損失が SimCLR および CURL よりも単純であるにもかかわらず、パフォーマンスが優れていることを示しています。

以下の表 5 は、CoBERL から LSTM を削除した場合の効果 (w/o LSTM 列に表示) と、ゲーティングとそれに関連するスキップ接続を削除した場合の効果 (w/o Gate 列に表示) を示しています。どちらの場合も、CoBERL のパフォーマンスは大幅に低下しており、CoBERL には両方のコンポーネント (LSTM と Gate) が必要であることがわかります。

以下の表 6 は、パラメータの数に応じてモデルを比較したものです。 Atari の場合、CoBERL は R2D2(GTrXL) ベースラインに対して限られた数のパラメータを追加しますが、それでも CoBERL はパフォーマンスを大幅に向上させます。この研究では、LSTM をトランスフォーマー モジュールの前に移動することも試みており、その場合、対照的な損失表現は LSTM の前から取得されます。

<<:  CVとNLPにおける対照学習の研究の進展

>>:  ETHは、画像の超解像と画像の再スケーリングを考慮して、新しい統合フレームワークHCFlowを提案しています。

ブログ    
ブログ    
ブログ    

推薦する

...

...

...

人工知能、機械学習、ディープラーニングの違い

私たちは皆、「人工知能」という言葉をよく知っています。結局のところ、ターミネーター、マトリックス、エ...

AIはデジタル変革をどのように変えるのでしょうか?

人工知能は、企業のデジタル変革の方法を変え、効率性、俊敏性、顧客中心の機能を最前線にもたらします。要...

...

人工知能は企業の調達戦略にどのように適合するのでしょうか?

どの大企業にとっても、調達は日々の業務において重要な役割を果たします。 [[317585]]企業は調...

人工知能の分野は大きな需要があり、金融​​人材の将来性は有望である

[[408300]]重慶ビジネスデイリー・商油新聞記者が本について語る大学入試願書を記入中です。専攻...

テクノロジーの専門家が若者と対談、第1回JD全国大学生アルゴリズム設計・プログラミングエリート競技会セミナーが開催されました

最近、「2021 JD全国大学生アルゴリズム設計・プログラミングエリートコンテスト-コードの無限の想...

車チームは解散です!アップルの自動車製造の8年間の夢がまたも打ち砕かれる

Apple Carはまた失敗するのでしょうか?最近、著名なアナリストのミンチー・クオ氏が自身のツイッ...

詳細レポート: ビッグモデルが AI を全面的に加速させます!黄金の10年が始まる

過去70年間に「3つの上昇と2つの下降」を経験した後、基盤となるチップ、コンピューティングパワー、デ...

...

...