LSTMとトランスフォーマーの利点を組み合わせることで、DeepMindの強化学習エージェントはデータ効率を向上させます

LSTMとトランスフォーマーの利点を組み合わせることで、DeepMindの強化学習エージェントはデータ効率を向上させます

  [[423163]]

近年、マルチエージェント強化学習は飛躍的な進歩を遂げています。例えば、DeepMindが開発したAlphaStarは、StarCraft IIでプロのStarCraftプレイヤーに勝利し、人間のプレイヤーの99.8%を超えました。OpenAI FiveはDOTA2で世界チャンピオンチームを何度も破り、eスポーツ大会でチャンピオンを破った最初の人工知能システムです。ただし、多くの強化学習 (RL) エージェントでは、タスクを解決するために多数の実験が必要になります。

最近、DeepMind の研究者は、新しいコントラスト損失とハイブリッド LSTM トランスフォーマー アーキテクチャを組み合わせてデータ処理効率を向上させる CoBERL (Contrastive BERT for RL) エージェントを提案しました。 CoBERL は、より広範囲のドメインからのピクセルレベルの情報を使用して、効率的で堅牢な学習を可能にします。

具体的には、双方向マスク予測と一般化を最新の比較方法と組み合わせて使用​​し、手動によるデータ拡張を必要とせずに、RL におけるトランスフォーマーのより優れた表現を学習します。実験では、CoBERL が Atari スイート全体、一連の制御タスク、および困難な 3D 環境全体で一貫してパフォーマンスを向上させることが示されています。

論文アドレス: https://arxiv.org/pdf/2107.05431.pdf

方法の紹介

深層強化学習におけるデータ効率の問題に対処するために、研究者らは現在の研究に 2 つの修正を提案しました。

  • まず、マスク入力予測における自己注意の一貫性を強制することで、より良い表現を学習することを目的とした新しい表現学習目標を提案します。
  • 次に、LSTM とトランスフォーマーの利点を組み合わせることができるアーキテクチャの改善が提案されています。

CoBERL の全体的なアーキテクチャ図。

表現学習

研究者たちはBERTと対照学習を組み合わせました。本研究では、BERT方式をベースに、トランスフォーマーの双方向処理メカニズムとマスク予測設定を組み合わせます。双方向処理メカニズムにより、エージェントは時間的環境に基づいて特定の状態のコンテキストを理解することができます。一方、マスクされた位置での予測入力は、後続の時間ステップを予測する確率を減らすことで相関入力の問題を軽減します。

研究者らは対照学習も使用しました。多くの対照損失 (SimCLR など) は、比較可能なデータ グループを作成するためにデータ拡張に依存していますが、この研究では、プロキシ タスクを構築するためにこれらの手作業によるデータ拡張を使用する必要はありません。

代わりに、入力データの連続的な性質を利用して、画像観察のみに依存するデータ拡張 (切り抜きやピクセルの変更など) を必要とせずに、対照学習に必要な類似点と相違点のグループ化を作成します。対照損失については、研究者らは時間領域にも適応した RELIC を使用しました。研究者らは、GTrXL トランスフォーマーの入力と出力を揃えてデータのグループ化を作成し、KL 正則化として RELIC を使用して、画像分類分野の SimCLR や RL 分野の Atari などの使用される方法のパフォーマンスを向上させました。

CoBERL アーキテクチャ

トランスフォーマーは、自然言語処理やコンピューター ビジョンのタスクにおける長距離データ依存関係をリンクするのに非常に効果的ですが、RL 設定では、トランスフォーマーのトレーニングが難しく、過剰適合が発生しやすくなります。それどころか、LSTM は RL で非常に有用であることが証明されています。 LSTM は長距離の依存関係をうまくキャプチャできませんが、短距離の依存関係を効率的にキャプチャできます。

この研究では、シンプルだが強力なアーキテクチャの変更を提案しています。GTrXLの上に LSTM レイヤーを追加し、LSTM と GTrXL の間に GTrXL の入力によって変調されるゲート残差接続を追加します。さらに、このアーキテクチャには、トランスフォーマー入力から LSTM 出力へのスキップ接続が含まれています。具体的には、Y_t は時刻 t におけるエンコーダ ネットワークの出力であり、追加モジュールは次の式で定義できます。

これらのモジュールは、トランスフォーマーには最近のバイアスがないのに対し、LSTM バイアスは最新の入力を表すことができるため、補完的です。式 6 のゲートにより、エンコーダー表現とトランスフォーマー出力を混合できます。このメモリ アーキテクチャは、RL メカニズムの選択に依存せず、オン ポリシー設定とオフ ポリシー設定の両方で評価されます。オンポリシー設定では、この研究では RL アルゴリズムとして V-MPO を使用します。 V-MPO は、ポリシー更新にターゲット分布を使用し、KL 制約の下でパラメータをターゲットに向かって部分的に移動します。オフポリシー設定では、研究者は R2D2 を使用しました。

R2D2 エージェント: R2D2 (Recurrent Replay Distributed DQN) は、リプレイと RL 学習目標を適応させて、リカレント アーキテクチャを持つエージェントで動作させる方法を示します。 Atari-57 および DMLab-30 での競争力のあるパフォーマンスを考慮して、研究者は CoBERL アーキテクチャを R2D2 のコンテキストで実装しました。彼らは、LSTM をゲート トランスフォーマーと LSTM の組み合わせに効果的に置き換え、対照的表現学習損失を追加しました。したがって、R2D2 と分散エクスペリエンス収集の利点により、再帰エージェント状態はリプレイ バッファーに保存され、リプレイ シーケンスが展開されたネットワークの一部としてトレーニング中に「焼き付けられ」ます。

V-MPO エージェント: DMLab-30 での V-MPO の優れたパフォーマンス、特に CoBERL の主要コンポーネントである GTrXL アーキテクチャとの組み合わせを考慮して、この研究では V-MPO と DMLab30 を使用して、オンポリシー アルゴリズムでの CoBERL の使用を実証します。 V-MPO は、最大事後確率ポリシー最適化 (MPO) に基づくポリシー適応型アルゴリズムです。ポリシー勾配法でよく見られる高い分散を回避するために、V-MPO は、サンプルベースの KL 制約に従ってポリシー更新にターゲット分布を使用し、パラメータをターゲットに向かって部分的に移動する勾配を計算します。ターゲットも KL 制約に従います。 MPOとは異なり、V-MPOは状態アクション価値関数の代わりに学習可能な状態価値関数V(s)を使用します。

実験の詳細

研究者らは、1) CoBERL はより広範囲の環境とタスクにわたってパフォーマンスを向上させること、2) パフォーマンスを最大化するにはすべてのコンポーネントが必要であることを実証しました。実験では、Atari57、DeepMind Control Suite、および DMLab-30 での CoBERL のパフォーマンスを実証します。

以下の表 1 に、現在利用可能なさまざまなエージェントの結果を示します。結果は、CoBERL がほとんどのゲームで人間の平均を上回り、同様のアルゴリズムの平均パフォーマンスよりも大幅に高いパフォーマンスを発揮することを示しています。 R2D2-GTrXL の中央値は CoBERL よりわずかに優れており、R2D2-GTrXL が確かに Atari の強力なバリアントであることを示しています。研究者らはまた、「25th Pct と 5th Pct」を調べたところ、CoBERL のパフォーマンスと他のアルゴリズムの差がより大きく、CoBERL がデータ効率を向上させることを示していることを観察しました。

困難な 3D 環境で CoBERL をテストするために、以下の図 2 に示すように、DmLab30 で調査が実行されました。

以下の表 3 の結果は、コントラスト損失なしの CoBERL と比較して、コントラスト損失によって Atari および DMLab-30 のパフォーマンスが大幅に向上することを示しています。さらに、DmLab-30 のような厳しい環境でも、追加損失のない CoBERL はベースライン メソッドよりも優れたパフォーマンスを発揮します。

以下の表 4 は、本研究で提案されたコントラスト損失と SimCLR および CURL との比較を示しています。結果は、コントラスト損失が SimCLR および CURL よりも単純であるにもかかわらず、パフォーマンスが優れていることを示しています。

以下の表 5 は、CoBERL から LSTM を削除した場合の効果 (w/o LSTM 列に表示) と、ゲーティングとそれに関連するスキップ接続を削除した場合の効果 (w/o Gate 列に表示) を示しています。どちらの場合も、CoBERL のパフォーマンスは大幅に低下しており、CoBERL には両方のコンポーネント (LSTM と Gate) が必要であることがわかります。

以下の表 6 は、パラメータの数に応じてモデルを比較したものです。 Atari の場合、CoBERL は R2D2(GTrXL) ベースラインに対して限られた数のパラメータを追加しますが、それでも CoBERL はパフォーマンスを大幅に向上させます。この研究では、LSTM をトランスフォーマー モジュールの前に移動することも試みており、その場合、対照的な損失表現は LSTM の前から取得されます。

<<:  CVとNLPにおける対照学習の研究の進展

>>:  ETHは、画像の超解像と画像の再スケーリングを考慮して、新しい統合フレームワークHCFlowを提案しています。

ブログ    
ブログ    

推薦する

Pika、Gen-2、ModelScope、SEINE…AIビデオ生成で最高なのはどれでしょうか?このフレームワークは理解しやすい

AIビデオ生成は最近最もホットな分野の一つです。さまざまな大学の研究室、インターネット大手の AI ...

...

生活における人工知能の主な応用

人工知能は2度のブームを経験し、現在は3度目のブームを迎えています。主な理由は、第一にディープラーニ...

ビッグデータと人工知能を活用して英語教育の問題を解決する

1. 英語教育と学習の現状現在、我が国の英語教育は大きな進歩を遂げていますが、依然として我が国の発展...

プログラマーが知っておくべき10の基本的な実用的なアルゴリズムとその説明

[[128752]]アルゴリズム1: クイックソートアルゴリズムクイックソートは、Tony Hall...

インテリジェンスの時代において、企業はどのようにして「データをインテリジェンスに集めて」デジタル変革を加速できるのでしょうか?

中国ではクラウドコンピューティングが10年以上にわたって発展してきました。5G、AI、ビッグデータ、...

あなたはキング・オブ・グローリーをプレイしていますが、誰かがiPhoneを使ってニューラルネットワークをトレーニングしています

知っていましたか? LeNet 畳み込みニューラル ネットワークは iOS デバイス上で直接トレーニ...

機械学習アルゴリズムと機械学習モデルの開発方法について知っておくべきことは何ですか?

[[201235]]概念とそれがビジネス目標に与える影響を学ぶことは非常に重要です。アルゴリズムの...

人工知能: 物理的セキュリティ業界における最大の破壊者

[[347792]]今日のセキュリティとテクノロジーの分野における大きなトレンドの 1 つは、世界中...

子どもたちにこうした能力を育ててこそ、30年後の人工知能の時代に足場を築くことができるのです。

01.子どもの情報理解力・識別力を養う今持っているスキルは将来役に立たないかもしれない今日生まれた...

AIがプライバシーを尊重しながら優れた顧客体験を生み出す方法

ゼブラテクノロジーズグレーターチャイナのテクニカルディレクター、チェン・ニン氏近年の人工知能(AI)...

靴下が山積みになっています。靴下をペアにするには、最も速くて効率的なアルゴリズムをどのように使用すればよいでしょうか?

[問題の説明]昨日、コインランドリーで靴下の山を整理していたのですが、自分が使っていた方法がとても...

アリババが3D位置マップ圧縮アルゴリズムを革新、その論文結果がトップカンファレンスCVPR 2022に選出

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

ポストエピデミック時代のスマートエネルギー管理にエッジAIを活用する方法

COVID-19の影響により、今年の新学期は例年とは少し様子が異なります。多くの学校や企業がハイブリ...

Java 仮想マシンの詳細な説明 ---- GC アルゴリズムとタイプ

この記事の主な内容: GCの概念GCアルゴリズム参照カウント方式(循環参照の問題を解決できず、Jav...