LSTMとトランスフォーマーの利点を組み合わせることで、DeepMindの強化学習エージェントはデータ効率を向上させます

LSTMとトランスフォーマーの利点を組み合わせることで、DeepMindの強化学習エージェントはデータ効率を向上させます

  [[423163]]

近年、マルチエージェント強化学習は飛躍的な進歩を遂げています。例えば、DeepMindが開発したAlphaStarは、StarCraft IIでプロのStarCraftプレイヤーに勝利し、人間のプレイヤーの99.8%を超えました。OpenAI FiveはDOTA2で世界チャンピオンチームを何度も破り、eスポーツ大会でチャンピオンを破った最初の人工知能システムです。ただし、多くの強化学習 (RL) エージェントでは、タスクを解決するために多数の実験が必要になります。

最近、DeepMind の研究者は、新しいコントラスト損失とハイブリッド LSTM トランスフォーマー アーキテクチャを組み合わせてデータ処理効率を向上させる CoBERL (Contrastive BERT for RL) エージェントを提案しました。 CoBERL は、より広範囲のドメインからのピクセルレベルの情報を使用して、効率的で堅牢な学習を可能にします。

具体的には、双方向マスク予測と一般化を最新の比較方法と組み合わせて使用​​し、手動によるデータ拡張を必要とせずに、RL におけるトランスフォーマーのより優れた表現を学習します。実験では、CoBERL が Atari スイート全体、一連の制御タスク、および困難な 3D 環境全体で一貫してパフォーマンスを向上させることが示されています。

論文アドレス: https://arxiv.org/pdf/2107.05431.pdf

方法の紹介

深層強化学習におけるデータ効率の問題に対処するために、研究者らは現在の研究に 2 つの修正を提案しました。

  • まず、マスク入力予測における自己注意の一貫性を強制することで、より良い表現を学習することを目的とした新しい表現学習目標を提案します。
  • 次に、LSTM とトランスフォーマーの利点を組み合わせることができるアーキテクチャの改善が提案されています。

CoBERL の全体的なアーキテクチャ図。

表現学習

研究者たちはBERTと対照学習を組み合わせました。本研究では、BERT方式をベースに、トランスフォーマーの双方向処理メカニズムとマスク予測設定を組み合わせます。双方向処理メカニズムにより、エージェントは時間的環境に基づいて特定の状態のコンテキストを理解することができます。一方、マスクされた位置での予測入力は、後続の時間ステップを予測する確率を減らすことで相関入力の問題を軽減します。

研究者らは対照学習も使用しました。多くの対照損失 (SimCLR など) は、比較可能なデータ グループを作成するためにデータ拡張に依存していますが、この研究では、プロキシ タスクを構築するためにこれらの手作業によるデータ拡張を使用する必要はありません。

代わりに、入力データの連続的な性質を利用して、画像観察のみに依存するデータ拡張 (切り抜きやピクセルの変更など) を必要とせずに、対照学習に必要な類似点と相違点のグループ化を作成します。対照損失については、研究者らは時間領域にも適応した RELIC を使用しました。研究者らは、GTrXL トランスフォーマーの入力と出力を揃えてデータのグループ化を作成し、KL 正則化として RELIC を使用して、画像分類分野の SimCLR や RL 分野の Atari などの使用される方法のパフォーマンスを向上させました。

CoBERL アーキテクチャ

トランスフォーマーは、自然言語処理やコンピューター ビジョンのタスクにおける長距離データ依存関係をリンクするのに非常に効果的ですが、RL 設定では、トランスフォーマーのトレーニングが難しく、過剰適合が発生しやすくなります。それどころか、LSTM は RL で非常に有用であることが証明されています。 LSTM は長距離の依存関係をうまくキャプチャできませんが、短距離の依存関係を効率的にキャプチャできます。

この研究では、シンプルだが強力なアーキテクチャの変更を提案しています。GTrXLの上に LSTM レイヤーを追加し、LSTM と GTrXL の間に GTrXL の入力によって変調されるゲート残差接続を追加します。さらに、このアーキテクチャには、トランスフォーマー入力から LSTM 出力へのスキップ接続が含まれています。具体的には、Y_t は時刻 t におけるエンコーダ ネットワークの出力であり、追加モジュールは次の式で定義できます。

これらのモジュールは、トランスフォーマーには最近のバイアスがないのに対し、LSTM バイアスは最新の入力を表すことができるため、補完的です。式 6 のゲートにより、エンコーダー表現とトランスフォーマー出力を混合できます。このメモリ アーキテクチャは、RL メカニズムの選択に依存せず、オン ポリシー設定とオフ ポリシー設定の両方で評価されます。オンポリシー設定では、この研究では RL アルゴリズムとして V-MPO を使用します。 V-MPO は、ポリシー更新にターゲット分布を使用し、KL 制約の下でパラメータをターゲットに向かって部分的に移動します。オフポリシー設定では、研究者は R2D2 を使用しました。

R2D2 エージェント: R2D2 (Recurrent Replay Distributed DQN) は、リプレイと RL 学習目標を適応させて、リカレント アーキテクチャを持つエージェントで動作させる方法を示します。 Atari-57 および DMLab-30 での競争力のあるパフォーマンスを考慮して、研究者は CoBERL アーキテクチャを R2D2 のコンテキストで実装しました。彼らは、LSTM をゲート トランスフォーマーと LSTM の組み合わせに効果的に置き換え、対照的表現学習損失を追加しました。したがって、R2D2 と分散エクスペリエンス収集の利点により、再帰エージェント状態はリプレイ バッファーに保存され、リプレイ シーケンスが展開されたネットワークの一部としてトレーニング中に「焼き付けられ」ます。

V-MPO エージェント: DMLab-30 での V-MPO の優れたパフォーマンス、特に CoBERL の主要コンポーネントである GTrXL アーキテクチャとの組み合わせを考慮して、この研究では V-MPO と DMLab30 を使用して、オンポリシー アルゴリズムでの CoBERL の使用を実証します。 V-MPO は、最大事後確率ポリシー最適化 (MPO) に基づくポリシー適応型アルゴリズムです。ポリシー勾配法でよく見られる高い分散を回避するために、V-MPO は、サンプルベースの KL 制約に従ってポリシー更新にターゲット分布を使用し、パラメータをターゲットに向かって部分的に移動する勾配を計算します。ターゲットも KL 制約に従います。 MPOとは異なり、V-MPOは状態アクション価値関数の代わりに学習可能な状態価値関数V(s)を使用します。

実験の詳細

研究者らは、1) CoBERL はより広範囲の環境とタスクにわたってパフォーマンスを向上させること、2) パフォーマンスを最大化するにはすべてのコンポーネントが必要であることを実証しました。実験では、Atari57、DeepMind Control Suite、および DMLab-30 での CoBERL のパフォーマンスを実証します。

以下の表 1 に、現在利用可能なさまざまなエージェントの結果を示します。結果は、CoBERL がほとんどのゲームで人間の平均を上回り、同様のアルゴリズムの平均パフォーマンスよりも大幅に高いパフォーマンスを発揮することを示しています。 R2D2-GTrXL の中央値は CoBERL よりわずかに優れており、R2D2-GTrXL が確かに Atari の強力なバリアントであることを示しています。研究者らはまた、「25th Pct と 5th Pct」を調べたところ、CoBERL のパフォーマンスと他のアルゴリズムの差がより大きく、CoBERL がデータ効率を向上させることを示していることを観察しました。

困難な 3D 環境で CoBERL をテストするために、以下の図 2 に示すように、DmLab30 で調査が実行されました。

以下の表 3 の結果は、コントラスト損失なしの CoBERL と比較して、コントラスト損失によって Atari および DMLab-30 のパフォーマンスが大幅に向上することを示しています。さらに、DmLab-30 のような厳しい環境でも、追加損失のない CoBERL はベースライン メソッドよりも優れたパフォーマンスを発揮します。

以下の表 4 は、本研究で提案されたコントラスト損失と SimCLR および CURL との比較を示しています。結果は、コントラスト損失が SimCLR および CURL よりも単純であるにもかかわらず、パフォーマンスが優れていることを示しています。

以下の表 5 は、CoBERL から LSTM を削除した場合の効果 (w/o LSTM 列に表示) と、ゲーティングとそれに関連するスキップ接続を削除した場合の効果 (w/o Gate 列に表示) を示しています。どちらの場合も、CoBERL のパフォーマンスは大幅に低下しており、CoBERL には両方のコンポーネント (LSTM と Gate) が必要であることがわかります。

以下の表 6 は、パラメータの数に応じてモデルを比較したものです。 Atari の場合、CoBERL は R2D2(GTrXL) ベースラインに対して限られた数のパラメータを追加しますが、それでも CoBERL はパフォーマンスを大幅に向上させます。この研究では、LSTM をトランスフォーマー モジュールの前に移動することも試みており、その場合、対照的な損失表現は LSTM の前から取得されます。

<<:  CVとNLPにおける対照学習の研究の進展

>>:  ETHは、画像の超解像と画像の再スケーリングを考慮して、新しい統合フレームワークHCFlowを提案しています。

ブログ    
ブログ    
ブログ    

推薦する

モバイルビデオがグローバル化する中、テンセントクラウドは小英科技のグローバル市場拡大を支援

テンセントクラウドは9月10日、ビデオツール企業である小英科技と提携し、小英科技に技術サポートを提供...

...

顔認証決済はまだ普及していないが、中央銀行はすでに新しい決済方法を発表しており、ジャック・マーは今回不意を突かれた

顔認識の隠れた危険性これらの便利な支払い方法が普及したのは、ジャック・マーのおかげです。アリペイの登...

米メディア記事:米中AI競争は東南アジアにとって何を意味するのか?

2月7日、アメリカの外交政策ウェブサイトは「米中人工知能競争は東南アジアにとって何を意味するのか?...

パーセントポイントの劉一静氏:おそらくこれは人工知能をこのように見るべきだ

[51CTO.comより] 生活各界におけるデータの急速な増加、ビッグデータ技術の発展、高性能コンピ...

人工知能の研究内容:自然言語処理と知的情報検索技術

自然言語処理は、人工知能技術を実際の分野に応用した典型的な例です。コンピュータ システムが人間のよう...

産業用ロボットのプログラミングにはどの言語が使用されますか?

多くの友人から、産業用ロボットのプログラミングにはどの言語が使用されるのかと尋ねられました。今回は、...

ドローンは諸刃の剣でしょうか?それでは5Gを追加した後をご覧ください!

「ドローンは諸刃の剣だ」とよく言われます。なぜなら、一方ではドローンの大きな応用価値が私たちの生産...

なぜ顔認識に嫌悪感を抱くのですか?

[[376016]] △ 2019年9月4日、ノースウェスタン工科大学の学生が顔認識装置を通じて図...

超大型モデルの登場でAIはゲームオーバーになるのか?ゲイリー・マーカス:道は狭くなっている

最近、人工知能技術は大規模モデルにおいて飛躍的な進歩を遂げています。昨日、Google が提案した ...

中国の女性医師が効率的なNASアルゴリズムを提案:AutoMLは一度トレーニングするだけで数十億のハードウェアに適応できる

現在、カリフォルニア大学リバーサイド校が率いるチームは、ジョージ・メイソン大学およびノー​​トルダム...

アリババの顔認識セキュリティ技術が3Dマスク攻撃を防ぐ特許を取得

[[334032]]顔認識と 3D テクノロジーが融合したとき、最終的な勝者は誰になるでしょうか? ...

知らないのに知っているふりをしないでください!機械学習とディープラーニングを理解しましたか?

機械学習とディープラーニングは人工知能の分野に属しますが、両者の間には大きな違いがあります。これら ...

マスク氏はAIが人間を超えると述べ、それを信じない人は単に賢いだけだと語る

北京時間7月23日、テスラのCEOイーロン・マスク氏は水曜日、人工知能(AI)の将来についての懸念を...