トランスフォーマー+強化学習、Google DeepMindは世界を知覚するロボットの脳となる大きなモデルを作る

トランスフォーマー+強化学習、Google DeepMindは世界を知覚するロボットの脳となる大きなモデルを作る

ロボットの学習方法を開発する際に、大規模で多様なデータセットを統合し、強力で表現力豊かなモデル (Transformer など) と組み合わせることができれば、ロボットがさまざまなタスクを適切に処理できるように学習できる、一般化可能で幅広く適用可能な戦略を開発できると期待できます。たとえば、これらの戦略により、ロボットは自然言語の指示に従い、多段階の動作を実行し、さまざまな環境や目標に適応し、さらにはさまざまなロボットの形態で動作することさえできるようになります。

しかし、ロボット学習の分野で最近登場した強力なモデルはすべて、教師あり学習法を使用してトレーニングされています。したがって、結果として得られるポリシーのパフォーマンスは、人間のデモンストレーターが高品質のデモンストレーション データを提供できる範囲に制限されます。この制限には 2 つの理由があります。

  • まず、ロボット システムが人間の遠隔操作者よりも熟練し、ハードウェアの潜在能力を最大限に活用して、タスクを迅速かつスムーズに、確実に完了できるようにしたいと考えています。
  • 第二に、私たちはロボットシステムが、高品質のデモンストレーションに完全に依存するのではなく、自動的に経験を蓄積する能力を高めたいと考えています。

原則として、強化学習はこれら両方の機能を提供できます。

最近では、ロボットの把持や積み重ね、人間が指定した報酬による異種タスクの学習、マルチタスク ポリシーの学習、目標条件付きポリシーの学習、ロボットのナビゲーションなど、さまざまなアプリケーション設定で大規模なロボット強化学習が成功できることを示す有望な進歩がいくつかありました。しかし、研究によると、強化学習を使用してトレーニングされた Transformer などの強力なモデルは、大規模に効果的にインスタンス化することがより困難であることがわかっています。

最近、Google DeepMind は、多様な現実世界のデータセットに基づく大規模なロボット学習と、強力な Transformer に基づく最新のポリシー アーキテクチャを組み合わせることを目的とした Q-Transformer を提案しました。

  • 論文: https://q-transformer.github.io/assets/q-transformer.pdf
  • プロジェクト: https://q-transformer.github.io/

原理的には、既存のアーキテクチャ (ResNet または小規模な畳み込みニューラル ネットワーク) を Transformer に直接置き換えることは概念的には簡単ですが、このアーキテクチャを効果的に活用できるソリューションを設計することは非常に困難です。大規模なモデルは、大規模で多様なデータセットにアクセスできる場合にのみ効果的です。小規模で焦点が絞られたモデルでは、そのような機能は必要なく、そのメリットも得られません。

これまでの研究ではシミュレートされたデータを使用してこのようなデータセットが作成されてきましたが、最も代表的なデータは依然として現実世界から得られています。

そのため、DeepMindは、今回の研究ではオフライン強化学習を通じてTransformerを使用し、以前に収集された大規模なデータセットを統合することに重点を置いていると述べています。

オフライン強化学習法では、以前に利用可能なデータをトレーニングに使用し、特定のデータセットに基づいて最も効果的な戦略を推論することを目的としています。もちろん、このデータセットは自動的に収集された追加のデータで拡張できますが、トレーニング プロセスはデータ収集プロセスとは別であるため、大規模なロボット アプリケーションに追加のワークフローを提供できます。

Transformer モデルを使用して強化学習を実装する場合のもう 1 つの大きな問題は、そのようなモデルを効果的にトレーニングできる強化学習システムを設計することです。効果的なオフライン強化学習法では、通常、時間差の更新を通じて Q 関数を推定します。 Transformer は離散トークン シーケンスをモデル化するため、Q 関数推定問題を離散トークン シーケンス モデリング問題に変換し、シーケンス内の各トークンに適切な損失関数を設計できます。

アクション空間を離散化する最も単純で単純な方法では、アクション ベースが指数関数的に爆発的に増加するため、DeepMind は次元離散化スキームを採用しています。つまり、アクション空間の各次元は、強化学習の独立した時間ステップと見なされます。離散化における異なるビンは、異なるアクションに対応します。この次元ごとの離散化スキームにより、分布シフトを処理するために保守的な正則化子を備えた単純な離散アクション Q 学習アプローチを使用できます。

DeepMind は、データセット内の未実行の各アクションの価値を最小化する特殊な正規化子を提案しました。私たちの結果は、このアプローチが、デモンストレーションのような狭い範囲のデータと、探索ノイズを含むより広い範囲のデータの両方から学習できることを示しています。

最後に、モンテカルロ法と n ステップ回帰を時間差分バックアップと組み合わせたハイブリッド更新メカニズムも採用しました。結果は、このアプローチにより、大規模なロボット学習問題における Transformer ベースのオフライン強化学習手法のパフォーマンスを向上できることを示しています。

要約すると、この研究の主な貢献は、Q値の次元ごとのトークン化を使用し、実世界のデータを含む大規模で多様なロボットデータセットに適応した、ロボット工学におけるオフライン強化学習のためのTransformerベースのアーキテクチャであるQ-Transformerです。図 1 は Q-Transformer のコンポーネントをまとめたものです。

DeepMind は、厳密な比較のためのシミュレーション実験と実際の検証のための大規模な現実世界の実験の両方で実験評価も実施しました。大規模なテキストベースのマルチタスク戦略が学習され、その結果、Q-Transformer の有効性が検証されました。

実際の実験では、13 台のロボットが 700 以上のタスクで収集した、38,000 件の成功したデモンストレーションと 20,000 件の失敗した自動収集シーンを含むデータセットを使用しました。 Q-Transformer は、大規模ロボット強化学習向けにこれまで提案されたアーキテクチャや、Decision Transformer などのこれまで提案された Transformer ベースのモデルよりも優れています。

方法の概要

Transformer を使用して Q 学習を実行するために、DeepMind はアクション空間の離散化と自己回帰を適用します。

TD 学習を使用して Q 関数を学習する場合、古典的なアプローチはベルマン更新規則に基づいています。

研究者らは、問題の元の MDP を、各アクション次元が Q 学習のステップとして考慮される MDP に変換することにより、ベルマン更新を各アクション次元に対して実行できるように修正しました。

具体的には、アクション次元 d_A が与えられた場合、新しいベルマン更新規則は次のようになります。

これは、各中間アクション ディメンションに対して、同じ状態を前提として次のアクション ディメンションが最大化され、最後のアクション ディメンションに対して、次の状態の最初のアクション ディメンションが使用されることを意味します。この分解により、ベルマン更新における最大化が扱いやすいままになり、元の MDP 問題が依然として解決可能であることも保証されます。

オフライン学習中の分布の変化を考慮するために、DeepMind は、目に見えないアクションの価値を最小限に抑える単純な正規化手法も導入しました。

学習をスピードアップするために、モンテカルロ回帰も使用しました。特定のエピソードに対して return-to-go を使用し、次元の最大化をスキップできる n ステップ リターンも使用します。

実験結果

実験では、DeepMind は一連の現実世界のタスクで Q-Transformer を評価しましたが、各タスクのデータは人間のデモンストレーション 100 件のみに制限しました。

デモンストレーションに加えて、自動的に収集された障害イベントのスニペットを追加した結果、デモンストレーションからの 38,000 件の肯定的な例と自動的に収集された 20,000 件の否定的な例を含むデータセットが作成されました。

RT-1、IQL、Decision Transformer (DT) などのベースライン メソッドと比較して、Q-Transformer は自動イベント フラグメントを効果的に活用して、引き出しからアイテムを取り出す、ターゲットの近くでオブジェクトを移動する、引き出しを開閉するなどのスキルを使用する能力を大幅に向上させることができます。

研究者らはまた、提案された手法を、困難な模擬物体掴みタスクでテストした。このタスクでは、データの約 8% のみが正例であり、残りはノイズの多い負例であった。

このタスクでは、QT-Opt、IQL、AW-Opt、Q-Transformer などの Q 学習手法は、負の例を活用して動的プログラミングを通じてポリシーを学習できるため、一般的にパフォーマンスが向上します。

研究者たちは、この物体選択タスクに基づいてアブレーション実験を行い、パフォーマンスの維持には保守的な正則化子と MC リターンの両方が重要であることを発見しました。 Softmax 正則化に切り替えると、ポリシーがデータ分布に過度に制約されるため、パフォーマンスが大幅に低下します。これは、DeepMind がここで選択した正規化子がこのタスクにうまく対応できることを示しています。

n ステップ バックプロパゲーションに関するアブレーション実験では、バイアスは導入されるものの、このアプローチにより大幅に少ない勾配ステップで同じ高いパフォーマンスを達成でき、多くの問題を効果的に処理できることがわかりました。

研究者らは、より大きなデータセットで Q-Transformer を実行することも試みました。肯定的な例の数を 115,000 に、否定的な例の数を 185,000 に増やした結果、300,000 のイベント クリップを含むデータセットができました。この大規模なデータセットを使用することで、Q-Transformer は依然として学習が可能であり、RT-1 BC ベースラインを上回るパフォーマンスを発揮します。

最後に、Q-Transformer によってトレーニングされた Q 関数をアフォーダンス モデルとして使用し、SayCan に似た言語プランナーと組み合わせました。

Q-Transformer アフォーダンス推定の効果は、QT-Opt でトレーニングされた以前の Q 関数によるものです。トレーニング中に、サンプリングされていないタスクが現在のタスクの負の例として再ラベル付けされると、効果がさらに向上する可能性があります。 Q-Transformer は QT-Opt トレーニングで使用されるシミュレーションから実際のトレーニングを必要としないため、適切なシミュレーションが不足している場合は Q-Transformer を使用する方が簡単です。

完全な「計画 + 実行」システムをテストするために、アフォーダンス推定と実際のポリシー実行の両方に Q-Transformer を使用して実験し、以前の QT-Opt と RT-1 の組み合わせよりも優れたパフォーマンスを発揮することを示しました。

特定の画像に対するタスク アフォーダンス値の例からわかるように、Q-Transformer は下流の「計画 + 実行」フレームワークに高品質のアフォーダンス値を提供できます。

詳しくは原文をお読みください。

<<: 

>>:  Microsoft の GitHub AI コードアシスタント Copilot Chat が個人利用向けに利用可能に

ブログ    

推薦する

ドローン基地局は被災地の通信復旧にどのように役立つのでしょうか?

災害時において、通信は途切れることのできない生命線です。 [[412620]] 7月21日、河南省の...

SafetyNet: 自動運転における機械学習戦略のための安全な計画アプローチ

[[427712]] 2021年9月28日にarXivにアップロードされた論文「SafetyNet:...

教師なし学習のためのアンサンブル法: 類似度行列のクラスタリング

機械学習において、アンサンブルという用語は、複数のモデルを並行して組み合わせることを指します。その考...

Java 開発者のための機械学習の事例

翻訳者 |陳俊レビュー | Chonglou昨年以来、 ChatGPTやBardなどの大規模言語モデ...

2つのセッションが終了しました!自動運転に関する15の提案

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...

...

Appleは人工知能の分野で追い上げており、その視覚認識の成果は業界の賞を受賞した

[[201426]]歴史的に、Apple は最先端技術の研究にはあまり注意を払わず、むしろ製品の設計...

いつ仕事を辞めるかを予測できる 9 つの AI 活用例

[51CTO.com 速訳] 人工知能は今や脂身の多い肉となり、誰もがそれを利用し、人工知能の真髄を...

「ビッグモデルは基本的に2つのファイルです!」テスラの元AIディレクターが一般向けに1時間にわたるLLMポピュラーサイエンスを披露

テスラの元AIディレクター、アンドレイ・カルパシー氏の新しいチュートリアルが話題になっている。今回、...

...

人間の介入によってモデルのパフォーマンスをどのように向上できるでしょうか?この記事を読んでみてください

金融業界など、一部の業界は誤検知に非常に敏感です。クレジットカード詐欺を検出する際に、検出システムが...

今日、私たちはすべてのお金を AI に与える勇気があるでしょうか?

お金を稼ぐこと以上に満足できることがあるでしょうか? もちろん、何もせずにお金を稼ぐことです。私たち...

ARMの機能によりIBMの包括的なAI自動化ポートフォリオが強化される

Turbonomic の買収計画により、IBM はビジネスと IT 全体にわたって人工知能の自動化機...

人工知能がITを変える5つの方法

IT サービス デスクからデータ分析の最前線、新しいツール、戦略、関係まで、AI は IT 組織をど...

...