トランスフォーマー+強化学習、Google DeepMindは世界を知覚するロボットの脳となる大きなモデルを作る

ロボットの学習方法を開発する際に、大規模で多様なデータセットを統合し、強力で表現力豊かなモデル (Transformer など) と組み合わせることができれば、ロボットがさまざまなタスクを適切に処理できるように学習できる、一般化可能で幅広く適用可能な戦略を開発できると期待できます。たとえば、これらの戦略により、ロボットは自然言語の指示に従い、多段階の動作を実行し、さまざまな環境や目標に適応し、さらにはさまざまなロボットの形態で動作することさえできるようになります。

しかし、ロボット学習の分野で最近登場した強力なモデルはすべて、教師あり学習法を使用してトレーニングされています。したがって、結果として得られるポリシーのパフォーマンスは、人間のデモンストレーターが高品質のデモンストレーションデータを提供できる範囲に制限されます。この制限には 2 つの理由があります。

まず、ロボットシステムが人間の遠隔操作者よりも熟練し、ハードウェアの潜在能力を最大限に活用して、タスクを迅速かつスムーズに、確実に完了できるようにしたいと考えています。
第二に、私たちはロボットシステムが、高品質のデモンストレーションに完全に依存するのではなく、自動的に経験を蓄積する能力を高めたいと考えています。

原則として、強化学習はこれら両方の機能を提供できます。

最近では、ロボットの把持や積み重ね、人間が指定した報酬による異種タスクの学習、マルチタスクポリシーの学習、目標条件付きポリシーの学習、ロボットのナビゲーションなど、さまざまなアプリケーション設定で大規模なロボット強化学習が成功できることを示す有望な進歩がいくつかありました。しかし、研究によると、強化学習を使用してトレーニングされた Transformer などの強力なモデルは、大規模に効果的にインスタンス化することがより困難であることがわかっています。

最近、Google DeepMind は、多様な現実世界のデータセットに基づく大規模なロボット学習と、強力な Transformer に基づく最新のポリシーアーキテクチャを組み合わせることを目的とした Q-Transformer を提案しました。

論文: https://q-transformer.github.io/assets/q-transformer.pdf
プロジェクト: https://q-transformer.github.io/

原理的には、既存のアーキテクチャ (ResNet または小規模な畳み込みニューラルネットワーク) を Transformer に直接置き換えることは概念的には簡単ですが、このアーキテクチャを効果的に活用できるソリューションを設計することは非常に困難です。大規模なモデルは、大規模で多様なデータセットにアクセスできる場合にのみ効果的です。小規模で焦点が絞られたモデルでは、そのような機能は必要なく、そのメリットも得られません。

これまでの研究ではシミュレートされたデータを使用してこのようなデータセットが作成されてきましたが、最も代表的なデータは依然として現実世界から得られています。

そのため、DeepMindは、今回の研究ではオフライン強化学習を通じてTransformerを使用し、以前に収集された大規模なデータセットを統合することに重点を置いていると述べています。

オフライン強化学習法では、以前に利用可能なデータをトレーニングに使用し、特定のデータセットに基づいて最も効果的な戦略を推論することを目的としています。もちろん、このデータセットは自動的に収集された追加のデータで拡張できますが、トレーニングプロセスはデータ収集プロセスとは別であるため、大規模なロボットアプリケーションに追加のワークフローを提供できます。

Transformer モデルを使用して強化学習を実装する場合のもう 1 つの大きな問題は、そのようなモデルを効果的にトレーニングできる強化学習システムを設計することです。効果的なオフライン強化学習法では、通常、時間差の更新を通じて Q 関数を推定します。 Transformer は離散トークンシーケンスをモデル化するため、Q 関数推定問題を離散トークンシーケンスモデリング問題に変換し、シーケンス内の各トークンに適切な損失関数を設計できます。

アクション空間を離散化する最も単純で単純な方法では、アクションベースが指数関数的に爆発的に増加するため、DeepMind は次元離散化スキームを採用しています。つまり、アクション空間の各次元は、強化学習の独立した時間ステップと見なされます。離散化における異なるビンは、異なるアクションに対応します。この次元ごとの離散化スキームにより、分布シフトを処理するために保守的な正則化子を備えた単純な離散アクション Q 学習アプローチを使用できます。

DeepMind は、データセット内の未実行の各アクションの価値を最小化する特殊な正規化子を提案しました。私たちの結果は、このアプローチが、デモンストレーションのような狭い範囲のデータと、探索ノイズを含むより広い範囲のデータの両方から学習できることを示しています。

最後に、モンテカルロ法と n ステップ回帰を時間差分バックアップと組み合わせたハイブリッド更新メカニズムも採用しました。結果は、このアプローチにより、大規模なロボット学習問題における Transformer ベースのオフライン強化学習手法のパフォーマンスを向上できることを示しています。

要約すると、この研究の主な貢献は、Q値の次元ごとのトークン化を使用し、実世界のデータを含む大規模で多様なロボットデータセットに適応した、ロボット工学におけるオフライン強化学習のためのTransformerベースのアーキテクチャであるQ-Transformerです。図 1 は Q-Transformer のコンポーネントをまとめたものです。

DeepMind は、厳密な比較のためのシミュレーション実験と実際の検証のための大規模な現実世界の実験の両方で実験評価も実施しました。大規模なテキストベースのマルチタスク戦略が学習され、その結果、Q-Transformer の有効性が検証されました。

実際の実験では、13 台のロボットが 700 以上のタスクで収集した、38,000 件の成功したデモンストレーションと 20,000 件の失敗した自動収集シーンを含むデータセットを使用しました。 Q-Transformer は、大規模ロボット強化学習向けにこれまで提案されたアーキテクチャや、Decision Transformer などのこれまで提案された Transformer ベースのモデルよりも優れています。

方法の概要

Transformer を使用して Q 学習を実行するために、DeepMind はアクション空間の離散化と自己回帰を適用します。

TD 学習を使用して Q 関数を学習する場合、古典的なアプローチはベルマン更新規則に基づいています。

研究者らは、問題の元の MDP を、各アクション次元が Q 学習のステップとして考慮される MDP に変換することにより、ベルマン更新を各アクション次元に対して実行できるように修正しました。

具体的には、アクション次元 d_A が与えられた場合、新しいベルマン更新規則は次のようになります。

これは、各中間アクションディメンションに対して、同じ状態を前提として次のアクションディメンションが最大化され、最後のアクションディメンションに対して、次の状態の最初のアクションディメンションが使用されることを意味します。この分解により、ベルマン更新における最大化が扱いやすいままになり、元の MDP 問題が依然として解決可能であることも保証されます。

オフライン学習中の分布の変化を考慮するために、DeepMind は、目に見えないアクションの価値を最小限に抑える単純な正規化手法も導入しました。

学習をスピードアップするために、モンテカルロ回帰も使用しました。特定のエピソードに対して return-to-go を使用し、次元の最大化をスキップできる n ステップリターンも使用します。

実験結果

実験では、DeepMind は一連の現実世界のタスクで Q-Transformer を評価しましたが、各タスクのデータは人間のデモンストレーション 100 件のみに制限しました。

デモンストレーションに加えて、自動的に収集された障害イベントのスニペットを追加した結果、デモンストレーションからの 38,000 件の肯定的な例と自動的に収集された 20,000 件の否定的な例を含むデータセットが作成されました。

RT-1、IQL、Decision Transformer (DT) などのベースラインメソッドと比較して、Q-Transformer は自動イベントフラグメントを効果的に活用して、引き出しからアイテムを取り出す、ターゲットの近くでオブジェクトを移動する、引き出しを開閉するなどのスキルを使用する能力を大幅に向上させることができます。

研究者らはまた、提案された手法を、困難な模擬物体掴みタスクでテストした。このタスクでは、データの約 8% のみが正例であり、残りはノイズの多い負例であった。

このタスクでは、QT-Opt、IQL、AW-Opt、Q-Transformer などの Q 学習手法は、負の例を活用して動的プログラミングを通じてポリシーを学習できるため、一般的にパフォーマンスが向上します。

研究者たちは、この物体選択タスクに基づいてアブレーション実験を行い、パフォーマンスの維持には保守的な正則化子と MC リターンの両方が重要であることを発見しました。 Softmax 正則化に切り替えると、ポリシーがデータ分布に過度に制約されるため、パフォーマンスが大幅に低下します。これは、DeepMind がここで選択した正規化子がこのタスクにうまく対応できることを示しています。

n ステップバックプロパゲーションに関するアブレーション実験では、バイアスは導入されるものの、このアプローチにより大幅に少ない勾配ステップで同じ高いパフォーマンスを達成でき、多くの問題を効果的に処理できることがわかりました。

研究者らは、より大きなデータセットで Q-Transformer を実行することも試みました。肯定的な例の数を 115,000 に、否定的な例の数を 185,000 に増やした結果、300,000 のイベントクリップを含むデータセットができました。この大規模なデータセットを使用することで、Q-Transformer は依然として学習が可能であり、RT-1 BC ベースラインを上回るパフォーマンスを発揮します。

最後に、Q-Transformer によってトレーニングされた Q 関数をアフォーダンスモデルとして使用し、SayCan に似た言語プランナーと組み合わせました。

Q-Transformer アフォーダンス推定の効果は、QT-Opt でトレーニングされた以前の Q 関数によるものです。トレーニング中に、サンプリングされていないタスクが現在のタスクの負の例として再ラベル付けされると、効果がさらに向上する可能性があります。 Q-Transformer は QT-Opt トレーニングで使用されるシミュレーションから実際のトレーニングを必要としないため、適切なシミュレーションが不足している場合は Q-Transformer を使用する方が簡単です。

完全な「計画 + 実行」システムをテストするために、アフォーダンス推定と実際のポリシー実行の両方に Q-Transformer を使用して実験し、以前の QT-Opt と RT-1 の組み合わせよりも優れたパフォーマンスを発揮することを示しました。

特定の画像に対するタスクアフォーダンス値の例からわかるように、Q-Transformer は下流の「計画 + 実行」フレームワークに高品質のアフォーダンス値を提供できます。

詳しくは原文をお読みください。

<<:

>>: Microsoft の GitHub AI コードアシスタント Copilot Chat が個人利用向けに利用可能に

トランスフォーマー+強化学習、Google DeepMindは世界を知覚するロボットの脳となる大きなモデルを作る

方法の概要

実験結果

人工知能端末チップ研究レポート

仕事と生産を再開、「新しいインフラ」が人工知能の能力を加速させる

圧縮アルゴリズムについての簡単な説明

AIとインフラストラクチャのゲームチェンジャーが市場で成熟しつつあります。

ChatGPT、画像や動画コンテンツを生成するCanvaプラグインをリリース

【WOT2018】4人の重鎮専門家が企業ビジネスにおけるNLPの詳細な応用を分析

5G と AI のユースケース - 5G が人工知能の実装にどのように役立つか

革新的なマイクロチップ設計によりコンピューティングがエッジにまで広がり、AIをリアルタイムで使用できるようになります。

推薦する

2019年のテクノロジートレンド予測: 5Gが爆発的に普及し、人工知能も勢いを増す

百度のDuerOS会話型AIオペレーティングシステムと複数のスマート製品が上海のCESアジアで発表されました

あらゆる角度から監視されることへの不安：AI はプライバシー侵害にどう対抗できるか？

Meta が AI の公平性を評価するための FACET データセットをリリース

求職者がAI面接に遭遇したとき

今日のAIの優れた使用例

2022年に注目すべき8つのAIトレンド

Wu Sinan の機械学習への旅: Numpy で多次元配列を作成する

ChatGPT Plusの登録が停止、OpenAIは容量の課題に直面

最も人気のある 5 つの人工知能プログラミング言語の比較。1 つだけでも学ぶ価値があります。

顧客体験を改善できませんか? AIを試してみませんか？