この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式サイトにアクセスして許可を申請してください。 人間はどのようにしてこれほど多くのスキルを獲得したのでしょうか?まあ、私たちは最初からそうではありませんが、幼児期から自己監視を通じて、ますます複雑なスキルを発見し、練習していきます。しかし、この自己監視はランダムではありません。子どもの発達に関する文献によると、乳児は以前の経験を利用して、相互作用や感覚フィードバックを通じて、移動、吸啜、把握、消化性などのアフォーダンスの探索を方向付けています。この種の指向的な探索により、乳児は与えられた環境で何ができるか、どのようにそれを行うかを学ぶことができます。では、アフォーダンス指向の探索に似た戦略をロボット学習システムでも実現できるのでしょうか? 下の図の通りです。左側では、まず、引き出しの開閉、物体の掴みや移動など、さまざまなタスクを実行するロボットのビデオを収集しました。右側には、ロボットが今まで見たことのないカバーを配置しました。ロボットには新しい物体に慣れるための短い時間が与えられ、その後、目標画像が与えられ、その画像にシーンを一致させるタスクが与えられます。ロボットはどのようにして外部からの監視なしに環境を操作し、蓋をつかむことを素早く学習するのでしょうか? これを実現するために、私たちはいくつかの課題に直面しています。ロボットが新しい環境に置かれると、ロボットは事前の知識を活用して、その環境が提供する可能性のある有用な動作について考えることができなければなりません。次に、ロボットが実際にそれらの動作を練習できなければなりません。新しい環境で自らを向上させるためには、ロボットは外部からの報酬なしに何らかの方法で自らの成功を評価できなければなりません。 これらの課題を確実に克服できれば、強力なサイクルへの扉を開くことができます。このサイクルでは、エージェントは過去の経験を活用して高品質のインタラクション データを収集し、過去の経験をさらに成長させて、潜在的な有用性を継続的に向上させます。 1. VAL: 視覚的動きアフォーダンス学習 私たちの方法である視覚運動アフォーダンス学習 (VAL) は、これらの課題に対処します。 VAL では、まず、さまざまな環境でアフォーダンスを示すロボットの事前データセットが利用可能であると想定します。この時点で、VAL はオフライン フェーズに入り、この情報を使用して、1) 新しい環境で有用なアフォーダンスを想像するための生成モデル、2) これらのアフォーダンスを効果的に探索するための堅牢なオフライン ポリシー、および 3) そのポリシーを改善するための自己評価メトリックを学習します。ついに、VAL がオンラインになる準備が整いました。エージェントは新しい環境に配置され、学習した機能を使用して自己監視型の微調整を行うことができます。全体のフレームワークを下図に示します。次に、オフライン フェーズとオンライン フェーズの技術的な詳細について詳しく説明します。 2. VAL: オフラインステージ さまざまな環境アフォーダンスを示す事前データセットが与えられると、VAL はこの情報を 3 つのオフライン ステップで処理します。高次元の現実世界のデータを処理するための表現学習、未知の環境での自己教師あり練習を可能にするアフォーダンス学習、オンライン学習の効率を加速するための高性能な初期ポリシーを取得するための動作学習です。 まず、 VAL はベクトル量子化変分オートエンコーダ (VQVAE) を使用してデータの低次元表現を学習します。このプロセスにより、48x48x3 の画像を 144 次元の潜在空間に圧縮します。 この潜在空間の距離は意味があり、私たちが成功を自己評価できる重要なメカニズムへの道を開きます。現在の画像 s とターゲット画像 g が与えられたら、それらを潜在空間にエンコードし、報酬を受け取ることができる距離のしきい値を設定します。 後で、この表現を潜在空間のポリシーと Q 関数としても使用します。 次に、 VAL は潜在空間で PixelCNN をトレーニングしてアフォーダンス モデルを学習し、環境画像に応じて到達可能な状態の分布を学習します。これは、データの尤度 p(sn|s0) を最大化することによって行われます。このアフォーダンス モデルは、オブジェクトの直接探索と再ラベル付けに使用します。 アフォーダンスモデルは右の図に示されています。図の左下には、条件付き画像に瓶が含まれていることがわかります。また、右上のデコードされた潜在的なターゲットには、さまざまな位置にある蓋が表示されています。これらの一貫した目標により、ロボットは一貫した探索を実行できるようになります。 最後に、オフライン フェーズでは、VAL はオフライン データから動作を学習する必要があり、その後、追加のオンライン インタラクティブ データ収集を通じて動作を改善できます。 これを実現するために、オフライン トレーニングとオンラインの微調整用に設計されたアルゴリズムである Advantage Weighted Actor Critic を使用して、事前データセットで目標条件付きポリシーをトレーニングします。 3. VAL:オンラインステージ 現在、VAL は目に見えない環境に置かれると、事前の知識を使用して有用なアフォーダンスの視覚的表現を想像し、これらのアフォーダンスを実装しようとすることで有用なインタラクション データを収集し、自己評価メトリックを使用してパラメータを更新し、プロセス全体を何度も繰り返します。 この実際の例では、左側に、引き出しを開ける機能やその他のタスクを提供する環境の初期状態が表示されています。 ステップ 1 では、アフォーダンス モデルが潜在的なターゲットをサンプリングします。目的をデコードすると(VQVAE デコーダーを使用。これは完全に潜在空間で操作するため、RL では実際には使用されません)、アフォーダンスは引き出しを開けることであることがわかります。 ステップ 2 では、サンプリング目的のトレーニング戦略を使用します。引き出しはうまく開くように見えますが、実際には強く引っ張りすぎて引き出しが抜け落ちてしまいます。しかし、これは RL アルゴリズムがポリシーをさらに微調整して改良するための非常に有用な相互作用を提供します。 オンラインでの微調整が完了すると、各環境で対応する目に見えない目標画像を達成するロボットの能力を評価できるようになります。 4.実環境評価 私たちは、5 つの実際のテスト環境でアプローチを評価し、5 分間の教師なしの微調整の前後で、環境によって提供される特定のタスクを達成する VAL の能力を評価します。 各テスト環境には、少なくとも 1 つの目に見えないインタラクション オブジェクトと、ランダムにサンプリングされた 2 つの妨害オブジェクトが含まれていました。たとえば、トレーニング データには開いた引き出しと閉じた引き出しがありますが、新しい引き出しにはこれまで見たことのないハンドルが付いています。 各テストでは、オフラインでトレーニングされたポリシーから開始し、毎回異なる方法でタスクを実行しました。次に、アフォーダンス モデルを使用してターゲットをサンプリングし、さらに多くのエクスペリエンスを収集します。最後に、タスクに対して一貫して優れたパフォーマンスを発揮する、微調整されたポリシーを評価します。 これらの設定では、VAL はオフライン トレーニング後に一貫して効果的なゼロ ショット一般化を示し、その後、アフォーダンス ガイドによる微調整スキームを通じて急速に改善することがわかりました。一方、これまでの自己教師あり学習法では、こうした新しい設定ではほとんど改善が見られませんでした。これらの興味深い結果は、VAL のような方法により、ロボットが現在慣れ親しんでいる限られた工場設定をはるかに超えて操作できるようになる可能性があることを示唆しています。 引き出しの取っ手 20 個、鍋の取っ手 20 個、おもちゃ 60 個、気を散らすもの 60 個を網羅した 2,500 個の高品質ロボット相互作用軌跡のデータセットが、現在、当社の Web サイトで公開されています。 データセットのアドレス: https://sites.google.com/view/val-rl/datasets 5.シミュレーション評価とコード さらに分析するために、視覚的および動的なバリエーションを備えた手順的に生成されたマルチタスク環境で VAL を実行します。シーン内のオブジェクト、その色、位置はランダムです。エージェントは、ハンドル付きの引き出しを開けたり、物をつかんで移動したり、ボタンを押してコンパートメントを開けたりすることができます。 ロボットにはさまざまな環境を含む事前データセットが与えられ、その後のテスト環境で微調整する能力が評価されます。 同様に、単一のオフポリシーデータセットが与えられた場合、私たちのアプローチは、物体をつかむ、引き出しを開ける、物体を移動する、さまざまな新しい物体でツールを使用するなどの高度な操作スキルを迅速に学習できます。 環境とアルゴリズムのコードは公開されていますので、コード リポジトリを参照してください。 コードアドレス: https://github.com/anair13/rlkit/tree/master/examples/val 6.今後の取り組み コンピュータービジョンや自然言語処理などの分野におけるディープラーニングが大規模なデータセットと一般化によって推進されているのと同様に、ロボットも同様の規模のデータから学習する必要があるかもしれません。このため、オフライン強化学習の改善は、ロボットが大規模な事前データセットを活用できるようにするために重要です。さらに、これらのオフライン戦略を現実世界で展開するには、高速な非自律的な微調整または完全に自律的な微調整のいずれかが必要です。最後に、ロボットが自立して動作するようになると、私たちは新しいデータを継続的に利用できるようになります。これは、生涯学習アルゴリズムの重要性と価値を強調するものです。 |
<<: 高速ドローンは森の中を自律的に飛行し、旅の間中独自のルートを計画し、最高時速40キロメートルで飛行する。
人工知能に関する議論では意識が重要な役割を果たします。人工知能法(AIS)は、情報分野の企業が取り組...
昨日(7月7日)、流行病の影響で延期されていた2020年度大学入試センター試験が正式に始まりました。...
人工知能技術は急速に発展し、成熟しつつあります。多くの最新のアルゴリズムと問題解決手法が日々革新され...
テキスト段落の生成、人間の会話のシミュレーション、数学の問題の解決において驚くほど優れたパフォーマン...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
建国記念日の休日中は家にいて、Google カンファレンスを視聴しました。これらの製品のいくつかを見...
ラスベガスで開催された2022年コンシューマーエレクトロニクスショー(CES)で、ジョンディアは、ジ...
こんにちは、みんな。今日は、ChatGPT を使用して安全ヘルメットの着用検出を開発する方法を紹介し...
[[257487]] [51CTO.com クイック翻訳] 音声アシスタントの台頭により、マーケティ...
60年間、人類は抗生物質の研究において大きな進歩を遂げていません。しかし、このギャップはAIによって...
再帰は、プログラミングの本で説明するのが最も難しい部分である魔法のアルゴリズムです。これらの本では通...
スマートカーからスマート道路、スマートシティまで、「複雑な世界をよりシンプルに」という百度の使命によ...