DeepMindは、あらゆる武器を持つロボットを簡単に倒すことができる視覚ベースの強化学習モデルを提案している。

DeepMindは、あらゆる武器を持つロボットを簡単に倒すことができる視覚ベースの強化学習モデルを提案している。

人間は模倣が得意です。私たちや他の動物は、行動を観察し、それが環境の状態に与える影響を理解し、同じような結果を得るために私たちの体がどのような行動をとれるかを考え出すことで模倣します。

模倣学習はロボットの学習タスクにとって強力なツールです。しかし、このような環境認識タスクでは、強化学習を使用して報酬関数を指定することは困難です。

DeepMind の最新の論文は、主に、動作状態に依存せずに、三人称の視覚のみから操作の軌跡を模倣する可能性について探究しています。チームは、視覚的に示した複雑な動作を模倣するロボットマニピュレーターからインスピレーションを得ました。

DeepMind が提案する方法は、主に 2 つの段階に分かれています。

1. マニピュレータに依存しない表現(MIR)を提案する。つまり、ロボット、人間の手、その他の機器のいずれであっても、この表現が後続のタスクの学習に使用できることを保証する。

2. 強化学習を使用して行動戦略を学習する

演算子に依存しない表現

ドメイン適応性問題は、ロボットシミュレーションの現実において最も重要な問題であり、つまり、視覚シミュレーションと現実の違いを解決することです。

1. 様々なタイプのオペレータと様々なシミュレーション環境をランダムに使用して現実世界をシミュレートする

2. 手術アームの追加および除去後の観察

3. Temporally-Smooth Contrastive Networks (TSCN) は、TCN と比較して、ソフトマックスクロスエントロピー目的関数に分布係数 p を追加し、特にクロスドメインの場合に学習プロセスをよりスムーズにします。

強化学習の使用

MIR 表現空間の要件は実行可能であり、強化学習に使用して特定のアクションとして表現できます。

1 つの解決策は、目標条件付けを使用してポリシーをトレーニングすることです。入力は現在の状態 o と目標状態 g になります。この記事では、現在の状態 o とクロスドメインのターゲット状態 o' を入力して、目標に到達するためのアクションの数を最小限に抑える拡張アプローチであるクロスドメイン目標条件付きポリシーを提案します。

データと実験

研究チームは、8 つの環境とシナリオ (標準シミュレーション、目に見えないアーム、ランダム アーム、ランダム フィールド、Jaco ハンド、実際のロボット、杖、人間の手) で実験を行い、未知のマニピュレータによる制約のない操作軌跡のシミュレーションのパフォーマンスを評価しました。

また、単純な目標条件付きポリシー (GCP) や時間距離などのいくつかのベースライン手法も使用しました。

MIR は、テストされたすべての領域で最高のパフォーマンスを実現します。重ね合わせの成功率に関しては大幅に優れたパフォーマンスを発揮し、シミュレートされた Jaco Hand と Invisible Arm を 100% のスコアでうまく模倣します。

この研究は、視覚模倣における視覚模倣表現の重要性を実証し、視覚模倣における操作に依存しない表現の適用が成功することを検証します。

将来の工場のロボットはより強力な学習能力を備え、特定のツールや特定のタスクに限定されなくなります。

<<:  スマート物流が一般的なトレンドであり、ロボット、ドローン、5Gの価値が強調されている

>>:  AIガバナンスがリスクを軽減しながら利益を獲得する方法

推薦する

ジェネレーティブ AI 初心者ガイド

ソフトウェア アーキテクトとして、私は人工知能 (AI) の発展とさまざまな業界でのその応用を目の当...

...

マイクロソフト、データセンターに十分なAIチップが供給されない場合、サービスが中断すると警告

7月29日のニュース、海外メディアの報道によると、マイクロソフトは投資家に対し、グラフィックス・プロ...

バッチ正規化の呪い

バッチ正規化は、確かにディープラーニングの分野における大きな進歩の 1 つであり、近年研究者によって...

AI がどのようにして人々に結婚や勉強をするように説得できるかを見てみましょう。

[[361065]]いたずら好きな老人の周伯同は、黄耀師によって桃花島に十数年閉じ込められていまし...

2020年グローバルスマート教育会議でAI教育統合イノベーションの成果が発表されました

2020年8月20日から22日まで、北京で「人工知能と未来の教育」に重点を置いた、待望の「2020年...

...

まだ人工知能を理解していないのですね?チューリングに「直接」説明してもらってはいかがでしょうか?

[[335755]]タイムトラベルの超能力を与えられたら、どの歴史上の人物と話をして過去に戻りたい...

北京はインターネット診断と治療の監督を強化し、AIによる処方箋の自動生成を厳しく禁止する

8月21日、北京日報によると、北京市衛生健康委員会は最近、「北京市インターネット医療監督実施弁法(試...

機械学習は産業界においてどのように機能するのでしょうか?

[[402555]]はじめに: 機械学習は学術界と産業界の両方でますます重要な役割を果たしています...

自然言語処理 (NLP) とは何ですか?

[[399636]] 【51CTO.com クイック翻訳】自然言語処理 (NLP) の定義自然言語...

53 フレームが 900 フレームになります。 AIを使えば高価な高速カメラなしでスローモーションが作れる

[[424523]]この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI...

AIの力を活用してITを進化させる

[[436560]]世界中の IT プロフェッショナルは、膨大なデータに圧倒され、本当に重要な洞察を...

AIが起こした恐ろしいことは何ですか?

人工知能(AI)について話すとき、いつも恐怖を感じる人がいます。一体何を恐れているのですか?何か証拠...

「バンカーズアルゴリズム」の秘密が明らかに!フロントエンド テーブルでカスタム数式を使用して「偶数に丸める」

銀行の収益モデルとは何でしょうか? 3 つの言葉: 情報の非対称性です。銀行は預金者から資金を集めて...