Google X 中国博士がロボットシミュレーターSimGANをリリース、ICLR2021が出版

Google X 中国博士がロボットシミュレーターSimGANをリリース、ICLR2021が出版

[[407004]]

工学部の学生は、さまざまなシミュレーターから切り離すことはできません。シミュレーターにより、さまざまな工学分野で最小限の人手だけで迅速にプロトタイプを作成できます。

ロボット工学では、物理シミュレーションは、深層強化学習 (DRL) などの技術を使用してロボットが物理的なスキルを習得するための安全で安価な仮想遊び場を提供します。

ただし、シミュレーションで手動で導き出された物理特性は現実世界と完全には一致しないため、シミュレーションで完全にトレーニングされた制御ポリシーは、実際のハードウェアでテストすると失敗する可能性があります。これは、シミュレーションから現実への適応またはドメイン適応と呼ばれる問題です。

掴むなどの知覚ベースのタスクにおけるシミュレーションと現実のギャップは、RL-cycleGAN と RetinaGAN を使用して解決されていますが、ロボット システムのダイナミクスによりギャップは依然として存在します。

RL-cycleGAN と RetinaGAN は、New Intelligence の以前のプッシュ「Google X がシミュレーターを使用してロボットをトレーニングする方法を教え、精度は 93% 以上、ICRA2021 で公開」で紹介されました。

そこで、実際のロボットの軌跡から、より正確な物理シミュレーターを学習できるかどうかという疑問が生じます。もしそうなら、そのような改良されたシミュレーターは、標準的な DRL トレーニングを使用してロボット コントローラーを改良し、現実世界で成功できるようにするために使用できます。

このアイデアに基づき、GoogleとXチームはICRA2021で「SimGAN: 敵対的強化学習によるハイブリッドシミュレータ認識ドメイン適応」という論文を共同で発表しました。この論文では、物理シミュレータを学習可能なコンポーネントとして使用し、特別な報酬関数を使用してDRLでトレーニングし、シミュレーションで生成された軌跡(つまり、時間の経過に伴うロボットの動き)と少数の軌跡の差異にペナルティを課し、実際のロボットの動作軌跡を収集することを提案しています。

この記事の著者の半数以上は中国人です。第一著者の Yifeng Jiang は、C. Karen Liu 博士の指導を受けるスタンフォード大学のコンピューターサイエンスの博士課程 2 年生です。

彼はジョージア工科大学で電気工学とコンピュータ工学の学士号を取得しました。大学院に入学する前は、上海交通大学で学士号を取得し、ミシガン大学と上海交通大学の共同研究所のメンバーでした。彼の研究対象は、ロボット工学アプリケーションのためのコンピュータアニメーションと物理シミュレーション、およびこれらの分野での統計的手法の使用方法、さらに数値最適化、人間の認知、運動学習です。

[[407005]]

私たちは、生成的敵対的ネットワーク (GAN) を使用してこの報酬を提供し、学習可能なニューラル ネットワークと解析的な物理方程式を組み合わせたハイブリッド シミュレーターを作成して、モデルの表現力と物理的な正確さのバランスをとります。ロボットの移動タスクでは、この方法はドメインランダム化を含むいくつかの強力なベースラインよりも優れています。

学習可能なハイブリッド シミュレーター 従来の物理シミュレーターは、微分方程式を解いて仮想世界で移動したり相互作用したりするオブジェクトをシミュレートするプログラムです。

この作業では、さまざまな環境を表現するためにさまざまな物理モデルを構築する必要があります。ロボットがマットレスの上を歩く場合は、マットレスの変形を考慮する必要があります (たとえば、有限要素解析を使用)。

しかし、ロボットが現実世界で遭遇するシナリオは多様であるため、このような環境固有のモデリング手法は時間がかかり(不可能でさえある)、そのため機械学習ベースのアプローチを採用することが有用です。

シミュレーターはデータから完全に学習できますが、トレーニング データにさまざまな状況が含まれていない場合、トレーニングされていない状況をシミュレートする必要がある場合、学習したシミュレーターは物理法則に違反する (つまり、現実世界のダイナミクスから逸脱する) 可能性があります。

したがって、このような制限のあるシミュレータで訓練されたロボットは、現実世界では失敗する可能性が高くなります。

この複雑さを克服するために、学習可能なニューラル ネットワークと物理方程式を組み合わせたハイブリッド シミュレーターを構築します。

具体的には、研究者らは、通常は手動で定義されるシミュレータパラメータ(接触パラメータ(摩擦係数や反発係数など)やモーターパラメータ(モーターゲインなど))を、学習可能なシミュレーションパラメータ関数を使用して置き換えました。接触とモーターのダイナミクスのモデル化されていない詳細が、シミュレーションギャップの主な原因であるためです。

これらのパラメータを定数として扱う従来のシミュレータとは異なり、ハイブリッド シミュレータではこれらのパラメータは状態に依存し、ロボットの状態に応じて変化する可能性があります。

たとえば、モーターは速度が上がると弱くなります。通常はモデル化されていないこれらの物理現象は、状態依存のシミュレーション パラメータ関数を使用して捉えることができます。

さらに、接触パラメータやモーターパラメータは通常は識別が難しく、摩耗により変動しがちですが、当社のハイブリッド シミュレーターはデータから自動的にそれらを学習できます。たとえば、ロボットの足のパラメータを手動で指定する代わりに、シミュレーターはトレーニング データからそれらのパラメータを学習します。

ハイブリッド シミュレーターの別の部分は物理方程式で構成されており、シミュレーションがエネルギー保存などの基本的な物理法則に従うことを保証し、シミュレーションを現実世界に近づけて、シミュレーションと現実世界とのギャップを減らします。

前のマットレスの例では、学習可能なハイブリッド シミュレーターはマットレスの接触力をシミュレートできました。学習された接触パラメータは状態に依存するため、シミュレーターはマットレスに対するロボットの足の距離と速度に基づいて接触力を調整し、変形可能な表面の剛性と減衰の影響をシミュレートできます。

したがって、変形可能な表面専用の解析モデルを設計する必要はありません。

GAN シミュレータ学習を使用して、上で説明したシミュレーション パラメータ関数を正常に学習すると、実際のロボットと同様の軌道を生成できるハイブリッド シミュレータが実現します。

この種の学習を可能にする鍵は、軌跡間の類似性の測定基準を定義することです。

GAN はもともと、少数の実画像から実画像と同じ分布やスタイルの合成画像を生成するように設計されており、実画像と区別がつかない合成トラックを生成するために使用できます。

GAN には、新しいインスタンスを生成することを学習するジェネレーターと、新しいインスタンスがトレーニング データとどの程度類似しているかを評価する識別子という 2 つの主要な部分があります。

この場合、学習可能なハイブリッド シミュレーターは GAN ジェネレーターとして機能し、GAN ディスクリミネーターは類似度スコアを提供します。

シミュレーション モデルのパラメータを現実世界で収集されたデータに適合させるシステム識別 (SysID) と呼ばれるプロセスは、多くのエンジニアリング分野で一般的な方法になっています。

たとえば、変形可能な表面の剛性パラメータは、さまざまな圧力下での表面の変位を測定することによって決定できます。このプロセスは通常は手動で面倒ですが、GAN を使用すると効率化できます。たとえば、SysID では、シミュレートされた軌道と実際の軌道の差を測定するために、手動で作成されたメトリックが必要になることがよくあります。 GAN の場合、このようなメトリックは識別器によって自動的に学習されます。さらに、従来の SysID では、差分メトリックを計算するために、各シミュレートされた軌道を、同じ制御ポリシーを使用して生成された対応する実際の軌道とペアリングする必要があります。

GAN 識別子は、入力として軌跡を受け取り、現実世界でそれを見る可能性を計算するだけなので、この 1 対 1 のペアリングは必要ありません。

シミュレータの学習と強化学習を使用したポリシーの最適化 すべてを結び付けるために、模倣学習を RL 問題として形式化します。ニューラル ネットワークは、少数の現実世界の軌跡から状態に依存する接触とモーターのパラメータを学習します。ニューラル ネットワークは、シミュレートされた軌道と実際の軌道間の誤差を最小限に抑えるように最適化されます。

重要なのは、この誤差を長期間にわたって最小限に抑えることです。より遠い将来を正確に予測するシミュレーションにより、より優れた制御ポリシーが実現します。 RL は、単一のステップでの報酬だけではなく、時間の経過に伴う累積報酬を最適化するため、これに適しています。

ハイブリッド シミュレーターが学習され、より正確になった後、シミュレーションにおけるロボットの制御ポリシーを改善するために RL を再度使用しました。

結果は、SimGan がドメインランダム化 (DR) やターゲットドメインの直接的な改良 (FT) を含む複数の sota モデル ベースラインよりも優れていることを示しています。

シミュレーションと現実のギャップは、ロボットが強化学習機能を活用することを妨げる主要なボトルネックの 1 つです。

私たちは、少量の現実世界のデータのみを使用して、現実世界のダイナミクスをより忠実にモデル化するシミュレーターを学習することで、この課題に対処します。このシミュレーターで改善された制御戦略は正常に展開できます。この目標を達成するために、古典的な物理シミュレーターに学習可能なコンポーネントを追加し、敵対的強化学習アプローチを使用してこのハイブリッドシミュレーターをトレーニングします。

これまで、私たちは移動タスクでその使用をテストしてきましたが、ナビゲーションや操作などの他のロボット学習タスクに適用することで、この一般的なフレームワークを構築したいと考えています。

<<:  バイオメディカルホログラフィックイメージング用の RNN が 50 倍高速化

>>:  テスラが自社開発したスーパーコンピュータDojo!日本の「富岳」に代わる世界初の

ブログ    

推薦する

キロメートル認識誤差5%未満の世界最先端の超長距離精密3Dセンシング技術をリリース。

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

機械学習の錬金術の理論的根拠はどれほど強固なのでしょうか?

機械学習の分野は近年急速に発展しています。しかし、機械学習理論に対する理解は依然として非常に限られて...

ショック!自動運転車が人をはねたが、救助活動は失敗し、死亡が確認された。

太平洋標準時3月18日午後10時、米国アリゾナ州で、ウーバーが路上試験中に自転車に乗った女性と衝突し...

ジェネレーティブAIがファッション業界にもたらす変化

業界ではデザインやスキンケアに AI 技術が活用されています。一部の企業は、生成ツールを超えて、コン...

私の目が支配者です! 80億のパラメータを備えたOtterHDは、清明節のラクダを数えるのに役立ちます。南洋理工大学の中国チームによって作成されました

「清明節の河沿い」には何頭のラクダがいるか知りたいですか? UHD 入力をサポートするこのマルチモー...

自動化された機械学習: よく使われる 5 つの AutoML フレームワークの紹介

AutoML フレームワークによって実行されるタスクは、次のように要約できます。データを前処理して...

Sora では 1 分間のビデオを生成するのに 1 時間以上かかります。これによりユーザー エクスペリエンスにどのような変化がもたらされるのでしょうか?

人工知能に対する人々の熱意が高まり続けるにつれ、新しく発売された製品は世界中の人々から大きな注目を集...

これらの仕事は今後5年以内に機械に置き換えられる可能性があり、8500万人が解雇される危険にさらされている。

5G ネットワークの誕生と普及により、5G ネットワークのサポートにより、モノのインターネットの新...

...

ベルギー国会議員は、携帯電話を使用しているとAIによって公に名指しされたため、議会で「気を散らされる」ことはできなくなった。

[[410932]]会議中にこっそりと携帯電話を見ている時間がバックグラウンド システムによって記...

...

ソートアルゴリズムを簡単に学ぶ: よく使われるソートアルゴリズムを視覚的に体験

1. クイックソート導入:クイックソートは、Tony Hall によって開発されたソートアルゴリズム...

中国科学院の専門家が人工知能の混乱を批判:AIチップなど存在しない

Titanium Media Note:先週日曜日、IEEE SMC 協会 (IEEE システム、人...

このロボットは食べられますか?科学者は副作用なく食べても安全だと言っている

ロボットを食べるというのはあまり魅力的に聞こえないかもしれないが、近い将来、食べられる機械があなたの...

第16回(2017年)中国政府ウェブサイトパフォーマンス評価結果発表および経験交流会議が北京で成功裏に開催されました。

2017年11月17日、中国情報産業発展センターの指導の下、中国ソフトウェア評価センターが主催し、...