Google X 中国博士がロボットシミュレーターSimGANをリリース、ICLR2021が出版

[[407004]]

工学部の学生は、さまざまなシミュレーターから切り離すことはできません。シミュレーターにより、さまざまな工学分野で最小限の人手だけで迅速にプロトタイプを作成できます。

ロボット工学では、物理シミュレーションは、深層強化学習 (DRL) などの技術を使用してロボットが物理的なスキルを習得するための安全で安価な仮想遊び場を提供します。

ただし、シミュレーションで手動で導き出された物理特性は現実世界と完全には一致しないため、シミュレーションで完全にトレーニングされた制御ポリシーは、実際のハードウェアでテストすると失敗する可能性があります。これは、シミュレーションから現実への適応またはドメイン適応と呼ばれる問題です。

掴むなどの知覚ベースのタスクにおけるシミュレーションと現実のギャップは、RL-cycleGAN と RetinaGAN を使用して解決されていますが、ロボットシステムのダイナミクスによりギャップは依然として存在します。

RL-cycleGAN と RetinaGAN は、New Intelligence の以前のプッシュ「Google X がシミュレーターを使用してロボットをトレーニングする方法を教え、精度は 93% 以上、ICRA2021 で公開」で紹介されました。

そこで、実際のロボットの軌跡から、より正確な物理シミュレーターを学習できるかどうかという疑問が生じます。もしそうなら、そのような改良されたシミュレーターは、標準的な DRL トレーニングを使用してロボットコントローラーを改良し、現実世界で成功できるようにするために使用できます。

このアイデアに基づき、GoogleとXチームはICRA2021で「SimGAN: 敵対的強化学習によるハイブリッドシミュレータ認識ドメイン適応」という論文を共同で発表しました。この論文では、物理シミュレータを学習可能なコンポーネントとして使用し、特別な報酬関数を使用してDRLでトレーニングし、シミュレーションで生成された軌跡（つまり、時間の経過に伴うロボットの動き）と少数の軌跡の差異にペナルティを課し、実際のロボットの動作軌跡を収集することを提案しています。

この記事の著者の半数以上は中国人です。第一著者の Yifeng Jiang は、C. Karen Liu 博士の指導を受けるスタンフォード大学のコンピューターサイエンスの博士課程 2 年生です。

彼はジョージア工科大学で電気工学とコンピュータ工学の学士号を取得しました。大学院に入学する前は、上海交通大学で学士号を取得し、ミシガン大学と上海交通大学の共同研究所のメンバーでした。彼の研究対象は、ロボット工学アプリケーションのためのコンピュータアニメーションと物理シミュレーション、およびこれらの分野での統計的手法の使用方法、さらに数値最適化、人間の認知、運動学習です。

私たちは、生成的敵対的ネットワーク (GAN) を使用してこの報酬を提供し、学習可能なニューラルネットワークと解析的な物理方程式を組み合わせたハイブリッドシミュレーターを作成して、モデルの表現力と物理的な正確さのバランスをとります。ロボットの移動タスクでは、この方法はドメインランダム化を含むいくつかの強力なベースラインよりも優れています。

学習可能なハイブリッドシミュレーター従来の物理シミュレーターは、微分方程式を解いて仮想世界で移動したり相互作用したりするオブジェクトをシミュレートするプログラムです。

この作業では、さまざまな環境を表現するためにさまざまな物理モデルを構築する必要があります。ロボットがマットレスの上を歩く場合は、マットレスの変形を考慮する必要があります (たとえば、有限要素解析を使用)。

しかし、ロボットが現実世界で遭遇するシナリオは多様であるため、このような環境固有のモデリング手法は時間がかかり（不可能でさえある）、そのため機械学習ベースのアプローチを採用することが有用です。

シミュレーターはデータから完全に学習できますが、トレーニングデータにさまざまな状況が含まれていない場合、トレーニングされていない状況をシミュレートする必要がある場合、学習したシミュレーターは物理法則に違反する (つまり、現実世界のダイナミクスから逸脱する) 可能性があります。

したがって、このような制限のあるシミュレータで訓練されたロボットは、現実世界では失敗する可能性が高くなります。

この複雑さを克服するために、学習可能なニューラルネットワークと物理方程式を組み合わせたハイブリッドシミュレーターを構築します。

具体的には、研究者らは、通常は手動で定義されるシミュレータパラメータ（接触パラメータ（摩擦係数や反発係数など）やモーターパラメータ（モーターゲインなど））を、学習可能なシミュレーションパラメータ関数を使用して置き換えました。接触とモーターのダイナミクスのモデル化されていない詳細が、シミュレーションギャップの主な原因であるためです。

これらのパラメータを定数として扱う従来のシミュレータとは異なり、ハイブリッドシミュレータではこれらのパラメータは状態に依存し、ロボットの状態に応じて変化する可能性があります。

たとえば、モーターは速度が上がると弱くなります。通常はモデル化されていないこれらの物理現象は、状態依存のシミュレーションパラメータ関数を使用して捉えることができます。

さらに、接触パラメータやモーターパラメータは通常は識別が難しく、摩耗により変動しがちですが、当社のハイブリッドシミュレーターはデータから自動的にそれらを学習できます。たとえば、ロボットの足のパラメータを手動で指定する代わりに、シミュレーターはトレーニングデータからそれらのパラメータを学習します。

ハイブリッドシミュレーターの別の部分は物理方程式で構成されており、シミュレーションがエネルギー保存などの基本的な物理法則に従うことを保証し、シミュレーションを現実世界に近づけて、シミュレーションと現実世界とのギャップを減らします。

前のマットレスの例では、学習可能なハイブリッドシミュレーターはマットレスの接触力をシミュレートできました。学習された接触パラメータは状態に依存するため、シミュレーターはマットレスに対するロボットの足の距離と速度に基づいて接触力を調整し、変形可能な表面の剛性と減衰の影響をシミュレートできます。

したがって、変形可能な表面専用の解析モデルを設計する必要はありません。

GAN シミュレータ学習を使用して、上で説明したシミュレーションパラメータ関数を正常に学習すると、実際のロボットと同様の軌道を生成できるハイブリッドシミュレータが実現します。

この種の学習を可能にする鍵は、軌跡間の類似性の測定基準を定義することです。

GAN はもともと、少数の実画像から実画像と同じ分布やスタイルの合成画像を生成するように設計されており、実画像と区別がつかない合成トラックを生成するために使用できます。

GAN には、新しいインスタンスを生成することを学習するジェネレーターと、新しいインスタンスがトレーニングデータとどの程度類似しているかを評価する識別子という 2 つの主要な部分があります。

この場合、学習可能なハイブリッドシミュレーターは GAN ジェネレーターとして機能し、GAN ディスクリミネーターは類似度スコアを提供します。

シミュレーションモデルのパラメータを現実世界で収集されたデータに適合させるシステム識別 (SysID) と呼ばれるプロセスは、多くのエンジニアリング分野で一般的な方法になっています。

たとえば、変形可能な表面の剛性パラメータは、さまざまな圧力下での表面の変位を測定することによって決定できます。このプロセスは通常は手動で面倒ですが、GAN を使用すると効率化できます。たとえば、SysID では、シミュレートされた軌道と実際の軌道の差を測定するために、手動で作成されたメトリックが必要になることがよくあります。 GAN の場合、このようなメトリックは識別器によって自動的に学習されます。さらに、従来の SysID では、差分メトリックを計算するために、各シミュレートされた軌道を、同じ制御ポリシーを使用して生成された対応する実際の軌道とペアリングする必要があります。

GAN 識別子は、入力として軌跡を受け取り、現実世界でそれを見る可能性を計算するだけなので、この 1 対 1 のペアリングは必要ありません。

シミュレータの学習と強化学習を使用したポリシーの最適化すべてを結び付けるために、模倣学習を RL 問題として形式化します。ニューラルネットワークは、少数の現実世界の軌跡から状態に依存する接触とモーターのパラメータを学習します。ニューラルネットワークは、シミュレートされた軌道と実際の軌道間の誤差を最小限に抑えるように最適化されます。

重要なのは、この誤差を長期間にわたって最小限に抑えることです。より遠い将来を正確に予測するシミュレーションにより、より優れた制御ポリシーが実現します。 RL は、単一のステップでの報酬だけではなく、時間の経過に伴う累積報酬を最適化するため、これに適しています。

ハイブリッドシミュレーターが学習され、より正確になった後、シミュレーションにおけるロボットの制御ポリシーを改善するために RL を再度使用しました。

結果は、SimGan がドメインランダム化 (DR) やターゲットドメインの直接的な改良 (FT) を含む複数の sota モデルベースラインよりも優れていることを示しています。

シミュレーションと現実のギャップは、ロボットが強化学習機能を活用することを妨げる主要なボトルネックの 1 つです。

私たちは、少量の現実世界のデータのみを使用して、現実世界のダイナミクスをより忠実にモデル化するシミュレーターを学習することで、この課題に対処します。このシミュレーターで改善された制御戦略は正常に展開できます。この目標を達成するために、古典的な物理シミュレーターに学習可能なコンポーネントを追加し、敵対的強化学習アプローチを使用してこのハイブリッドシミュレーターをトレーニングします。

これまで、私たちは移動タスクでその使用をテストしてきましたが、ナビゲーションや操作などの他のロボット学習タスクに適用することで、この一般的なフレームワークを構築したいと考えています。

<<: バイオメディカルホログラフィックイメージング用の RNN が 50 倍高速化

>>: テスラが自社開発したスーパーコンピュータDojo！日本の「富岳」に代わる世界初の

Google X 中国博士がロボットシミュレーターSimGANをリリース、ICLR2021が出版

AI に役立つ 7 つのオープンソースツール

バックアップと災害復旧のための生成AIツールはまだ初期段階にある

AIを使ってアニメーションを作成する方法と、さまざまなツールがあなたを待っています

階乗関連のアルゴリズムとその C++ 実装

CVPR 自動運転チャレンジで優勝したのはどのようなソリューションでしょうか?

人工知能プログラミングは、人間がよりインテリジェントな機械を作成するのに役立ちますか?

10,000台以上のカメラが他人の家に接続されています。ネットワーク障害により中断と再起動が発生し、公式の責任はサードパーティのキャッシュライブラリに帰せられました。

TensorFlowはディープラーニングに基づく画像補完を実装する

72歳の男性がコーラを飲みながら脳で麻雀をする：これはすべて脳コンピューターインターフェース技術のおかげです

推薦する

キロメートル認識誤差5%未満の世界最先端の超長距離精密3Dセンシング技術をリリース。

機械学習の錬金術の理論的根拠はどれほど強固なのでしょうか?

ショック！自動運転車が人をはねたが、救助活動は失敗し、死亡が確認された。

ジェネレーティブAIがファッション業界にもたらす変化

私の目が支配者です！ 80億のパラメータを備えたOtterHDは、清明節のラクダを数えるのに役立ちます。南洋理工大学の中国チームによって作成されました

自動化された機械学習: よく使われる 5 つの AutoML フレームワークの紹介

Sora では 1 分間のビデオを生成するのに 1 時間以上かかります。これによりユーザーエクスペリエンスにどのような変化がもたらされるのでしょうか?

これらの仕事は今後5年以内に機械に置き換えられる可能性があり、8500万人が解雇される危険にさらされている。

ベルギー国会議員は、携帯電話を使用しているとAIによって公に名指しされたため、議会で「気を散らされる」ことはできなくなった。

ソートアルゴリズムを簡単に学ぶ: よく使われるソートアルゴリズムを視覚的に体験

中国科学院の専門家が人工知能の混乱を批判：AIチップなど存在しない

このロボットは食べられますか？科学者は副作用なく食べても安全だと言っている

第16回（2017年）中国政府ウェブサイトパフォーマンス評価結果発表および経験交流会議が北京で成功裏に開催されました。