ロボットに粘土をこねることを教える？ MIT、IBM、UCSDなどが共同でソフトウェア運用データセットを公開

[[406628]]

仮想環境 (ALE、MuJoCo、OpenAI Gym) は、エージェントの制御と計画のための学習アルゴリズムの開発と評価を大幅に促進しましたが、既存の仮想環境は通常、剛体のダイナミクスのみをカバーしています。ソフトボディダイナミクスは、医療における仮想手術のシミュレーション、コンピュータグラフィックスにおけるヒューマノイドキャラクターのモデリング、ロボット工学における生体模倣アクチュエータの開発、材料科学における破壊と引き裂きの分析など、さまざまな研究分野で幅広く応用されていますが、標準的なソフトボディ環境とベンチマークの構築に関する研究はほとんど行われていません。

剛体ダイナミクスと比較すると、軟体ダイナミクスはシミュレーション、制御、分析がより複雑です。最大の課題の 1 つは、無限の自由度 (DoF) とそれに対応する高次元の支配方程式から生じます。ソフトボディダイナミクスの固有の複雑さにより、剛体用に設計された多くのロボットアルゴリズムを直接適用することができず、ソフトボディタスクのアルゴリズムを評価するためのシミュレーションベンチマークの開発が妨げられています。

最近の研究では、MITワトソン人工知能研究所の主任科学者であるガン・チュアン氏と、MIT、USCDなどの研究機関の研究者が共同で、この問題を解決するために勾配ベースのロボットソフトウェア操作プラットフォーム（PlasticineLab）を提案しました。この論文はICLR 2021カンファレンスで注目論文として選ばれました。

論文の宛先:
出典：http://arxiv.org/pdf/2104.03311.pdf

プロジェクトリンク:
出典: http://plasticinelab.csail.mit.edu/

コードのダウンロード:
https://github.com/hzaskywalker/PlasticineLab

このベンチマークは、つまむ、転がす、切る、形を作る、彫るなどの複雑な操作を通じて実行する必要がある 50 の構成からなる合計 10 のソフト操作タスクを実行して評価するために使用できます。その特徴は、シミュレーション環境が微分可能な物理学を採用し、ソフトウェア分析に勾配情報を初めて提供し、勾配ベースの最適化による教師あり学習を可能にすることです。ソフトボディモデルに関しては、彫刻に使用される多機能弾塑性材料であるプラスティシン（図 1 左）を研究することにしました。プラスティシンは、小さな変形では弾性変形を示し、大きな変形では塑性変形を示します。従来の弾性ソフトボディと比較して、プラスティシンはより多様でリアルな動作をし、これまでの研究では検討されていなかった課題を提示するため、ソフトボディ操作アルゴリズムをテストするための代表的な媒体となっています (図 1 右)。

図 1 左: 子供が麺棒を使って粘土をパンケーキに変えています。右: PlasticineLab の挑戦的な RollingPin シーン。エージェントは、麺棒を前後に転がして粘土を目標の形状に変形する必要があります。

私たちは、CUDA バックエンドが GPU の大規模な並列処理を使用してさまざまな 3D ソフトウェアをリアルタイムでシミュレートする Taichi を通じて、PlasticineLab の勾配サポートと弾塑性材料モデルを実装します。次に、弾塑性材料は移動最小二乗物質点法とフォンミーゼス降伏基準によってモデル化され、Taichi の 2 スケール逆モード微分システムを使用して、塑性材料モデルによってもたらされる数値的に困難な SVD 勾配を含む勾配を自動的に計算します。利用可能な勾配の完全なセットを使用して、PlasticineLab のすべてのソフトボディ操作タスクで勾配ベースの計画アルゴリズムを評価し、その効率を強化学習ベースの方法と比較します。

実験では、勾配ベースの計画アルゴリズムは物理モデルからの追加の知識を活用して、数十回の反復でより価値のあるソリューションを見つけることができるのに対し、強化学習ベースの方法は 10,000 回の反復後でも失敗する可能性があることが示されています。しかし、勾配ベースの方法は、特に多段階のタスクにおいて、長期計画の問題を解決するのに十分なパワーがありません。

これらの発見により、強化学習と勾配ベースの計画アルゴリズムの理解が深まります。さらに、両方のアプローチの利点を組み合わせて、ソフトボディダイナミクスにおける複雑な計画タスクの開発を促進する可能性のある研究方向を提供します。この研究の主な貢献は次のとおりです。

弾性体と塑性体のソフトボディに関するスキル学習のための最初のベンチマークが提案されています。

弾性変形と塑性変形、軟質材料と硬質材料の相互作用、微分可能なカスタム接触モデルをサポートする、完全に機能する微分可能な物理エンジンが開発されました。

ベンチマークの幅広いタスクカバレッジにより、代表的な強化学習および勾配ベースの計画アルゴリズムの体系的な評価と分析が可能になります。このベンチマークが、微分可能な物理学と強化学習を組み合わせた将来の研究に刺激を与えることを願っています。

また、仮想シャドウハンドなどのより多くの関節システムを使用してベンチマークを拡張する予定です。計算物理学コミュニティから生まれた原理的なシミュレーション手法である MPM は、改良によって収束し、独自の精度上の利点を備えています。仮想環境ではモデリングエラーは避けられませんが、シミュレートされた勾配情報は、計画のための強力な監視信号として機能するだけでなく、システム認識を導くこともできます。これにより、ロボット研究者はコントローラーの最適化と並行してタスク自体を「最適化」できるようになり、シミュレーションと現実のギャップを自動的に最小限に抑えることができるようになります。 PlasticineLab は、ソフト操作スキルの学習における将来の研究の障壁を大幅に下げ、機械学習コミュニティに独自の貢献をすることができます。

PLASTICINELAB 学習環境

PlasticineLab には、微分可能な物理シミュレーターによってサポートされる難しいソフトボディ操作タスクが含まれており、そのすべてにおいて、エージェントが剛体マニピュレーターを使用して 1 つ以上の 3D プラスチシンを変形する必要があります。基礎となるシミュレーターを使用すると、ユーザーは、つまむ、転がす、切る、形を整える、彫るなどの複雑な操作を柔らかいオブジェクトに対して実行できます。

タスクの説明

PlasticineLab には、ソフトウェア操作に重点を置いた 10 個のタスクがあります。各タスクは 1 つ以上のソフトボディとマニピュレータで構成され、最終的な目標はマニピュレータの動作を計画してソフトボディをターゲットの形状に変形することです。エージェントの設計は標準的な強化学習フレームワークに従い、マルコフ決定プロセスを通じてモデル化されます。各タスクの設計は、その状態と観察、アクション表現、目標定義、報酬関数によって定義されます。

マルコフ決定過程

一般的に、マルコフ決定プロセスは、状態空間、行動空間、報酬関数、および遷移関数で構成されます。 PlasticineLab では、物理シミュレーターが状態間の遷移を決定します。エージェントの目標は、与えられた状態に基づいてアクションをサンプリングし、予想される累積的な将来の報酬（割引率）を最大化するランダムポリシーを見つけることです。

州

タスクの状態には、ソフトウェア本体とマニピュレータのエンドエフェクタの正しい表現が含まれます。我々は、これまでの研究で広く使用されている粒子ベースのシミュレーション手法に従い、柔らかい物体を、粒子の位置、速度、ひずみ、応力の情報を含む状態を持つ粒子システムとして表現します。具体的には、粒子の状態はサイズの行列としてエンコードされます。ここでは粒子の数です。マトリックスの各行には、位置と速度を表す 2 つの 3D ベクトルと、変形勾配とアフィン速度場を表す 2 つの 3D マトリックスという、単一の粒子からの情報が含まれており、これらはすべて積み重ねられ、1 次元のベクトルに平坦化されています。

運動学的剛体として、マニピュレータのエンドエフェクタは、3D 位置と 4D クォータニオン方向で構成される 7D ベクトルで表されますが、一部のシナリオでは一部の自由度が無効になる場合があります。各タスクについて、この表現はマニピュレータの完全な状態をエンコードする行列を生成します。ここで、はタスクに必要なマニピュレータの数であり、マニピュレータを回転させる必要があるかどうかに応じて 3 または 7 になります。ソフトボディとマニピュレータの相互作用に関しては、剛体とソフトボディ間の一方向の結合を実装し、粒子の質量やマニピュレータの摩擦など、他のすべての物理パラメータを固定しました。

観察する

粒子状態はソフトボディダイナミクスを完全に特徴付けますが、その高い自由度は、直接適用可能な計画および制御アルゴリズムには扱いにくいものです。したがって、粒子をアイデンティティとしてダウンサンプリングし、その位置と速度（各アイデンティティに対して 6D）をサイズのマトリックスに重ね合わせ、これを粒子システムの観測値として使用します。注目すべきは、同じタスク内のロゴが粘土の初期構成で相対的な位置を固定しているため、タスクの異なる構成で一貫した粒子観察が可能になることです。粒子観測とマニピュレータの状態を組み合わせると、要素を持つ観測ベクトルが得られます。

アクション

各タイムステップで、エージェントはマニピュレータの線速度 (および必要に応じて角速度) を運動学的に更新し、サイズのアクションを生成します。ここで、はマニピュレータが回転できるかどうかに応じて 3 または 6 になります。各タスクごとに、物理シミュレーションを安定させるためのアクションのグローバルな下限と上限を提供します。

目標と報酬

各タスクには、質量テンソルによって表されるターゲット形状があり、これは本質的には密度場をサイズの規則的なグリッドに離散化したものです。各時間ステップ t で、現在のソフトボディの質量テンソルを計算します。ターゲットと現在の形状をメッシュ表現に離散化すると、同じ位置の密度を比較することでそれらの類似性を定義でき、粒子システムやポイントクラウドを一致させるという困難な問題を回避できます。報酬関数の完全な定義には、類似性メトリックと、マニピュレータの高レベルの動きに関する 2 つの正規化子が含まれます。

ここで、は 2 つの形状の質量テンソル間の距離であり、は 2 つの形状の質量テンソルの符号付き距離フィールドのドット積であり、マニピュレータがソフトボディの近くに留まるように促します。すべてのタスクにおいて、正の重みは一定です。バイアスにより、各環境の初期報酬が負にならないことが保証されます。

評価コンポーネント

PlasticineLab には合計 10 種類のタスクが含まれています (図 2)。ここでは代表的な 4 つのタスクについて説明し、残りの 6 つのタスクについては付録 B で詳しく説明します。

これらのタスクとさまざまな構成のそのバリエーションは、ソフトウェア操作アルゴリズムのパフォーマンスをベンチマークするための一連の評価コンポーネントを形成します。各タスクには 5 つのバリエーション (合計 50 の構成) があり、初期形状とターゲット形状、およびマニピュレータの初期位置を変動させることによって生成されます。

図 2. PlasticineLab のタスクと参照ソリューション。その一部には複数段階の計画が必要です。

ロープエージェントは、2 つの球形マニピュレータを使用して、粘土の長いロープを硬いポールの周りに巻き付ける必要があります。支柱の位置は構成によって異なります。

Writer エージェントは、「ペン」（垂直カプセルで表されます）を操作して、粘土の立方体に対象の落書きを描く必要があります。それぞれの構成について、粘土の表面にランダムな 2D 線を描いて落書きを生成しました。ペン先は3次元の動きで制御されます。

Chopsticks エージェントは、一対の箸 (2 つの平行なカプセルで表されます) を使用して、地面にある粘土の長いロープを拾い、それを目的の場所まで回転させる必要があります。マニピュレータには 7 つの自由度があります。箸を移動および回転させるための 6 つの自由度と、各箸間の距離を制御するための 1 つの自由度です。

RollingPin エージェントは、硬い麺棒を使用して「ピザ生地」（Play-Doh のキューブで表されます）を平らにすることを学習する必要があります。私たちは、3 自由度のカプセルを介して麺棒をシミュレートしました。1) 麺棒を垂直に落として生地を押すことができます。2) 麺棒を垂直軸に沿って回転させて向きを変えることができます。3) エージェントは麺棒を遊び生地の上で転がして平らにすることもできます。

微分弾塑性シミュレーション

シミュレータは Taichi で実装され、CUDA 上で実行されます。連続体力学は、コンピュータグラフィックスで使用される B スプライン質点法のより単純で効率的な変形である移動最小二乗質点法を使用して離散化されます。シミュレータでは、ラグランジュ粒子とオイラー背景グリッドの両方が使用されます。材料の特性には、位置、速度、質量、密度、変形勾配などがあります。これらのプロパティは、マテリアルとともに移動するラグランジュ粒子に保存され、粒子の相互作用と剛体との衝突は、背景のオイラーメッシュで処理されます。

ここでは、Play-Doh の特徴として、材料モデルの (微分可能な) 塑性拡張に焦点を当て、ほとんどの勾配評価に Taichi の逆モード自動微分システムを活用します。

フォン・ミーゼス降伏基準

Gao らの研究に従って、単純なフォンミーゼス降伏基準を使用して塑性をモデル化します。フォンミーゼスの降伏基準によれば、シリーパティ粒子は、偏差応力の 2 番目の不変量が特定のしきい値を超えると降伏 (つまり、塑性変形) し、材料が静止状態を「忘れる」ため、変形勾配の投影が必要になります。このプロセスは、MPM の文献ではリターンマッピングと呼ばれることがよくあります。

マッピングとその勾配を返す

KlarらおよびGaoらの研究に倣い、各粒子の変形勾配の特異値の3D投影プロセスとしてバックマッピングを実装します。これは、粒子の変形勾配に対して特異値分解 (SVD) プロセスを実行する必要があることを意味し、研究者は付録 A でこのプロセスの疑似コードを提供しています。バックプロパゲーションでは、SVD の勾配を評価する必要があります。 Taichi 内の SVD アルゴリズムは反復的であり、ブルートフォース自動微分を使用すると数値的に不安定になります。 SVD を区別するために、Townsend らが提案した方法を使用します。特異値が明らかでない場合に分母がゼロになる問題については、Jiangらの方法に従って、分母の絶対値がより大きくなるように強制します。

微分可能接触モデルとそのソフトウェアバージョン

標準的な MPM 実装に従い、クーロン摩擦によるメッシュベースの接触処理を使用して、床や剛体の障害物/マニピュレータとのソフトボディの衝突を解決します。剛体は時間とともに変化する SDF として表現されます。古典的な MPM では、接触処理により、剛体境界と軟体境界に沿った速度に急激で滑らかでない変化が生じます。報酬の滑らかさと勾配の品質を向上させるために、バックプロパゲーション中にソフト化された接触モデルを使用します。シミュレーターは、任意のグリッドポイントに対して、剛体までの符号付き距離を計算します。次に、指数関数的に増加しながら 0 に減少する滑らかな衝突強度係数を計算します。直感的には、剛体がグリッドポイントに近いほど衝突効果が強くなります。正のパラメータは、軟化接触モデルの鋭さを決定します。衝突投影の前後のメッシュポイントの速度を線形にブレンドする係数を使用することで、境界周辺の遷移ゾーンがよりスムーズになり、接触勾配が改善されます。

実験

評価指標

まず、各タスクに対して 5 つの構成を生成し、結果として 50 種類の異なる強化学習構成が生成されます。正規化されたデルタ IoU スコアを計算して、状態が目標に到達したかどうかを測定し、ソフト IoU を使用して現在の状態と目標の間の距離を評価します。まず、すべてのメッシュの品質であるメッシュ品質テンソルが抽出されます。それぞれの非負の値は、グリッドポイントに保存されている物質の量を表します。 2つの状態の3D質量テンソルをおよびとします。まず、各テンソルを最大の大きさで割って値を正規化します。

そして、2つの州の軟化IoUは次のように計算される。

計算を実行します。正規化されたデルタ IoU スコアは、初期状態と比較して終了時の IoU がどれだけ増加したかを測定するために使用されます。初期状態、終了時の最終状態、および目標状態について、正規化されたデルタ IoU スコアはと定義されます。各タスクについて、5 つの構成でアルゴリズムを評価し、代数平均スコアを計算します。

強化学習の評価

続いて、本論文で提案されたタスクにおける既存の強化学習アルゴリズムのパフォーマンスを評価します。私たちは、Soft Actor-Critic (SAC)、Twin Delayed DDPG (TD3)、Policy Proximal Optimization (PPO) という 3 つの SOTA モデルフリー強化学習アルゴリズムを使用します。各アルゴリズムは各構成で 10,000 エポックにわたってトレーニングされ、各エポックは 50 の環境ステップで構成されます。

図 3 は、各シーンにおけるさまざまな強化学習アルゴリズムの正規化された増分 IoU スコアを示しています。ほとんどの強化学習アルゴリズムは、Move タスクに関する合理的なポリシーを学習できます。しかし、強化学習アルゴリズムではターゲットの形状を正確に一致させることが難しく、最終的な形状の一致に小さな欠陥が生じます。エージェントが探索中にオブジェクトを頻繁に放出し、重力の影響で粘土が自由落下することに気づきました。すると、エージェントが粘土を再び掴むことが困難になり、トレーニングが不安定になり、満足のいく結果が得られなくなります。ロープタスクでは、エージェントはロープをポールに向かって押して部分的な報酬を得ることができますが、最終的にはロープをポールにうまく巻き付けることはできません。 TripleMove タスクでは、マニピュレータの数と 3 次元粘土が増加し、強化学習アルゴリズムにとってより大きな困難が生じ、高次元タスクへのスケーリングにおけるアルゴリズムの欠点が明らかになります。 Torus タスクでは、アルゴリズムのパフォーマンスは初期ポリシーに依存するようです。マニピュレーターを押す適切な方向を見つけられることもありますが、マニピュレーターが粘土に触れないために失敗し、最終的なスコアに大きな差が生じることもあります。 PPO は他の 2 つよりも優れています。RollingPin タスクでは、SAC エージェントと PPO エージェントの両方が直方体を前後に平らにする戦略を見つけることができますが、PPO はより正確な形状を生成するため、正規化されたデルタ IoU スコアが高くなります。ここでの環境は PPO アルゴリズムに傾倒しており、MLP 評価ネットワークに依存していないと推測されます。これは、PPO がオンポリシーサンプルの恩恵を受ける一方で、MPL 評価ネットワークが詳細な形状の変化をうまく捉えられない可能性があるためと考えられます。

図 3. 104 エポック以内に強化学習法によって得られた最終的な正規化された増分 IoU スコア。0 未満のスコアはクランプされます。オレンジ色の破線は理論上の上限を示しています。

エージェントが 3D 回転を慎重に処理する必要がある Chopsticks タスクや、エージェントがトレースを描くために複雑な軌道を計画する必要がある Writer タスクなどのより難しいタスクでは、テストされたアルゴリズムが限られた時間内に妥当な解決策を見つけることがほとんどできません。アセンブリタスクでは、すべてのエージェントが簡単に局所最小値に陥る可能性があります。通常、球状の粘土を目的地の近くまで移動させますが、理想的な IoU を得るために持ち上げることができません。慎重に設計された報酬の形成、より優れたネットワークアーキテクチャ、きめ細かいパラメータ調整が環境にメリットをもたらすと期待しています。要約すると、ソフトウェアの可塑性と高い自由度は、強化学習アルゴリズムに新たな課題をもたらします。

評価軌道の最適化

PlasticineLab には微分可能な物理エンジンが組み込まれているため、勾配ベースの最適化を使用してタスクのオープンループアクションシーケンスを計画できます。勾配ベースの最適化では、状態から始まるいくつかの構成に対して、ランダムなアクションのシーケンスが初期化されます。シミュレーターは、軌道全体をシミュレートし、各タイムステップで報酬を蓄積し、バックプロパゲーションを行ってすべてのアクションの勾配を計算します。次に、勾配ベースの最適化手法を使用して報酬の合計を最大化します。環境に関するすべての情報が既知であると想定します。このアプローチの目的は、現実世界で機能できるコントローラーを見つけることではありません。代わりに、微分可能な物理学が効率的に解決策を見つけ、他の制御または強化/模倣学習アルゴリズムの基礎を築くのに役立つことを願っています。

図 4 では、報酬曲線をプロットし、さまざまな勾配降下法のバリエーションのパフォーマンスを比較することで、微分可能な物理学の最適化効率を示しています。ソフトコンタクトモデルを使用して勾配を計算し、Adam オプティマイザー (Adam) とモメンタム付き勾配降下法 (GD) をテストし、Adam オプティマイザーとハードコンタクトモデル (Adam-H) を比較します。各オプティマイザーでは、異なるタスクの異なる報酬レベルに対応するために、タスクごとに 0.1 または 0.01 の学習率を適度に選択します。ここでは、勾配を計算して解を探すためにソフトコンタクトモデルのみが使用されていることに注意してください。

当社はすべてのソリューションをハードコンタクト環境で評価します。図 4 では、勾配ベースの最適化の効率性を示すために、強化学習アルゴリズムのトレーニング曲線も追加でプロットされています。結果は、最適化ベースの方法により、数十回の反復で困難なタスクの解決策を見つけることができることを示しています。 Adam はほとんどのタスクで GD を上回ります。これは、高次元の物理プロセスの複雑な損失面により適した Adam の適応学習率スケーリング特性に起因すると考えられます。ほとんどのタスクでは、ハードコンタクトモデル (Adam-H) のパフォーマンスはソフトモデル (Adam) よりも劣ります。これは、ソフトモデルの方が一般に最適化しやすいという直感を裏付けています。

図 4. トレーニングエピソードの数による各タスクでの報酬の変化とその分散。わかりやすくするために、報酬を 0 より大きく制限します。

表 1 には、すべての方法の正規化されたデルタ IoU スコアと標準偏差が示されています。モデルを完全に理解することで、微分可能な物理学においてより価値のある結果を得る機会が得られます。 Adam 勾配降下法を使用すると、ロープタスクでロープをポールの周りに移動する方法、アセンブリタスクで次善の解決策をスキップする方法、箱の上に球体を置き、箸タスクで箸でロープを拾う方法を見つけることができます。移動タスクの場合でも、ターゲット形状とのより良い位置合わせとより安定した最適化プロセスにより、より優れたパフォーマンスが実現されます。

勾配ベースの方法では、いくつかのタスクは依然として困難です。 TripleMove タスクでは、オプティマイザーは粒子と最も近いターゲット形状の間の距離を最小化します。その結果、2 つまたは 3 つの粘土片が同じターゲット位置に収束することがよくあります。探索機能のない勾配ベースの方法では、このような局所最小値から脱出するのは容易ではありません。オプティマイザーは、Pinch タスクや Writer タスクなど、複数段階の戦略を必要とするタスクでも失敗します。ピンチタスクでは、マニピュレーターはオブジェクトを押し、放し、もう一度押す必要があります。しかし、マニピュレータと粘土が最初に接触した後、球形マニピュレータの局所的な摂動によって報酬がすぐに増加することはなく、最適化プログラムは最終的に行き詰まってしまいます。また、勾配ベースの方法は初期化に非常に敏感であることにも注意してください。実験ではアクションシーケンスを 0 付近に初期化し、ほとんどの環境で良好なパフォーマンスが得られました。

表 1. 各方法の平均正規化デルタ IoU スコアと標準偏差。 Adam-H は、Adam オプティマイザーを使用してハードコンタクトモデルを最適化することを意味します。強化学習ベースの方法は 10,000 エピソードを使用してトレーニングされ、勾配ベースの方法は 200 エピソードを使用して最適化されました。

潜在的な研究上の疑問

この環境は、学習ベースのソフトウェア操作のための豊富な研究機会を提供します。実験では、勾配がポリシーを改善するための強力で明確なガイダンスを提供するため、微分物理学によって勾配ベースの軌道最適化アルゴリズムが単純な計画タスクを非常に高速に解決できることが示されています。しかし、操作物と粘土の分離と再接続を伴う課題の場合、勾配は消えました。局所摂動分析による勾配ベースの最適化が不可能な場合は、ランダム探索や強化学習など、複数段階の探索を可能にして報酬を蓄積する方法を検討する場合があります。

したがって、微分可能な物理学とサンプリングベースの方法をどのように組み合わせて、ソフトボディ操作計画の問題を解決できるかを調査することは非常に興味深いことです。計画問題に加えて、この環境で効果的なソフト操作コントローラーを設計および学習する方法を研究することも非常に興味深いです。実験結果から、コントローラの設計と最適化には依然として改善の余地が十分にあることがわかります。考えられる方向性としては、強化学習のためのより優れた報酬関数の設計や、ソフトボディのダイナミクスを捉えるのに適した 3D ディープニューラルネットワーク構造の研究などが挙げられます。

3 番目の興味深い方向性は、PlasticineLab でトレーニングされたポリシーを現実世界に移行することです。この問題はほとんど未解明ですが、私たちのシミュレーターはさまざまな方法で役立つと考えています。

1. Gaume らが示したように、MPM シミュレーションの結果は現実世界と正確に一致します。将来の研究では、シミュレータを使用して複雑なタスクの高レベルの軌道を計画し、それを低レベルのコントローラーと組み合わせて計画を実行する可能性があります。

2. 微分シミュレータは物理パラメータの勾配を計算し、データに適合するようにパラメータを最適化できるため、sim2real ギャップを狭めるのに役立ちます。

3.PlasticineLab は、ドメインランダム化やその他の sim2real メソッドと組み合わせることもできます。物理パラメータと画像レンダラーをシミュレータでカスタマイズして、ドメインのランダム化を実現できます。このシミュレータが、現実世界のソフトウェア操作の問題を研究するための優れたツールとして役立つことを願っています。

最後に、一般化は探求すべき重要な方向性です。研究プラットフォームは、さまざまなオブジェクトのさまざまな構成を生成およびシミュレートし、さまざまなアルゴリズムの汎用性を評価できる手続き型生成をサポートしています。 PlasticineLab は、豊富なターゲット調整タスクを設計するための優れたプラットフォームも提供します。

>>: 人間は知能を持っているのに、なぜモノのインターネットには人工知能が必要なのでしょうか?