「中国版ダヴィンチ」ロボットが人気！ブドウの皮を縫うだけでなく、このような創造的な作業もあります

ブドウを縫うことができる DIY ロボットアームを作りますか?

[[428703]]

最近、有名な「ハードコア」アップマスターのZhihuijunが、ゼロから設計した小型で高精度な6軸ロボットアームダミーを披露しました。

動画が公開されるやいなや、B局ランキングのトップ10に突入。弾幕を開けると、画面は感嘆符でいっぱいになった。

「震える」「救う＝できる」「彼は実際に私たちに教えようとしている」「理解していないが衝撃を受けた」などのコメントが寄せられる中、あるネットユーザーは「私たちもできるだけ早く『ダ・ヴィンチ』ロボットの中国版を作ることができればと思う」とコメントした。

[[428704]]

ファーウェイだけでなく、すべての大手テクノロジー企業がロボット技術の研究に注力しています。先日開催された知能ロボットとシステムに関する国際会議IROS 2021では、針に糸を通すような柔軟な操作技術を持つものなど、おなじみのフィギュアを多数見かけました。

その中には、絶対に予想できない名前もあります！

それはまだ腕のないロボットですか？

サービスロボットは今やどこにでも存在しますが、そのほとんどは「こんにちは、何かお手伝いしましょうか？」と尋ねて、「この機能はまだサポートされていません」と答えることしかできません。テイクアウトの食べ物を配達する場合でも、配達員の後を人が追いかける必要があります。

なぜこれらのロボットは使いにくいのでしょうか?

えーと。。。まず、柔軟に掴むことができるロボットアームが必要になるかもしれません。

イースターエッグです

把持はロボットアームの基本的なスキルです。把持タスクを正常に完了するには、物体を把持する際の正確な位置決め、適切な把持姿勢、物体間の閉塞による予測可能な衝突という 3 つのレベルを通過する必要があります。これらの 3 つのレベルを通過して初めて、ロボットがドアに入ったとみなされます。

この論文は、ByteDance AI Labと中国科学院自動化研究所がIROS 2021で発表したもので、ロボットの新しい把持操作方法を提案した。

出典: http://arxiv.org/pdf/2108.02425.pdf

著者らは、3D オブジェクトのセグメンテーション、衝突予測、およびオブジェクトの姿勢推定を組み合わせることで、ロボットが乱雑なシーンでオブジェクトレベルの衝突のない 6 自由度の把握姿勢を正確に推定し、SOTA を達成できるようにしました。

関節インスタンスのセグメンテーションと衝突検出に基づくロボットの把持姿勢推定の模式図

まず、PointNet++ をエンコーダーとして使用してポイントクラウドから 3D 特徴情報をキャプチャし、次にインスタンスセグメンテーションデコーダー、6 自由度把持姿勢デコーダー、衝突検出デコーダーの 3 つの並列デコーダーを使用します。

3 つのデコーダーブランチは、それぞれポイント単位のインスタンスのセグメンテーション、把持構成、衝突予測を出力します。推論段階では、同じインスタンスに作用し、衝突しない把持姿勢がグループ化され、姿勢非最大抑制アルゴリズムを通じて最終的な把持姿勢に融合されます。

関節インスタンスのセグメンテーションと衝突検出に基づくロボットの把持姿勢推定アルゴリズムのブロック図

インスタンスセグメンテーションブランチ

物を掴むには、まずそれがはっきりと見えなければなりません。はっきりと見えて初めて、正確に掴むことができます。インスタンスセグメンテーションブランチでは、ポイント単位のインスタンスセマンティックセグメンテーションモジュールを採用して、複数のオブジェクトを区別します。具体的には、同じインスタンスに属するポイントは類似した特徴を持つ必要がありますが、異なるインスタンスのポイントは異なる特徴を持つ必要があります。

トレーニングプロセス中、各ポイントのセマンティックラベルとインスタンスラベルが既知であり、バイナリクロスエントロピーを使用して分岐出力のセマンティック損失が計算されます。

背景と前景を分類することができます。

インスタンスの損失

判別損失関数を通じて

計算方法: 分散損失

同じインスタンスに属するポイントは、インスタンスの中心にできるだけ近づけることができますが、距離の損失は

異なるインスタンスの中心間の距離を増やすために、正規化損失

アクティベーションを制限したままにするには、すべてのインスタンスを原点に向けて制約します。

インスタンスセグメンテーションの識別損失関数の図解

インスタンスセグメンテーション全体の損失

それは意味損失とインスタンス損失の合計です。

このように、インスタンスセグメンテーションブランチは、インスタンスレベルの把持を学習するためのアルゴリズムにインスタンス情報を提供することができ、モデルが自律的に把持を完了できるようになります。また、把持対象を指定すれば、モデルは指し示すものを何でも把持します。

6自由度把持姿勢推定ブランチ

インスタンスの点群を取得した後、6自由度把持姿勢推定ブランチは、点群内の各点に対してSE(3)把持構成パラメータを生成する。SE(3)把持構成gは、把持中心点gt、回転行列gR、把持幅gw、把持深さgd、把持品質評価スコアgsで構成され、各点は1つの最適な把持構成パラメータの組み合わせにのみ対応する。

トレーニング中、シーンポイントクラウド内の掴み可能なポイントの予測はバイナリ分類タスクと見なされ、クロスエントロピー損失関数を使用して掴み不可能なポイントの除外を監視し、掴み可能なポイントのみを保持します。各把持点の損失には回転損失が含まれる

、グリップ深度の損失

グリップ品質スコアの低下

、監督下でのトレーニング用。

しかし、非線形かつ不連続な回転表現（四元数や回転行列など）から 6 自由度の把持姿勢を直接学習することは非常に困難です。この問題を解決するために、gR は、2 つの直交単位ベクトルを使用して、従来の回転行列をグリッパーがオブジェクトに近づく方向に分解します。

グリッパーが閉じる方向

。

最適化のために、回転損失

3つの部分に分かれています：損失を相殺する

、コサイン損失

および関連する損失

これらはそれぞれ位置、角度予測、直交性を制限するために使用されます。グリップ幅の減少

グリップ品質スコアの低下

最適化は平均二乗誤差 (MSE) 損失を使用して実行されます。

6自由度の把持姿勢推定ブランチは、物体の幾何学的情報を事前に想定する必要はなく、3Dポイントクラウドの特徴から把持姿勢を直接予測し、損失関数をより洗練された設計にすることで、複雑なシーンでさまざまな形状やサイズの「物体を把持」することができます。

衝突検出ブランチ

最初の 2 つのブランチではインスタンスレベルの 6DOF の把持ポーズ予測が可能になりますが、生成された把持ポーズがシーン内で有効かつ実行可能であることを確認するために、各把持の潜在的な衝突を推測するための衝突検出ブランチも必要です。

衝突検出ブランチでは、学習可能な衝突検出ネットワークを使用して、生成された把持ポーズの起こり得る衝突を直接予測します。

トレーニングプロセスでは、衝突なしと衝突ありの分類をバイナリ分類問題として考え、サンプリングします。実際の衝突結果ラベルは、6自由度の把持姿勢推定ブランチの把持構成に基づいて、既存の衝突検出アルゴリズムによって生成されます。衝突損失関数

バイナリクロスエントロピー損失が監視に使用されます。

並列衝突検出ブランチにより、この方法の 6 自由度の把持姿勢推定ブランチは、無効な把持姿勢を除外するための後処理モジュールとして衝突検出に依存せず、「思考」遅延が大幅に削減されます。ロボットアームの把持動作は、2 つの単語のように見えます。スムーズです。

公開データセット Graspnet-1Billion で試してみたところ、偶然にも SOTA 結果が得られました。

GraspNet-1Billionデータセットの実験結果

上位にランクインするだけでは満足せず、Kinova Jaco2ロボットと市販のRGB-DカメラRealsenseを使用して実戦演習を行い、再びSOTAを達成しました。これまでの最高成績を収めたGraspNetと比較して、成功率と完了率が大幅に向上しました。

実際のロボットプラットフォームでの実験結果

始めるには、まず魚を捕まえる方法を学ばなければなりません。見習いになりたい場合は、魚を放す練習もしなければなりません。

適切に掴んだり放したりすることで、自律的な組み立てや構築など、より複雑なタスクを完了できます。

IROS 2021には、ByteDanceと清華大学が共同で開発した論文も含まれており、これにより、ロボットは人間の指示による図面なしで構造物を設計および構築できるようになります。

従来、ロボットがブロックを組み立てたり、並べたり、積み上げたりするときには、まずその作業の最終的な目標状態をロボットに伝える必要がありました。これは「図面」に従って作業するのと同じで、「図面」がなければ何もできませんでした。

出典: http://arxiv.org/pdf/2108.02439.pdf

ただ橋を架けるだけなのに、何がそんなに難しいのでしょうか？

人間が設計した設計図に頼らなければ、ロボットは恣意的に幅の広い崖と無秩序に配置された積み木の山に直面することになる。

どのような橋を架けるべきでしょうか?自分で考えてみてください。ビルディングブロックはいくつ使用すればよいですか?少ないほど良いです。この橋は崩壊するでしょうか？知るか？

ロボットは何も知りません。これは、正確な目標状態を持つ標準的な組み立てタスクよりもはるかに困難です。ロボットは、ビルディングブロックの操作シーケンスを考慮するだけでなく、物理的に安定したブリッジ構造を見つける必要があるためです。計画された検索スペースは非常に大きく、人間の頭皮が麻痺するほどです。

エンジニアは、橋の設計と建設のタスクを解決するために、概念的にはタスクと動作の計画 (TAMP) に似た 2 層のフレームワークを考案しました。ロボットは最初に、高レベルの設計図戦略を学習して、ビルディングブロックを目的の位置に何度も移動するための組み立て指示を生成します。次に、低レベルの操作戦略を実装して、高レベルの指示を実行します。

ここでの革新性は、高度なブループリント戦略が深層強化学習を使用して、物理的に意識した方法で修正された物理シミュレーターでニューラルブループリント戦略を学習することです。

高レベルの青写真戦略

高レベルのブループリント戦略から学ぶ必要があるのは、ピックアンドプレース命令を順番に生成し、最小限の数のビルディングブロックで 2 つの崖を結ぶ平らな橋を、橋が落ちることなく構築することです。

毎回、エージェントは現在のシーンを観察し、ビルディングブロックを取って橋を建設するように指示することができます。物理エンジンをしばらく飛ばすことで、エージェントは環境からのフィードバック（橋が崩壊したかどうか）を受け取り、連続したシーンを観察し続けて次の指示を与えることができます。

はぁ？これは伝説的なマルコフ決定過程 (MDP) の問題ではないでしょうか?間違いなく、あなたはそれを再び学んだのです。

この問題はタプル {S、A、Γ、R、T} として定義されます。ここで、S は状態空間、A はアクション空間、Γ は伝達関数、R は報酬関数、T は 1 ラウンドの視野を表します。

状態空間は、N 個のすべての構成要素と 2 つの崖の状態をエンコードします。

、

これは、3D 位置、オイラー角、直交速度、角速度、オブジェクトがブリックであるかどうかを示す 1D オブジェクトタイプインジケーター、および 1D 時間で構成されるベクトルです。

アクションスペースはより単純で、2 つの崖の中央にまたがる yz 2D 平面にビルディングブロックを配置するためのピックアンドプレース命令のみを生成し、1D ターゲットオブジェクト ID、1D ターゲット y 位置、1D ターゲット z 位置、および x 軸を中心とした 1D 回転角度をエンコードします。

伝達関数の構成が非常に複雑で、理解することが不可能です。どうすればよいでしょうか?

先ほどお話しした物理シミュレーターを覚えていますか?シミュレーターは、ブループリント戦略からの指示を受信すると、選択されたビルディングブロックを指示場所に直接転送し、環境が安定した状態に達するまで物理シミュレーションを継続し、結果の状態をブループリントエージェントに返します。

[[428734]]

したがって、エージェントは、記号ルールや既知の動的モデルに頼らなくても、長期間にわたって特定の指示の物理的な結果を学習し、物理的に安定した解決策を模索することを学習できます。

明教はないけど、ヒントはある。素晴らしいとしか言いようがない！

報酬関数は、「建設報酬」、「平坦性報酬」、「資材節約報酬」を組み合わせたものです。簡単に言えば、使用する資材が少なくなり、橋の床が平らになり、崩壊しなくなります。

上記のマルコフ決定プロセスの問題を解決するために、エンジニアは再び 3 つの「武器」、つまりトランスフォーマー、位相ポリシー勾配 (PPG)、および適応型カリキュラム学習を使用しました。

具体的には、ビルディングブロックや崖の特徴を抽出する際に、Transformerベースの特徴抽出器は

オブジェクトの帰納的バイアスとその関係性が統合され、ポリシーネットワークと価値ネットワークに送信され、PPG アルゴリズムを使用して戦略を効果的にトレーニングします。

位相ポリシー勾配 (PPG) アルゴリズムは、近似ポリシー最適化 (PPO) アルゴリズムとは異なり、トレーニング中に段階的に戦略に値情報を抽出して、表現学習をより適切に実行します。これは、ポリシーネットワークのトレーニングを安定させるために模倣学習目標を使用することと同等です。

PPG には、デュアルと共有の 2 つのアーキテクチャバリアントがあります。共有アーキテクチャでは、ポリシーネットワークとバリューネットワークは同じ特徴抽出器を共有する。

、続いてポリシーヘッダー

および値ヘッダー

多くの実践に基づいて、Shared の方がパフォーマンスが優れていることがわかりました。

アルゴリズムがどれだけ強力であっても、最初から長い橋を設計するのは難しすぎるでしょう。

適応型コース学習は、エージェントのトレーニングの進行状況に応じて谷の幅を調整しながら、モンスターをアップグレードして倒すための段階的なアプローチを提供します。ロボットが狭い谷間に橋を架ける成功率が徐々に高まるにつれて、シミュレーターは遠くの崖が現れる確率を徐々に高めていきます。

低レベルのモーション実行戦略

コマンドが準備されていれば、実行は難しくありません。

アセンブリ命令を生成するためのブループリント戦略がトレーニングされると、低レベルのモーション実行戦略はこれらの命令に従って、ビルディングブロックをターゲット状態に操作できるようになります。ブループリントポリシーはトレーニング中に物理法則の影響を受けるため、低レベルコントローラーに対して物理的に実行可能な指示を生成できます。

したがって、低レベルの戦略では、毎回単純なピックアンドプレースタスクを完了するだけで済みます。これは、ブロックの質量中心の把持ポーズを生成し、双方向 RRT アルゴリズムを使用して衝突のないパスを計画するという、従来の動作計画アルゴリズムを使用して解決できます。

この方法ではコマンド生成と動作実行が完全に分離されているため、学習したブループリント戦略をゼロショット方式で実際のロボットプラットフォームに直接適用できます。

実際のロボット実験

シミュレーターで学習したブループリント戦略と既成の動作計画方法は、実際のロボットシステムでどのように機能しますか?

橋梁設計と建設における実際の結果

崖間の距離をそれぞれ 10 cm、22 cm、32 cm に設定した 3 つのケースをテストしたところ、ロボットは学習した設計図戦略の指示に正常に従い、異なる数のブロックを使用してさまざまな方法で橋を架けることができました。

「年老いた運転手」があなたをドアまで案内し、「ロボット」と練習します

つかむ方法と放す方法を学習した後、ロボットはついにマスターになりました。

見習いになると、単純なスキルを学ぶだけではありません。腕を数回動かせるようになるだけでは明らかに不十分です。タスクが複雑すぎて脳が柔軟に考えることができなければ、うまくいきません。

これはとても簡単なようです。マスターの操作を数回真似すれば習得できます。

しかし、ロボットはただ叫ぶことしかできなかった。「真似するのは困難だ。空に登るのと同じくらい難しい。」

たとえば、ハンガーを掛けるには、ロボットはそれぞれが相互に依存している 4 つのサブタスクを完了する必要があります。

ハンガーの近く
ハンガーを掴んで
ハンガーを吊り棒に近づける
ポールにハンガーを掛ける

マスターはあなたをドアまで導くことしかできませんが、実践はあなた次第です。ロボットは、タスクプロセス全体を段階に分割する必要があることを理解する必要があり、1 つの段階が完了しないと次の段階に進むことができないことも「認識」する必要があります。

タスクを細分化することで、各サブタスクの複雑さが簡素化され、同時に、既存のサブタスクを再結合することで、新しい、より複雑なタスク要件を達成できるようになります。

長いシーケンス操作タスク

現在、主流のアプローチは、行動クローニング (BC) や逆強化学習 (IRL) を含む階層的模倣学習 (HIL) を活用することです。残念ながら、専門家の例が限られている場合、BC は累積エラーが発生しやすくなります。 IRL は、強化学習と環境探索を模倣プロセスに導入します。試行錯誤を通じて環境を継続的に探索することで、最終的には環境の変化に影響を受けない行動戦略を獲得します。

IRL はこのようなエラーを回避できますが、高レベル戦略と低レベル戦略間の時間的結合問題を考慮すると、オプションモデルに IRL を実装するのは簡単ではありません。

しかし、これは大きな問題ではありません。ByteDanceは、ICML 2021に含まれる論文で、新しい階層型IRLフレームワーク「Option-GAIL」を提案しました。

簡単に言えば、Option-GAIL は専門家から提供された行動指導情報を分析および活用して、その背後にある行動ロジックを学習し、ロボットが同様の環境やタスクで専門家と一致する行動結果を完全に再現できるようにします。

出典：http://arxiv.org/pdf/2106.05530.pdf

メソッドの実装

Option-GAIL アルゴリズムは、Generative Adversarial Imitation Learning (GAIL) に基づいています。その動作の全体的な類似性は、Generative Adversarial Network によって近似され、階層モデリングには MDP の代わりにオプションモデルが使用されます。

この論文では、ワンステップオプションモデルを採用しています。つまり、各ステップで次に実行するサブタスクを決定し、現在のサブタスクと観測された状態に基づいて実行するアクションを決定する必要があります。

青い矢印は意思決定プロセスを示し、赤い矢印は決定を示し、黒い矢印は環境の状態遷移を示します。

長期タスクを段階的に実行される複数のサブタスクとして表すことができるオプションモデルができたので、次のステップは、学習した戦略がデモンストレーションデータを複製できるようにこのモデルをトレーニングする方法を見つけることです。

これは GAIL によって解決された占有測定マッチング問題と非常に似ていますが、モデルの追加オプションはデモンストレーションデータでは観察できません。

したがって、この論文では、Option-GAIL のパラメータをトレーニングするための EM のようなアルゴリズムを提案し、それによってエンドツーエンドのトレーニングを実現します。

E (期待値)ステップでは、Viterbi アルゴリズムを使用してエキスパートデータのオプションを推測します。

M (最大化)ステップでは、最小最大ゲームを通じて内部演算子と外部演算子を交互に最適化し、特定のエキスパートオプションに最適な戦略を取得します。

実験結果

私たちは、一般的に使用されているロボットの移動および操作環境でアルゴリズムをテストします。テストタスクには以下が含まれます。

一足歩行ロボットと二足歩行ロボットの動きを制御します。ロボットは安定して歩くために、足踏みや跳ね返りなどのさまざまな動作モードを切り替える必要があります。
アリロボットを操作して、迷路の終わりに到達する前に障害物を押しのけます。
ロボットアームを制御して電子レンジのドアを閉めるには、ロボットアームを電子レンジに近づけ、ドアハンドルをつかみ、最後にドアの軸を中心に回転させて閉める必要があります。

Option-GAIL で導入された階層構造と、デモンストレーションデータを超えた環境との相互作用がエージェントの長期タスクの学習に役立つかどうかを検証するために、Option-GAIL と比較するために次の 4 つのベースラインメソッドが選択されました。

BC (純粋なアクションクローニング): デモンストレーションデータに対してのみ教師あり学習を実行し、環境と対話せず、階層構造情報を持ちません。
GAIL: デモンストレーションデータ外の環境と対話しますが、長期タスクの構造情報は活用しません。
H-BC (階層アクションクローニング): 階層構造をモデル化しますが、環境と対話しません。
GAIL-HRL: オプションは占有測定マッチングプロセスでは考慮されません。

結果は、Option-GAIL が非階層的手法よりも速く収束し、その最終的なパフォーマンスが環境と相互作用しない純粋な模倣学習アルゴリズムよりもデモンストレーションデータに近いことを示しています。

各種アルゴリズムのテスト環境とパフォーマンス曲線

一緒にロボットをいじってみませんか！

もちろん、ロボットに操作を教えるだけでなく、ByteDanceは2D/3D環境意味認識や人間とコンピュータのインタラクションなどの一連の技術も開発してきました。また、SOLOなどの一連のロボット認識モデルとコードをオープンソース化しており、GitHubで非常に人気があります。

しかし、技術研究から産業化までにはまだまだ長い道のりがあり、長期的な投資と探究が必要です。大企業が、ロボットが本当に私たちの生活に早く浸透するよう、引き続き努力してくれることを願っています。

<<: IDC: 欧州の人工知能への支出は2022年に220億ドルに達する

>>: マルチラベル分類とは何ですか?ここにいくつかの実用的な古典的な方法があります