ブドウを縫うことができる DIY ロボットアームを作りますか?
最近、有名な「ハードコア」アップマスターのZhihuijunが、ゼロから設計した小型で高精度な6軸ロボットアームダミーを披露しました。 動画が公開されるやいなや、B局ランキングのトップ10に突入。弾幕を開けると、画面は感嘆符でいっぱいになった。 「震える」「救う=できる」「彼は実際に私たちに教えようとしている」「理解していないが衝撃を受けた」などのコメントが寄せられる中、あるネットユーザーは「私たちもできるだけ早く『ダ・ヴィンチ』ロボットの中国版を作ることができればと思う」とコメントした。
ファーウェイだけでなく、すべての大手テクノロジー企業がロボット技術の研究に注力しています。先日開催された知能ロボットとシステムに関する国際会議IROS 2021では、針に糸を通すような柔軟な操作技術を持つものなど、おなじみのフィギュアを多数見かけました。 その中には、絶対に予想できない名前もあります! それはまだ腕のないロボットですか?サービスロボットは今やどこにでも存在しますが、そのほとんどは「こんにちは、何かお手伝いしましょうか?」と尋ねて、「この機能はまだサポートされていません」と答えることしかできません。テイクアウトの食べ物を配達する場合でも、配達員の後を人が追いかける必要があります。 なぜこれらのロボットは使いにくいのでしょうか? えーと。 。 。まず、柔軟に掴むことができるロボットアームが必要になるかもしれません。 イースターエッグです 把持はロボットアームの基本的なスキルです。把持タスクを正常に完了するには、物体を把持する際の正確な位置決め、適切な把持姿勢、物体間の閉塞による予測可能な衝突という 3 つのレベルを通過する必要があります。これらの 3 つのレベルを通過して初めて、ロボットがドアに入ったとみなされます。 この論文は、ByteDance AI Labと中国科学院自動化研究所がIROS 2021で発表したもので、ロボットの新しい把持操作方法を提案した。 出典: http://arxiv.org/pdf/2108.02425.pdf 著者らは、3D オブジェクトのセグメンテーション、衝突予測、およびオブジェクトの姿勢推定を組み合わせることで、ロボットが乱雑なシーンでオブジェクトレベルの衝突のない 6 自由度の把握姿勢を正確に推定し、SOTA を達成できるようにしました。 関節インスタンスのセグメンテーションと衝突検出に基づくロボットの把持姿勢推定の模式図 まず、PointNet++ をエンコーダーとして使用してポイント クラウドから 3D 特徴情報をキャプチャし、次にインスタンス セグメンテーション デコーダー、6 自由度把持姿勢デコーダー、衝突検出デコーダーの 3 つの並列デコーダーを使用します。 3 つのデコーダー ブランチは、それぞれポイント単位のインスタンスのセグメンテーション、把持構成、衝突予測を出力します。推論段階では、同じインスタンスに作用し、衝突しない把持姿勢がグループ化され、姿勢非最大抑制アルゴリズムを通じて最終的な把持姿勢に融合されます。 関節インスタンスのセグメンテーションと衝突検出に基づくロボットの把持姿勢推定アルゴリズムのブロック図 インスタンスセグメンテーションブランチ物を掴むには、まずそれがはっきりと見えなければなりません。はっきりと見えて初めて、正確に掴むことができます。インスタンス セグメンテーション ブランチでは、ポイント単位のインスタンス セマンティック セグメンテーション モジュールを採用して、複数のオブジェクトを区別します。具体的には、同じインスタンスに属するポイントは類似した特徴を持つ必要がありますが、異なるインスタンスのポイントは異なる特徴を持つ必要があります。 トレーニング プロセス中、各ポイントのセマンティック ラベルとインスタンス ラベルが既知であり、バイナリ クロス エントロピーを使用して分岐出力のセマンティック損失が計算されます。 背景と前景を分類することができます。 インスタンスの損失 判別損失関数を通じて 計算方法: 分散損失 同じインスタンスに属するポイントは、インスタンスの中心にできるだけ近づけることができますが、距離の損失は 異なるインスタンスの中心間の距離を増やすために、正規化損失 アクティベーションを制限したままにするには、すべてのインスタンスを原点に向けて制約します。 インスタンスセグメンテーションの識別損失関数の図解 インスタンスセグメンテーション全体の損失 それは意味損失とインスタンス損失の合計です。 このように、インスタンスセグメンテーションブランチは、インスタンスレベルの把持を学習するためのアルゴリズムにインスタンス情報を提供することができ、モデルが自律的に把持を完了できるようになります。また、把持対象を指定すれば、モデルは指し示すものを何でも把持します。 6自由度把持姿勢推定ブランチインスタンスの点群を取得した後、6自由度把持姿勢推定ブランチは、点群内の各点に対してSE(3)把持構成パラメータを生成する。SE(3)把持構成gは、把持中心点gt、回転行列gR、把持幅gw、把持深さgd、把持品質評価スコアgsで構成され、各点は1つの最適な把持構成パラメータの組み合わせにのみ対応する。 トレーニング中、シーン ポイント クラウド内の掴み可能なポイントの予測はバイナリ分類タスクと見なされ、クロス エントロピー損失関数を使用して掴み不可能なポイントの除外を監視し、掴み可能なポイントのみを保持します。各把持点の損失には回転損失が含まれる 、グリップ深度の損失 グリップ品質スコアの低下 、監督下でのトレーニング用。 しかし、非線形かつ不連続な回転表現(四元数や回転行列など)から 6 自由度の把持姿勢を直接学習することは非常に困難です。この問題を解決するために、gR は、2 つの直交単位ベクトルを使用して、従来の回転行列をグリッパーがオブジェクトに近づく方向に分解します。 グリッパーが閉じる方向 。 最適化のために、回転損失 3つの部分に分かれています:損失を相殺する 、コサイン損失 および関連する損失 これらはそれぞれ位置、角度予測、直交性を制限するために使用されます。グリップ幅の減少 グリップ品質スコアの低下 最適化は平均二乗誤差 (MSE) 損失を使用して実行されます。 6自由度の把持姿勢推定ブランチは、物体の幾何学的情報を事前に想定する必要はなく、3Dポイントクラウドの特徴から把持姿勢を直接予測し、損失関数をより洗練された設計にすることで、複雑なシーンでさまざまな形状やサイズの「物体を把持」することができます。 衝突検出ブランチ最初の 2 つのブランチではインスタンス レベルの 6DOF の把持ポーズ予測が可能になりますが、生成された把持ポーズがシーン内で有効かつ実行可能であることを確認するために、各把持の潜在的な衝突を推測するための衝突検出ブランチも必要です。 衝突検出ブランチでは、学習可能な衝突検出ネットワークを使用して、生成された把持ポーズの起こり得る衝突を直接予測します。 トレーニングプロセスでは、衝突なしと衝突ありの分類をバイナリ分類問題として考え、サンプリングします。実際の衝突結果ラベルは、6自由度の把持姿勢推定ブランチの把持構成に基づいて、既存の衝突検出アルゴリズムによって生成されます。衝突損失関数 バイナリクロスエントロピー損失が監視に使用されます。 並列衝突検出ブランチにより、この方法の 6 自由度の把持姿勢推定ブランチは、無効な把持姿勢を除外するための後処理モジュールとして衝突検出に依存せず、「思考」遅延が大幅に削減されます。ロボット アームの把持動作は、2 つの単語のように見えます。スムーズです。 公開データセット Graspnet-1Billion で試してみたところ、偶然にも SOTA 結果が得られました。 GraspNet-1Billionデータセットの実験結果 上位にランクインするだけでは満足せず、Kinova Jaco2ロボットと市販のRGB-DカメラRealsenseを使用して実戦演習を行い、再びSOTAを達成しました。これまでの最高成績を収めたGraspNetと比較して、成功率と完了率が大幅に向上しました。 実際のロボットプラットフォームでの実験結果 始めるには、まず魚を捕まえる方法を学ばなければなりません。見習いになりたい場合は、魚を放す練習もしなければなりません。 適切に掴んだり放したりすることで、自律的な組み立てや構築など、より複雑なタスクを完了できます。 IROS 2021には、ByteDanceと清華大学が共同で開発した論文も含まれており、これにより、ロボットは人間の指示による図面なしで構造物を設計および構築できるようになります。 従来、ロボットがブロックを組み立てたり、並べたり、積み上げたりするときには、まずその作業の最終的な目標状態をロボットに伝える必要がありました。これは「図面」に従って作業するのと同じで、「図面」がなければ何もできませんでした。 出典: http://arxiv.org/pdf/2108.02439.pdf ただ橋を架けるだけなのに、何がそんなに難しいのでしょうか?人間が設計した設計図に頼らなければ、ロボットは恣意的に幅の広い崖と無秩序に配置された積み木の山に直面することになる。 どのような橋を架けるべきでしょうか?自分で考えてみてください。ビルディングブロックはいくつ使用すればよいですか?少ないほど良いです。この橋は崩壊するでしょうか?知るか? ロボットは何も知りません。これは、正確な目標状態を持つ標準的な組み立てタスクよりもはるかに困難です。ロボットは、ビルディングブロックの操作シーケンスを考慮するだけでなく、物理的に安定したブリッジ構造を見つける必要があるためです。計画された検索スペースは非常に大きく、人間の頭皮が麻痺するほどです。 エンジニアは、橋の設計と建設のタスクを解決するために、概念的にはタスクと動作の計画 (TAMP) に似た 2 層のフレームワークを考案しました。ロボットは最初に、高レベルの設計図戦略を学習して、ビルディング ブロックを目的の位置に何度も移動するための組み立て指示を生成します。次に、低レベルの操作戦略を実装して、高レベルの指示を実行します。 ここでの革新性は、高度なブループリント戦略が深層強化学習を使用して、物理的に意識した方法で修正された物理シミュレーターでニューラル ブループリント戦略を学習することです。 高レベルの青写真戦略高レベルのブループリント戦略から学ぶ必要があるのは、ピックアンドプレース命令を順番に生成し、最小限の数のビルディングブロックで 2 つの崖を結ぶ平らな橋を、橋が落ちることなく構築することです。 毎回、エージェントは現在のシーンを観察し、ビルディングブロックを取って橋を建設するように指示することができます。物理エンジンをしばらく飛ばすことで、エージェントは環境からのフィードバック(橋が崩壊したかどうか)を受け取り、連続したシーンを観察し続けて次の指示を与えることができます。 はぁ?これは伝説的なマルコフ決定過程 (MDP) の問題ではないでしょうか?間違いなく、あなたはそれを再び学んだのです。 この問題はタプル {S、A、Γ、R、T} として定義されます。ここで、S は状態空間、A はアクション空間、Γ は伝達関数、R は報酬関数、T は 1 ラウンドの視野を表します。 状態空間は、N 個のすべての構成要素と 2 つの崖の状態をエンコードします。 、 これは、3D 位置、オイラー角、直交速度、角速度、オブジェクトがブリックであるかどうかを示す 1D オブジェクト タイプ インジケーター、および 1D 時間で構成されるベクトルです。 アクション スペースはより単純で、2 つの崖の中央にまたがる yz 2D 平面にビルディング ブロックを配置するためのピック アンド プレース命令のみを生成し、1D ターゲット オブジェクト ID、1D ターゲット y 位置、1D ターゲット z 位置、および x 軸を中心とした 1D 回転角度をエンコードします。 伝達関数の構成が非常に複雑で、理解することが不可能です。どうすればよいでしょうか?先ほどお話しした物理シミュレーターを覚えていますか?シミュレーターは、ブループリント戦略からの指示を受信すると、選択されたビルディング ブロックを指示場所に直接転送し、環境が安定した状態に達するまで物理シミュレーションを継続し、結果の状態をブループリント エージェントに返します。
したがって、エージェントは、記号ルールや既知の動的モデルに頼らなくても、長期間にわたって特定の指示の物理的な結果を学習し、物理的に安定した解決策を模索することを学習できます。 明教はないけど、ヒントはある。素晴らしいとしか言いようがない!報酬関数は、「建設報酬」、「平坦性報酬」、「資材節約報酬」を組み合わせたものです。簡単に言えば、使用する資材が少なくなり、橋の床が平らになり、崩壊しなくなります。 上記のマルコフ決定プロセスの問題を解決するために、エンジニアは再び 3 つの「武器」、つまりトランスフォーマー、位相ポリシー勾配 (PPG)、および適応型カリキュラム学習を使用しました。 具体的には、ビルディングブロックや崖の特徴を抽出する際に、Transformerベースの特徴抽出器は オブジェクトの帰納的バイアスとその関係性が統合され、ポリシー ネットワークと価値ネットワークに送信され、PPG アルゴリズムを使用して戦略を効果的にトレーニングします。 位相ポリシー勾配 (PPG) アルゴリズムは、近似ポリシー最適化 (PPO) アルゴリズムとは異なり、トレーニング中に段階的に戦略に値情報を抽出して、表現学習をより適切に実行します。これは、ポリシー ネットワークのトレーニングを安定させるために模倣学習目標を使用することと同等です。 PPG には、デュアルと共有の 2 つのアーキテクチャ バリアントがあります。共有アーキテクチャでは、ポリシーネットワークとバリューネットワークは同じ特徴抽出器を共有する。 、続いてポリシーヘッダー および値ヘッダー 多くの実践に基づいて、Shared の方がパフォーマンスが優れていることがわかりました。 アルゴリズムがどれだけ強力であっても、最初から長い橋を設計するのは難しすぎるでしょう。 適応型コース学習は、エージェントのトレーニングの進行状況に応じて谷の幅を調整しながら、モンスターをアップグレードして倒すための段階的なアプローチを提供します。ロボットが狭い谷間に橋を架ける成功率が徐々に高まるにつれて、シミュレーターは遠くの崖が現れる確率を徐々に高めていきます。 低レベルのモーション実行戦略コマンドが準備されていれば、実行は難しくありません。 アセンブリ命令を生成するためのブループリント戦略がトレーニングされると、低レベルのモーション実行戦略はこれらの命令に従って、ビルディング ブロックをターゲット状態に操作できるようになります。ブループリント ポリシーはトレーニング中に物理法則の影響を受けるため、低レベル コントローラーに対して物理的に実行可能な指示を生成できます。 したがって、低レベルの戦略では、毎回単純なピックアンドプレース タスクを完了するだけで済みます。これは、ブロックの質量中心の把持ポーズを生成し、双方向 RRT アルゴリズムを使用して衝突のないパスを計画するという、従来の動作計画アルゴリズムを使用して解決できます。 この方法ではコマンド生成と動作実行が完全に分離されているため、学習したブループリント戦略をゼロショット方式で実際のロボット プラットフォームに直接適用できます。 実際のロボット実験シミュレーターで学習したブループリント戦略と既成の動作計画方法は、実際のロボット システムでどのように機能しますか? 橋梁設計と建設における実際の結果 崖間の距離をそれぞれ 10 cm、22 cm、32 cm に設定した 3 つのケースをテストしたところ、ロボットは学習した設計図戦略の指示に正常に従い、異なる数のブロックを使用してさまざまな方法で橋を架けることができました。 「年老いた運転手」があなたをドアまで案内し、「ロボット」と練習しますつかむ方法と放す方法を学習した後、ロボットはついにマスターになりました。 見習いになると、単純なスキルを学ぶだけではありません。腕を数回動かせるようになるだけでは明らかに不十分です。タスクが複雑すぎて脳が柔軟に考えることができなければ、うまくいきません。 これはとても簡単なようです。マスターの操作を数回真似すれば習得できます。 しかし、ロボットはただ叫ぶことしかできなかった。「真似するのは困難だ。空に登るのと同じくらい難しい。」 たとえば、ハンガーを掛けるには、ロボットはそれぞれが相互に依存している 4 つのサブタスクを完了する必要があります。
マスターはあなたをドアまで導くことしかできませんが、実践はあなた次第です。ロボットは、タスクプロセス全体を段階に分割する必要があることを理解する必要があり、1 つの段階が完了しないと次の段階に進むことができないことも「認識」する必要があります。 タスクを細分化することで、各サブタスクの複雑さが簡素化され、同時に、既存のサブタスクを再結合することで、新しい、より複雑なタスク要件を達成できるようになります。 長いシーケンス操作タスク現在、主流のアプローチは、行動クローニング (BC) や逆強化学習 (IRL) を含む階層的模倣学習 (HIL) を活用することです。残念ながら、専門家の例が限られている場合、BC は累積エラーが発生しやすくなります。 IRL は、強化学習と環境探索を模倣プロセスに導入します。試行錯誤を通じて環境を継続的に探索することで、最終的には環境の変化に影響を受けない行動戦略を獲得します。 IRL はこのようなエラーを回避できますが、高レベル戦略と低レベル戦略間の時間的結合問題を考慮すると、オプション モデルに IRL を実装するのは簡単ではありません。 しかし、これは大きな問題ではありません。ByteDanceは、ICML 2021に含まれる論文で、新しい階層型IRLフレームワーク「Option-GAIL」を提案しました。 簡単に言えば、Option-GAIL は専門家から提供された行動指導情報を分析および活用して、その背後にある行動ロジックを学習し、ロボットが同様の環境やタスクで専門家と一致する行動結果を完全に再現できるようにします。 出典:http://arxiv.org/pdf/2106.05530.pdf メソッドの実装Option-GAIL アルゴリズムは、Generative Adversarial Imitation Learning (GAIL) に基づいています。その動作の全体的な類似性は、Generative Adversarial Network によって近似され、階層モデリングには MDP の代わりにオプション モデルが使用されます。 この論文では、ワンステップ オプション モデルを採用しています。つまり、各ステップで次に実行するサブタスクを決定し、現在のサブタスクと観測された状態に基づいて実行するアクションを決定する必要があります。 青い矢印は意思決定プロセスを示し、赤い矢印は決定を示し、黒い矢印は環境の状態遷移を示します。 長期タスクを段階的に実行される複数のサブタスクとして表すことができるオプション モデルができたので、次のステップは、学習した戦略がデモンストレーション データを複製できるようにこのモデルをトレーニングする方法を見つけることです。 これは GAIL によって解決された占有測定マッチング問題と非常に似ていますが、モデルの追加オプションはデモンストレーション データでは観察できません。 したがって、この論文では、Option-GAIL のパラメータをトレーニングするための EM のようなアルゴリズムを提案し、それによってエンドツーエンドのトレーニングを実現します。 E (期待値)ステップでは、Viterbi アルゴリズムを使用してエキスパート データのオプションを推測します。 M (最大化)ステップでは、最小最大ゲームを通じて内部演算子と外部演算子を交互に最適化し、特定のエキスパート オプションに最適な戦略を取得します。 実験結果私たちは、一般的に使用されているロボットの移動および操作環境でアルゴリズムをテストします。テストタスクには以下が含まれます。
Option-GAIL で導入された階層構造と、デモンストレーション データを超えた環境との相互作用がエージェントの長期タスクの学習に役立つかどうかを検証するために、Option-GAIL と比較するために次の 4 つのベースライン メソッドが選択されました。
結果は、Option-GAIL が非階層的手法よりも速く収束し、その最終的なパフォーマンスが環境と相互作用しない純粋な模倣学習アルゴリズムよりもデモンストレーション データに近いことを示しています。 各種アルゴリズムのテスト環境とパフォーマンス曲線 一緒にロボットをいじってみませんか!もちろん、ロボットに操作を教えるだけでなく、ByteDanceは2D/3D環境意味認識や人間とコンピュータのインタラクションなどの一連の技術も開発してきました。また、SOLOなどの一連のロボット認識モデルとコードをオープンソース化しており、GitHubで非常に人気があります。 しかし、技術研究から産業化までにはまだまだ長い道のりがあり、長期的な投資と探究が必要です。大企業が、ロボットが本当に私たちの生活に早く浸透するよう、引き続き努力してくれることを願っています。 |
<<: IDC: 欧州の人工知能への支出は2022年に220億ドルに達する
>>: マルチラベル分類とは何ですか?ここにいくつかの実用的な古典的な方法があります
評価基準の違いにより、統一基準に基づく既存の小規模学習法の公平な比較が大きく妨げられており、この分野...
GoogleのGeminiは今年初めのAI製品戦争ではあまり注目されなかったが、世界最先端のAI組織...
最近、Waabi AI、トロント大学、ウォータールー大学、MITの研究者らが、NeurIPS 202...
翻訳者 | 張毅校正 | 梁哲、孫淑娟自動車技術協会(SAE)が自動運転車を分類しているのと同じよう...
[[244225]]人工知能は現実的な科学技術の力であり、需要、デジタル経済、高品質の開発に焦点を当...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
[[348861]]人工知能の時代が本格的に到来しました。私たちの生活のいたるところに見られる人工...
[[251667]]バディ割り当てアルゴリズムこれはページ フレームの連続セクションであると仮定し...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
IoT がどのように発展していくかを予測することは困難ですが、一部の IoT テクノロジーは数年以内...
[[417461]]人間の顔を使って面白いビデオを生成するにはどうすればいいでしょうか? [[417...
心臓ペースメーカーの正確なメカニズムはわかっていませんが、この物理的プロセスを再現する「心臓」を私た...
最近、北京同仁病院の警報システムが作動し、職員は北京天壇病院で活動していたチケット転売業者が北京同仁...
今日、テクノロジーの巨人とその AI ベースのデジタル プラットフォームおよびソリューションは、世界...