CMU 中国チームは、スタンフォード大学のエビ揚げロボットに勝る高エネルギーロボットを開発するために 18 万ドルを費やしました。完全自律操作、1時間で12種類のドアを開ける方法を学習

CMU 中国チームは、スタンフォード大学のエビ揚げロボットに勝る高エネルギーロボットを開発するために 18 万ドルを費やしました。完全自律操作、1時間で12種類のドアを開ける方法を学習

スタンフォード大学のエビ揚げロボットよりも強力なロボットが登場!

最近、CMU の研究者たちは、オープンワールドで関節のある物体を適応的に動かし、操作できるロボットをわずか 25,000 ドルで開発しました。

論文アドレス: https://arxiv.org/abs/2401.14403

驚くべきは、完全に自律的に操作を完了することです。

見て下さい、このロボットはあらゆる種類のドアを自分で開けることができます。

ハンドルを押して開けるドアかどうか。

開ける必要のあるドア。

透明なスプリングドア。

薄暗い環境でもドアが開きます。

食器棚も自動で開けられます。

引き出しを開けてください。

自分で冷蔵庫を開けてください。

さらに、そのスキルはトレーニングを超えたシナリオにも一般化されます。

結果によると、ロボットは1時間以内に、これまで見たことのない20のドアを開けることを学習し、成功率は行動クローニングの事前トレーニングによる50%から、オンライン適応による95%に急上昇した。

これまで見たことのないドアに直面していたにもかかわらず、この素晴らしい小さなロボットはそれを簡単に開けました!

NVIDIA のシニア サイエンティストである Jim Fan 氏は、次のように述べています。

スタンフォード大学の ALOHA は素晴らしいですが、その動作の多くは人間による共同制御を必要とします。一方、このロボットは一連の操作を完全に自律的に完了します。

その背後にある中心的な考え方は、学習の報酬関数として CLIP (または任意の視覚言語モデル) を使用して、テスト時に RL を実行することです。

このようにして、ChatGPT が RLHF で事前トレーニングされているのと同様に、ロボットは人間が (リモート コントロール経由で) 収集した軌跡で事前トレーニングされ、その後新しいシナリオで RLHF を受けることで、トレーニングしたスキルを超えたスキルを習得できます。

この作品は発表されるとすぐに同業者から評価されました。

「おめでとうございます!これはロボットアームを研究室の外に持ち出すための素晴らしい装置です。」

「これはとてもエキサイティングです。ロボットがオンラインでスキルを学習する未来は大きいです!」

「これほど安価なカスタムハードウェアでは、モバイル操作が困難になります。」

「ロボットに手を出すな。ロボットはドアを開けることを学習している。」

このロボットがどのようにして前例のないドア開け作業を達成するのか、詳しく見てみましょう。

ロボットの適応学習、パフォーマンスが90%に向上

現在のロボットの移動操作のほとんどは、ピックアップ、移動、配置のタスクに限定されています。

「オープンワールド」で目に見えない物体を処理できるロボット システムの開発と導入は、さまざまな理由から非常に困難です。

一般的なモバイル操作を学習するという課題に対処するために、研究者たちは、オープンワールド内のドア、引き出し、冷蔵庫、キャビネットなどの関節のある物体の操作に関わる限られたクラスの問題に焦点を当てました。

ドアや引き出し、冷蔵庫を開けることは、子どもにとっても日常生活では簡単な作業ですが、ロボットにとっては大きな課題です。

これに対応して、CMU の研究者は上記の問題を解決するための「フルスタック」アプローチを提案しました。

オープンワールド内のオブジェクトを効果的に操作するために、この研究では、ロボットが学習のためにインタラクションからオンラインサンプルを継続的に収集する「適応学習」フレームワークを採用しました。

このように、ロボットは、異なる関節モードや異なる物理的パラメータ(重量や摩擦の違いによる)を持つ新しいドアに遭遇した場合でも、対話型学習を通じて適応することができます。

効率的な学習を実現するために、研究者たちは構造化された階層的な行動空間を使用しました。固定された高レベルのアクション ポリシーと学習可能な低レベルの制御パラメータを使用します。

このアクション空間を使用して、さまざまな遠隔操作デモンストレーションのデータセットに対してポリシー (BC) を初期化しました。これにより、探索のための強力な事前情報が提供され、安全でないアクションを実行する可能性が低減されます。

費用はたったの25,000ドル

以前、スタンフォードチームは Mobile ALOHA の構築に総費用として 30,000 ドルを費やしました。

今回、CMUチームは汎用ロボットを2万5000ドル(約18万元)という安価なコストで構築することができた。

下の図 3 に示すように、ロボット ハードウェア システムのさまざまなコンポーネントが表示されます。

研究者たちは、安定性、全方向の速度制御、高い積載量により AgileX の Ranger Mini 2 シャーシが最適な選択肢であると判断してこれを選択しました。

このようなシステムが効果的であるためには、現実世界のサンプルを収集するのはコストがかかるため、効率的に学習できることが重要です。

使用した移動ロボットアームを図に示します。

このアームはxArmを使用して動作し、ペイロードは5kgで、低コストであり、研究室で広く使用できます。

CMU ロボット システムは、Jetson コンピュータを使用して、センサー、ベース、アーム、および LLM をホストするサーバー間のリアルタイム通信をサポートします。

実験データの収集には、フレームに取り付けられた D435 Intel Realsense カメラを使用して RGBD 画像を収集し、T265 Intel Realsense カメラを使用して、RL 実験を実行するときにロボットをリセットするために重要な視覚オドメトリを提供しました。

さらに、ロボットグリッパーには、安全で安定したグリップを確保するために、3Dプリントされたグリッパーと滑り止めテープが装備されています。

研究者らは、作成されたモジュール式プラットフォームの主要な側面を他のモバイル操作プラットフォームと比較しました。

CMU のロボット システムは、アームの耐荷重、動きの自由度、全方向駆動ベース、コストの面で明らかな利点があることがわかります。

ロボットのコスト

ロボットアームのコスト

オリジナルの実装

オリジナルアクションスペースをパラメータ化する実装の詳細は次のとおりです。

クロール

このアクションを実現するために、研究者は、実感覚カメラから取得したシーンの RGBD 画像に対して、既製の視覚モデルを使用して、テキスト プロンプトのみを与えられたドアとハンドルのマスクを取得しました。

さらに、ドアは平面なので、対応するマスクと深度画像を使用してドアの表面法線を推定できます。

これにより、ベースがドアに近づき、垂直になり、グラブハンドルの向きの角度が設定されます。

カメラのキャリブレーションを使用して、ハンドルの 2D マスクの中心を、マーカーの把持位置である 3D 座標に投影します。

プリミティブ グラブの低レベル制御パラメータ。グラブする場所のオフセットを示します。

これは、ハンドルの種類に応じてロボットがわずかに異なる位置に到達する必要がある可能性があり、これを低レベルの連続値パラメータを通じて学習できるため便利です。

制約のあるモバイル操作

ロボットアームのエンドエフェクタとロボットベースについては、研究者らは速度制御を使用しました。

6dof アームと SE2 平面での 3dof モーションを使用して、9 次元ベクトルを作成しました。

最初の 6 つの次元はアームの制御に対応し、最後の 3 つの次元はベースに対応します。

研究者たちは元のデータを使用して、空間に次の制約を課しました。

ロボットを制御する場合、ポリシーは、実行される生データに対応するインデックスと、動作の対応する低レベル パラメータを出力します。

低レベルの制御コマンドは -1 から 1 までの範囲の値を連続的に持ち、一定期間実行されます。

パラメータの符号によって速度制御の方向が決定されます。ロック解除と回転の場合は時計回りまたは反時計回り、オブジェクトを開く場合は前進または後進になります。

事前トレーニングデータセット

このプロジェクトで検討されている関節オブジェクトは、ベース部分、フレーム部分、ハンドル部分の 3 つの剛性部分で構成されています。

これには、ドア、キャビネット、引き出し、冷蔵庫などのオブジェクトが含まれます。

ベースとフレームは、スイベルジョイント(キャビネットなど)または角柱ジョイント(引き出しなど)によって接続されます。フレームは、スイベルジョイントまたは固定ジョイントによってハンドルに接続されます。

そのため、研究者たちは、ハンドルの種類と関節機構に応じて、関節のある物体を主に 4 つの種類に分類しました。

ハンドルジョイントには通常、レバー(タイプ A)とノブ(タイプ B)が含まれます。

ハンドルに蝶番が付いていない場合には、スイベルジョイントを使用してメインフレームを蝶番を中心に回転させる(Cタイプ)、または柱ジョイント(引き出しなど)に沿って前後にスライドさせる(Dタイプ)ことができます。

これら 4 つのカテゴリは、網羅的ではありませんが、ロボット システムが遭遇する可能性のある日常的な多関節オブジェクトの広範囲をカバーします。

しかし、ロボットが見たことのない新しい関節物体は常に存在します。これらの新しい関節物体を操作するための一般化の利点を提供するために、研究者はまずオフラインのデモンストレーション データセットを収集しました。

BC トレーニング データセットには、各カテゴリに 3 つのオブジェクトがあり、研究者は各オブジェクトに対して 10 のデモンストレーションを収集し、合計 120 の軌跡を生成しました。

さらに、研究者らは一般化実験のために各カテゴリーごとに 2 人の被験者を確保しました。

トレーニング オブジェクトとテスト オブジェクトは、視覚的な外観 (テクスチャ、色など)、物理的なダイナミクス (スプリングの負荷など)、および動作 (ハンドル ジョイントが時計回りまたは反時計回りになるなど) が大きく異なります。

図 4 には、トレーニング セットとテスト セットで使用されるすべてのオブジェクトの視覚化が含まれています。また、図 5 に示すように、それらがセットのどの部分からのものであるかも表示されています。

自律的で安全なオンライン適応

この研究において、研究者が直面する最大の課題は、BC トレーニング セットに含まれていない新しいオブジェクトをどのように使用して操作を実行するかということです。

この問題に対処するために、彼らは完全に自律的な強化学習 (RL) を使用してオンライン適応が可能なシステムを開発しました。

セキュリティ意識の調査

特に関節制約内でオブジェクトと対話する場合、ロボットが実行する探索アクションがハードウェアにとって安全であることを確認することが重要です。

理想的には、ロボットは制御された力を使用してドアを開けるなどの動的なタスクを解決できる必要があります。

しかし、研究者が使用した低コストのアーム「xarm-6」は、正確な力の感知をサポートしていません。

そのため、研究者らはシステムを展開するために、オンラインサンプリング中にジョイント電流を読み取ることに基づく安全メカニズムを使用しました。

ロボットが関節電流が閾値に達する動作をサンプリングした場合、イベントは終了し、ロボットはアームが自身を損傷するのを防ぐためにリセットされ、そのような動作を抑制するために負の報酬が提供されます。

報酬仕様

実験では、人間のオペレーターがロボットに報酬を与えました。

ロボットがドアを開けることに成功した場合は +1 の報酬が与えられ、失敗した場合は 0 の報酬が与えられ、安全違反があった場合は -1 の報酬が与えられます。

この報酬メカニズムは、システムが学習するのに非常に少ないサンプルしか必要としないため実現可能です。

しかし、研究者たちは自律学習によって、人間が介入するというボトルネックを解消したいと考えています。

この文脈において、彼らは報酬の源として大規模な視覚言語モデルの使用を調査しました。

具体的には、CLIP を使用して、2 つのテキスト プロンプトと、ロボットがそれを実行した後に観察された画像間の類似度スコアを計算しました。

研究者が使用した 2 つの手がかりは「ドアが閉まっている」と「ドアが開いている」であり、最終的に観察された画像と各手がかりの間の類似度スコアを計算します。

画像がドアが開いていることを示す合図に近い場合は +1 の報酬が割り当てられ、そうでない場合は 0 の報酬が割り当てられます。安全保護が発動した場合、報酬は -1 になります。

リセットメカニズム

このプロセス中、ロボットはベースに取り付けられた T265 追跡カメラを利用して視覚オドメトリを使用し、初期位置に戻ることができます。

各アクションの終了時に、ロボットはグリッパーを解放し、元の SE2 ベース位置に戻り、報酬計算のために If の画像を撮影します。

次に研究者らは、戦略がより堅牢になるように、SE2 塩基の位置をランダムに変化させます。

さらに、報酬が 1 の場合、ロボットにはドアが開いたときにドアを閉じるスクリプト ルーチンが設定されます。

実験結果

研究者らは、CMU キャンパス内の 4 つの異なる建物で、新しいアーキテクチャによって実現されるロボット システムに関する広範な研究を実施しました (訓練対象 12 名とテスト対象 8 名)。

具体的には、以下の質問に回答しました。

1) システムは、さまざまなオブジェクト カテゴリ間でオンライン適応を行うことにより、目に見えないオブジェクトに対するパフォーマンスを向上できますか?

2) 提供されたデモで模倣学習のみを使用する場合と比べてどうでしょうか?

3) 既製の視覚言語モデルを使用して報酬を自動的に提供できますか?

4) ハードウェア設計は他のプラットフォームと比べてどうですか? (ハードウェアを比較しました)

オンライン適応


a. 異なるオブジェクトカテゴリの評価

研究者らは、4 つのカテゴリーの固定された関節物体について最先端の方法を評価しました。

下の図 6 に示すように、行動クローニングの初期戦略から始まり、オンラインインタラクションを使用して 5 回繰り返して微調整を行った後の継続的な適応パフォーマンスが示されています。

各改善反復は 5 つのポリシー ロールアウトで構成され、その後、式 5 の損失を使用してモデルが更新されます。

最新の方法では、すべてのオブジェクトの平均成功率が 50% から 95% に向上していることがわかります。したがって、オンラインインタラクションサンプルを通じた継続的な学習は、初期の行動クローニング戦略の限られた一般化能力を克服することができます。

適応学習プロセスは、高い報酬を獲得する軌跡から学習し、より高い報酬をより頻繁に獲得するように動作を変更することができます。

BC ポリシーのパフォーマンスが、平均成功率が約 70% のクラス C および D オブジェクトなど、十分に優れている場合、RL はポリシーを 100% のパフォーマンスにまで完成させることができます。

さらに、強化学習は、初期のポリシーがタスクをほとんど実行できない場合でも、オブジェクトを操作する方法を学習できます。これはタイプ A の実験からわかります。この実験では、模倣学習戦略の成功率がわずか 10% と非常に低く、2 つのドアのうち 1 つをまったく開けることができません。

継続的な練習により、RL の平均成功率は 90% に達します。

これは、RL が模倣データセット内で分布外にある可能性のあるアクションを探索して学習できることを示しており、ロボットが新しい、目に見えない関節オブジェクトの操作方法を学習できるようになります。

b. アクションリプレイベースライン

デモ データセットを使用して新しいオブジェクトに対してタスクを実行する非常に簡単な方法がもう 1 つあります。

チームは、動作の複製が特に難しい 2 つのオブジェクト (クラス A とクラス B からそれぞれ 1 つずつ (レバーを押す動作とノブのハンドル)) でこのベースラインを実行しました。

ここでは、オープンループ アプローチとクローズドループ アプローチの両方を使用してこのベースラインを評価します。

前者の場合、最初に観測された画像のみが比較に使用され、取得されたアクションシーケンス全体が実行されますが、後者の場合、各ステップの後に最も近い近傍が検索され、対応するアクションが実行されます。

表 3 からわかるように、このアプローチは非常に非効率的であり、実験におけるトレーニング対象者とテスト対象者間の分布ギャップがさらに強調されています。

c. VLMによる自律的な報酬

CMU チームは、人間のオペレーターに代わって、自動化されたプログラムを通じて報酬を提供できるかどうかについても研究しています。

アクションリプレイベースラインと同様に、研究者はこれを 2 つのテストドアで評価し、それぞれハンドルとノブのカテゴリから評価しました。

表 2 から、VLM 報酬を使用したオンライン適応のパフォーマンスは、人間が注釈を付けたグラウンド トゥルース報酬を使用した場合と似ており、平均で 80% ですが、人間が注釈を付けた報酬を使用した場合は 90% です。

さらに、研究者は図 7 で各トレーニング反復後のパフォーマンスも報告しています。学習ループでは人間のオペレーターは必要なくなり、自律的なトレーニングと改善の可能性が広がります。

さまざまなドアを正常に操作するには、ロボットがドアを開けて通過できるだけの強度が必要です。

研究者らは、別の一般的なモバイル操作システムである Stretch RE1 (Hello Robot) と実験的に比較しました。

彼らは、ロボットが人間の専門家によって遠隔操作され、レバードアとノブドアという異なるカテゴリーの2つのドアを開けられるかどうかをテストした。各オブジェクトに対して 5 回の試行が実行されました。

表 IV に示すように、これらの試験の結果から、Stretch RE1 の重大な限界が明らかになりました。つまり、CMU が提案した AI システムはすべての試験で成功したのに対し、その積載量は、専門家が操作した場合でも実際のドアを開けるのに十分ではありません。

要約すると、CMU チームはこの論文で、ドア、冷蔵庫、キャビネット、引き出しなど、さまざまな関節オブジェクトを操作するためのオープンワールドでの適応学習のためのフルスタック システムを提案しました。

最近の AI システムは、高度に構造化されたアクション スペースを使用することで、非常に少ないオンライン サンプルから学習することができます。探索空間は、いくつかのトレーニング オブジェクトのデモンストレーション データセットを通じてさらに構築されます。

CMU が提案した方法は、4 つの異なるオブジェクト カテゴリの 8 つの不可視オブジェクトのパフォーマンスを約 50% ~ 95% 向上させることができます。

この研究では、このシステムが人間の介入なしに VLM 報酬を通じて学習できることも判明したことは特筆に値します。

著者について

ハオユ・ション

Haoyu Xiong 氏は、CMU のコンピュータサイエンス学部のロボット工学研究所の大学院研究員であり、人工知能とロボット工学を専門としています。彼の指導者はディーパック・パタックです。

ラッセル・メンドンサ

ラッセル・メンドンサは、CMU のロボット工学研究所で指導教官のディーパック・パタックとともに学ぶ博士課程 3 年目の学生です。彼は個人的に、機械学習、ロボット工学、コンピュータービジョンの問題に興味を持っています。

彼は以前、カリフォルニア大学バークレー校で電気工学とコンピューターサイエンスの学位を取得し、バークレー人工知能研究所 (BAIR) でセルゲイ・レヴィン教授とともに強化学習に取り組んでいました。

ケネス・ショー

ケネス・ショーは、カーネギーメロン大学ロボット工学研究所の博士課程 1 年目の学生で、指導もディーパック・パタック氏に受けています。彼の研究は、ロボットハンドを人間のような器用な操作で操作することに焦点を当てています。ロボットアームはどのように設計されるべきであり、日常生活でどのように使用されるべきでしょうか?ロボットハンドに人間の真似を教えるにはどうすればいいのでしょうか?最後に、シミュレーションと大規模データを活用して、新しい器用な操作動作を実現するにはどうすればよいでしょうか?

ディーパク・パタック

Deepak Pathak 氏は、カーネギーメロン大学コンピュータサイエンス学部の助教授であり、ロボティクス研究所のメンバーです。彼の仕事は、コンピュータービジョン、機械学習、ロボット工学が交わる人工知能分野です。

<<:  OpenAI の共同創設者 Karpathy が記事「自動運転による AGI の解釈」を公開しました。元の投稿は削除されました。保存済み

>>: 

ブログ    
ブログ    
ブログ    
ブログ    
ブログ    

推薦する

2021年に機械学習を始めるためのガイド

この質問は、機械学習コミュニティのソーシャル メディアでよく聞かれます。機械学習を始めるにはどうすれ...

機械学習の問題を解決する一般的な方法があります!これを読んでください

編集者注: この記事は、WeChat パブリック アカウント「Big Data Digest」(ID...

競争が激化する中、ドローン配達の時代はいつ来るのでしょうか?

現在、電子商取引の発展が継続的に加速する中、物流と配送のプレッシャーは高まり続けており、ドローンは業...

最高データおよび分析責任者は、AI 投資の収益をどのように見ているのでしょうか?

[[344785]] 2020 年の夏、同僚の Laks Srinivasan と私は、RoAI ...

AI言語モデルにおける幻覚バイアスのリスク

音声アシスタントからチャットボットまで、人工知能 (AI) はテクノロジーとのやり取りの方法に革命を...

顔認識技術の法的ギャップを埋める必要がある

顔認識などの新興技術が普及し、何百万人もの人々の生活に入り込むにつれて、技術の使用をめぐる論争がます...

...

知識経済は死んだ! AIが生み出す「直感経済」の新時代!

AI をめぐっては興奮と恐怖が同時に存在しているのは否定できない現実です。一方では、マイクロソフト...

ついに、トップNLPカンファレンスACLへの投稿は匿名である必要がなくなりました

自然言語処理分野の研究者にとって朗報があります。最近、計算言語学会(ACL)の年次総会は、この一連の...

開発から生産まで: 機械学習に関する 7 つの実践的な提案

この記事は公開アカウント「Reading Core Technique」(ID: AI_Discov...

人工知能の 10 大トレンドのうち、予想もしなかったものはどれですか?

[[237644]] 人工知能(AI)は、国家や企業が支配権を争う新たな技術の最前線です。マッキン...

2024 年のビッグデータ業界予測 (パート 4)

生成 AI は、すぐに過大な期待のピークから幻滅の谷間へと移行するでしょう。控えめに言っても、現在、...