「xx、テレビ台のリモコンを取ってきて。」 家庭環境では、多くの家族が必然的にこの種の作業を命じられます。ペットの犬でさえも免疫がない場合があります。しかし、人間には自分のやりたいことができない時が必ずあるし、ペットの犬もそれを理解できないことがある。人間の仕事を助けるという究極の夢は、今もロボットの中にあります。 最近、ニューヨーク大学とMetaが開発したロボットがこのスキルを学習しました。 「コーンフレークをテーブルからベッドサイドテーブルまで持って行って」と指示するだけで、ロボットはコーンフレークを自分で見つけ、ルートとそれに応じた動作を計画し、タスクを正常に完了することができます。さらに、物を整理したり、ゴミを捨てたりするのに役に立ちます。 このロボットはOK-Robotと呼ばれ、ニューヨーク大学とMetaの研究者によって開発されました。彼らは、視覚言語モデル(物体検出用)、ナビゲーション、把持の基本モジュールをオープンな知識ベースのフレームワークに統合し、ロボットの効率的なピックアンドプレース操作のためのソリューションを提供しました。私たちが年をとっても、お茶や水を出してくれるロボットを購入できるという希望はまだあるようです。 OK-Robot の位置付けにおける「オープン ナレッジ」とは、大規模な公開データセットでトレーニングされた学習モデルを指します。 OK-Robot を新しい家庭環境に配置すると、iPhone からスキャンが取得されます。スキャン結果に基づいて、LangSam と CLIP を使用して高密度の視覚言語表現を計算し、それをセマンティック メモリに保存します。その後、拾う必要のあるオブジェクトに対する言語クエリが与えられ、クエリの言語表現が意味メモリと照合されます。次に、ナビゲーション モジュールとピッキング モジュールを順番に適用して、目的のオブジェクトに移動してそれをピックアップします。同様のプロセスを使用してオブジェクトを破棄することもできます。 OK-Robot を研究するために、研究者たちは 10 の実際の家庭環境でテストしました。実験を通じて、彼らは、これまでに見たことのない自然な家庭環境において、システムのゼロショット展開成功率が平均 58.5% であることを発見しました。ただし、この成功率は環境の「自然さ」に大きく依存します。クエリを改良し、空間を整理し、明らかに敵対的なオブジェクト(大きすぎる、半透明すぎる、滑りやすい)を除外することで、この成功率は約 82.4% に達することがわかったからです。 OK-Robot はニューヨーク市内の 10 か所の家庭環境で 171 件のピッキング作業を試みました。 要約すると、実験を通じて、彼らは次のような結論に達しました。
オープンナレッジロボティクスの分野における他の研究者の研究を奨励し支援するために、著者らはOK-Robotのコードとモジュールを共有すると述べている。詳細については、https://ok-robot.github.io を参照してください。
技術的な要素と方法この研究は主に、A を B から持ち上げて C に置くという問題を扱っています。ここで、A はオブジェクトであり、B と C は現実世界の環境内の場所です。これを実現するには、提案されたシステムに、オープン ボキャブラリ オブジェクト ナビゲーション モジュール、オープン ボキャブラリ RGB-D 把持モジュール、およびオブジェクトを解放または配置するためのドロップ ヒューリスティック モジュールが含まれている必要があります。 オープン語彙オブジェクトナビゲーション 最初のステップは部屋をスキャンすることです。オープン ボキャブラリ オブジェクト ナビゲーションは、CLIP-Fields アプローチに従い、iPhone を使用して家庭環境を手動でスキャンする事前マッピング フェーズを想定しています。この手動スキャンは、iPhone の Record3D アプリを使用して撮影したホームビデオを単純にスキャンしたもので、位置を示す一連の RGB-D 画像が生成されました。 各部屋のスキャンには 1 分もかからず、情報が収集されると、RGB-D 画像がカメラのポーズと位置とともにプロジェクト ライブラリにエクスポートされ、マッピングされました。録画では、地表だけでなく、環境内の物体や容器も記録する必要があります。 次のステップは物体検出です。スキャンの各フレームでは、スキャンされたコンテンツに対してオープン語彙オブジェクト検出器が処理されます。この論文では、OWL-ViT オブジェクト検出器を選択しています。この方法は、予備クエリでより優れたパフォーマンスを発揮するためです。各フレームに検出器を適用し、各オブジェクトの境界ボックス、CLIP 埋め込み、検出器の信頼度を抽出し、ナビゲーション モジュールのオブジェクト ストレージ モジュールに渡します。 次に、オブジェクト中心のセマンティック ストレージが実行されます。この論文では、このステップを実行するために VoxelMap を使用しています。具体的には、カメラで収集された深度画像とポーズを使用して、オブジェクト マスクを現実世界の座標に逆投影します。これにより、各ポイントに CLIP からの関連するセマンティック ベクトルがあるポイント クラウドが提供されます。 これに続いてクエリ メモリ モジュールがあります。言語クエリが与えられると、この論文では CLIP 言語エンコーダーを使用してそれをセマンティック ベクトルに変換します。各ボクセルは家庭内の実際の位置に関連付けられているため、図 2 (a) と同様に、クエリ オブジェクトが最も見つかる可能性の高い場所を見つけることができます。 必要に応じて、この記事では「A が B 上にある」を「A が B を閉じる」として実装します。これを行うには、クエリ A は最初の 10 個のポイントを選択し、クエリ B は最初の 50 個のポイントを選択します。次に、10×50 ペアのユークリッド距離が計算され、最短距離 (A、B) に関連付けられた点 A が選択されます。 上記のプロセスを完了したら、次のステップは現実世界のオブジェクトに移動することです。現実世界の 3D 位置座標が取得されると、それをロボットのナビゲーション ターゲットとして使用して、操作フェーズを初期化できます。ナビゲーション モジュールは、ロボットがターゲット オブジェクトを操作できるように、ロボットをアームの届く範囲に配置する必要があります。 現実世界の物体のロボットによる把持 オープン語彙ナビゲーションとは異なり、把握タスクを完了するには、アルゴリズムが現実世界の任意のオブジェクトと物理的に対話する必要があり、この部分がより困難になります。したがって、本論文では、事前トレーニング済みの把持モデルを使用して現実世界の把持姿勢を生成し、言語条件フィルタリングに VLM を使用することを選択します。 この論文で使用されている把持生成モジュールは AnyGrasp であり、単一の RGB 画像とポイント クラウドが与えられたシーンで平行ジョー グリッパーを使用して衝突のない把持を生成します。 AnyGrasp は、シーン内の可能な把持(図 3 の列 2)を提供します。これには、把持ポイント、幅、高さ、深さ、および各把持における未調整のモデル信頼性を表す把持スコアが含まれます。 言語クエリを使用した把持のフィルタリング: AnyGrasp から取得した把持の提案に対して、この論文では LangSam を採用して把持をフィルタリングします。提案されたすべてのグリップ ポイントを画像に投影し、オブジェクト マスク内に含まれるグリップ ポイントを見つけます (図 3 の 4 列目)。 グリップ実行。最適な把持が決定されると(図 3 の列 5)、単純な事前把持方法を使用して対象物を把持することができます。 オブジェクトを解放または配置するためのヒューリスティックモジュール 物体を掴んだら、次はそれをどこに置くかを決めます。オブジェクトが平らな面に置かれていることを前提とする HomeRobot のベースライン実装とは異なり、この論文では、シンク、ビン、箱、バッグなどの凹んだオブジェクトもカバーするように拡張しています。 ナビゲーション、グリップ、配置が整ったので、これらを組み合わせるのは簡単で、この方法はどの新しい家にも直接適用できます。新しい家庭環境の場合、この研究では 1 分以内に部屋をスキャンできます。その後、それを VoxelMap に処理するのに 5 分もかかりません。完成すると、ロボットはすぐに選択したフィールドに配置され、動作を開始できます。新しい環境に到着してから、その中で自律的に動作を開始するまで、システムが最初のピックアンドプレース タスクを完了するのにかかる時間は平均 10 分未満です。 実験OK-Robot は、10 回以上の家庭内実験で、ピックアンドプレース タスクの成功率 58.5% を達成しました。 この研究では、OK-Robot の故障モードをより深く理解するために、OK-Robot の詳細な調査も実施しました。調査では、失敗の主な理由は操作上の失敗であることがわかりました。しかし、詳しく調べてみると、失敗の理由はロングテールであることがわかりました。図 4 に示すように、失敗の上位 3 つの理由は、セマンティック メモリから移動先の正しいオブジェクトを取得できないこと (9.3%)、操作モジュールから取得したジェスチャを完了するのが難しいこと (8.0%)、ハードウェア上の理由 (7.5%) でした。 図 5 からわかるように、OK-Robot で使用される VoxelMap は、他のセマンティック メモリ モジュールよりもわずかに優れています。把持モジュールに関しては、AnyGrasp は他の把持方法を大幅に上回り、相対スケールでは最良候補 (トップダウン把持) を 50% 近く上回ります。しかし、HomeRobot のトップダウン把持が、ヒューリスティック アルゴリズムに基づくオープンソースの AnyGrasp ベースラインや Contact-GraspNet を上回っているという事実は、真に汎用的な把持モデルの構築が依然として難しいことを示しています。 図 6 は、さまざまな段階での OK-Robot の障害の完全な分析を示しています。分析の結果、研究者が環境をクリーンアップしてぼやけた物体を除去すると、ナビゲーションの精度が向上し、全体的なエラー率が 15% から 12% に、そして最終的には 4% に低下することが示されました。同様に、研究者が環境の乱雑さを一掃すると、精度が向上し、エラー率は 25% から 16% に、そして最終的には 13% に低下しました。 詳細については、原文論文を参照してください。 |
>>: 大規模モデルの推論速度が 3.6 倍に向上しました。「Medusa」の論文はこちらです。Jia Yangqing: 最もエレガントな加速推論ソリューションの 1 つ
2018 年はオープンソース ソフトウェアの歴史の中で最もエキサイティングな年でした。2 件の IP...
今では、このビッグモデルもその失敗から学んでいます。香港科技大学とファーウェイ・ノアの箱舟研究所によ...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
[[266878]]中国における人工知能に関する議論の多くは体系化されておらず、断片的であり、人工...
大規模なモデルの「ブラックボックス」を解体するために、人類解釈可能性チームは、新しいモデルをトレーニ...
英国政府は11月2日、国の人工知能能力をさらに強化するため、人工知能研究資源への投資を2023年3月...
【51CTO.com クイック翻訳】今日、ロボティック・プロセス・オートメーション(RPA)は、企業...
人工知能が徐々に物理セキュリティの分野に参入するにつれて、より高度なアクセス制御ソリューションが登場...
Googleは8月4日、今年のGoogle I/Oで「Search Generative Engin...
こんにちは、Xiaozhuangです!ここ数日、ディープラーニングに関するコンテンツをいくつか共有し...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
ChatGPT がおかしくなるまで 1 つのことを実行するように要求し続けると、どうなるでしょうか?...
ロジスティック回帰の基本原理と勾配降下法の導出プロセスについて説明しました。このコードは、分類アルゴ...