この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。 MIT のこの新しい成果により、物体ピックアップロボットがよりスマートになります。 自然言語のコマンドを理解できるだけでなく、これまで見たことのない物体を拾い上げることもできます。 ママはもう私が物を見つけられなくなることを心配しなくていいよ! 研究者らは、2D 特徴を 3 次元空間に埋め込み、ロボットを制御するための特徴フィールド (F3RM) を構築しました。 このようにして、2D 画像内に構築された画像の特徴と意味データは、3 次元ロボットによって理解され、利用できるようになります。 操作が簡単なだけでなく、トレーニング中に必要なサンプルの量も非常に少なくなります。 トレーニングサンプルが少ないため、オブジェクトの検索が容易F3RM の助けを借りて、ロボットが目標物を巧みに拾い上げることができることがわかります。 ロボットがこれまで遭遇したことのない物体を見つけることも問題ではありません。 例えば…ダバイ(人形)。 シーン内の同じ種類のオブジェクトについては、色などの情報に基づいて区別することができます。 たとえば、同じシーンで青と赤の 2 つの異なるドライバーを拾います。 それだけでなく、ロボットに物体の特定の場所をつかむように指示することもできます。 たとえば、このカップの場合、ロボットがカップ本体またはハンドルをつかむように指定できます。 ピッキング問題に加えて、ロボットは拾ったアイテムを指定された場所に置くこともできます。 たとえば、カップをそれぞれ木製のスタンドと透明なスタンドに置きます。 チームは、フィルタリングされていない完全な実験結果を提供しました。彼らは研究室の周囲から無作為に分布外の試験サンプルを選択しました。 その中で、CLIP ResNet 機能を使用した特徴フィールドは、テストサンプルの 30% 以上 (78%) で正常にキャプチャされ、配置されました。オープンエンドの人工言語指示に基づくタスクでは、成功率は 60% でした。結果は厳選されたものではないため、ゼロチューニング シナリオでの特徴フィールドのパフォーマンスの客観的な説明を提供します。 では、F3RM をどのように使用してロボットの動作を支援できるのでしょうか? 2D フィーチャを 3D 空間に投影する次の図は、F3RM を使用してロボットが物体を拾うのを支援するワークフローを大まかに説明しています。 F3RM は特性フィールドです。これを機能させるには、まず関連するデータを取得する必要があります。 下の図の最初の 2 つの手順は、F3RM 情報を取得するためのものです。 まず、ロボットはカメラでシーンをスキャンします。 スキャンプロセスでは、複数の角度からの RGB 画像と画像の特徴が同時に取得されます。 NeRF テクノロジーを使用して、これらの画像の 2D 密度情報が抽出され、3 次元空間に投影されます。 画像と密度の特徴を抽出するために、次のアルゴリズムが使用されます。 これにより、ロボットが使用できるシーンの 3D 特徴フィールドが得られます。 特徴フィールドを取得した後、ロボットはさまざまなオブジェクトを拾い上げるために、そのオブジェクトを操作する方法も知る必要があります。 このプロセス中に、ロボットは対応する 6 自由度のアームの動きの情報を学習します。 未知のシーンに遭遇した場合は、既知のデータとの類似度が計算されます。 次に、類似性を最大化して未知の環境での操作を実現するようにアクションが最適化されます。 自然言語制御のプロセスは、前のステップと非常に似ています。 まず、指示に従って CLIP データセットから特徴情報を見つけ、マシンの知識ベースから最も類似性の高い DEMO を取得します。 次に、予測されたポーズも、最高の類似性を達成するように最適化されます。 最適化が完了したら、対応するアクションを実行してオブジェクトを取得できます。 このプロセスを経て、サンプルサイズが少ない言語制御ピッキングロボットが完成しました。 チームについて研究チームのメンバーは全員、MIT の CSAIL (コンピュータ科学および人工知能研究所) 出身です。 この研究所は MIT 最大の研究所であり、2003 年に CS 研究所と AI 研究所が合併して設立されました。 共同筆頭著者は、中国人博士課程学生のウィリアム・シェン氏と中国人ポスドク研究員のヤン・ゲ氏で、指導はフィリップ・イゾラ氏とレスリー・ケルブリング氏が担当している。彼らは、MIT CSAIL (コンピューティングおよび人工知能研究所) と IAIFI (人工知能および基礎的相互作用研究所) の出身です。 Yang Ge は、2023 CSAIL Embodied Intelligence Seminar の共同主催者です。 左:ウィリアム・シェン、右:ヤン・ゲ 論文アドレス: https://arxiv.org/abs/2308.07931 |
<<: すべてを圧縮するだけです! OpenAIの主任科学者イリヤ・スツケバーが教師なし学習に注目
>>: アルパカ科全体よりも優れたMeta AIの新しい自己アライメント手法は、人間の注釈データをほとんど必要としません
グーグルと、同じくアルファベットグループの健康関連子会社であるベリリー・ライフ・サイエンシズが共同で...
[[261281]]新興技術への投資家として、私は既存の市場を改善したり、新しい市場を創出したりで...
AIの助けを借りれば、月に10万元、年に100万元稼ぐことができます。想像できますか?信じないでく...
面接でアルゴリズムのみをテストする質問は、一般的に多くのプログラマーの友人から嫌われます。ここでは、...
研究者たちは、機械学習の手法を使用して、高次元の非線形データから直接最も価値があり重要な内部法則を自...
EPFL のジュゼッペ・カルレオ教授とコロンビア大学の大学院生マティヤ・メドビドビッチ氏は、従来のコ...
ガートナーが今年発表した技術成熟度曲線には、上昇段階にある新興技術が 16 個あります。これらの新興...
導入Nacos は、クライアントがノードを選択するときに重みベースのランダム アルゴリズムを提供しま...
1. 論文のテーマに関する詳細な議論質の高いトピック選択は、トップクラスのジャーナルに論文を掲載する...
自動車プラットフォームはどれほど重要ですか?この質問に答える必要はありません。市場で主流の自動車モデ...
Technavioが発表した「世界のスマートポール市場2020-2024」レポートデータによると、2...
人材管理に関して言えば、AI は、あらゆる業種のあらゆる企業ですでに日常的に導入されているツールです...