MIT、物体を拾うための「最強のアシスタント」を発表、少量のトレーニングサンプルで自然言語制御を実現

この記事はAI新メディアQuantum Bit（公開アカウントID：QbitAI）より許可を得て転載しています。転載の際は出典元にご連絡ください。

MIT のこの新しい成果により、物体ピックアップロボットがよりスマートになります。

自然言語のコマンドを理解できるだけでなく、これまで見たことのない物体を拾い上げることもできます。

ママはもう私が物を見つけられなくなることを心配しなくていいよ！

研究者らは、2D 特徴を 3 次元空間に埋め込み、ロボットを制御するための特徴フィールド (F3RM) を構築しました。

このようにして、2D 画像内に構築された画像の特徴と意味データは、3 次元ロボットによって理解され、利用できるようになります。

操作が簡単なだけでなく、トレーニング中に必要なサンプルの量も非常に少なくなります。

トレーニングサンプルが少ないため、オブジェクトの検索が容易

F3RM の助けを借りて、ロボットが目標物を巧みに拾い上げることができることがわかります。

ロボットがこれまで遭遇したことのない物体を見つけることも問題ではありません。

例えば…ダバイ（人形）。

シーン内の同じ種類のオブジェクトについては、色などの情報に基づいて区別することができます。

たとえば、同じシーンで青と赤の 2 つの異なるドライバーを拾います。

それだけでなく、ロボットに物体の特定の場所をつかむように指示することもできます。

たとえば、このカップの場合、ロボットがカップ本体またはハンドルをつかむように指定できます。

ピッキング問題に加えて、ロボットは拾ったアイテムを指定された場所に置くこともできます。

たとえば、カップをそれぞれ木製のスタンドと透明なスタンドに置きます。

チームは、フィルタリングされていない完全な実験結果を提供しました。彼らは研究室の周囲から無作為に分布外の試験サンプルを選択しました。

その中で、CLIP ResNet 機能を使用した特徴フィールドは、テストサンプルの 30% 以上 (78%) で正常にキャプチャされ、配置されました。オープンエンドの人工言語指示に基づくタスクでは、成功率は 60% でした。結果は厳選されたものではないため、ゼロチューニングシナリオでの特徴フィールドのパフォーマンスの客観的な説明を提供します。

では、F3RM をどのように使用してロボットの動作を支援できるのでしょうか?

2D フィーチャを 3D 空間に投影する

次の図は、F3RM を使用してロボットが物体を拾うのを支援するワークフローを大まかに説明しています。

F3RM は特性フィールドです。これを機能させるには、まず関連するデータを取得する必要があります。

下の図の最初の 2 つの手順は、F3RM 情報を取得するためのものです。

まず、ロボットはカメラでシーンをスキャンします。

スキャンプロセスでは、複数の角度からの RGB 画像と画像の特徴が同時に取得されます。

NeRF テクノロジーを使用して、これらの画像の 2D 密度情報が抽出され、3 次元空間に投影されます。

画像と密度の特徴を抽出するために、次のアルゴリズムが使用されます。

これにより、ロボットが使用できるシーンの 3D 特徴フィールドが得られます。

特徴フィールドを取得した後、ロボットはさまざまなオブジェクトを拾い上げるために、そのオブジェクトを操作する方法も知る必要があります。

このプロセス中に、ロボットは対応する 6 自由度のアームの動きの情報を学習します。

未知のシーンに遭遇した場合は、既知のデータとの類似度が計算されます。

次に、類似性を最大化して未知の環境での操作を実現するようにアクションが最適化されます。

自然言語制御のプロセスは、前のステップと非常に似ています。

まず、指示に従って CLIP データセットから特徴情報を見つけ、マシンの知識ベースから最も類似性の高い DEMO を取得します。

次に、予測されたポーズも、最高の類似性を達成するように最適化されます。

最適化が完了したら、対応するアクションを実行してオブジェクトを取得できます。

このプロセスを経て、サンプルサイズが少ない言語制御ピッキングロボットが完成しました。

チームについて

研究チームのメンバーは全員、MIT の CSAIL (コンピュータ科学および人工知能研究所) 出身です。

この研究所は MIT 最大の研究所であり、2003 年に CS 研究所と AI 研究所が合併して設立されました。

共同筆頭著者は、中国人博士課程学生のウィリアム・シェン氏と中国人ポスドク研究員のヤン・ゲ氏で、指導はフィリップ・イゾラ氏とレスリー・ケルブリング氏が担当している。彼らは、MIT CSAIL (コンピューティングおよび人工知能研究所) と IAIFI (人工知能および基礎的相互作用研究所) の出身です。 Yang Ge は、2023 CSAIL Embodied Intelligence Seminar の共同主催者です。

左：ウィリアム・シェン、右：ヤン・ゲ

論文アドレス: https://arxiv.org/abs/2308.07931
プロジェクトホームページ: https://f3rm.github.io
MIT エンボディドインテリジェンスチーム https://ei.csail.mit.edu/people.html
エンボディドインテリジェンスセミナー https://www.youtube.com/channel/UCnXGbvgu9071i3koFooncAw

<<: すべてを圧縮するだけです! OpenAIの主任科学者イリヤ・スツケバーが教師なし学習に注目

>>: アルパカ科全体よりも優れたMeta AIの新しい自己アライメント手法は、人間の注釈データをほとんど必要としません