MIT、物体を拾うための「最強のアシスタント」を発表、少量のトレーニングサンプルで自然言語制御を実現

MIT、物体を拾うための「最強のアシスタント」を発表、少量のトレーニングサンプルで自然言語制御を実現

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。

MIT のこの新しい成果により、物体ピックアップロボットがよりスマートになります。

自然言語のコマンドを理解できるだけでなく、これまで見たことのない物体を拾い上げることもできます。

ママはもう私が物を見つけられなくなることを心配しなくていいよ!

研究者らは、2D 特徴を 3 次元空間に埋め込み、ロボットを制御するための特徴フィールド (F3RM) を構築しました。

このようにして、2D 画像内に構築された画像の特徴と意味データは、3 次元ロボットによって理解され、利用できるようになります。

操作が簡単なだけでなく、トレーニング中に必要なサンプルの量も非常に少なくなります。

トレーニングサンプルが少ないため、オブジェクトの検索が容易

F3RM の助けを借りて、ロボットが目標物を巧みに拾い上げることができることがわかります。

ロボットがこれまで遭遇したことのない物体を見つけることも問題ではありません。

例えば…ダバイ(人形)。

シーン内の同じ種類のオブジェクトについては、色などの情報に基づいて区別することができます。

たとえば、同じシーンで青と赤の 2 つの異なるドライバーを拾います。

それだけでなく、ロボットに物体の特定の場所をつかむように指示することもできます。

たとえば、このカップの場合、ロボットがカップ本体またはハンドルをつかむように指定できます。

ピッキング問題に加えて、ロボットは拾ったアイテムを指定された場所に置くこともできます。

たとえば、カップをそれぞれ木製のスタンドと透明なスタンドに置きます。

チームは、フィルタリングされていない完全な実験結果を提供しました。彼らは研究室の周囲から無作為に分布外の試験サンプルを選択しました。

その中で、CLIP ResNet 機能を使用した特徴フィールドは、テストサンプルの 30% 以上 (78%) で正常にキャプチャされ、配置されました。オープンエンドの人工言語指示に基づくタスクでは、成功率は 60% でした。結果は厳選されたものではないため、ゼロチューニング シナリオでの特徴フィールドのパフォーマンスの客観的な説明を提供します。

では、F3RM をどのように使用してロボットの動作を支援できるのでしょうか?

2D フィーチャを 3D 空間に投影する

次の図は、F3RM を使用してロボットが物体を拾うのを支援するワークフローを大まかに説明しています。

F3RM は特性フィールドです。これを機能させるには、まず関連するデータを取得する必要があります。

下の図の最初の 2 つの手順は、F3RM 情報を取得するためのものです。


まず、ロボットはカメラでシーンをスキャンします。

スキャンプロセスでは、複数の角度からの RGB 画像と画像の特徴が同時に取得されます。

NeRF テクノロジーを使用して、これらの画像の 2D 密度情報が抽出され、3 次元空間に投影されます。

画像と密度の特徴を抽出するために、次のアルゴリズムが使用されます。

これにより、ロボットが使用できるシーンの 3D 特徴フィールドが得られます。

特徴フィールドを取得した後、ロボットはさまざまなオブジェクトを拾い上げるために、そのオブジェクトを操作する方法も知る必要があります。

このプロセス中に、ロボットは対応する 6 自由度のアームの動きの情報を学習します。

未知のシーンに遭遇した場合は、既知のデータとの類似度が計算されます。

次に、類似性を最大化して未知の環境での操作を実現するようにアクションが最適化されます。

自然言語制御のプロセスは、前のステップと非常に似ています。

まず、指示に従って CLIP データセットから特徴情報を見つけ、マシンの知識ベースから最も類似性の高い DEMO を取得します。

次に、予測されたポーズも、最高の類似性を達成するように最適化されます。

最適化が完了したら、対応するアクションを実行してオブジェクトを取得できます。

このプロセスを経て、サンプルサイズが少ない言語制御ピッキングロボットが完成しました。

チームについて

研究チームのメンバーは全員、MIT の CSAIL (コンピュータ科学および人工知能研究所) 出身です。

この研究所は MIT 最大の研究所であり、2003 年に CS 研究所と AI 研究所が合併して設立されました。

共同筆頭著者は、中国人博士課程学生のウィリアム・シェン氏と中国人ポスドク研究員のヤン・ゲ氏で、指導はフィリップ・イゾラ氏とレスリー・ケルブリング氏が担当している。彼らは、MIT CSAIL (コンピューティングおよび人工知能研究所) と IAIFI (人工知能および基礎的相互作用研究所) の出身です。 Yang Ge は、2023 CSAIL Embodied Intelligence Seminar の共同主催者です。

左:ウィリアム・シェン、右:ヤン・ゲ

論文アドレス: https://arxiv.org/abs/2308.07931
プロジェクトホームページ: https://f3rm.github.io
MIT エンボディド インテリジェンス チーム https://ei.csail.mit.edu/people.html
エンボディドインテリジェンスセミナー https://www.youtube.com/channel/UCnXGbvgu9071i3koFooncAw

<<:  すべてを圧縮するだけです! OpenAIの主任科学者イリヤ・スツケバーが教師なし学習に注目

>>:  アルパカ科全体よりも優れたMeta AIの新しい自己アライメント手法は、人間の注釈データをほとんど必要としません

ブログ    
ブログ    
ブログ    

推薦する

不正使用を防ぐため、DJIはロシアとウクライナへの販売を停止すると発表した。

DJIは4月26日、ロシアとウクライナでの事業を一時停止すると発表した。戦闘で使用されないように注...

Googleの視覚言語モデルPaLI-3がリリースされました。パラメータはわずか50億で、より小さく、より高速で、より強力です。

大規模モデルの時代では、視覚言語モデル (VLM) のパラメータは数百億、さらには数千億にまで拡大し...

新しい小売トレンドにおけるビッグデータと人工知能の応用は何でしょうか?

2018年は新しい小売業が爆発的に増加した年でした。誰もがそれを実感したと思います。以前よりもコン...

現時点で最も包括的なPythonの採用方針

Pythonは、コンパイル速度が超高速なオブジェクト指向プログラミング言語です。誕生から25年が経ち...

...

一つ選びますか? Python 機械学習の実践的なヒント

原題は「Some Essential Hacks and Tricks for Machine Le...

2頭のアルパカが頭と尻尾を切り落とし、それをくっつけてハギングフェイスリストのトップに

HuggingFace が再びオープンソースの大規模モデルのリストのトップに躍り出ました。最前列は、...

効率的なトランスフォーマーが次々と登場、Googleチームが1つの記事ですべてをレビュー

Transformerモデルは2017年の誕生以来、自然言語処理やコンピュータービジョンなど多くの分...

DAMOアカデミーが大規模モデルテストベンチマークを発表: GPT-4はかろうじて合格、他のモデルはすべて不合格

ビッグモデルの発展、特に最近のさまざまなオープンソースのビッグモデルのリリースにより、さまざまなモデ...

...

llama2.mojo は llama2.c より 20% 高速です。最も新しい言語 Mojo が開発者コミュニティを驚かせています

Python が最も人気のある言語であり、C が最も古典的な言語であるとすれば、Mojo にはその最...

Mamba 論文が ICLR に受け入れられなかったのはなぜですか? AIコミュニティは盛り上がっている

2023年、大規模AIモデルの分野におけるTransformerの優位性が揺らいだ。この挑戦のきっか...

AIがサプライチェーンを変革する7つの方法

ビジネスにおける AI の役割は拡大し続けています。これは、サプライ チェーンとビジネス プロセスの...