MIT、物体を拾うための「最強のアシスタント」を発表、少量のトレーニングサンプルで自然言語制御を実現

MIT、物体を拾うための「最強のアシスタント」を発表、少量のトレーニングサンプルで自然言語制御を実現

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。

MIT のこの新しい成果により、物体ピックアップロボットがよりスマートになります。

自然言語のコマンドを理解できるだけでなく、これまで見たことのない物体を拾い上げることもできます。

ママはもう私が物を見つけられなくなることを心配しなくていいよ!

研究者らは、2D 特徴を 3 次元空間に埋め込み、ロボットを制御するための特徴フィールド (F3RM) を構築しました。

このようにして、2D 画像内に構築された画像の特徴と意味データは、3 次元ロボットによって理解され、利用できるようになります。

操作が簡単なだけでなく、トレーニング中に必要なサンプルの量も非常に少なくなります。

トレーニングサンプルが少ないため、オブジェクトの検索が容易

F3RM の助けを借りて、ロボットが目標物を巧みに拾い上げることができることがわかります。

ロボットがこれまで遭遇したことのない物体を見つけることも問題ではありません。

例えば…ダバイ(人形)。

シーン内の同じ種類のオブジェクトについては、色などの情報に基づいて区別することができます。

たとえば、同じシーンで青と赤の 2 つの異なるドライバーを拾います。

それだけでなく、ロボットに物体の特定の場所をつかむように指示することもできます。

たとえば、このカップの場合、ロボットがカップ本体またはハンドルをつかむように指定できます。

ピッキング問題に加えて、ロボットは拾ったアイテムを指定された場所に置くこともできます。

たとえば、カップをそれぞれ木製のスタンドと透明なスタンドに置きます。

チームは、フィルタリングされていない完全な実験結果を提供しました。彼らは研究室の周囲から無作為に分布外の試験サンプルを選択しました。

その中で、CLIP ResNet 機能を使用した特徴フィールドは、テストサンプルの 30% 以上 (78%) で正常にキャプチャされ、配置されました。オープンエンドの人工言語指示に基づくタスクでは、成功率は 60% でした。結果は厳選されたものではないため、ゼロチューニング シナリオでの特徴フィールドのパフォーマンスの客観的な説明を提供します。

では、F3RM をどのように使用してロボットの動作を支援できるのでしょうか?

2D フィーチャを 3D 空間に投影する

次の図は、F3RM を使用してロボットが物体を拾うのを支援するワークフローを大まかに説明しています。

F3RM は特性フィールドです。これを機能させるには、まず関連するデータを取得する必要があります。

下の図の最初の 2 つの手順は、F3RM 情報を取得するためのものです。


まず、ロボットはカメラでシーンをスキャンします。

スキャンプロセスでは、複数の角度からの RGB 画像と画像の特徴が同時に取得されます。

NeRF テクノロジーを使用して、これらの画像の 2D 密度情報が抽出され、3 次元空間に投影されます。

画像と密度の特徴を抽出するために、次のアルゴリズムが使用されます。

これにより、ロボットが使用できるシーンの 3D 特徴フィールドが得られます。

特徴フィールドを取得した後、ロボットはさまざまなオブジェクトを拾い上げるために、そのオブジェクトを操作する方法も知る必要があります。

このプロセス中に、ロボットは対応する 6 自由度のアームの動きの情報を学習します。

未知のシーンに遭遇した場合は、既知のデータとの類似度が計算されます。

次に、類似性を最大化して未知の環境での操作を実現するようにアクションが最適化されます。

自然言語制御のプロセスは、前のステップと非常に似ています。

まず、指示に従って CLIP データセットから特徴情報を見つけ、マシンの知識ベースから最も類似性の高い DEMO を取得します。

次に、予測されたポーズも、最高の類似性を達成するように最適化されます。

最適化が完了したら、対応するアクションを実行してオブジェクトを取得できます。

このプロセスを経て、サンプルサイズが少ない言語制御ピッキングロボットが完成しました。

チームについて

研究チームのメンバーは全員、MIT の CSAIL (コンピュータ科学および人工知能研究所) 出身です。

この研究所は MIT 最大の研究所であり、2003 年に CS 研究所と AI 研究所が合併して設立されました。

共同筆頭著者は、中国人博士課程学生のウィリアム・シェン氏と中国人ポスドク研究員のヤン・ゲ氏で、指導はフィリップ・イゾラ氏とレスリー・ケルブリング氏が担当している。彼らは、MIT CSAIL (コンピューティングおよび人工知能研究所) と IAIFI (人工知能および基礎的相互作用研究所) の出身です。 Yang Ge は、2023 CSAIL Embodied Intelligence Seminar の共同主催者です。

左:ウィリアム・シェン、右:ヤン・ゲ

論文アドレス: https://arxiv.org/abs/2308.07931
プロジェクトホームページ: https://f3rm.github.io
MIT エンボディド インテリジェンス チーム https://ei.csail.mit.edu/people.html
エンボディドインテリジェンスセミナー https://www.youtube.com/channel/UCnXGbvgu9071i3koFooncAw

<<:  すべてを圧縮するだけです! OpenAIの主任科学者イリヤ・スツケバーが教師なし学習に注目

>>:  アルパカ科全体よりも優れたMeta AIの新しい自己アライメント手法は、人間の注釈データをほとんど必要としません

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

ディープラーニングツール: TensorFlow システムアーキテクチャと高性能プログラミング

2015 年 11 月 9 日、Google は人工知能プラットフォーム TensorFlow をオ...

脳と機械の統合の時代が到来し、人類の文明は急速に発展するだろう

著者: ホン・タオ、オットー・マック著者は全員ジョージア工科大学の博士研究員である。人類の歴史におい...

それでおしまい? Gptsのプロンプト単語をランダムにクロールします

11月7日のOpenAI開発者会議でサム・アルトマンがGptsを正式に発表しリリースして以来、Gpt...

北京大学の新しい研究では、数学モデルを使用して、インターネット有名人の台頭の秘密を明らかにしています。ネイチャー誌に掲載

ソーシャル ネットワークは私たちの生活にますます大きな影響を与えており、情報の普及、新しいテクノロジ...

アートデザインにおける人工知能

AdobeやCelsysなどのソフトウェア企業は近年、デジタルデザインソフトウェアに人工知能機能を追...

最新レポート: 従業員の 25% が ChatGPT などの AI ツールに機密データをアップロードしている

新たな調査によると、従業員の15%がChatGPTに会社のデータを頻繁にアップロードしており、そのデ...

最も強力なモザイク除去AIが登場。数分でモザイクのない世界に戻り、ピクセルスタイルの「Minecraft」キャラクターも復元できます。

AI の作成は複雑なプロセスかもしれませんが、AI を破壊するには 1 つのステップだけが必要です...

マスク氏が示唆:脳の寄生虫が人間を超人的なAIを作らせる

マスク氏はツイッターで奇妙な見解を表明した。人類が超人的な人工知能を創り出した理由は、ある種の「脳寄...

「AI論文のオープンソースコードの義務化に反対する理由」

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

人工知能教育の時代が到来。AIは何ができるのか?

[[265994]]最近、国際人工知能教育会議、第3回世界知能会議が相次いで開催され、さまざまなA...

...

自動運転で冬季オリンピックはよりスマートに

[[438829]]発進時に左ウィンカーを出し、歩行者がいる場合はスピードを落として迂回し、障害物が...

洪水の知らせを聞いたらすぐに行動を起こしましょう!ロボットは風と波の守護者となることを目指す

災害に直面して、すべての関係者が行動を起こした。人民解放軍部隊が被災者の救出に派遣されているとみられ...