フェイフェイ・リーの「具現化された知能」に関する新たな成果!ロボットは、大きなモデルに接続することで人間の言語を直接理解し、事前のトレーニングなしで複雑な指示を完了することができます。

フェイフェイ・リーの「具現化された知能」に関する新たな成果!ロボットは、大きなモデルに接続することで人間の言語を直接理解し、事前のトレーニングなしで複雑な指示を完了することができます。

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。

具現化された知能における、 Fei-Fei Li チームの最新の成果は次のとおりです。

大型モデルをロボットに接続することで、追加のデータやトレーニングを必要とせずに、複雑な指示を具体的な行動計画に変換します。

これからは、人間は自然言語を使って、以下のような指示をロボットに簡単に与えることができるようになります。

一番上の引き出しを開けて、花瓶に注意してください。

写真

大規模言語モデル + 視覚言語モデルは、3D 空間で回避する必要がある目標と障害物を分析できるため、ロボットが行動を計画するのに役立ちます。

ここで重要な点があります。現実世界のロボットは、何の「トレーニング」もなしにこのタスクを直接実行できます。

写真

この新しい手法により、日常的な作業の軌跡のゼロサンプル合成が実現され、ロボットがこれまで見たことのないタスクを、デモンストレーションを必要とせずに一発で実行できるようになります。

操作可能なオブジェクトもオープンになっており、事前に範囲を定義する必要がありません。ボトルを開けたり、スイッチを押したり、充電ケーブルを抜いたり、すべて行うことができます。

写真

現在、プロジェクトのホームページと論文がオンラインで公開されており、コードも間もなくリリースされる予定で、学術界で幅広い関心を集めています。

写真

マイクロソフトの元研究者は次のようにコメントしています。「この研究は、人工知能システムにおける最も重要かつ複雑な開発の最前線にあります。」

写真

特にロボット研究の分野では、動作計画の分野に新たな世界を開いたと述べる同僚もいました。

もともとAIの危険性を感じていなかったが、AIとロボットを組み合わせるこの研究によって見方が変わった人もいる。

ロボットはどのようにして人間の話し声を直接理解できるのでしょうか?

Fei-Fei Li 氏のチームは、下の図に示すように、このシステムを VoxPoser と名付けました。その原理は非常に単純です。

写真

まず、環境情報(カメラで収集された RGB-D 画像)と実行する自然言語の指示が与えられます。

次に、LLM (大規模言語モデル)はこれらの内容に基づいてコードを記述し、生成されたコードはVLM (視覚言語モデル)と対話して、システムが対応する操作指示マップ、つまり3D値マップを生成するようにガイドします。

いわゆる 3D バリュー マップは、アフォーダンス マップと制約マップの総称であり、 「どこで行動するか」「どのように行動するか」の両方を示します。

写真

このように、アクションプランナーを取り出し、生成された3Dマップをその目的関数とすることで、実行すべき最終的な操作軌道を合成することが可能になります。

このプロセスから、追加の事前トレーニングを必要とする従来の方法と比較して、この方法では大規模なモデルを使用してロボットが環境と対話する方法をガイドし、ロボットのトレーニングデータが不足しているという問題を直接解決していることがわかります。

さらに、この機能により、ゼロサンプル機能も実現します。上記の基本的なプロセスをマスターすれば、どのようなタスクでも実行できます。

具体的な実装では、著者は VoxPoser のアイデアを次のような複雑な式である最適化問題に変換します。

写真

人間が与える指示は広範囲に及ぶ可能性があり、文脈の理解が必要になることを考慮して、指示を多くのサブタスクに分割します。たとえば、冒頭の最初の例は、「引き出しの取っ手をつかむ」と「引き出しを開ける」で構成されています。

VoxPoser が目指すのは、各サブタスクを最適化し、一連のロボットの軌道を取得し、最終的に全体の作業負荷と作業時間を最小限に抑えることです。

LLM と VLM を使用して言語指示を 3D マップにマッピングするプロセスでは、システムは言語が豊富な意味空間を伝えることができることを考慮し、 関心のあるエンティティ」を使用してロボットの動作をガイドします。つまり、3D 値マップにマークされた値を通じて、どのオブジェクトがロボットにとって「魅力的」で、どのオブジェクトが「反発的」であるかを反映します。

写真

冒頭の例を見てみましょう。引き出しは「魅力的」で、花瓶は「反発的」です。

もちろん、これらの値がどのように生成されるかは、大規模言語モデルの理解能力に依存します。

最終的な軌跡合成中、言語モデルの出力はタスク全体を通じて変更されないため、出力をキャッシュし、閉ループの視覚的フィードバックを使用して生成されたコードを再評価することで、干渉に遭遇したときに迅速に再計画できます。

したがって、VoxPoser は強力な耐干渉能力を備えています。

廃紙は青いトレイに入れてください

以下は、実際の環境とシミュレーション環境での VoxPoser のパフォーマンスです(平均成功率で測定)

写真

どのような環境や状況(干渉の有無、指示が見えるかどうか)であっても、プリミティブベースのベースラインタスクよりも大幅に高いことがわかります。

最後に、著者は VoxPoser が4 つの「新たな機能」を生成したことに驚きました

(1)物理的特性を評価する。例えば、質量が不明なブロックが2つある場合、ロボットにツールを使用して物理的な実験を行い、どちらのブロックが重いかを判断します。

(2)行動的常識推論。例えば、テーブルセッティングのタスクで、ロボットに「私は左利きです」と伝えると、ロボットは文脈を通じてその意味を理解します。

(3)きめ細かな修正。例えば、「ティーポットの蓋をする」といった高い精度が求められる作業を行う際に、「1センチずれていますよ」といった正確な指示をロボットに与えて修正することができます。

(4)視覚に基づく多段階操作。例えば、ロボットに引き出しを正確に半分に開けるように指示する。オブジェクトモデルがないため、ロボットは情報不足でこのようなタスクを実行できない可能性があります。しかし、VoxPoserは視覚フィードバックに基づいて、最初に引き出しを完全に開き、ハンドルの変位を記録してから、引き出しを中間点まで押し戻して要件を満たすという多段階操作戦略を提案できます。

フェイフェイ・リー: コンピュータビジョンの 3 つの北極星

約 1 年前、Fei-Fei Li 氏はアメリカ芸術科学アカデミーのジャーナルに記事を寄稿し、コンピューター ビジョンの開発の 3 つの方向性を指摘しました。

  • 具現化されたAI
  • 視覚的推論
  • シーン理解

フェイフェイ・リーは、具現化された知能はヒューマノイドロボットだけを指すのではなく、宇宙空間を移動できる実体のある知能機械はすべて人工知能の一種であると考えています。

ImageNet が実世界の幅広い多様な画像を表現することを目指しているのと同様に、具現化された知能の研究では、洗濯物を畳むことから新しい街を探索することまで、複雑で多様な人間のタスクを解決する必要があります。

これらのタスクを実行するための指示に従うには視覚が必要ですが、視覚だけではなく、シーン内の 3 次元の関係を理解するための視覚的推論も必要です。

最後に、機械は、人間の意図や社会的関係など、その場にいる人々も理解する必要があります。例えば、冷蔵庫を開けている人を見ればお腹が空いていることが分かりますし、大人の膝の上に座っている子どもを見れば親子関係であることが分かります。

大型モデルと組み合わせたロボットは、これらの問題を解決する方法となるかもしれません。

写真

この研究には、フェイフェイ・リー氏のほか、清華大学ヤオ・クラスの卒業生で、MITで博士号を取得し、現在はスタンフォード大学の助教授を務めるウー・ジアジュン氏も参加している。

写真

論文の筆頭著者であるウェンロン・ファン氏は現在スタンフォード大学の博士課程に在籍しており、Googleでのインターンシップ中にPaLM-Eの研究に参加した。

写真

論文アドレス: https://voxposer.github.io/voxposer.pdf
プロジェクトのホームページ: https://voxposer.github.io/

<<:  陳丹奇のACL学術レポートがここにあります!大規模モデル「プラグイン」データベースの7つの主要な方向性と3つの主要な課題の詳細な説明、3時間の実践的な知識

>>:  コンテキストの長さを 256k に拡張すると、LongLLaMA の無限コンテキスト バージョンが登場しますか?

ブログ    
ブログ    

推薦する

メタバース+AIとデータの未来は明るい

私たちは現在、拡張現実 (AR) と仮想現実 (VR) によって実現される新しい体験によって勢いを増...

ガートナーレポート: 私たちはデータサイエンスと機械学習ツールの「大爆発」の時代を迎えている

ガートナー社によると、現在データサイエンスに使用されているツールは急速に変化しているという。同社は新...

TikTokの背後にあるAIの仕組み

TikTok は、ユーザーが短い動画を作成して共有できる動画共有アプリです。 「あなただけのための」...

このトレンドは止められない!すべてのデータ サイエンティストが知っておくべき 5 つのグラフ アルゴリズム

すべてがつながっている世界では、ユーザーは独立した個人ではなく、何らかの形で互いにつながっています。...

...

...

MLCommonsがAI安全ワーキンググループを発表

人工知能ベンチマーク組織 MLCommons は、人工知能安全性 (AIS) ワーキング グループの...

AIカーゴのロープロファイルバージョン?ネットユーザーがCNN1台を使って「ニード・フォー・スピード9」でレース

最近、Redditユーザーが、2005年にリリースされたクラシックゲーム「ニード・フォー・スピード9...

ニューラルネットワークの父ヒントン氏は、34年前の画期的な業績を再検証し、脳内のAI手法の「存在」を模索している。

これまで耳にした人工知能の進歩のほぼすべては、30 年前に発表された、多層ニューラル ネットワークを...

最適化されたアルゴリズムによる高度なデータ分析に視覚化を活用する 5 つのステップ

[[176522]]ほとんどの科学研究では、大量の実験データの統計分析は、通常、コンピューティングと...

「人間の顔認識」は事故が多発していますが、「豚の顔認識」は信頼性が高いです!アリババは正しい賭けをした

科学技術の発展に伴い、人々は次第にプライバシーに気を配るようになり、「顔認識」という新興技術に対して...

AIによる朗読がオーディオブック市場に影響、声優の仕事が脅かされる

テクノロジーの進歩により、人工知能 (AI) が徐々に出版業界に参入し始めており、特にオーディオブッ...

JVM 世代別ガベージコレクションメカニズムとガベージコレクションアルゴリズム

[[433574]] 1. GCとは何かGC (ガベージ コレクション) ガベージ コレクションは、...

分析と AI に関する 6 つの警告すべき間違い

[[439096]] 2017年、英国の雑誌『エコノミスト』は、データが石油に代わって世界で最も価値...

Amazon Translateについて

Amazon Translate は、高速、高品質、手頃な価格の言語翻訳を提供するニューラル機械翻訳...