フェイフェイ・リーの「具現化された知能」に関する新たな成果!ロボットは、大きなモデルに接続することで人間の言語を直接理解し、事前のトレーニングなしで複雑な指示を完了することができます。

フェイフェイ・リーの「具現化された知能」に関する新たな成果!ロボットは、大きなモデルに接続することで人間の言語を直接理解し、事前のトレーニングなしで複雑な指示を完了することができます。

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。

具現化された知能における、 Fei-Fei Li チームの最新の成果は次のとおりです。

大型モデルをロボットに接続することで、追加のデータやトレーニングを必要とせずに、複雑な指示を具体的な行動計画に変換します。

これからは、人間は自然言語を使って、以下のような指示をロボットに簡単に与えることができるようになります。

一番上の引き出しを開けて、花瓶に注意してください。

写真

大規模言語モデル + 視覚言語モデルは、3D 空間で回避する必要がある目標と障害物を分析できるため、ロボットが行動を計画するのに役立ちます。

ここで重要な点があります。現実世界のロボットは、何の「トレーニング」もなしにこのタスクを直接実行できます。

写真

この新しい手法により、日常的な作業の軌跡のゼロサンプル合成が実現され、ロボットがこれまで見たことのないタスクを、デモンストレーションを必要とせずに一発で実行できるようになります。

操作可能なオブジェクトもオープンになっており、事前に範囲を定義する必要がありません。ボトルを開けたり、スイッチを押したり、充電ケーブルを抜いたり、すべて行うことができます。

写真

現在、プロジェクトのホームページと論文がオンラインで公開されており、コードも間もなくリリースされる予定で、学術界で幅広い関心を集めています。

写真

マイクロソフトの元研究者は次のようにコメントしています。「この研究は、人工知能システムにおける最も重要かつ複雑な開発の最前線にあります。」

写真

特にロボット研究の分野では、動作計画の分野に新たな世界を開いたと述べる同僚もいました。

もともとAIの危険性を感じていなかったが、AIとロボットを組み合わせるこの研究によって見方が変わった人もいる。

ロボットはどのようにして人間の話し声を直接理解できるのでしょうか?

Fei-Fei Li 氏のチームは、下の図に示すように、このシステムを VoxPoser と名付けました。その原理は非常に単純です。

写真

まず、環境情報(カメラで収集された RGB-D 画像)と実行する自然言語の指示が与えられます。

次に、LLM (大規模言語モデル)はこれらの内容に基づいてコードを記述し、生成されたコードはVLM (視覚言語モデル)と対話して、システムが対応する操作指示マップ、つまり3D値マップを生成するようにガイドします。

いわゆる 3D バリュー マップは、アフォーダンス マップと制約マップの総称であり、 「どこで行動するか」「どのように行動するか」の両方を示します。

写真

このように、アクションプランナーを取り出し、生成された3Dマップをその目的関数とすることで、実行すべき最終的な操作軌道を合成することが可能になります。

このプロセスから、追加の事前トレーニングを必要とする従来の方法と比較して、この方法では大規模なモデルを使用してロボットが環境と対話する方法をガイドし、ロボットのトレーニングデータが不足しているという問題を直接解決していることがわかります。

さらに、この機能により、ゼロサンプル機能も実現します。上記の基本的なプロセスをマスターすれば、どのようなタスクでも実行できます。

具体的な実装では、著者は VoxPoser のアイデアを次のような複雑な式である最適化問題に変換します。

写真

人間が与える指示は広範囲に及ぶ可能性があり、文脈の理解が必要になることを考慮して、指示を多くのサブタスクに分割します。たとえば、冒頭の最初の例は、「引き出しの取っ手をつかむ」と「引き出しを開ける」で構成されています。

VoxPoser が目指すのは、各サブタスクを最適化し、一連のロボットの軌道を取得し、最終的に全体の作業負荷と作業時間を最小限に抑えることです。

LLM と VLM を使用して言語指示を 3D マップにマッピングするプロセスでは、システムは言語が豊富な意味空間を伝えることができることを考慮し、 関心のあるエンティティ」を使用してロボットの動作をガイドします。つまり、3D 値マップにマークされた値を通じて、どのオブジェクトがロボットにとって「魅力的」で、どのオブジェクトが「反発的」であるかを反映します。

写真

冒頭の例を見てみましょう。引き出しは「魅力的」で、花瓶は「反発的」です。

もちろん、これらの値がどのように生成されるかは、大規模言語モデルの理解能力に依存します。

最終的な軌跡合成中、言語モデルの出力はタスク全体を通じて変更されないため、出力をキャッシュし、閉ループの視覚的フィードバックを使用して生成されたコードを再評価することで、干渉に遭遇したときに迅速に再計画できます。

したがって、VoxPoser は強力な耐干渉能力を備えています。

廃紙は青いトレイに入れてください

以下は、実際の環境とシミュレーション環境での VoxPoser のパフォーマンスです(平均成功率で測定)

写真

どのような環境や状況(干渉の有無、指示が見えるかどうか)であっても、プリミティブベースのベースラインタスクよりも大幅に高いことがわかります。

最後に、著者は VoxPoser が4 つの「新たな機能」を生成したことに驚きました

(1)物理的特性を評価する。例えば、質量が不明なブロックが2つある場合、ロボットにツールを使用して物理的な実験を行い、どちらのブロックが重いかを判断します。

(2)行動的常識推論。例えば、テーブルセッティングのタスクで、ロボットに「私は左利きです」と伝えると、ロボットは文脈を通じてその意味を理解します。

(3)きめ細かな修正。例えば、「ティーポットの蓋をする」といった高い精度が求められる作業を行う際に、「1センチずれていますよ」といった正確な指示をロボットに与えて修正することができます。

(4)視覚に基づく多段階操作。例えば、ロボットに引き出しを正確に半分に開けるように指示する。オブジェクトモデルがないため、ロボットは情報不足でこのようなタスクを実行できない可能性があります。しかし、VoxPoserは視覚フィードバックに基づいて、最初に引き出しを完全に開き、ハンドルの変位を記録してから、引き出しを中間点まで押し戻して要件を満たすという多段階操作戦略を提案できます。

フェイフェイ・リー: コンピュータビジョンの 3 つの北極星

約 1 年前、Fei-Fei Li 氏はアメリカ芸術科学アカデミーのジャーナルに記事を寄稿し、コンピューター ビジョンの開発の 3 つの方向性を指摘しました。

  • 具現化されたAI
  • 視覚的推論
  • シーン理解

フェイフェイ・リーは、具現化された知能はヒューマノイドロボットだけを指すのではなく、宇宙空間を移動できる実体のある知能機械はすべて人工知能の一種であると考えています。

ImageNet が実世界の幅広い多様な画像を表現することを目指しているのと同様に、具現化された知能の研究では、洗濯物を畳むことから新しい街を探索することまで、複雑で多様な人間のタスクを解決する必要があります。

これらのタスクを実行するための指示に従うには視覚が必要ですが、視覚だけではなく、シーン内の 3 次元の関係を理解するための視覚的推論も必要です。

最後に、機械は、人間の意図や社会的関係など、その場にいる人々も理解する必要があります。例えば、冷蔵庫を開けている人を見ればお腹が空いていることが分かりますし、大人の膝の上に座っている子どもを見れば親子関係であることが分かります。

大型モデルと組み合わせたロボットは、これらの問題を解決する方法となるかもしれません。

写真

この研究には、フェイフェイ・リー氏のほか、清華大学ヤオ・クラスの卒業生で、MITで博士号を取得し、現在はスタンフォード大学の助教授を務めるウー・ジアジュン氏も参加している。

写真

論文の筆頭著者であるウェンロン・ファン氏は現在スタンフォード大学の博士課程に在籍しており、Googleでのインターンシップ中にPaLM-Eの研究に参加した。

写真

論文アドレス: https://voxposer.github.io/voxposer.pdf
プロジェクトのホームページ: https://voxposer.github.io/

<<:  陳丹奇のACL学術レポートがここにあります!大規模モデル「プラグイン」データベースの7つの主要な方向性と3つの主要な課題の詳細な説明、3時間の実践的な知識

>>:  コンテキストの長さを 256k に拡張すると、LongLLaMA の無限コンテキスト バージョンが登場しますか?

ブログ    
ブログ    
ブログ    

推薦する

TensorFlow を使用した ML モデルの実装と最適化: 1 秒あたり 3 億回の予測

[[425184]] TensorFlow は最も広く使用されている機械学習フレームワークの 1 つ...

人工知能が仕事を奪っていますが、将来の職場で私たちは何のために戦うのでしょうか?

病院では、人工知能 (AI) は人間の医師よりもレントゲンの分析が得意です。法律事務所では、AI は...

ドローン空気検知器は環境保護にどのように役立つのでしょうか?

大気汚染は常に国家経済と国民の健康を悩ませる重要な要因となっている。大気中の汚染物質をタイムリーかつ...

コードを自動生成できるAIベースの開発ツール5選

今日、機械学習の可能性に関心を持つプログラマーは、人工知能と AI ベースのソフトウェア開発ツールを...

人工知能に関する10のよくある質問への回答

人工知能は今世紀の主要な話題の一つです。 AI の能力と無限の可能性は、多くの興味深い会話や議論を生...

モノのインターネット(IoT)がビジネスに活力を与える:5つのビジネス事例が示すもの

モノのインターネットはさまざまな分野に浸透しており、その魅力と需要は徐々に高まっています。このテクノ...

汎用人工知能(AGI)の分野で達成すべき4つの大きなマイルストーン

GPT と GAN で多くの進歩があったにもかかわらず、AGI は解決が難しい問題のままです。本質的...

IBM: ワトソン人工知能システムをすべてのクラウドプラットフォームに公開

米国のテクノロジーメディアの報道によると、IBMは本日、ワトソンブランドの人工知能サービスを自社のク...

異種族の創造、AIがキリンの写真を鳥に変換し、人間と機械を欺く

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...

フロントエンドの一般的な暗号化アルゴリズムについてお話ししましょう

情報セキュリティの重要性が高まるにつれ、さまざまなフロントエンド暗号化がますます重要になっています。...

...

AIのデジタルシールド:インフラのサイバーセキュリティ戦略の強化

技術革新の時代において、人工知能 (AI) は変革の力として際立っています。パーソナライズされた推奨...

...

拡散+超解像モデルの強力な組み合わせ、Googleの画像ジェネレーターImagenの背後にある技術

近年、マルチモーダル学習は、特にテキストと画像の合成や画像とテキストの対照学習の分野で大きな注目を集...

...