GPT-4Vがロボットの頭脳として機能すると、AIで計画を立てることができなくなる可能性があります

GPT-4Vがロボットの頭脳として機能すると、AIで計画を立てることができなくなる可能性があります

GPT-4V はすでに、Web サイトのコード設計やブラウザの制御に役立っています。これらのアプリケーションは、仮想デジタル世界に集中しています。 GPT-4V を現実世界に持ち込み、ロボットを制御する脳として使用した場合、どのような興味深い結果が得られるでしょうか?

最近、清華大学学際情報科学研究所の研究者らは、GPT-4Vが物理世界に入り込み、ロボットが日常生活の物体を操作するためのタスク計画を提供できる「ViLa」アルゴリズムを提案した

ViLa は Robotic Vision-Language Planning (ロボット視覚言語計画) の略です。視覚と言語の両方のモダリティで共同推論を実行する GPT-4V の機能を使用して、抽象的な言語命令を一連の実行可能なステップに分解します。 ViLa の最も驚くべき点は、大規模言語モデル (LLM) に基づくこれまでの多くのロボット タスク計画アルゴリズムに欠けていた、物理世界における常識の理解を示していることです。

たとえば、以下のビデオでは、研究者がロボットに棚からマーベルの模型(アイアンマン)を取り出させています。 ViLa はこのシーンの物体の複雑な空間的位置関係を理解することができ、つまり、紙コップとコーラの缶がアイアンマンを妨害していることを理解できます。アイアンマンを倒すには、まず紙コップとコーラの缶を取り除かなければなりません。

たとえば、以下のビデオでは、研究者がロボットに美術の授業中の子供たちの机のエリアを整理させています。このシーンの紙切りから、ViLa は今授業に必要な道具はハサミだと推測し、ドライバーやフルーツナイフなどの他の危険なアイテムを収納ボックスに入れることができます。

ViLa は人間のような常識を持ち、非常に複雑な環境でもロボットを制御し、ロボットにタスク計画を提供できることがわかります。

  • 論文アドレス: https://arxiv.org/pdf/2311.17842.pdf
  • 論文ホームページ: https://robot-vila.github.io/
  • 論文ビデオ: https://www.youtube.com/watch?v=t8pPZ46xtuc

次に、この研究ではViLaの研究結果を詳しく説明します。

方法の紹介

ViLa はロボットのタスク計画に Visual Language Model (VLM) を使用します。今日の VLM は、画像と言語の両方のモダリティにおいて、前例のない理解力と推論力を発揮します。 VLM をロボットのタスクに適用すると、現在の環境の視覚的観察と豊富な世界知識を組み合わせて推論することができます。著者チームは、大規模な視覚言語モデル (GPT-4V など) を直接使用して、高レベルの抽象的な命令を一連の低レベルの実行可能なスキルに分解することを提唱する ViLa アルゴリズムを提案しました。

ViLa は、言語指示と現在の視覚観察画像が与えられると、GPT-4V を使用して連鎖思考推論を通じて環境シーンを理解し、複数ステップの計画を生成します。次に、この計画の最初のステップは基本戦略によって実行されます。最後に、実行されたステップが完成した計画に追加され、動的な環境でのクローズドループ計画アプローチが可能になります。

GPT-4V は、大規模なインターネット データを使用したトレーニングにより、優れた多様性と強力な一般化機能を実証しました。これらの特性により、この論文で提案されているオープン ワールド シナリオの処理に特に適しています。さらに、著者チームは、ゼロショット学習モードで実行している場合でも、GPT-4V を搭載した ViLa はさまざまな困難な計画問題を解決できることを発見しました。これにより、以前のアプローチで必要だったヒント エンジニアリングの量が大幅に削減されます。

実験

ViLa は、さまざまなオープンセット命令とオブジェクトを効果的に処理し、現実世界とシミュレートされた環境の両方で、さまざまな日常的な操作タスクをゼロショット方式で解決する能力を実証します。著者チームは、多数の実験を通じて、ViLa の利点を実証しました。1. ViLa は視覚世界の常識を深く理解できます。2. ViLa は柔軟なマルチモーダルターゲット指定方法をサポートします。3. ViLa は視覚フィードバックと閉ループ制御を自然にサポートします。

A. ViLaは視覚世界の常識を深く理解できる

異なるタイプの信号として、言語と画像はそれぞれ独自の特性を持っています。言語は人間によって生成され、意味論が豊かですが、包括的な情報を表現するには限界があります。対照的に、自然な信号である画像には詳細な低レベルの特徴が含まれており、1 つの画像でシーンのすべての情報を捉えることができます。この違いは、言葉で簡単に要約することが難しい複雑なシナリオでは特に顕著になります。 ViLa は、視覚イメージを推論プロセスに直接組み込むことで、視覚世界の常識的な知識を理解し、空間レイアウトやオブジェクトのプロパティの包括的な理解を必要とする複雑なタスクの処理に優れています。

空間レイアウト

複雑な空間レイアウト、特にオブジェクトの配置、位置関係、環境の制約を簡単な言語で記述することは非常に困難です。 ViLa は視覚を推論プロセスに直接組み込むことで、シーン内のオブジェクトの位置とそれらの関係を正確に識別できます。

「コーラの缶を手に入れろ」ミッションでは、ViLa はコーラの缶が見えなくなっていることに気づき、巧みに冷蔵庫を開けて見つけました。ベースライン方式では、缶が見えないときに「缶を拾いなさい」という誤った指示が出されます。

「空の皿を取る」タスクでは、ViLa は青い皿を拾う前に、そこからリンゴとバナナを取り除く必要があることを認識しています。ベースライン方式では、プレート上のオブジェクトを無視し、「青いプレートを拾いなさい」という誤った指示を直接与えます。

オブジェクトのプロパティ

オブジェクトの定義には、形状、色、材質、機能など、複数の属性が含まれます。しかし、自然言語は表現力が限られているため、これらの特性を完全に伝えるのは困難です。さらに、オブジェクトのプロパティは特定のタスクと密接に関連しています。上記の理由により、従来のアルゴリズムでは、複雑なオブジェクトの特性に対する深い理解を必要とするシーンを処理することが困難でした。しかし、視覚と言語の共同推論のおかげで、ViLa は特定のシーン内のオブジェクトの特性について深く理解しています。

「美術の授業の準備」という課題では、ViLa はドライバーとフルーツナイフが危険なアイテムだと考えて取り除きました。また、テーブルの上の切り抜き紙を考慮して、はさみは美術の授業に必要だと考えてそのままにしました。ベースライン方式では、テーブル上での紙切りや美術の授業という特定のシナリオを無視し、はさみを危険な物体と見なし、取り除くことを選択します。

「新鮮な果物を選ぶ」タスクでは、ViLa は新鮮で丸ごとの果物を正確に選ぶことができます。ベースライン方式では、半分皮をむいたオレンジや腐ったバナナも丸ごとの新鮮な果物とみなします。

著者チームは、8 つの関連タスクについて広範囲にわたる定量的実験を実施しました。表 1 に示すように、ViLa は空間レイアウトとオブジェクト属性を理解するタスクにおいてベースライン メソッドを大幅に上回ります。

B. マルチモーダルターゲット割り当て

ViLa は、柔軟でマルチモーダルなターゲット指定アプローチをサポートします。 ViLa は、言語による指示だけでなく、さまざまな形式の画像をターゲットとして使用したり、言語と画像を組み合わせてターゲットを定義したりすることもできます。

ビデオ内の 4 つのタスクは次のことを示しています。

  1. ViLa は実際の画像をターゲットとして使用できます。
  2. ViLa は抽象的な画像(子供の絵やスケッチなど)をターゲットとして使用できます。
  3. ViLa は言語と画像の組み合わせをターゲットにすることができます。
  4. ViLa は、画像内で指が指している位置を検出し、それを実際のタスクのターゲット位置として使用することができます。

著者チームはこれら 4 つのタスクについて定量的な実験を実施しました。表 II に示すように、ViLa はすべてのタスクにおいてマルチモーダル オブジェクトを認識する優れた能力を示しています。

C. 視覚的なフィードバック

ViLa は、視覚的なフィードバックを直感的かつ自然な方法で効果的に活用し、動的な環境で堅牢な閉ループ計画を実現します。

  • 「ブロック積み上げ」タスクでは、ViLa は基本的なスキルの実行に失敗したことを検出し、基本的なスキルを再度実行しました。
  • 「ポテトチップスを置く」タスクでは、ViLa は実行中に人間の干渉に気づきました。
  • 「キャットフードを探す」タスクでは、ViLa はキャットフードを見つけるまで引き出しやキャビネットを開け続けることができます。
  • さらに、ViLa は、グリッパーを離す前に人がコカコーラの缶を持つのを待つなど、人間とコンピューターの相互作用を必要とするタスクを完了できます。

著者チームはこれら 4 つのタスクについて定量的な実験を実施しました。表 III に示すように、視覚的なフィードバックを自然に組み込むことで、ViLa のクローズドループ制御はオープンループ制御よりも大幅に優れたパフォーマンスを発揮します。

D. 模擬環境実験

シミュレートされた環境では、ViLa は高級言語で与えられた指示に従って、テーブル上のオブジェクトを特定の配置に再編成できます。

表 IV に示すように、ViLa はシミュレーション環境でもベースライン メソッドを大幅に上回っています。

詳細については、原文論文を参照してください。

<<:  10年前、古典的なword2vec論文が今日のNeurIPSタイムテスト賞を受賞しました

>>:  2024年のAIトレンド、このグラフをご覧ください、LeCun: オープンソースのビッグモデルがクローズドソースを上回る

ブログ    
ブログ    
ブログ    

推薦する

クラウドとジェネレーティブ AI の今後の動向

絶えず変化するビジネス環境において、データは驚くべき速度で増加しています。データの急増により、あらゆ...

すべてがUniSimに: 統合自動運転シミュレーションプラットフォーム

最近、トロント大学、MIT、Waabi AIの研究者らがCVPR 2023の論文で新しい自動運転シミ...

Ant Financialが機械学習ツールSQLFlowをオープンソース化、機械学習はSQLよりも簡単

5月6日、アント・ファイナンシャルの副CTOである胡曦氏はオープンソースの機械学習ツールSQLFlo...

ネットワークデータセキュリティ管理に関する新たな規制が導入される

顔は機密性の高い個人情報です。一度漏洩すると、個人や財産の安全に大きな損害を与え、公共の安全を脅かす...

Googleは、生成AI製品のユーザーを著作権侵害の申し立てから保護することを約束

Googleは10月13日、現地時間公開のブログ投稿で、自社の生成AI製品のユーザーは当局によって保...

...

...

...

テスラとモメンタの「自動運転アルゴリズム」の秘密を研究した

現在、自動運転技術は研究室を抜け出し、量産段階に入っており、大手自動車メーカーや部品サプライヤー、ハ...

...

科学者は、指示に従って芸術作品を制作する「絵画」ロボットの群れを作った

ほとんどの人が協働型群ロボットを想像するとき、通常は捜索救助活動などの用途を思い浮かべます。しかし、...

ベンチャーキャピタル企業がAIについて知っておくべきこと

タレスのグローバル副社長であるアシュヴィン・カマラジュ氏は、AI リスクに関する懸念の高まりについて...

AI受験者が発狂!上級数学試験の正解率は81%で、競争試験のスコアはコンピュータドクターのスコアよりも高い。

上級数学の試験で悪い成績を取ることは、多くの人にとって悪夢です。高度な数学は AI ほど得意ではない...

製造業における人工知能の活用事例トップ 5

製造業は大きなデジタル変革を遂げています。従来のモデルはインダストリー 4.0 へと進化しています。...

...