GPT-4Vがロボットの頭脳として機能すると、AIで計画を立てることができなくなる可能性があります

GPT-4V はすでに、Web サイトのコード設計やブラウザの制御に役立っています。これらのアプリケーションは、仮想デジタル世界に集中しています。 GPT-4V を現実世界に持ち込み、ロボットを制御する脳として使用した場合、どのような興味深い結果が得られるでしょうか?

最近、清華大学学際情報科学研究所の研究者らは、GPT-4Vが物理世界に入り込み、ロボットが日常生活の物体を操作するためのタスク計画を提供できる「ViLa」アルゴリズムを提案した。

ViLa は Robotic Vision-Language Planning (ロボット視覚言語計画) の略です。視覚と言語の両方のモダリティで共同推論を実行する GPT-4V の機能を使用して、抽象的な言語命令を一連の実行可能なステップに分解します。 ViLa の最も驚くべき点は、大規模言語モデル (LLM) に基づくこれまでの多くのロボットタスク計画アルゴリズムに欠けていた、物理世界における常識の理解を示していることです。

たとえば、以下のビデオでは、研究者がロボットに棚からマーベルの模型（アイアンマン）を取り出させています。 ViLa はこのシーンの物体の複雑な空間的位置関係を理解することができ、つまり、紙コップとコーラの缶がアイアンマンを妨害していることを理解できます。アイアンマンを倒すには、まず紙コップとコーラの缶を取り除かなければなりません。

たとえば、以下のビデオでは、研究者がロボットに美術の授業中の子供たちの机のエリアを整理させています。このシーンの紙切りから、ViLa は今授業に必要な道具はハサミだと推測し、ドライバーやフルーツナイフなどの他の危険なアイテムを収納ボックスに入れることができます。

ViLa は人間のような常識を持ち、非常に複雑な環境でもロボットを制御し、ロボットにタスク計画を提供できることがわかります。

論文アドレス: https://arxiv.org/pdf/2311.17842.pdf
論文ホームページ: https://robot-vila.github.io/
論文ビデオ: https://www.youtube.com/watch?v=t8pPZ46xtuc

次に、この研究ではViLaの研究結果を詳しく説明します。

方法の紹介

ViLa はロボットのタスク計画に Visual Language Model (VLM) を使用します。今日の VLM は、画像と言語の両方のモダリティにおいて、前例のない理解力と推論力を発揮します。 VLM をロボットのタスクに適用すると、現在の環境の視覚的観察と豊富な世界知識を組み合わせて推論することができます。著者チームは、大規模な視覚言語モデル (GPT-4V など) を直接使用して、高レベルの抽象的な命令を一連の低レベルの実行可能なスキルに分解することを提唱する ViLa アルゴリズムを提案しました。

ViLa は、言語指示と現在の視覚観察画像が与えられると、GPT-4V を使用して連鎖思考推論を通じて環境シーンを理解し、複数ステップの計画を生成します。次に、この計画の最初のステップは基本戦略によって実行されます。最後に、実行されたステップが完成した計画に追加され、動的な環境でのクローズドループ計画アプローチが可能になります。

GPT-4V は、大規模なインターネットデータを使用したトレーニングにより、優れた多様性と強力な一般化機能を実証しました。これらの特性により、この論文で提案されているオープンワールドシナリオの処理に特に適しています。さらに、著者チームは、ゼロショット学習モードで実行している場合でも、GPT-4V を搭載した ViLa はさまざまな困難な計画問題を解決できることを発見しました。これにより、以前のアプローチで必要だったヒントエンジニアリングの量が大幅に削減されます。

実験

ViLa は、さまざまなオープンセット命令とオブジェクトを効果的に処理し、現実世界とシミュレートされた環境の両方で、さまざまな日常的な操作タスクをゼロショット方式で解決する能力を実証します。著者チームは、多数の実験を通じて、ViLa の利点を実証しました。1. ViLa は視覚世界の常識を深く理解できます。2. ViLa は柔軟なマルチモーダルターゲット指定方法をサポートします。3. ViLa は視覚フィードバックと閉ループ制御を自然にサポートします。

A. ViLaは視覚世界の常識を深く理解できる

異なるタイプの信号として、言語と画像はそれぞれ独自の特性を持っています。言語は人間によって生成され、意味論が豊かですが、包括的な情報を表現するには限界があります。対照的に、自然な信号である画像には詳細な低レベルの特徴が含まれており、1 つの画像でシーンのすべての情報を捉えることができます。この違いは、言葉で簡単に要約することが難しい複雑なシナリオでは特に顕著になります。 ViLa は、視覚イメージを推論プロセスに直接組み込むことで、視覚世界の常識的な知識を理解し、空間レイアウトやオブジェクトのプロパティの包括的な理解を必要とする複雑なタスクの処理に優れています。

空間レイアウト

複雑な空間レイアウト、特にオブジェクトの配置、位置関係、環境の制約を簡単な言語で記述することは非常に困難です。 ViLa は視覚を推論プロセスに直接組み込むことで、シーン内のオブジェクトの位置とそれらの関係を正確に識別できます。

「コーラの缶を手に入れろ」ミッションでは、ViLa はコーラの缶が見えなくなっていることに気づき、巧みに冷蔵庫を開けて見つけました。ベースライン方式では、缶が見えないときに「缶を拾いなさい」という誤った指示が出されます。

「空の皿を取る」タスクでは、ViLa は青い皿を拾う前に、そこからリンゴとバナナを取り除く必要があることを認識しています。ベースライン方式では、プレート上のオブジェクトを無視し、「青いプレートを拾いなさい」という誤った指示を直接与えます。

オブジェクトのプロパティ

オブジェクトの定義には、形状、色、材質、機能など、複数の属性が含まれます。しかし、自然言語は表現力が限られているため、これらの特性を完全に伝えるのは困難です。さらに、オブジェクトのプロパティは特定のタスクと密接に関連しています。上記の理由により、従来のアルゴリズムでは、複雑なオブジェクトの特性に対する深い理解を必要とするシーンを処理することが困難でした。しかし、視覚と言語の共同推論のおかげで、ViLa は特定のシーン内のオブジェクトの特性について深く理解しています。

「美術の授業の準備」という課題では、ViLa はドライバーとフルーツナイフが危険なアイテムだと考えて取り除きました。また、テーブルの上の切り抜き紙を考慮して、はさみは美術の授業に必要だと考えてそのままにしました。ベースライン方式では、テーブル上での紙切りや美術の授業という特定のシナリオを無視し、はさみを危険な物体と見なし、取り除くことを選択します。

「新鮮な果物を選ぶ」タスクでは、ViLa は新鮮で丸ごとの果物を正確に選ぶことができます。ベースライン方式では、半分皮をむいたオレンジや腐ったバナナも丸ごとの新鮮な果物とみなします。

著者チームは、8 つの関連タスクについて広範囲にわたる定量的実験を実施しました。表 1 に示すように、ViLa は空間レイアウトとオブジェクト属性を理解するタスクにおいてベースラインメソッドを大幅に上回ります。

B. マルチモーダルターゲット割り当て

ViLa は、柔軟でマルチモーダルなターゲット指定アプローチをサポートします。 ViLa は、言語による指示だけでなく、さまざまな形式の画像をターゲットとして使用したり、言語と画像を組み合わせてターゲットを定義したりすることもできます。

ビデオ内の 4 つのタスクは次のことを示しています。

ViLa は実際の画像をターゲットとして使用できます。
ViLa は抽象的な画像（子供の絵やスケッチなど）をターゲットとして使用できます。
ViLa は言語と画像の組み合わせをターゲットにすることができます。
ViLa は、画像内で指が指している位置を検出し、それを実際のタスクのターゲット位置として使用することができます。

著者チームはこれら 4 つのタスクについて定量的な実験を実施しました。表 II に示すように、ViLa はすべてのタスクにおいてマルチモーダルオブジェクトを認識する優れた能力を示しています。

C. 視覚的なフィードバック

ViLa は、視覚的なフィードバックを直感的かつ自然な方法で効果的に活用し、動的な環境で堅牢な閉ループ計画を実現します。

「ブロック積み上げ」タスクでは、ViLa は基本的なスキルの実行に失敗したことを検出し、基本的なスキルを再度実行しました。
「ポテトチップスを置く」タスクでは、ViLa は実行中に人間の干渉に気づきました。
「キャットフードを探す」タスクでは、ViLa はキャットフードを見つけるまで引き出しやキャビネットを開け続けることができます。
さらに、ViLa は、グリッパーを離す前に人がコカコーラの缶を持つのを待つなど、人間とコンピューターの相互作用を必要とするタスクを完了できます。

著者チームはこれら 4 つのタスクについて定量的な実験を実施しました。表 III に示すように、視覚的なフィードバックを自然に組み込むことで、ViLa のクローズドループ制御はオープンループ制御よりも大幅に優れたパフォーマンスを発揮します。

D. 模擬環境実験

シミュレートされた環境では、ViLa は高級言語で与えられた指示に従って、テーブル上のオブジェクトを特定の配置に再編成できます。

表 IV に示すように、ViLa はシミュレーション環境でもベースラインメソッドを大幅に上回っています。

詳細については、原文論文を参照してください。

<<: 10年前、古典的なword2vec論文が今日のNeurIPSタイムテスト賞を受賞しました

>>: 2024年のAIトレンド、このグラフをご覧ください、LeCun: オープンソースのビッグモデルがクローズドソースを上回る

ブログ

今後 5 年間で最も収益性の高い業界は何ですか?人工知能を勝ち取る者はインターネットを勝ち取るのでしょうか?

ブログ

GPT-4Vがロボットの頭脳として機能すると、AIで計画を立てることができなくなる可能性があります

方法の紹介

実験

今後 5 年間で最も収益性の高い業界は何ですか?人工知能を勝ち取る者はインターネットを勝ち取るのでしょうか?

AIに勝てずイ・セドルが引退を発表

幾何学を利用してディープラーニングモデルのパフォーマンスを向上させることは、コンピュータービジョン研究の未来です。

トップマガジンTPAMI2023！生成AIと画像合成のレビューを公開しました！

データ汚染：次の大きな脅威

推薦する

誰もが知っておくべき 3 つの機械学習アルゴリズム

人工知能の発達により、親は子供たちに新しいエリートの考え方を教えざるを得なくなった

Nvidiaの生成AIスーパーチップGH200はH100の2倍の計算能力を持つ。黄仁訓：それは狂ったように推論できる

ソフトウェアプログラマー試験: 関数の最大値を見つけるための標準的な遺伝的アルゴリズム

旅の途中を超えて？文脈学習に基づく画像拡散モデルのトレーニング [Frontiers]

ビッグデータと機械学習を駆使して12星座の素顔を明らかにする！

8,500 万の仕事が失われる。労働者はどうやって仕事を維持できるのか?

2022 RPA認定ランキング

OpenAI: ChatGPTはクローラープロトコルに準拠し、ウェブサイトは無料での使用を拒否できる