GPT-4Vと人間のデモンストレーションによるロボットのトレーニング：目が学習し、手がそれに従う

言語/視覚入力をロボットの動作に変換するにはどうすればよいでしょうか?

カスタムモデルをトレーニングする方法は時代遅れです。大規模言語モデル (LLM) と視覚言語モデル (VLM) の最近の技術的進歩に基づいて、プロンプトプロジェクトを通じて ChatGPT や GPT-4 などの一般的なモデルを使用する方法が現在人気があります。

このアプローチは、膨大なデータの収集とモデルのトレーニングプロセスを回避し、優れた柔軟性を示し、さまざまなロボットハードウェアへの適応性が高く、研究および産業アプリケーションでのシステムの再利用性を高めます。

特に、GPT-4V などの汎用視覚モデル (VLM) の最近の出現により、これらの視覚システムをタスク計画に統合できるようになり、マルチモーダルな人間の指示に基づいてタスクプランナーを開発する可能性が開かれました。

最近の Microsoft の論文では、研究者らが最新の VLM と LLM の例としてそれぞれ GPT-4V と GPT-4 (図 1) を使用したマルチモーダルタスクプランナーを提案しました。システムは、人間の行動のビデオやテキストによる指示などの入力、あるいはその両方を同時に受け入れ、象徴的なタスクプラン (つまり、一連の一貫したタスクステップ) を出力します。

論文アドレス: https://arxiv.org/pdf/2311.12015.pdf
コードは近日中に公開されます: https://microsoft.github.io/GPT4Vision-Robot-Manipulation-Prompts/

視覚データが利用可能になると、システムはタスク計画に従ってビデオを再分析し、各タスクとビデオの間の時空間的な対応を確立します。このプロセスでは、物体への接近方法、掴み方の種類、衝突を回避するためのウェイポイント、上肢の姿勢など、ロボットが実行する際に役立つさまざまな機能情報を抽出できます。

最後に、アフォーダンス情報とミッションプランは、JSON 形式で保存されたハードウェアに依存しない実行可能ファイルにコンパイルされます。本論文では、モデルの定性的な分析を行い、複数の実際のロボット上での出力タスク計画の操作性を確認します。

技術詳細

本論文で提案するシステムは、直列に接続された 2 つの部分で構成されています (図 2)。

1 つ目は、人間の行動に関する指導ビデオ、テキスト、またはその両方を入力として受け取り、ロボットの一連の動作を出力するシンボリックタスクプランナーです。ここで、テキスト入力には、修正用の GPT-4V 認識結果のフィードバックも含まれます。認識結果に対するフィードバックをユーザーに提供することで、入力としてより堅牢な操作が可能になります。つまり、システムタスクに対するユーザーの操作が不正確だった場合でも、再入力する機会が残ります。

2 番目の部分は機能アナライザーです。これは、ビデオを分析してタスクがいつどこで発生したかを判断し、タスクを効率的に実行するために必要な機能情報を抽出します。

このシステムでは、入力ビデオは人間がアクションを実行しているデモンストレーションであり、ロボットはそれをコピーするように求められます。この研究では、ビデオの粒度は「つかむ→操作する→放す」であると仮定しています。

A. シンボリックタスクプランナー

シンボリックミッションプランナーは、1) ビデオ分析、2) シーン分析、3) ミッション計画の 3 つの部分で構成されます。

最初に、RGB ビデオを入力すると、ビデオ分析は GPT-4V を使用してビデオ内で人間が行ったアクションを識別し、それを人間同士のコミュニケーションで使用されるテキスト指示 (例: この空き缶を捨ててください) に転記します。ビデオ分析では、モデルトークンの制限と遅延を考慮して、ビデオフレームタイミングサンプリングの方法を採用し、抽出されたフレームをGPT-4Vに入力します。出力テキストはユーザーが確認して編集できます。ビデオ入力が提供されない場合、この段階でテキスト指示がシステムに提供されます。図 3 はビデオアナライザーの例を示しており、GPT-4V がフレームから人間の行動を正常に理解できることを示しています。

次に、シーンアナライザーは、これらの指示と作業環境のビデオデータまたは画像の最初のフレームに基づいて、予想される作業環境をテキスト情報にコンパイルします。この環境情報には、GPT-4V が認識するオブジェクト名のリスト、オブジェクトの把握可能な属性、およびオブジェクト間の空間関係が含まれます。これらの計算プロセスは GPT-4V ではブラックボックスですが、この情報は GPT-4V の知識と入力された画像/テキストに基づいて出力されます。

図 4 はシナリオアナライザーの例を示しています。図に示すように、GPT-4V はアクションに関連するオブジェクトを正常に選択しています。たとえば、人間がゴミ箱をテーブルの上に移動すると、テーブルは出力に含まれますが、冷蔵庫を開けるタスクではテーブルは無視されます。これらの結果は、シーンアナライザーが人間の操作に基づいてシーン情報をエンコードできることを示唆しています。

テキスト指示と環境情報が与えられると、タスクプランナーは一連のタスクを出力します。

具体的には、この論文では、GPT-4 が与えられた指示を一連のロボットタスクに分解できるようにするプロンプトを設計しています。この論文では、クーン・タッカー理論に基づいて、ロボットが物体を操作するために必要かつ十分な一連の動作を確立します。

表 I は、この論文に含まれる一連のタスクと説明をプロンプトで示しています。ここでは、タスクパラメータの名前は、GPT-4V の理解に基づいたオープンボキャブラリ形式で指定されます。後の段階で、これらの名前はコンピテンシーアナライザーを通じてビデオと組み合わせられます。さらに、これらの事前/事後条件は、ビデオ内の画像と照合するのではなく、GPT-4 に一貫した一連のタスクを出力させるために使用されます。

GPT-4 モデルの理解の透明性を確保するために、タスクプランナーは、タスクの説明、アクション後の推定環境とアクションの概要、および一連のタスクプランを出力するように設計されています。さらに、タスクプランナーは、GPT-4 モデルのトークン制限内で過去の会話の履歴を保持するステートフルシステムです。したがって、ユーザーは、ミッションプランナーの出力に基づいて、口頭によるフィードバックを通じて出力を修正および確認できます。図5はミッションプランナーの計算結果の例を示しています。結果は、カスタマイズされたプロンプトのセットが、適切なテキスト指示、環境の説明、および記号によるタスク計画を生成できることを示しています。

B. アフォーダンスアナライザー

アフォーダンスアナライザーは、シンボリックタスクプランナーからの知識を活用して特定のビデオを再分析し、ロボットがタスクを効果的に実行するために必要な能力に関する情報を取得します。

具体的には、タスクの性質とオブジェクトの名前に応じて、手とオブジェクトの関係を分析することに重点を置いています。ビデオ内のつかむ瞬間とリリースの位置を識別し、タスクのシーケンスに合わせます。これらの瞬間は、各タスクに必要な能力を特定するためのアンカーとして機能します。この記事の以前の研究「観察から学ぶための言語的注意の焦点システム」では、動作の把握と解放を検出する際の「注意の焦点」の有効性が実証されています。

1) 人間の手に焦点を当てて、つかむ動作と放す動作を検出する: 最初に、モデルは一連のビデオを一定の時間間隔でビデオセグメントに分割します。次に、各ビデオクリップの開始フレームと終了フレームを手検出器と画像分類器を使用して分析し、オブジェクトが握られているかどうかを判断します (図 6)。ビデオクリップは次のモードに分かれています。

最初のフレームでは何も取得されていないが、最後のフレームでは何かが取得されているクリップは、取得が発生したことを示します。
最初のフレームに何かが保持され、最後のフレームに何も保持されていないクリップは、リリースが発生したことを示します。
その他のクリップは、他の種類のアクションを含むものとして分類されました。

この分類により、アナライザーはどのビデオクリップにつかむ動作と放す動作が含まれているかを判断できます。この目的のために、研究者らはYOLOベースの手検出器と認識装置を開発し、そのモデルをオープンソース化しました（https://github.com/ultralytics/ultralytics）。

2) 手と物体の相互作用に焦点を当てることで、掴むときと離すときの時空間的な位置を検出します。次に、モデルは掴んだ物体の位置とタイミングを分析し、掴んだ物体のビデオ映像に焦点を当てます。オープンボキャブラリオブジェクト検出器である Detic を使用して、シンボリックタスクプランナーによって識別されたビデオ内の候補オブジェクトを検索します。複数の候補が識別された場合、ビデオクリップ内で手に最も近いオブジェクトが掴まれたオブジェクトと見なされます。これは、手検出器によって検出された各候補オブジェクトの境界ボックスと、キャプチャされたビデオクリップの各フレーム内の手との間の距離を比較することによって決定されます。図7は物体検出の計算プロセスを示しています。「つかむ」ビデオクリップでは、手と物体が空間内で最も接近した瞬間が、つかむ瞬間として判定されます。リリースビデオクリップにも同様の計算が適用され、リリース時刻が決定されます。

図 8 は、ジュース缶を棚の一番下から一番上に移動するための計算プロセスを示しています。

3) この論文では、タスクシーケンスをビデオと位置合わせするためのアンカーポイントとして、つかむ瞬間と離す瞬間を考慮しています。位置合わせ後、ビジュアルアナライザーは次のような情報を抽出します。

把握タスクの機能: 1) 環境との衝突を回避するために接近する物体の方向情報。 2) 把握タイプには、人間が操作を効率的に実行できる方法も含まれます。
手の動きの機能: 1) 環境衝突を回避するための手の動き中のウェイポイント情報。
タスクをリリースする能力：1) 環境との衝突を避けるためにオブジェクトをリリースした後の手の引き込み方向に関する情報。
ピッキングタスクの機能: 1) 物体と表面の間の不要な力を最小限に抑えるためのベクトル化された出発方向情報。
タスクを配置する機能: 1) 環境との衝突を避けるためにオブジェクトに近づく方向に関する情報。
タスクを回転する機能: 1) 回転軸の方向。 2) 回転中心の位置。 3) 回転角度。
スライディングタスクの能力：1) スライディング動作の変位。
表面移動タスクを実行する能力: 1) 表面に対して垂直な軸。

これらの機能に加えて、握るとき、放すとき、および各瞬間の上腕と前腕の姿勢も、個別の方向ベクトルのペアとしてエンコードされます。これらのベクトルは、マルチ DOF アームの逆運動学を計算するための制約として機能し、ロボットが人間の周囲で予期しないポーズを取らないようにします。これらの機能は多くのコントローラーに実用的な情報を提供しますが、ロボットの実際の実行にはフォースフィードバックなどの追加情報が必要になる場合があることに注意することが重要です。この機能情報を取得するための具体的な方法については、研究者の以前の論文 (https://arxiv.org/abs/2008.01513) に記載されています。

実験結果

研究者たちはモデルをカプセル化し、図 9 に示すように Web アクセスインターフェイスを設計しました。

このモデルを使用すると、ユーザーは事前に録画した教育デモンストレーションをアップロードし、GPT-4V と GPT-4 でタスクモデルをエンコードできます。その後、研究者らはさまざまなシナリオで撮影したビデオを使用して、ロボットが試験操作を実行できるかどうかをテストしました。ここで研究者らはいくつかの実装例を紹介します。テストされたロボットは 2 台です。1 台目はアームの自由度が 6 の Nextage ロボット (Kawada Robotics 社製)、2 台目はアームの自由度が 7 の Fetch モバイルマニピュレーター (Fetch Robotics 社製) です。このロボットには、4本指のロボットハンド「Shadow Dexterous Hand Lite (Shadow Robotics)」も搭載されている。ロボットのスキルは強化学習を通じて訓練されます。すべての実験結果は、公式コードリポジトリでアクセスできるようになります (コードは近日中にリリースされる予定です)。

<<:

>>: