GPT-4Vと人間のデモンストレーションによるロボットのトレーニング:目が学習し、手がそれに従う

GPT-4Vと人間のデモンストレーションによるロボットのトレーニング:目が学習し、手がそれに従う

言語/視覚入力をロボットの動作に変換するにはどうすればよいでしょうか?

カスタムモデルをトレーニングする方法は時代遅れです。大規模言語モデル (LLM) と視覚言語モデル (VLM) の最近の技術的進歩に基づいて、プロンプト プロジェクトを通じて ChatGPT や GPT-4 などの一般的なモデルを使用する方法が現在人気があります。

このアプローチは、膨大なデータの収集とモデルのトレーニング プロセスを回避し、優れた柔軟性を示し、さまざまなロボット ハードウェアへの適応性が高く、研究および産業アプリケーションでのシステムの再利用性を高めます。

特に、GPT-4V などの汎用視覚モデル (VLM) の最近の出現により、これらの視覚システムをタスク計画に統合できるようになり、マルチモーダルな人間の指示に基づいてタスク プランナーを開発する可能性が開かれました。

最近の Microsoft の論文では、研究者らが最新の VLM と LLM の例としてそれぞれ GPT-4V と GPT-4 (図 1) を使用したマルチモーダル タスク プランナーを提案しました。システムは、人間の行動のビデオやテキストによる指示などの入力、あるいはその両方を同時に受け入れ、象徴的なタスク プラン (つまり、一連の一貫したタスク ステップ) を出力します。

  • 論文アドレス: https://arxiv.org/pdf/2311.12015.pdf
  • コードは近日中に公開されます: https://microsoft.github.io/GPT4Vision-Robot-Manipulation-Prompts/

視覚データが利用可能になると、システムはタスク計画に従ってビデオを再分析し、各タスクとビデオの間の時空間的な対応を確立します。このプロセスでは、物体への接近方法、掴み方の種類、衝突を回避するためのウェイポイント、上肢の姿勢など、ロボットが実行する際に役立つさまざまな機能情報を抽出できます。

最後に、アフォーダンス情報とミッション プランは、JSON 形式で保存されたハードウェアに依存しない実行可能ファイルにコンパイルされます。本論文では、モデルの定性的な分析を行い、複数の実際のロボット上での出力タスク計画の操作性を確認します。

技術詳細

本論文で提案するシステムは、直列に接続された 2 つの部分で構成されています (図 2)。

1 つ目は、人間の行動に関する指導ビデオ、テキスト、またはその両方を入力として受け取り、ロボットの一連の動作を出力するシンボリック タスク プランナーです。ここで、テキスト入力には、修正用の GPT-4V 認識結果のフィードバックも含まれます。認識結果に対するフィードバックをユーザーに提供することで、入力としてより堅牢な操作が可能になります。つまり、システムタスクに対するユーザーの操作が不正確だった場合でも、再入力する機会が残ります。

2 番目の部分は機能アナライザーです。これは、ビデオを分析してタスクがいつどこで発生したかを判断し、タスクを効率的に実行するために必要な機能情報を抽出します。

このシステムでは、入力ビデオは人間がアクションを実行しているデモンストレーションであり、ロボットはそれをコピーするように求められます。この研究では、ビデオの粒度は「つかむ→操作する→放す」であると仮定しています。

A. シンボリックタスクプランナー

シンボリック ミッション プランナーは、1) ビデオ分析、2) シーン分析、3) ミッション計画の 3 つの部分で構成されます。

最初に、RGB ビデオを入力すると、ビデオ分析は GPT-4V を使用してビデオ内で人間が行ったアクションを識別し、それを人間同士のコミュニケーションで使用されるテキスト指示 (例: この空き缶を捨ててください) に転記します。ビデオ分析では、モデルトークンの制限と遅延を考慮して、ビデオフレームタイミングサンプリングの方法を採用し、抽出されたフレームをGPT-4Vに入力します。出力テキストはユーザーが確認して編集できます。ビデオ入力が提供されない場合、この段階でテキスト指示がシステムに提供されます。図 3 はビデオ アナライザーの例を示しており、GPT-4V がフレームから人間の行動を正常に理解できることを示しています。

次に、シーン アナライザーは、これらの指示と作業環境のビデオ データまたは画像の最初のフレームに基づいて、予想される作業環境をテキスト情報にコンパイルします。この環境情報には、GPT-4V が認識するオブジェクト名のリスト、オブジェクトの把握可能な属性、およびオブジェクト間の空間関係が含まれます。これらの計算プロセスは GPT-4V ではブラックボックスですが、この情報は GPT-4V の知識と入力された画像/テキストに基づいて出力されます。

図 4 はシナリオ アナライザーの例を示しています。図に示すように、GPT-4V はアクションに関連するオブジェクトを正常に選択しています。たとえば、人間がゴミ箱をテーブルの上に移動すると、テーブルは出力に含まれますが、冷蔵庫を開けるタスクではテーブルは無視されます。これらの結果は、シーン アナライザーが人間の操作に基づいてシーン情報をエンコードできることを示唆しています。

テキスト指示と環境情報が与えられると、タスク プランナーは一連のタスクを出力します。

具体的には、この論文では、GPT-4 が与えられた指示を一連のロボットタスクに分解できるようにするプロンプトを設計しています。この論文では、クーン・タッカー理論に基づいて、ロボットが物体を操作するために必要かつ十分な一連の動作を確立します。

表 I は、この論文に含まれる一連のタスクと説明をプロンプトで示しています。ここでは、タスク パラメータの名前は、GPT-4V の理解に基づいたオープン ボキャブラリ形式で指定されます。後の段階で、これらの名前はコンピテンシー アナライザーを通じてビデオと組み合わせられます。さらに、これらの事前/事後条件は、ビデオ内の画像と照合するのではなく、GPT-4 に一貫した一連のタスクを出力させるために使用されます。

GPT-4 モデルの理解の透明性を確保するために、タスク プランナーは、タスクの説明、アクション後の推定環境とアクションの概要、および一連のタスク プランを出力するように設計されています。さらに、タスク プランナーは、GPT-4 モデルのトークン制限内で過去の会話の履歴を保持するステートフル システムです。したがって、ユーザーは、ミッション プランナーの出力に基づいて、口頭によるフィードバックを通じて出力を修正および確認できます。図5はミッションプランナーの計算結果の例を示しています。結果は、カスタマイズされたプロンプトのセットが、適切なテキスト指示、環境の説明、および記号によるタスク計画を生成できることを示しています。

B. アフォーダンスアナライザー

アフォーダンス アナライザーは、シンボリック タスク プランナーからの知識を活用して特定のビデオを再分析し、ロボットがタスクを効果的に実行するために必要な能力に関する情報を取得します。

具体的には、タスクの性質とオブジェクトの名前に応じて、手とオブジェクトの関係を分析することに重点を置いています。ビデオ内のつかむ瞬間とリリースの位置を識別し、タスクのシーケンスに合わせます。これらの瞬間は、各タスクに必要な能力を特定するためのアンカーとして機能します。この記事の以前の研究「観察から学ぶための言語的注意の焦点システム」では、動作の把握と解放を検出する際の「注意の焦点」の有効性が実証されています。

1) 人間の手に焦点を当てて、つかむ動作と放す動作を検出する: 最初に、モデルは一連のビデオを一定の時間間隔でビデオセグメントに分割します。次に、各ビデオ クリップの開始フレームと終了フレームを手検出器と画像分類器を使用して分析し、オブジェクトが握られているかどうかを判断します (図 6)。ビデオクリップは次のモードに分かれています。

  • 最初のフレームでは何も取得されていないが、最後のフレームでは何かが取得されているクリップは、取得が発生したことを示します。
  • 最初のフレームに何かが保持され、最後のフレームに何も保持されていないクリップは、リリースが発生したことを示します。
  • その他のクリップは、他の種類のアクションを含むものとして分類されました。

この分類により、アナライザーはどのビデオ クリップにつかむ動作と放す動作が含まれているかを判断できます。この目的のために、研究者らはYOLOベースの手検出器と認識装置を開発し、そのモデルをオープンソース化しました(https://github.com/ultralytics/ultralytics)。

2) 手と物体の相互作用に焦点を当てることで、掴むときと離すときの時空間的な位置を検出します。次に、モデルは掴んだ物体の位置とタイミングを分析し、掴んだ物体のビデオ映像に焦点を当てます。オープンボキャブラリオブジェクト検出器である Detic を使用して、シンボリックタスクプランナーによって識別されたビデオ内の候補オブジェクトを検索します。複数の候補が識別された場合、ビデオクリップ内で手に最も近いオブジェクトが掴まれたオブジェクトと見なされます。これは、手検出器によって検出された各候補オブジェクトの境界ボックスと、キャプチャされたビデオ クリップの各フレーム内の手との間の距離を比較することによって決定されます。図7は物体検出の計算プロセスを示しています。 「つかむ」ビデオクリップでは、手と物体が空間内で最も接近した瞬間が、つかむ瞬間として判定されます。リリースビデオクリップにも同様の計算が適用され、リリース時刻が決定されます。

図 8 は、ジュース缶を棚の一番下から一番上に移動するための計算プロセスを示しています。

3) この論文では、タスクシーケンスをビデオと位置合わせするためのアンカーポイントとして、つかむ瞬間と離す瞬間を考慮しています。位置合わせ後、ビジュアルアナライザーは次のような情報を抽出します。

  • 把握タスクの機能: 1) 環境との衝突を回避するために接近する物体の方向情報。 2) 把握タイプには、人間が操作を効率的に実行できる方法も含まれます。
  • 手の動きの機能: 1) 環境衝突を回避するための手の動き中のウェイポイント情報。
  • タスクをリリースする能力:1) 環境との衝突を避けるためにオブジェクトをリリースした後の手の引き込み方向に関する情報。
  • ピッキングタスクの機能: 1) 物体と表面の間の不要な力を最小限に抑えるためのベクトル化された出発方向情報。
  • タスクを配置する機能: 1) 環境との衝突を避けるためにオブジェクトに近づく方向に関する情報。
  • タスクを回転する機能: 1) 回転軸の方向。 2) 回転中心の位置。 3) 回転角度。
  • スライディングタスクの能力:1) スライディング動作の変位。
  • 表面移動タスクを実行する能力: 1) 表面に対して垂直な軸。

これらの機能に加えて、握るとき、放すとき、および各瞬間の上腕と前腕の姿勢も、個別の方向ベクトルのペアとしてエンコードされます。これらのベクトルは、マルチ DOF アームの逆運動学を計算するための制約として機能し、ロボットが人間の周囲で予期しないポーズを取らないようにします。これらの機能は多くのコントローラーに実用的な情報を提供しますが、ロボットの実際の実行にはフォースフィードバックなどの追加情報が必要になる場合があることに注意することが重要です。この機能情報を取得するための具体的な方法については、研究者の以前の論文 (https://arxiv.org/abs/2008.01513) に記載されています。

実験結果

研究者たちはモデルをカプセル化し、図 9 に示すように Web アクセス インターフェイスを設計しました。

このモデルを使用すると、ユーザーは事前に録画した教育デモンストレーションをアップロードし、GPT-4V と GPT-4 でタスク モデルをエンコードできます。その後、研究者らはさまざまなシナリオで撮影したビデオを使用して、ロボットが試験操作を実行できるかどうかをテストしました。ここで研究者らはいくつかの実装例を紹介します。テストされたロボットは 2 台です。1 台目はアームの自由度が 6 の Nextage ロボット (Kawada Robotics 社製)、2 台目はアームの自由度が 7 の Fetch モバイル マニピュレーター (Fetch Robotics 社製) です。このロボットには、4本指のロボットハンド「Shadow Dexterous Hand Lite (Shadow Robotics)」も搭載されている。ロボットのスキルは強化学習を通じて訓練されます。すべての実験結果は、公式コード リポジトリでアクセスできるようになります (コードは近日中にリリースされる予定です)。

<<: 

>>: 

ブログ    
ブログ    
ブログ    
ブログ    
ブログ    

推薦する

中国人の「専門用語」データセット、AI:あなたはDBQさえ理解していない

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

2020 年以降のソフトウェア開発のトレンド

今後8年間の8つの重要なトレンドを予測[[322666]] UnsplashのHarpal Sing...

...

...

Python データ分析の基礎: 外れ値の検出と処理

機械学習において、異常検出と処理は比較的小さな分野、または機械学習の副産物です。一般的な予測問題では...

マイクロソフトは産業用メタバースプロジェクトProject Airsimを中止し、人工知能戦略をOpenAIに転換

10月25日、外国メディアは事情に詳しい関係者の話として、月曜日に「インダストリアル・メタバース」プ...

暗唱することは理解を意味するわけではない。ビッグモデルの背後にある知識の蓄積と抽出の詳細な分析

モデルのサイズが大きくなるにつれて、大規模なモデルが大量の知識を習得できる方法を模索し始めます。一つ...

[ディープラーニングシリーズ] PaddlePaddleとTensorflowによる画像分類

先月は、ディープラーニングにおける「Hello World」であるMNIST画像認識を中心に、畳み込...

ドキュメント内の単語が増えるほど、モデルは興奮します。 KOSMOS-2.5: テキストが密集した画像を読み取るためのマルチモーダル大規模言語モデル

注目すべき傾向は、印象的な言語出力を生成できる、数百億/数千億のパラメータを備えた、より大規模で複雑...

将来のAIの世界における興味深い仕事

現在、人工知能 (AI) システムは反復的で非創造的なタスクを実行するのが得意ですが、スクリプトから...

AIチップ畳み込みニューラルネットワークの原理

[[319839]]畳み込みニューラル ネットワーク (CNN) は、人工ニューロンが特定のカバレッ...

人工知能は何度も「危機的状況」に陥っているが、「成長痛」をどう解決するのか?

専門家や業界関係者は、人工知能がさまざまな業界や分野に広く浸透するにつれ、現場の応用に重点を置き基礎...

...

...

メールはAIの恩恵を受け、よりスマートになり、自動的にデータを促し、エラーを報告する

電子メールは日ごとに賢くなってきています。 Gmail では宛先不明の受信者を報告でき、Google...