説明書不要で様々な家具や家電製品に使用できる初の具現化3Dグラフィックモデルシステム

最近はロボットが家事のすべてを担うようになりました。

ポットを使えるスタンフォードのロボットが登場したように、コーヒーマシンを使えるロボット Figure-01 も登場しました。

デモンストレーション動画を見せて10時間のトレーニングを行うだけで、Figure-01はコーヒーカプセルの挿入からスタートボタンの押下まで、コーヒーマシンの使い方を一発で学習できます。

しかし、私たちはロボットが先生なしで学習し、デモンストレーションビデオがなくても、初めて見たさまざまな家具や家電を上手に使えるようにしたいと考えています。これは解決が難しい問題であり、ロボットには強力な視覚認識、意思決定、計画能力だけでなく、正確な操作スキルも必要です。

現在、3 次元の具体化されたグラフィックおよびテキストモデルシステムは、上記の問題に対する新しいアイデアを提供します。このシステムは、3次元視覚に基づく精密な幾何学的認識モデルと、計画性に優れた大規模な2次元グラフィックモデルを組み合わせたもので、サンプルデータを必要とせずに、家具や家電製品に関する複雑で長距離のタスクを解決できます。

この研究は、スタンフォード大学のレオニダス・ギバス教授と北京大学の王和教授のチームが知遠人工知能研究所と共同で行った。

論文リンク: https://arxiv.org/abs/2312.01307

プロジェクトのホームページ: https://geometry.stanford.edu/projects/sage/

コード: https://github.com/geng-haoran/SAGE

研究課題の概要

図 1: ロボットアームは人間の指示に基づいて、指示なしでさまざまな家電製品を使用することができます。

最近、PaLM-E と GPT-4V はロボットのタスク計画における大規模なグラフィックモデルの応用を促進し、視覚言語によって誘導される一般化されたロボット操作が注目の研究分野となっています。

以前は、計画とスキルのスケジュール設定のための大規模なグラフィックモデルを上層に配置し、アクションの物理的な実行を担当する制御スキル戦略モデルを下層に配置するという 2 層システムを構築するのが一般的なアプローチでした。しかし、ロボットがこれまで見たことのないさまざまな家電製品に直面し、家事中に多段階の操作を必要とする場合、既存の方法は上位レベルも下位レベルも無力になります。

最先端の大規模グラフィックモデル GPT-4V を例にとると、単一の画像に対してテキストによる説明を提供できるものの、動作可能な部品の検出、カウント、配置、状態推定に関しては依然として多くのエラーが発生します。図 2 の赤くハイライトされている部分は、GPT-4V がチェスト、オーブン、キャビネットの写真を説明する際に犯したさまざまなエラーです。誤った説明に基づくと、ロボットのスキルスケジューリングは明らかに信頼できません。

図 2: GPT-4V は、一般化操作が重点を置くカウント、検出、位置特定、状態推定などのタスクを処理できません。

下位レベルの操作スキル戦略モデルは、さまざまな実際の状況で上位レベルのグラフィックモデルによって与えられたタスクを実行する役割を担います。既存の研究成果の多くは、いくつかの既知の物体の把持点や操作方法をルールに基づいて厳格にコード化したものであり、これまでに見たことのない新しい物体カテゴリに対応することができません。ただし、エンドツーエンドの操作モデル (RT-1、RT-2 など) は RGB モダリティのみを使用し、距離の正確な認識が欠けており、高さなどの新しい環境の変化に対する一般化が不十分です。

王賀教授のチームが以前にCVPRハイライトで発表した研究であるGAPartNet [1]に触発され、研究チームはさまざまなカテゴリーの家電製品の汎用部品（GAPart）に焦点を当てました。家電製品は多種多様ですが、欠かせない部品が必ずいくつかあり、各家電製品とこれらの共通部品の間には類似した形状と相互作用パターンがあります。

そこで研究チームは論文GAPartNet[1]でGAPartの概念を紹介した。 GAPart は、一般化可能でインタラクティブなコンポーネントを指します。 GAPart は、さまざまなカテゴリのヒンジ付きオブジェクトに表示されます。たとえば、ヒンジ付きドアは、金庫、ワードローブ、冷蔵庫などに使用されます。図3に示すように、GAPartNet[1]はさまざまなオブジェクト上のGAPartsのセマンティクスとポーズを注釈付けします。

図3: GAPart: 一般化可能でインタラクティブな部分 [1]。

研究チームは、これまでの研究に基づいて、3次元視覚ベースのGAPartをロボットの物体操作システムSAGEに独創的に導入しました。 SAGE は、一般化可能な 3D パーツ検出と正確なポーズ推定を通じて、VLM と LLM に情報を提供します。この新しい方法は、意思決定レベルでの 2 次元グラフィックモデルの細かい計算と推論の能力が不十分であるという問題を解決し、実行レベルでは、GAPart ポーズに基づく堅牢な物理操作 API を通じて、さまざまなパーツに対する一般化された操作を実現します。

SAGE は、初の 3 次元具現化グラフィックモデルシステムであり、知覚、物理的相互作用からフィードバックまでのロボットの全チェーンに新しいアイデアを提供し、家具や家電製品などの複雑なオブジェクトをロボットがインテリジェントかつ普遍的に制御するための実現可能な方法を模索します。

システム紹介

図4はSAGEの基本的なプロセスを示しています。まず、コンテキスト依存の命令解釈モジュールが、入力されたロボット命令とその観察結果を解析し、これらの解析結果を次のロボット動作プログラムとその関連する意味部分に変換します。次に、SAGE はセマンティック部分 (コンテナなど) と操作が必要な部分 (スライダーボタンなど) を一致させ、アクション (ボタンの「押す」アクションなど) を生成してタスクを完了します。

図4: 方法の概要。

システム全体のプロセスを理解できるように、サンプルを必要とせずにロボットアームを使用して、これまで見たことのない電子レンジを操作する例を見てみましょう。

コマンド解析: 視覚的およびコマンド入力から実行可能なスキルコマンドまで

入力コマンドとRGBD画像観測が与えられると、インタープリタはまずVLMとGAPartNet [1]を使用してシーン記述を生成します。その後、LLM (GPT-4) は指示とシーンの説明を入力として受け取り、セマンティック部分とアクションプログラムを生成します。オプションで、このセクションに特定のユーザーマニュアルを入力できます。 LLM は入力に基づいて実行可能な部分のターゲットを生成します。

図 5: シーン記述の生成 (電子レンジのゼロショット使用を例に挙げる)

アクション生成をより適切に支援するために、シーンの説明にはオブジェクト情報、パーツ情報、およびいくつかのインタラクション関連情報が含まれています。シーン記述を生成する前に、SAGEはエキスパートGAPartモデル[1]を使用して、VLMのエキスパート記述をヒントとして生成します。両方のモデルの利点を組み合わせたこのアプローチはうまく機能します。

図 6: コマンドの理解と動作計画 (ゼロショット電子レンジを例として使用)

部品の相互作用情報の理解と認識

図7: 部品の理解。

観測入力プロセス中に、SAGE は GroundedSAM からの 2 次元 (2D) キューと GAPartNet からの 3 次元 (3D) キューを組み合わせ、それらを操作可能な部品の特定の場所として使用します。研究チームは、ScoreNet、非最大抑制 (NMS)、PoseNet を使用して、新しい方法の知覚結果を実証しました。

その中で、（１）部品知覚評価ベンチマークについては、SAM [2]を直接採用している。ただし、運用パイプラインでは、セマンティック部分も入力として考慮する GroundedSAM を使用します。（２）大規模言語モデル（LLM）が実行可能な部分のターゲットを直接出力する場合、ローカリゼーションプロセスはバイパスされる。

図 8: 部品の理解 (ゼロショットの使用例として電子レンジを使用)

アクション生成

セマンティック部分が操作可能な部分に配置されると、SAGE はこの部分で実行可能な操作を生成します。まず、SAGE はパーツのポーズを推定し、関節の状態 (パーツの軸と位置) と、関節のタイプ (平行移動または回転) に応じて可能な動作方向を計算します。次に、上記の推定に基づいて、部品を操作するためのロボットの動作を生成します。

電子レンジを起動するタスクでは、SAGE はまず、ロボットアームが主な動作として初期のグリッパー姿勢を取る必要があることを予測します。次に、GAPartNet [1]で定義された所定の戦略に従ってアクションが生成されます。この戦略は、パーツのポーズとアーティキュレーションの状態に基づいて決定されます。たとえば、回転ヒンジ付きのドアを開く場合、開始位置はドアの端またはハンドル上に設定でき、軌道はドアのヒンジに沿った円弧になります。

インタラクティブなフィードバック

これまでのところ、研究チームはオープンループ相互作用を生成するために 1 つの初期観察のみを使用しました。この時点で、彼らは、インタラクションプロセス中に得られた観察をさらに活用して、認識結果を更新し、それに応じてアクションを調整できるメカニズムを導入しました。この目標を達成するために、研究チームは対話型プロセスに 2 部構成のフィードバックメカニズムを導入しました。

最初の観察を知覚する際には、遮蔽や推定エラーが発生する可能性があることに注意する必要があります。

図 9: ドアを直接開けることができず、インタラクションが失敗します (ゼロショットの電子レンジの使用を例に挙げます)。

これらの問題に対処するために、研究者らはさらに、インタラクティブな知覚を使用して操作を強化するモデルを提案しました。相互作用全体を通じて、ターゲットグリッパーとパーツの状態の追跡が維持されます。重大な逸脱が発生した場合、プランナーは「続行」、「次のステップに進む」、「停止して再計画する」、「成功」の 4 つの状態のいずれかを選択できます。

たとえば、グリッパーがジョイントに沿って 60 度回転するように設定されているが、ドアが 15 度しか開いていない場合には、Large Language Model (LLM) プランナーは「停止して再計画する」ことを選択します。このインタラクティブな追跡モデルにより、LLM はインタラクションプロセス中に特定の問題を分析し、電子レンジの起動に失敗するというフラストレーションから立ち直ることができます。

図 10: インタラクティブなフィードバックと再計画を通じて、ロボットはボタンを開く方法を理解し、成功します。

実験結果

研究チームはまず、多関節オブジェクトのインタラクションのための大規模な言語ガイド付きテストベンチマークを構築しました。

図11: SAPIENシミュレーション実験。

彼らはSAPIEN環境[4]を使用してシミュレーション実験を行い、12の言語誘導型多関節物体操作タスクを設計した。電子レンジ、収納家具、キャビネットの各カテゴリごとに、異なる初期状態での開いた状態と閉じた状態を含む 3 つのタスクが設計されました。その他のタスクは、「鍋の蓋を開ける」、「リモコンのボタンを押す」、「ブレンダーを起動する」などです。実験結果によると、SAGE はほぼすべてのタスクで優れたパフォーマンスを発揮します。

図12: 実機のデモンストレーション。

研究チームは、UFACTORY xArm 6 とさまざまな関節オブジェクトを使用して、大規模な実世界実験も実施しました。上の写真の左上はブレンダーの起動例です。ブレンダーの上部はジュースを入れる容器のように見えますが、実際の機能としてはボタンを押して電源を入れる必要があります。 SAGE のフレームワークは、セマンティックとアクションの理解を効果的に結び付け、タスクを正常に実行します。

上の写真の右上部分はロボットを示しており、動作を停止するには緊急停止ボタンを押し（下）、再起動するには回転（上）する必要があります。ユーザーマニュアルからの入力の助けを借りて、SAGE によって誘導されたロボットアームは両方のタスクを完了しました。上記の下の画像は、電子レンジをオンにするタスクの詳細を示しています。

図 13: 実際のマシンのデモンストレーションと命令解釈の例をさらに示します。

要約する

SAGE は、家具や家電製品などの複雑な関節オブジェクトに対する一般的な操作コマンドを生成できる最初の 3D ビジュアル言語モデルフレームワークです。オブジェクトのセマンティクスと操作性の理解をパーツレベルで結び付けることで、言語で指示されたアクションを実行可能な操作に変換します。

さらに、この記事では、一般的な大規模ビジョン/言語モデルとドメインエキスパートモデルを組み合わせて、ネットワーク予測の包括性と正確性を高め、これらのタスクをより適切に処理し、最先端のパフォーマンスを達成する方法についても研究しています。実験結果は、フレームワークが強力な一般化能力を持ち、さまざまなオブジェクトカテゴリやタスクで優れたパフォーマンスを発揮できることを示しています。さらに、言語ガイドによる多関節オブジェクトの操作に関する新しいベンチマークも提供します。

チームについて

このSAGEの研究成果は、スタンフォード大学のレオニダス・ギバス教授の研究室、北京大学の王和教授の具体化された知覚と相互作用（EPICラボ）、および知遠人工知能研究所によるものです。論文の著者は、北京大学の学生でありスタンフォード大学客員研究員でもある耿昊然氏（共同筆頭著者）、北京大学博士課程の学生である魏松林氏（共同筆頭著者）、スタンフォード大学博士課程の学生である鄧聯悦氏と沈博奕氏であり、指導教員はレオニダス・ギバス教授と王和教授である。

<<: 2024 年のコンテナ技術予測: パフォーマンス、AI、セキュリティの採用

>>: OpenAIはニューヨークタイムズの声明は一方的であると不公平だと叫び、アンドリュー・ン氏もそれを擁護した。