基本モデル＋ロボットの開発軌跡を見通すレビュー

ロボット工学は、特にスマートテクノロジーと組み合わせると、無限の可能性を秘めたテクノロジーです。近年、多くの革新的なアプリケーションを生み出してきたビッグモデルは、ロボットのインテリジェントな頭脳となり、ロボットが世界を認識、理解し、意思決定や計画を立てるのに役立つことが期待されています。

最近、CMU の Yonatan Bisk 氏と Google DeepMind の Fei Xia 氏が率いる共同チームが、ロボット工学分野における基本モデルの応用と開発を紹介するレビューレポートを発表しました。報告書の第一著者は、ロボット工学と人工知能の交差点を研究しているCMUの博士課程4年生、ヤフェイ・フー氏である。彼の協力者は、基本モデルを通じて具現化された知能の探求に焦点を当てている Quanting Xie 氏です。

論文アドレス: https://arxiv.org/pdf/2312.08782.pdf

さまざまな環境に自律的に適応できるロボットの開発は人類の永遠の夢ですが、これは長く困難な道のりです。これまで、従来のディープラーニング手法を使用したロボット知覚システムでは、通常、教師あり学習モデルをトレーニングするために大量のラベル付きデータが必要でしたが、クラウドソーシングを通じて大規模なデータセットに注釈を付けるコストは非常に高かったです。

さらに、従来の教師あり学習法の一般化能力は限られているため、これらのモデルを特定のシナリオやタスクに展開するには、通常、これらのトレーニング済みモデルに慎重に設計されたドメイン適応技術が必要であり、これには通常、さらなるデータ収集と注釈付けの手順が必要になります。同様に、従来のロボットの計画および制御方法では、通常、世界、エージェント自身のダイナミクス、および/または他のエージェントのダイナミクスを注意深くモデル化する必要があります。これらのモデルは通常、特定の環境またはタスクごとに構築され、状況が変化するとモデルを再構築する必要があります。これは、クラシックモデルの転送パフォーマンスにも限界があることを示しています。

実際、多くのユースケースでは、効果的なモデルを構築するのはコストがかかりすぎるか、あるいは不可能です。深層（強化）学習に基づく動作計画および制御方法はこれらの問題を軽減するのに役立ちますが、分布シフトと一般化能力の低下という問題が依然として残っています。

汎用ロボットシステムの開発には多くの課題がありますが、自然言語処理 (NLP) とコンピュータービジョン (CV) の分野では、NLP 用の大規模言語モデル (LLM)、高忠実度画像生成用の拡散モデル、ゼロショット/少数ショット生成などの CV タスク用の強力なビジョンモデル、ビジョン言語モデルなど、急速な進歩が見られます。

いわゆる「基礎モデル」は、実際には大規模な事前トレーニング済みモデル (LPTM) です。彼らは優れた視覚能力と言語能力を持っています。最近、これらのモデルはロボット工学の分野にも応用されており、ロボットシステムにオープンワールド認識、タスク計画、さらには動作制御機能を与えることが期待されています。既存の視覚および/または言語ベースのモデルをロボット工学の分野に適用することに加えて、一部の研究チームは、操作のためのアクションモデルやナビゲーションのための動作計画モデルなど、ロボット工学タスクの基本モデルも開発しています。これらのロボットベースのモデルは強力な一般化機能を備えており、さまざまなタスクや具体化されたソリューションにも適応できます。一部の研究者は、視覚/言語ベースのモデルをロボット工学のタスクに直接適用しており、これはさまざまなロボット工学モジュールを単一の統合モデルに統合する可能性を示しています。

視覚と言語に基づくモデルはロボット工学において大きな可能性を秘めており、まったく新しいロボット工学に基づくモデルが開発されつつありますが、ロボット工学には依然として対処が難しい課題が数多く残っています。

展開の観点から見ると、モデルは再現不可能であったり、さまざまなロボット形式に一般化できなかったり（複数の実施形態の一般化）、環境内でどの動作が実行可能（または許容可能）であるかを正確に理解することが困難であったりすることがよくあります。さらに、ほとんどの研究では、オブジェクトとシーンの意味認識、およびタスクレベルの計画と制御に重点を置いた Transformer ベースのアーキテクチャが使用されています。ロボットシステムの他の部分、たとえば世界のダイナミクスの基礎モデルや記号推論を実行できる基礎モデルなどについてはあまり研究されていません。これらすべてには、ドメイン間の一般化機能が必要です。

最後に、さまざまなロボットタスクをサポートする、より大規模な現実世界のデータと高忠実度のシミュレーターも必要です。

このレビュー論文では、ロボット工学の分野で使用されている基礎モデルを要約し、基礎モデルがロボット工学の分野における中核的な課題の解決または緩和にどのように役立つかを理解することを目的としています。

このレビューでは、「ロボット工学の基礎モデル」という用語を使用して、(1) 主にゼロショット学習とコンテキスト学習によって学習された、ロボット工学の既存の（主要な）視覚モデルと言語モデル、および (2) ロボットタスクを解決するためにロボット生成データを使用して特別に開発および活用されるロボット工学の基礎モデルという 2 つの側面をカバーしています。彼らはロボットの基本モデルに関する関連論文の手法を要約し、これらの論文の実験結果のメタ分析を行った。

レビューの全体構成

前提条件

読者がこのレビューの内容をもっとよく理解できるように、チームはまず予備知識のセクションを提供します。

まず、ロボット工学の基礎と現在の最良の技術について説明します。ここでは、基本モデルの時代以前にロボット工学の分野で使用されていた手法に主に焦点を当てます。ここでは簡単に説明しますが、詳細については原文を参照してください。

ロボットの主な構成要素は、知覚、意思決定と計画、アクション生成の 3 つの部分に分けられます。研究チームはロボットの知覚を受動的知覚、能動的知覚、状態推定に分類しました。
ロボットの意思決定と計画のセクションでは、研究者は古典的な計画方法と学習ベースの計画方法を紹介しました。
機械の動作生成には、古典的な制御方法と学習ベースの制御方法もあります。

次に、チームは基本モデルを紹介し、NLP と CV の分野に焦点を当てます。関連するモデルには、LLM、VLM、Visual Basic モデル、テキスト条件付き画像生成モデルなどがあります。

ロボット工学分野が直面する課題

一般的なロボットシステムのさまざまなモジュールが直面する 5 つの主要な課題。図 3 は、これら 5 つの課題の分類を示しています。

一般化

ロボットシステムは、環境を正確に感知して理解することが難しい場合がよくあります。また、あるタスクのトレーニングから別のタスクに一般化する能力も欠いており、現実世界での有用性がさらに制限されます。さらに、ロボットのハードウェアが異なるため、異なる形状のロボットのモデルを移行することも困難です。一般化の問題は、ロボット工学の基本モデルを使用することで部分的に解決できます。さまざまなロボット形式にわたる一般化に関するさらなる疑問にはまだ答えが出ていません。

データの不足

信頼性の高いロボットモデルを開発するには、大規模で高品質なデータが不可欠です。自動運転やロボットの動作軌跡など、現実世界から大規模なデータセットを収集する試みが行われています。また、人間によるデモンストレーションからロボットのデータを収集するにはコストがかかります。しかし、タスクや環境の多様性により、現実世界で十分かつ広範なデータを収集するプロセスはさらに複雑になります。現実世界でデータを収集することに関してもセキュリティ上の懸念があります。さらに、現実世界では、大規模なデータを収集することは非常に困難であり、基本モデルのトレーニングに使用されるインターネット規模の画像/テキストデータを収集することはさらに困難です。

これらの課題に対処するために、多くの研究では、シミュレートされた環境で合成データを生成する試みがなされてきました。これらのシミュレーションは現実的な仮想世界を提供し、ロボットが現実に近いシナリオでスキルを学習して使用できるようにします。しかし、シミュレートされた環境を使用する場合、特にオブジェクトの多様性の点で制限があり、学習したスキルを実際の状況に直接転送することが困難になります。

有望なアプローチの 1 つは、図 4a に示すように、さまざまなラボ環境やロボットタイプからのデータをまとめて収集する共同データ収集です。しかし、チームは Open-X 具体化データセットの詳細な調査を実施し、データタイプの可用性にはまだいくつかの制限があることを発見しました。

モデルと基本要件

従来の計画および制御方法では、通常、環境とロボットのモデルを慎重に設計する必要があります。これまでの学習ベースの方法（模倣学習や強化学習など）では、エンドツーエンドでポリシーをトレーニングします。つまり、感覚入力に基づいて制御出力を直接取得し、モデルの構築と使用を回避します。これらの方法は、明示的なモデルに依存する問題を部分的に解決できますが、さまざまな環境やタスクに一般化することが困難な場合がよくあります。

これにより、2つの疑問が生じます。(1) モデルに依存しない、一般化に適したポリシーをどのように学習するか? （２）古典的なモデルベースの手法を適用できるように、優れた世界モデルを学習するにはどうすればよいでしょうか？

タスク仕様

汎用エージェントを実現するための重要な課題は、タスクの仕様を理解し、それをロボットの現在の世界理解に組み込むことです。通常、これらのタスク仕様は、ロボットの認知能力と物理的能力の限界について限られた理解しか持っていないユーザーによって提供されます。これにより、これらのタスク仕様にどのようなベストプラクティスを提供できるか、これらの仕様の作成が十分に自然でシンプルであるかどうかなど、いくつかの疑問が生じます。ロボット自身の能力の理解に基づいてタスク仕様の曖昧さを理解し、解決することも困難です。

不確実性と安全性

ロボットを現実世界に導入する場合、重要な課題は、環境とタスク仕様に内在する不確実性に対処することです。不確実性は、その発生源に応じて、認識論的不確実性（知識不足によって生じる不確実性）と偶然的不確実性（環境に固有のノイズ）に分けられます。

不確実性の定量化 (UQ) のコストが非常に高くなると、研究と応用が持続不可能になる可能性があり、下流のタスクが最適に解決されなくなる可能性もあります。基礎となるモデルが非常に過剰にパラメータ化されていることを考慮すると、モデルの一般化パフォーマンスを犠牲にすることなくスケーラビリティを実現するには、基礎となるアーキテクチャへの変更を最小限に抑えながらトレーニングスキームを維持する UQ メソッドを提供することが重要です。自身の行動について信頼性の高い確信度の高い推定値を提供し、その結果として明確なフィードバックをインテリジェントに要求できるロボットを設計することは、未解決の課題のままです。

最近の進歩にもかかわらず、ロボットが経験から学び、戦略を微調整し、新しい環境でも安全を保つ能力を持つことを保証することは、依然として困難です。

現在の研究方法の概要

この論文では、ロボットの基礎モデルに関する現在の研究方法についてもまとめています。チームは、ロボット工学の分野で使用される基本モデルを、ロボットの基本モデルとロボット基礎モデル (RFM) の 2 つのカテゴリに分類しました。

ロボットに使用されるベースモデルとは、主にロボットの視覚ベースモデルと言語ベースモデルをゼロショット方式で使用することを指します。つまり、追加の微調整やトレーニングは必要ありません。 Robotics ベースモデルは、ビジョン言語の事前トレーニング済み初期化を使用してウォームスタートすることも、Robotics データセットで直接トレーニングすることもできます。

カテゴリの詳細

ロボットのベースモデル

このセクションでは、ロボット工学におけるビジョンと言語ベースのモデルのゼロショットアプリケーションに焦点を当てます。これには主に、ロボット認識アプリケーション向けにゼロショット方式で VLM を展開し、タスクレベルおよびモーションレベルの計画とアクション生成に LLM のコンテキスト学習機能を活用することが含まれます。図6に代表的な研究成果をいくつか示します。

ロボット基礎モデル (RFM)

実際のロボットの状態とアクションのペアを含むロボットデータセットの数が増えるにつれて、Robotic Grounded Models (RFM) のクラスも成功する可能性が高くなります。これらのモデルは、ロボットデータを使用してモデルをトレーニングし、ロボットタスクを解決することを特徴としています。

研究チームは、さまざまな種類の RFM を要約し、議論しました。 1 つ目は、単一のロボットモジュールで一連のタスクを実行できる RFM であり、単一目的ロボットベースモデルとも呼ばれます。たとえば、ロボットを制御するための低レベルのアクションを生成できる RFM や、高レベルのモーションプランニングを生成できるモデルなどです。この記事では、複数のロボットモジュールでタスクを実行できる RFM、つまり、認識、制御、さらにはロボット以外のタスクも実行できる一般的なモデルについても紹介します。

基礎モデルはロボット工学の課題の解決にどのように役立ちますか?

前の記事では、ロボット工学分野が直面している 5 つの大きな課題を挙げました。ここでは、基礎モデルがこれらの課題の解決にどのように役立つかについて説明します。

視覚情報に関連するすべての基本モデル (VFM、VLM、VGM など) は、ロボットの知覚モジュールで使用できます。 LLM はより多様な機能を備えており、計画や制御に使用できます。ロボット基礎モデル (RFM) は通常、計画モジュールとアクション生成モジュールで使用されます。表 1 は、さまざまなロボットの課題を解決するための基本モデルをまとめたものです。

表からわかるように、すべての基本モデルは、さまざまなロボットモジュールにわたってタスクを一般化するのに優れています。 LLM はタスクの指定に特に優れています。一方、RFM のほとんどはモデルフリー手法であるため、RFM は動的モデルの課題への対処に優れています。ロボットの知覚の場合、一般化とモデルの課題は結びついています。これは、知覚モデルがすでに優れた一般化機能を備えている場合、ドメイン適応や追加の微調整を実行するためにさらにデータを取得する必要がないためです。

さらに、セキュリティ上の課題に関する研究が不足しており、これは今後の重要な研究方向となるでしょう。

現在の実験と評価の概要

このセクションでは、現在の研究結果のデータセット、ベンチマーク、実験をまとめます。

データセットとベンチマーク

言語と視覚のデータセットから学習した知識だけに頼ることには限界があります。いくつかの研究結果が示しているように、摩擦や重さなどの概念は、これらの方法だけでは簡単には学習できません。

したがって、ロボットエージェントが世界をよりよく理解できるようにするために、研究コミュニティは言語と視覚の分野から基本モデルを採用するだけでなく、これらのモデルをトレーニングおよび微調整するための大規模で多様なマルチモーダルロボットデータセットの開発も進めています。

現在、これらの作業は、現実世界からデータを収集することと、シミュレートされた世界からデータを収集して現実世界に移行することの 2 つの主要な方向に分かれています。それぞれの方向には長所と短所があります。現実世界から収集されたデータセットには、RoboNet、Bridge Dataset V1、Bridge-V2、Language-Table、RT-1 などがあります。よく使用されるシミュレーターには、Habitat、AI2THOR、Mujoco、AirSim、Arrival Autonomous Racing Simulator、Issac Gym などがあります。

現在の方法のメタ分析

チームのもう一つの大きな貢献は、このレビューレポートで言及されている論文の実験のメタ分析であり、これは以下の疑問を明らかにするのに役立ちます。

1. 人々はどのような課題を研究し解決するのでしょうか?

2. モデルのトレーニングに使用されたデータセットまたはシミュレータは何ですか?テストに使用されるロボットプラットフォームは何ですか?

3. 研究コミュニティが使用する基本モデルは何ですか?タスクの解決はどの程度効果的ですか?

4. これらの方法では、どの基礎モデルが最も一般的に使用されていますか?

分析結果を表2-7と図11に示す。

メタ分析を通じてチームが得た主な観察結果の一部は以下のとおりです。

ロボット操作タスクに対する研究コミュニティの注目は不均衡である

一般化と堅牢性を改善する必要がある

低レベル制御の限定的な調査

制御周波数が低すぎる（<15Hz）ため、実際のロボットに導入することはできない（通常は100Hzが必要）