Google の具現化された知能に関する新たな研究: RT-H が登場、RT-2 より優れている

GPT-4などの大規模言語モデルがロボット研究と統合されるにつれて、人工知能はますます現実世界に進出しており、身体化された知能に関連する研究もますます注目を集めています。多くの研究プロジェクトの中でも、Google の「RT」シリーズのロボットは常に最前線にあります (「ビッグモデルがロボットの形を変えています。Google Deepmind は具現化された知能の未来をこのように定義しています」を参照)。

RT-2は、Google DeepMindが昨年7月に発表した、ロボットを制御するための世界初の視覚・言語・行動（VLA）モデルである。会話のように指示するだけで、大量の写真の中からテイラー・スウィフトを認識し、コーラの缶を渡すことができます。

今、ロボットはまた進化しました。 RTロボットの最新バージョンは「RT-H」と呼ばれ、複雑なタスクを簡単な言語命令に分解し、その命令をロボットの動作に変換することで、タスク実行の精度と学習効率を向上させることができます。例えば、「ピスタチオの瓶に蓋をする」といったタスクとシーン画像が与えられると、RT-Hは視覚言語モデル（VLM）を使って「腕を前に動かす」「腕を右に回転させる」といった言語動作を予測し、その言語動作に基づいてロボットの行動を予測します。

このアクション階層は、ロボットのタスク完了の精度と学習効率を向上させるのに非常に役立ち、さまざまなロボットタスクにおいて RT-H が RT-2 を上回るパフォーマンスを発揮します。

以下に論文の詳細を記載します。

論文概要

論文タイトル: RT-H: 言語を用いたアクション階層
論文リンク: https://arxiv.org/pdf/2403.01823.pdf
プロジェクトリンク: https://rt-hierarchy.github.io/

言語は人間の推論の原動力であり、複雑な概念をより単純な要素に分解し、誤解を正し、新しい文脈で概念を一般化することを可能にします。近年、ロボットは言語効率の高いモジュール構造を使用して、高レベルの概念を分解したり、言語の修正を提供したり、新しい環境での一般化を実現したりし始めています。

これらの研究は、一般的に共通のパラダイムに従います。つまり、言語で記述された高レベルのタスク (「コーラの缶を拾う」など) が与えられ、観察と言語でのタスク記述を低レベルのロボット動作にマッピングする戦略を学習します。これには、大規模なマルチタスクデータセットの使用が必要です。これらのシナリオにおける言語の利点は、類似のタスク間の共通構造をエンコードすることです（例：「コーラの缶を手に取る」と「リンゴを手に取る」）。これにより、タスクからアクションへのマッピングを学習するために必要なデータが削減されます。しかし、タスクが多様化するにつれて、各タスクを説明する言語も多様化します（例：「コーラの缶を手に取る」と「コップに水を注ぐ」）。そのため、高水準言語のみを使用して異なるタスク間の共通構造を学習することが難しくなります。

多様なタスクを学習するために、研究者はこれらのタスク間の類似点をより正確に捉えることを目指しています。

彼らは、言語は高レベルのタスクを記述できるだけでなく、タスクを完了する方法の詳細な記述、つまり特定のアクションに近いより詳細な表現も提供できることを発見しました。たとえば、「コーラの缶を拾う」というタスクは、一連のより詳細なステップ、つまり「言語動作」に分解できます。最初に「腕を前に伸ばす」、次に「缶をしっかりとつかむ」、最後に「腕を上げる」というステップです。研究者の核となる洞察は、言語アクションを高レベルのタスク記述と低レベルのアクションの間の中間層として使用することで、言語アクションを通じて形成されるアクションの階層を構築できるというものです。

このアクションの階層を確立すると、いくつかの利点があります。

これにより、言語アクションレベルでのさまざまなタスク間のデータ共有が改善され、言語アクションの組み合わせとマルチタスクデータセットの一般化が強化されます。たとえば、「コップに水を注ぐ」ことと「コーラの缶を手に取る」ことは意味的には異なりますが、物体を手に取る瞬間まで、その言語動作はまったく同じです。
言語動作は、単に固定された基本動作ではなく、目の前のタスクや場面の詳細に応じた指示や視覚的観察を通じて学習されます。たとえば、「腕を前に伸ばす」という動作では、動きの速度や方向は指定されません。これは、特定のタスクや観察状況によって異なります。学習した言語アクションのコンテキスト依存性と柔軟性により、戦略が 100% 成功しなかった場合に言語アクションを変更できるという新しい機能が提供されます (図 1 のオレンジ色の領域を参照)。さらに、ロボットは人間による修正から学習することもできます。たとえば、「コーラの缶を拾う」というタスクを実行するときに、ロボットがグリッパーを早めに閉じてしまった場合は、「腕をもっと伸ばしたままにする」ように指示することができます。特定のシナリオでのこのような微調整は、人間が指導しやすいだけでなく、ロボットにとっても学習しやすいものとなっています。

言語アクションの上記の利点を考慮して、Google DeepMind の研究者は、このタイプのアクション階層の学習に重点を置いたエンドツーエンドのフレームワーク RT-H (Robot Transformer with Action Hierarchies) を設計しました。 RT-H は、観察と高レベルのタスクの説明を分析することで現在の言語による運動指示を予測し、詳細なレベルでタスクを実行する方法を理解します。次に、これらの観察、タスク、および推定された言語アクションを使用して、RT-H は各ステップに対応するアクションを予測します。言語アクションはプロセスに追加のコンテキストを提供し、特定のアクションをより正確に予測するのに役立ちます (図 1 の紫色の領域)。

さらに、ロボットの固有受容感覚から簡略化された言語動作のセットを抽出する自動化手法を開発し、手動で注釈を付ける必要なしに 2,500 を超える言語動作の豊富なデータベースを作成しました。

RT-H のモデルアーキテクチャは、ポリシー学習を改善するためにインターネット規模の視覚および言語データでトレーニングされた大規模な視覚言語モデル (VLM) である RT-2 を活用しています。 RT-H は単一のモデルを使用して言語アクションとアクションクエリの両方を処理し、インターネット規模の広範な知識を活用してアクション階層のすべてのレベルをサポートします。

研究者らは実験で、言語アクション階層を使用すると、多様なマルチタスクデータセットを処理する際に大幅な改善がもたらされ、RT-2 と比較してさまざまなタスクでパフォーマンスが 15% 向上することを発見しました。また、発話動作を修正することで同じ課題でほぼ完璧な成功率が得られることも発見し、学習した発話動作の柔軟性と状況適応性が実証されました。さらに、言語行動介入モデルを微調整することで、IWR などの SOTA インタラクティブ模倣学習法よりも 50% 優れたパフォーマンスを発揮します。最後に、RT-H の言語アクションはシーンやオブジェクトの変化に適応しやすく、RT-2 よりも優れた一般化パフォーマンスを発揮できることを実証しました。

RT-Hアーキテクチャの詳細

RT-H は、マルチタスクデータセット全体で共有される構造 (高レベルのタスク記述では表されない) を効果的にキャプチャするために、アクションレベルのポリシーを明示的に活用することを学習することを目指しています。

具体的には、研究チームはポリシー学習に中間言語アクション予測レイヤーを導入しました。きめ細かいロボットの動作を記述する言語アクションは、マルチタスクデータセットから有用な情報を取得し、高性能なポリシーを生成できます。学習したポリシーの実行が困難な場合、言語アクションが再び役立ちます。言語アクションは、特定のシナリオに関連するオンラインの人間による修正のための直感的なインターフェイスを提供します。音声アクションのトレーニングを受けたポリシーは、低レベルの人間による修正に自然に従い、修正データが与えられた場合にタスクを正常に完了できます。さらに、この戦略は言語修正データでトレーニングすることもでき、パフォーマンスをさらに向上させることができます。

図 2 に示すように、RT-H には 2 つの主要な段階があります。まず、タスクの説明と視覚的な観察に基づいて言語アクションを予測し、次に、予測された言語アクション、特定のタスク、および観察に基づいて正確なアクションを推論します。

RT-H は VLM バックボーンネットワークを使用し、インスタンス化のために RT-2 のトレーニングプロセスに従います。 RT-2 と同様に、RT-H は共同トレーニングを通じてインターネット規模のデータから自然言語と画像処理に関する大量の事前知識を活用します。この事前知識をアクション階層のすべてのレベルに組み込むために、単一のモデルが言語アクションとアクションクエリの両方を同時に学習します。

実験結果

RT-H のパフォーマンスを完全に評価するために、研究チームは 4 つの重要な実験上の質問を設定しました。

Q1 (パフォーマンス): 言語を使用したアクション階層により、マルチタスクデータセットでのポリシーパフォーマンスが向上しますか?
Q2（文脈性）：RT-H によって学習された言語動作は、タスクと状況の文脈に関連していますか？
Q3（修正）：言語による動作修正のトレーニングは遠隔操作による修正よりも優れていますか？
Q4 (一般): アクション階層により、分布外設定での堅牢性が向上しますか?

データセットに関しては、この研究では、ランダムなオブジェクトのポーズと背景を持つ 100,000 個のデモンストレーションサンプルを含む大規模なマルチタスクデータセットを使用しました。このデータセットは次のデータセットを組み合わせたものです。

Kitchen: RT-1 および RT-2 で使用されるデータセット。70,000 サンプルの 6 つのセマンティックタスクカテゴリで構成されています。
多様性: 24 を超えるセマンティックタスクカテゴリを持つ、より複雑なタスクで構成された新しいデータセットですが、サンプル数は 30,000 のみです。

この研究では、この結合データセットを Diverse+Kitchen (D+K) データセットと呼び、自動化された手順を使用してその言語アクションにラベルを付けています。完全な Diverse+Kitchen データセットでトレーニングされた RT-H のパフォーマンスを評価するために、次の 8 つの特定のタスクが評価されました。

1) ボウルをカウンターの上に立てて置きます

2) ピスタチオの缶を開ける

3) ピスタチオの瓶を閉める

4) ボウルをシリアルディスペンサーから離す

5) ボウルをシリアルディスペンサーの下に置く

6) ボウルにオートミールを入れる

7) バスケットからスプーンを取り出す

8) ディスペンサーからナプキンを引き出します

これら 8 つのタスクは、複雑なアクションシーケンスと高い精度が求められるため選択されました。

次の表は、Diverse+Kitchen データセットまたは Kitchen データセットでトレーニングする場合の RT-H、RT-H-Joint、および RT-2 トレーニングチェックポイントの最小 MSE を示しています。 RT-H の MSE は RT-2 よりも約 20% 低く、RTH-Joint の MSE は RT-2 よりも 5～10% 低く、これはアクション階層が大規模なマルチタスクデータセットでのオフラインアクション予測の改善に役立つことを示しています。 RT-H (GT) はグラウンドトゥルース MSE メトリックを使用しており、エンドツーエンド MSE とのギャップは 40% です。これは、正しくラベル付けされた言語アクションがアクションを予測するための情報価値が高いことを示しています。

図4は、RT-Hのオンライン評価から得られたコンテキストアクションのいくつかの例を示しています。同じ言語行為でも、より高次の言語行為を尊重しながら、タスクを達成する行為に微妙な変化が生じることがよくあることがわかります。

図5に示すように、研究チームはオンラインでRT-Hの言語行動に介入することで、RT-Hの柔軟性を実証しました。

この研究では、修正の効果を分析するために比較実験も使用しており、その結果は以下の図 6 に示されています。

図 7 に示すように、RT-H と RT-H-Joint はシーンの変化に対して大幅に堅牢です。

実際、一見異なるタスクの間にも共通する構造がいくつかあります。たとえば、これらの各タスクでは、タスクを開始するために何らかの選択動作が必要です。また、異なるタスク間での言語動作の共通構造を学習することで、RT-H は修正なしで選択段階を完了できます。

RT-H が発話動作の予測を一般化できなくなった場合でも、発話動作の修正は一般化されることが多く、タスクを正常に完了するには数回の修正のみが必要でした。これは、言語動作が新しいタスクのデータ収集を拡大する可能性を示唆しています。

興味のある読者は、原著論文を読んで研究内容の詳細を知ることができます。

<<: もはや魅力的ではない Google は次の IBM になるのでしょうか?深刻な高齢化、イノベーションへのサポートの喪失、従業員の信頼の喪失、人材流出

>>: 普及モデルはどのようにして新しい世代の意思決定エージェントを構築するのでしょうか?自己回帰を超えて長いシーケンス計画軌道を生成する