GPT-4などの大規模言語モデルがロボット研究と統合されるにつれて、人工知能はますます現実世界に進出しており、身体化された知能に関連する研究もますます注目を集めています。多くの研究プロジェクトの中でも、Google の「RT」シリーズのロボットは常に最前線にあります (「ビッグ モデルがロボットの形を変えています。Google Deepmind は具現化された知能の未来をこのように定義しています」を参照)。 RT-2は、Google DeepMindが昨年7月に発表した、ロボットを制御するための世界初の視覚・言語・行動(VLA)モデルである。会話のように指示するだけで、大量の写真の中からテイラー・スウィフトを認識し、コーラの缶を渡すことができます。 今、ロボットはまた進化しました。 RTロボットの最新バージョンは「RT-H」と呼ばれ、複雑なタスクを簡単な言語命令に分解し、その命令をロボットの動作に変換することで、タスク実行の精度と学習効率を向上させることができます。例えば、「ピスタチオの瓶に蓋をする」といったタスクとシーン画像が与えられると、RT-Hは視覚言語モデル(VLM)を使って「腕を前に動かす」「腕を右に回転させる」といった言語動作を予測し、その言語動作に基づいてロボットの行動を予測します。 このアクション階層は、ロボットのタスク完了の精度と学習効率を向上させるのに非常に役立ち、さまざまなロボットタスクにおいて RT-H が RT-2 を上回るパフォーマンスを発揮します。 以下に論文の詳細を記載します。 論文概要
言語は人間の推論の原動力であり、複雑な概念をより単純な要素に分解し、誤解を正し、新しい文脈で概念を一般化することを可能にします。近年、ロボットは言語効率の高いモジュール構造を使用して、高レベルの概念を分解したり、言語の修正を提供したり、新しい環境での一般化を実現したりし始めています。 これらの研究は、一般的に共通のパラダイムに従います。つまり、言語で記述された高レベルのタスク (「コーラの缶を拾う」など) が与えられ、観察と言語でのタスク記述を低レベルのロボット動作にマッピングする戦略を学習します。これには、大規模なマルチタスク データセットの使用が必要です。これらのシナリオにおける言語の利点は、類似のタスク間の共通構造をエンコードすることです(例:「コーラの缶を手に取る」と「リンゴを手に取る」)。これにより、タスクからアクションへのマッピングを学習するために必要なデータが削減されます。しかし、タスクが多様化するにつれて、各タスクを説明する言語も多様化します(例:「コーラの缶を手に取る」と「コップに水を注ぐ」)。そのため、高水準言語のみを使用して異なるタスク間の共通構造を学習することが難しくなります。 多様なタスクを学習するために、研究者はこれらのタスク間の類似点をより正確に捉えることを目指しています。 彼らは、言語は高レベルのタスクを記述できるだけでなく、タスクを完了する方法の詳細な記述、つまり特定のアクションに近いより詳細な表現も提供できることを発見しました。たとえば、「コーラの缶を拾う」というタスクは、一連のより詳細なステップ、つまり「言語動作」に分解できます。最初に「腕を前に伸ばす」、次に「缶をしっかりとつかむ」、最後に「腕を上げる」というステップです。研究者の核となる洞察は、言語アクションを高レベルのタスク記述と低レベルのアクションの間の中間層として使用することで、言語アクションを通じて形成されるアクションの階層を構築できるというものです。 このアクションの階層を確立すると、いくつかの利点があります。
言語アクションの上記の利点を考慮して、Google DeepMind の研究者は、このタイプのアクション階層の学習に重点を置いたエンドツーエンドのフレームワーク RT-H (Robot Transformer with Action Hierarchies) を設計しました。 RT-H は、観察と高レベルのタスクの説明を分析することで現在の言語による運動指示を予測し、詳細なレベルでタスクを実行する方法を理解します。次に、これらの観察、タスク、および推定された言語アクションを使用して、RT-H は各ステップに対応するアクションを予測します。言語アクションはプロセスに追加のコンテキストを提供し、特定のアクションをより正確に予測するのに役立ちます (図 1 の紫色の領域)。 さらに、ロボットの固有受容感覚から簡略化された言語動作のセットを抽出する自動化手法を開発し、手動で注釈を付ける必要なしに 2,500 を超える言語動作の豊富なデータベースを作成しました。 RT-H のモデル アーキテクチャは、ポリシー学習を改善するためにインターネット規模の視覚および言語データでトレーニングされた大規模な視覚言語モデル (VLM) である RT-2 を活用しています。 RT-H は単一のモデルを使用して言語アクションとアクション クエリの両方を処理し、インターネット規模の広範な知識を活用してアクション階層のすべてのレベルをサポートします。 研究者らは実験で、言語アクション階層を使用すると、多様なマルチタスクデータセットを処理する際に大幅な改善がもたらされ、RT-2 と比較してさまざまなタスクでパフォーマンスが 15% 向上することを発見しました。また、発話動作を修正することで同じ課題でほぼ完璧な成功率が得られることも発見し、学習した発話動作の柔軟性と状況適応性が実証されました。さらに、言語行動介入モデルを微調整することで、IWR などの SOTA インタラクティブ模倣学習法よりも 50% 優れたパフォーマンスを発揮します。最後に、RT-H の言語アクションはシーンやオブジェクトの変化に適応しやすく、RT-2 よりも優れた一般化パフォーマンスを発揮できることを実証しました。 RT-Hアーキテクチャの詳細RT-H は、マルチタスク データセット全体で共有される構造 (高レベルのタスク記述では表されない) を効果的にキャプチャするために、アクション レベルのポリシーを明示的に活用することを学習することを目指しています。 具体的には、研究チームはポリシー学習に中間言語アクション予測レイヤーを導入しました。きめ細かいロボットの動作を記述する言語アクションは、マルチタスク データセットから有用な情報を取得し、高性能なポリシーを生成できます。学習したポリシーの実行が困難な場合、言語アクションが再び役立ちます。言語アクションは、特定のシナリオに関連するオンラインの人間による修正のための直感的なインターフェイスを提供します。音声アクションのトレーニングを受けたポリシーは、低レベルの人間による修正に自然に従い、修正データが与えられた場合にタスクを正常に完了できます。さらに、この戦略は言語修正データでトレーニングすることもでき、パフォーマンスをさらに向上させることができます。 図 2 に示すように、RT-H には 2 つの主要な段階があります。まず、タスクの説明と視覚的な観察に基づいて言語アクションを予測し、次に、予測された言語アクション、特定のタスク、および観察に基づいて正確なアクションを推論します。 RT-H は VLM バックボーン ネットワークを使用し、インスタンス化のために RT-2 のトレーニング プロセスに従います。 RT-2 と同様に、RT-H は共同トレーニングを通じてインターネット規模のデータから自然言語と画像処理に関する大量の事前知識を活用します。この事前知識をアクション階層のすべてのレベルに組み込むために、単一のモデルが言語アクションとアクションクエリの両方を同時に学習します。 実験結果RT-H のパフォーマンスを完全に評価するために、研究チームは 4 つの重要な実験上の質問を設定しました。
データセットに関しては、この研究では、ランダムなオブジェクトのポーズと背景を持つ 100,000 個のデモンストレーション サンプルを含む大規模なマルチタスク データセットを使用しました。このデータセットは次のデータセットを組み合わせたものです。
この研究では、この結合データセットを Diverse+Kitchen (D+K) データセットと呼び、自動化された手順を使用してその言語アクションにラベルを付けています。完全な Diverse+Kitchen データセットでトレーニングされた RT-H のパフォーマンスを評価するために、次の 8 つの特定のタスクが評価されました。 1) ボウルをカウンターの上に立てて置きます 2) ピスタチオの缶を開ける 3) ピスタチオの瓶を閉める 4) ボウルをシリアルディスペンサーから離す 5) ボウルをシリアルディスペンサーの下に置く 6) ボウルにオートミールを入れる 7) バスケットからスプーンを取り出す 8) ディスペンサーからナプキンを引き出します これら 8 つのタスクは、複雑なアクション シーケンスと高い精度が求められるため選択されました。 次の表は、Diverse+Kitchen データセットまたは Kitchen データセットでトレーニングする場合の RT-H、RT-H-Joint、および RT-2 トレーニング チェックポイントの最小 MSE を示しています。 RT-H の MSE は RT-2 よりも約 20% 低く、RTH-Joint の MSE は RT-2 よりも 5~10% 低く、これはアクション階層が大規模なマルチタスク データセットでのオフライン アクション予測の改善に役立つことを示しています。 RT-H (GT) はグラウンド トゥルース MSE メトリックを使用しており、エンドツーエンド MSE とのギャップは 40% です。これは、正しくラベル付けされた言語アクションがアクションを予測するための情報価値が高いことを示しています。 図4は、RT-Hのオンライン評価から得られたコンテキストアクションのいくつかの例を示しています。同じ言語行為でも、より高次の言語行為を尊重しながら、タスクを達成する行為に微妙な変化が生じることがよくあることがわかります。 図5に示すように、研究チームはオンラインでRT-Hの言語行動に介入することで、RT-Hの柔軟性を実証しました。 この研究では、修正の効果を分析するために比較実験も使用しており、その結果は以下の図 6 に示されています。 図 7 に示すように、RT-H と RT-H-Joint はシーンの変化に対して大幅に堅牢です。 実際、一見異なるタスクの間にも共通する構造がいくつかあります。たとえば、これらの各タスクでは、タスクを開始するために何らかの選択動作が必要です。また、異なるタスク間での言語動作の共通構造を学習することで、RT-H は修正なしで選択段階を完了できます。 RT-H が発話動作の予測を一般化できなくなった場合でも、発話動作の修正は一般化されることが多く、タスクを正常に完了するには数回の修正のみが必要でした。これは、言語動作が新しいタスクのデータ収集を拡大する可能性を示唆しています。 興味のある読者は、原著論文を読んで研究内容の詳細を知ることができます。 |
<<: もはや魅力的ではない Google は次の IBM になるのでしょうか?深刻な高齢化、イノベーションへのサポートの喪失、従業員の信頼の喪失、人材流出
>>: 普及モデルはどのようにして新しい世代の意思決定エージェントを構築するのでしょうか?自己回帰を超えて長いシーケンス計画軌道を生成する
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
オフィスワーカーにとって、大都市では 2 種類の交通手段があります。 彼らは日中は仕事に行くことも、...
2年前、アンディ・ラウとジン・ボーランが主演した映画「恋の迷宮」は、数え切れないほどのファンを映画...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
サイバーパンク映画では、次のようなアイデアがよく見られます。社会は財閥グループによって支配され、人工...
今年の「テクノロジー スプリング フェスティバル ガラ」CES で最も注目を集めたものは何かと聞かれ...
生成型人工知能 (GenAI) ツールから AIOps の採用まで、AI の未来がどうなるかをご紹介...
人工知能革命の到来は、IBMの先駆的な研究者アーサー・サミュエルが世界初のコンピューターにチェッカー...
6月14日、マイクロソフトの研究者らは、主に生物医学研究に使用され、CTやX線画像に基づいて患者の病...
[[425033]]私たちはしばらくの間、展開モデルの最適化に取り組んできました。ここ数日でようやく...
今年も終わりですね! 2021年が近づいてきました。今年は流行が落ち着いてきましたが、AIの発展は止...
3Dバイオプリンティング技術は、3Dプリンターを使用して細胞や生物学的材料を含む「インク」を特定の形...
Project Brainwave は、主にリアルタイムの人工知能アプリケーションを対象とした Mi...