ByteDanceは、ロボットの成功率と操作効果を高めたVi-PRoMビジュアル事前トレーニングソリューションを提案した。

近年、大規模な実世界データを使用した視覚事前トレーニングは大きな進歩を遂げており、ピクセル観察に基づくロボット学習において大きな可能性を示しています。しかし、これらの研究は、事前トレーニングデータ、方法、モデルの点で異なります。したがって、どのような種類のデータ、事前トレーニング方法、モデルがロボットの操作をより効果的に支援できるかは、未解決の問題のままです。

これに基づいて、ByteDance Researchチームの研究者は、事前トレーニングデータセット、モデルアーキテクチャ、トレーニング方法という3つの基本的な観点から、視覚的な事前トレーニング戦略がロボット操作タスクに与える影響を包括的に研究し、ロボットの学習に有益ないくつかの重要な実験結果を提供しました。さらに、彼らは、自己教師あり学習と教師あり学習を組み合わせた、Vi-PRoMと呼ばれるロボット操作のための視覚事前トレーニング方式を提案しました。前者は大規模なラベルなしデータから潜在パターンを抽出するために対照学習を採用し、後者は視覚的意味論と時間的ダイナミクスを学習することを目的としています。さまざまなシミュレーション環境と実際のロボットで実行された多数のロボット操作実験により、提案された方式の優位性が実証されました。

論文アドレス: https://arxiv.org/pdf/2308.03620.pdf
プロジェクトアドレス: https://explore-pretrain-robot.github.io/

ベンチマーク調査

事前トレーニングデータ

EgoNet は ImageNet よりも強力です。対照学習法を使用して、さまざまなデータセット (ImageNet や EgoNet) でビジュアルエンコーダーを事前トレーニングし、ロボット操作タスクでのパフォーマンスを観察します。下の表 1 からわかるように、EgoNet で事前トレーニングされたモデルは、ロボット操作タスクでより優れたパフォーマンスを実現します。明らかに、ロボットは操作タスクに関して、ビデオに含まれるインタラクティブな知識と時間的関係を好みます。さらに、EgoNet の自己中心的な自然画像には、世界についてのよりグローバルなコンテキストが含まれているため、より豊富な視覚的特徴を学習できます。

モデル構造

ResNet-50 のパフォーマンスは優れています。下の表 2 から、ロボット操作タスクでは ResNet-50 と ResNet-101 が ResNet-34 よりも優れたパフォーマンスを発揮していることがわかります。さらに、モデルサイズが ResNet-50 から ResNet-101 に増加してもパフォーマンスは向上しませんでした。

事前トレーニング方法

対照学習は、推奨される事前トレーニング方法です。下の表 3 に示すように、MoCo-v3 は ImageNet と EgoNet の両方のデータセットで MAE よりも優れており、マスク画像モデリングと比較して対照学習の方が効果的であることが証明されています。さらに、対照学習を通じて得られる視覚的意味論は、マスク画像モデリングを通じて学習された構造情報よりもロボット操作にとって重要です。

アルゴリズムの紹介

上記の調査に基づいて、本研究では、ロボット操作の包括的な視覚表現を抽出するために、EgoNet データセットで ResNet-50 を事前トレーニングする、ロボット操作のための視覚事前トレーニングスキーム (Vi-PRoM) を提案します。具体的には、まず対照学習を採用し、EgoNet データセットから自己教師あり方式で人間と物体の相互作用パターンを取得しました。次に、エンコーダーの表現をさらに充実させるために、視覚的意味予測と時間的ダイナミクス予測という 2 つの追加学習目標が提案されています。下の図は、提案された Vi-PRoM の基本的なフローを示しています。注目すべきことに、この研究では、視覚的な意味と時間的ダイナミクスを学習するためにラベルを手動で注釈付けする必要はありません。

実験結果

この研究では、Franka Kitchen と MetaWorld という 2 つのシミュレーション環境で広範な実験を実施します。実験結果は、提案された事前トレーニング方式がロボット操作におけるこれまでの最先端の方法よりも優れていることを示しています。アブレーション実験の結果は次の表に示されており、ロボット操作における視覚的意味学習と時間的動的学習の重要性を証明しています。さらに、両方の学習目標がない場合、Vi-PRoM の成功率は大幅に低下し、視覚的意味学習と時間的ダイナミクス学習の連携の有効性が実証されます。

この研究では、Vi-PRoM のスケーラビリティについても研究しています。下の左の図に示すように、Franka Kitchen および MetaWorld シミュレーション環境では、デモデータのサイズが増加するにつれて、Vi-PRoM の成功率が着実に増加しています。専門家のデモンストレーションの大規模なデータセットでトレーニングした後、Vi-PRoM モデルはロボット操作タスクでのスケーラビリティを示します。

Vi-PRoM の強力な視覚表現機能のおかげで、実際のロボットは引き出しやキャビネットのドアをうまく開けることができます。

Franka Kitchen での実験結果によると、Vi-PRoM は 5 つのタスクすべてにおいて R3M よりも成功率とアクション完了率が高いことがわかりました。

R3M:

Vi-PRoM:

MetaWorld では、Vi-PRoM の視覚表現は優れた意味的および動的特徴を学習するため、アクション予測により効果的に使用でき、Vi-PRoM は R3M と比較して操作を完了するために必要な手順が少なくなります。

R3M:

Vi-PRoM:

<<:

>>: