近年、大規模な実世界データを使用した視覚事前トレーニングは大きな進歩を遂げており、ピクセル観察に基づくロボット学習において大きな可能性を示しています。しかし、これらの研究は、事前トレーニングデータ、方法、モデルの点で異なります。したがって、どのような種類のデータ、事前トレーニング方法、モデルがロボットの操作をより効果的に支援できるかは、未解決の問題のままです。 これに基づいて、ByteDance Researchチームの研究者は、事前トレーニングデータセット、モデルアーキテクチャ、トレーニング方法という3つの基本的な観点から、視覚的な事前トレーニング戦略がロボット操作タスクに与える影響を包括的に研究し、ロボットの学習に有益ないくつかの重要な実験結果を提供しました。さらに、彼らは、自己教師あり学習と教師あり学習を組み合わせた、Vi-PRoMと呼ばれるロボット操作のための視覚事前トレーニング方式を提案しました。前者は大規模なラベルなしデータから潜在パターンを抽出するために対照学習を採用し、後者は視覚的意味論と時間的ダイナミクスを学習することを目的としています。さまざまなシミュレーション環境と実際のロボットで実行された多数のロボット操作実験により、提案された方式の優位性が実証されました。
ベンチマーク調査事前トレーニングデータ EgoNet は ImageNet よりも強力です。対照学習法を使用して、さまざまなデータセット (ImageNet や EgoNet) でビジュアル エンコーダーを事前トレーニングし、ロボット操作タスクでのパフォーマンスを観察します。下の表 1 からわかるように、EgoNet で事前トレーニングされたモデルは、ロボット操作タスクでより優れたパフォーマンスを実現します。明らかに、ロボットは操作タスクに関して、ビデオに含まれるインタラクティブな知識と時間的関係を好みます。さらに、EgoNet の自己中心的な自然画像には、世界についてのよりグローバルなコンテキストが含まれているため、より豊富な視覚的特徴を学習できます。 モデル構造 ResNet-50 のパフォーマンスは優れています。下の表 2 から、ロボット操作タスクでは ResNet-50 と ResNet-101 が ResNet-34 よりも優れたパフォーマンスを発揮していることがわかります。さらに、モデル サイズが ResNet-50 から ResNet-101 に増加してもパフォーマンスは向上しませんでした。 事前トレーニング方法 対照学習は、推奨される事前トレーニング方法です。下の表 3 に示すように、MoCo-v3 は ImageNet と EgoNet の両方のデータセットで MAE よりも優れており、マスク画像モデリングと比較して対照学習の方が効果的であることが証明されています。さらに、対照学習を通じて得られる視覚的意味論は、マスク画像モデリングを通じて学習された構造情報よりもロボット操作にとって重要です。 アルゴリズムの紹介上記の調査に基づいて、本研究では、ロボット操作の包括的な視覚表現を抽出するために、EgoNet データセットで ResNet-50 を事前トレーニングする、ロボット操作のための視覚事前トレーニング スキーム (Vi-PRoM) を提案します。具体的には、まず対照学習を採用し、EgoNet データセットから自己教師あり方式で人間と物体の相互作用パターンを取得しました。次に、エンコーダーの表現をさらに充実させるために、視覚的意味予測と時間的ダイナミクス予測という 2 つの追加学習目標が提案されています。下の図は、提案された Vi-PRoM の基本的なフローを示しています。注目すべきことに、この研究では、視覚的な意味と時間的ダイナミクスを学習するためにラベルを手動で注釈付けする必要はありません。 実験結果この研究では、Franka Kitchen と MetaWorld という 2 つのシミュレーション環境で広範な実験を実施します。実験結果は、提案された事前トレーニング方式がロボット操作におけるこれまでの最先端の方法よりも優れていることを示しています。アブレーション実験の結果は次の表に示されており、ロボット操作における視覚的意味学習と時間的動的学習の重要性を証明しています。さらに、両方の学習目標がない場合、Vi-PRoM の成功率は大幅に低下し、視覚的意味学習と時間的ダイナミクス学習の連携の有効性が実証されます。 この研究では、Vi-PRoM のスケーラビリティについても研究しています。下の左の図に示すように、Franka Kitchen および MetaWorld シミュレーション環境では、デモ データのサイズが増加するにつれて、Vi-PRoM の成功率が着実に増加しています。専門家のデモンストレーションの大規模なデータセットでトレーニングした後、Vi-PRoM モデルはロボット操作タスクでのスケーラビリティを示します。 Vi-PRoM の強力な視覚表現機能のおかげで、実際のロボットは引き出しやキャビネットのドアをうまく開けることができます。 Franka Kitchen での実験結果によると、Vi-PRoM は 5 つのタスクすべてにおいて R3M よりも成功率とアクション完了率が高いことがわかりました。 R3M: Vi-PRoM: MetaWorld では、Vi-PRoM の視覚表現は優れた意味的および動的特徴を学習するため、アクション予測により効果的に使用でき、Vi-PRoM は R3M と比較して操作を完了するために必要な手順が少なくなります。 R3M: Vi-PRoM: |
Google LLC のクラウド コンピューティング部門は本日、オープンソースの人工知能モデルを共有...
半導体メーカーのインテルは本日第3四半期の業績を発表し、同社の株価は時間外取引で約8%上昇した。一方...
ビッグデータと人工知能は今年最もホットな話題であり、特に司法分野ではホットです。ビッグデータ時代の司...
ついに、GPT-4V がコンピューターを自動的に操作することを学習する日が来ました。マウスとキーボー...
創造性は、芸術、文学、科学、技術など、斬新で価値があり、意義のある作品を生み出すことを可能にする人間...
人工知能 (AI) には、問題を理解し解決する神秘的な力があると考える人もいます。人工知能は人々の日...
機械学習やデータサイエンスの分野で仕事を得るために、開発者はどのプログラミング言語を学ぶべきでしょう...
人工知能と機械学習 (ML) の採用が増加するにつれて、計算目的でアルゴリズムの形で大量のデータを処...
この記事は公開アカウント「Reading Core Technique」(ID: AI_Discov...
海外メディアの報道によると、欧州委員会は最近、企業がEUの規則に違反し、禁止されている人工知能アプリ...
過去2年間、「百機種戦争」は中国で人気の技術トピックになりました。 2020年以降、中国は大型モデル...
Facebookとカーネギーメロン大学は、AIを使って新たな「電気触媒」を見つけようとしていると発表...
「こんにちは、泰達街人口調査事務所です。」現在、第7回全国人口調査が盛んに行われている。天津浜海新...