ByteDanceは、ロボットの成功率と操作効果を高めたVi-PRoMビジュアル事前トレーニングソリューションを提案した。

ByteDanceは、ロボットの成功率と操作効果を高めたVi-PRoMビジュアル事前トレーニングソリューションを提案した。

近年、大規模な実世界データを使用した視覚事前トレーニングは大きな進歩を遂げており、ピクセル観察に基づくロボット学習において大きな可能性を示しています。しかし、これらの研究は、事前トレーニングデータ、方法、モデルの点で異なります。したがって、どのような種類のデータ、事前トレーニング方法、モデルがロボットの操作をより効果的に支援できるかは、未解決の問題のままです。

これに基づいて、ByteDance Researchチームの研究者は、事前トレーニングデータセット、モデルアーキテクチャ、トレーニング方法という3つの基本的な観点から、視覚的な事前トレーニング戦略がロボット操作タスクに与える影響を包括的に研究し、ロボットの学習に有益ないくつかの重要な実験結果を提供しました。さらに、彼らは、自己教師あり学習と教師あり学習を組み合わせた、Vi-PRoMと呼ばれるロボット操作のための視覚事前トレーニング方式を提案しました。前者は大規模なラベルなしデータから潜在パターンを抽出するために対照学習を採用し、後者は視覚的意味論と時間的ダイナミクスを学習することを目的としています。さまざまなシミュレーション環境と実際のロボットで実行された多数のロボット操作実験により、提案された方式の優位性が実証されました。

  • 論文アドレス: https://arxiv.org/pdf/2308.03620.pdf
  • プロジェクトアドレス: https://explore-pretrain-robot.github.io/

ベンチマーク調査

事前トレーニングデータ

EgoNet は ImageNet よりも強力です。対照学習法を使用して、さまざまなデータセット (ImageNet や EgoNet) でビジュアル エンコーダーを事前トレーニングし、ロボット操作タスクでのパフォーマンスを観察します。下の表 1 からわかるように、EgoNet で事前トレーニングされたモデルは、ロボット操作タスクでより優れたパフォーマンスを実現します。明らかに、ロボットは操作タスクに関して、ビデオに含まれるインタラクティブな知識と時間的関係を好みます。さらに、EgoNet の自己中心的な自然画像には、世界についてのよりグローバルなコンテキストが含まれているため、より豊富な視覚的特徴を学習できます。

モデル構造

ResNet-50 のパフォーマンスは優れています。下の表 2 から、ロボット操作タスクでは ResNet-50 と ResNet-101 が ResNet-34 よりも優れたパフォーマンスを発揮していることがわかります。さらに、モデル サイズが ResNet-50 から ResNet-101 に増加してもパフォーマンスは向上しませんでした。

事前トレーニング方法

対照学習は、推奨される事前トレーニング方法です。下の表 3 に示すように、MoCo-v3 は ImageNet と EgoNet の両方のデータセットで MAE よりも優れており、マスク画像モデリングと比較して対照学習の方が効果的であることが証明されています。さらに、対照学習を通じて得られる視覚的意味論は、マスク画像モデリングを通じて学習された構造情報よりもロボット操作にとって重要です。

アルゴリズムの紹介

上記の調査に基づいて、本研究では、ロボット操作の包括的な視覚表現を抽出するために、EgoNet データセットで ResNet-50 を事前トレーニングする、ロボット操作のための視覚事前トレーニング スキーム (Vi-PRoM) を提案します。具体的には、まず対照学習を採用し、EgoNet データセットから自己教師あり方式で人間と物体の相互作用パターンを取得しました。次に、エンコーダーの表現をさらに充実させるために、視覚的意味予測と時間的ダイナミクス予測という 2 つの追加学習目標が提案されています。下の図は、提案された Vi-PRoM の基本的なフローを示しています。注目すべきことに、この研究では、視覚的な意味と時間的ダイナミクスを学習するためにラベルを手動で注釈付けする必要はありません。

実験結果

この研究では、Franka Kitchen と MetaWorld という 2 つのシミュレーション環境で広範な実験を実施します。実験結果は、提案された事前トレーニング方式がロボット操作におけるこれまでの最先端の方法よりも優れていることを示しています。アブレーション実験の結果は次の表に示されており、ロボット操作における視覚的意味学習と時間的動的学習の重要性を証明しています。さらに、両方の学習目標がない場合、Vi-PRoM の成功率は大幅に低下し、視覚的意味学習と時間的ダイナミクス学習の連携の有効性が実証されます。

この研究では、Vi-PRoM のスケーラビリティについても研究しています。下の左の図に示すように、Franka Kitchen および MetaWorld シミュレーション環境では、デモ データのサイズが増加するにつれて、Vi-PRoM の成功率が着実に増加しています。専門家のデモンストレーションの大規模なデータセットでトレーニングした後、Vi-PRoM モデルはロボット操作タスクでのスケーラビリティを示します。


Vi-PRoM の強力な視覚表現機能のおかげで、実際のロボットは引き出しやキャビネットのドアをうまく​​開けることができます。

Franka Kitchen での実験結果によると、Vi-PRoM は 5 つのタスクすべてにおいて R3M よりも成功率とアクション完了率が高いことがわかりました。

R3M:


Vi-PRoM:

MetaWorld では、Vi-PRoM の視覚表現は優れた意味的および動的特徴を学習するため、アクション予測により効果的に使用でき、Vi-PRoM は R3M と比較して操作を完了するために必要な手順が少なくなります。

R3M:

Vi-PRoM:

<<: 

>>: 

ブログ    

推薦する

次世代のインターネット技術 - ディープラーニング

[[384617]]過去 20 年間がインターネットの急速な発展の 20 年間であったとすれば、次の...

データセンター: ジェネレーティブ AI 経済の推進

しかし、こうした大騒ぎのなか、生成 AI の可能性を最大限に引き出すために必要なインフラストラクチャ...

AGI は 1 年以内に登場しますが、人類には 5 年しかありませんか?

OpenAIは今年初めにSoraを発表し、世界中に衝撃を与えた。数年前まではまだ、この大柄なモデル...

...

Llama-2+Mistral+MPT=? 複数の異種大規模モデルの融合が驚くべき結果を示す

LLaMA や Mistral などの大規模言語モデルの成功により、大手企業やスタートアップ企業は独...

Googleトレンドから、主要なディープラーニングフレームワークの人気がわかる

ディープラーニングはコンピュータービジョンや自然言語処理などの分野でますます大きな成果を上げており、...

...

人工知能から新素材まで、IBMが5つの革新的な技術を発表

[原文は51CTO.comより] 2019年のIBM中国フォーラム(シンクサミット)で、IBMは各分...

人工知能はますます私たちに近づいている

科学者たちは、歌詞付きの歌を聞くと読書の妨げになりやすいのと同じように、音声信号とテキスト信号が脳に...

...

9つの主要テーマ!機械学習アルゴリズム理論に関する面接の質問の要約

[[342976]]機械学習は、強力な理論的側面と実践的側面を備えた技術分野です。機械学習関連の仕事...

...

...

Kafka のバイナリ検索アルゴリズムの改善

[[356205]]私は最近、Kafak のソース コードをいくつか研究し、Kafak の改良された...

Salesforce が AI 人材を見つけ、スキルを向上させる方法

[[415289]] AI、機械学習、データサイエンスに関連するスキルの需要は依然として高く、企業は...