ByteDance の新しい具現化された知能の成果: 大規模なビデオデータでトレーニングされた GR-1 は、複雑なタスクを簡単に処理します

最近、GPT モデルは NLP の分野で大きな成功を収めています。 GPT モデルは、まず大規模なデータで事前トレーニングされ、その後、特定の下流タスクのデータで微調整されます。大規模な事前トレーニングにより、モデルは一般化可能な機能を学習し、下流のタスクに簡単に転送できるようになります。

しかし、自然言語データと比較すると、ロボットデータは非常に不足しています。さらに、ロボットデータには、画像、言語、ロボットの状態、ロボットの動作など、複数のモダリティが含まれます。これらの困難を克服するために、過去の研究では、対照学習[1]とマスクモデリング[2]を使用して事前トレーニングを実行し、ロボットの学習を向上させる試みがなされてきました。

最新の研究では、ByteDance ResearchチームがGR-1を提案し、大規模なビデオ生成事前トレーニングにより、エンドツーエンドのマルチタスク操作におけるロボットのパフォーマンスと一般化能力が大幅に向上することを初めて実証しました。実験により、この事前トレーニング方法によりモデルのパフォーマンスが大幅に向上することが示されました。非常に困難な CALVIN ロボット操作シミュレーションデータセットにおいて、GR-1 は 1) マルチタスク学習、2) ゼロショットシーン転送、3) 少量データ、4) ゼロショット言語命令転送で SOTA 結果を達成しました。実際のマシンでは、ビデオで事前トレーニングされた GR-1 は、目に見えないシーンやオブジェクトでも既存の方法を大幅に上回ります。

GR-1 CALVINで複数のミッションを連続して完了する

GR-1は実機上で複数のタスクをエンドツーエンドで完了します

論文アドレス: https://arxiv.org/abs/2312.13139
論文ウェブサイト: https://gr1-manipulation.github.io

方法

GR-1 は、モデルアーキテクチャとして GPT スタイルのトランスフォーマーを使用するエンドツーエンドのロボット操作モデルです。 GR-1 はまず、大規模なビデオデータでビデオ予測を事前トレーニングします。事前トレーニング後、GR-1 はロボットデータに基づいて微調整されました。微調整のためのトレーニングタスクには、将来のフレームの予測とロボットの動作の予測が含まれます。

GR-1はビデオ生成の事前トレーニングにEgo4D [3]データから8Mの画像を使用します。事前トレーニング段階では、GR-1 への入力にはビデオクリップとビデオを説明するテキストが含まれます。テキスト情報はCLIP[4]テキストエンコーダを使用してエンコードされます。ビデオ内の画像はMAE [5]を使用してエンコードされ、その後、トークンの数を減らすためにPerciever Resampler [6]に渡されます。出力側GR-1はタイムスタンプごとに[OBS]トークンを学習して未来のフレームの画像を出力します。 [OBS] 対応する出力はトランスフォーマーを介して画像にデコードされます。事前トレーニング段階では、GR-1 は平均二乗誤差 (MSE) 損失関数を使用します。

ロボットデータの微調整フェーズでは、GR-1 の入力にはタスク言語の指示、ロボットの状態、観察画像が含まれます。ロボット状態には、6次元のロボット姿勢とグリッパーの開閉状態が含まれます。ロボットの状態は MLP を介してエンコードされます。出力には、将来のフレームの画像とロボットのアクションが含まれます。言語と画像は、事前トレーニング段階と同じ方法でエンコードされます。出力 GR-1 は、[ACT] トークンを学習して、次のタイムスタンプロボットのアクションを予測します。ロボット動作の損失関数は滑らかな L1 損失を使用し、グリップ動作の損失関数はバイナリクロスエントロピー損失を使用します。

実験

著者らは、GR-1 の性能を検証するために、CALVIN シミュレーションプラットフォーム上で多数の実験を実施しました。 CALVIN は、挑戦的なロボットのマルチタスク操作シミュレーションプラットフォームです。言語指示と 4 つの異なる環境 (A、B、C、D) による 34 の操作タスクが含まれます。

ABCD->D 実験では、ロボットは A、B、C、D の 4 つの環境のデータでトレーニングされ、D でテストされます。 ABC->D 実験では、ロボットは A、B、C の 3 つの環境のデータでトレーニングされ、D でテストされます。この実験は、GR-1 がゼロショットシナリオの移行に対処する能力をテストすることを目的としています。テスト中、ロボットは 5 つのタスクを連続して完了する必要があります。この表は、1、2、3、4、5 つのタスクを連続して完了する際のさまざまな方法の成功率と、完了したタスクの平均数を示しています。 GR-1 は両方の実験で既存の方法よりも優れており、ゼロショットのシーン転送では大幅にリードしています。

この研究では、データが比較的少ない場合の GR-1 のパフォーマンスを理解するために、小規模なデータセットでの実験も実施しました。 10% データの実験では、著者らは 34 のタスクごとにトレーニング軌跡の数を 66 に制限しました。軌跡の総数は、ABCD->D 実験の約 10% です。 GR-1 の未知の言語への対応能力をテストするために、著者らは GPT-4 を使用して、テスト用の各タスクに対して 50 個の新しい未知の言語指示を生成しました。 GR-1 は、小規模なデータセットと言語指示が不明な設定の両方で既存の方法よりも優れています。

GR-1 実機実験では、次の図に示すように、物体の移動と引き出しの開閉を行います。

移動物体実験の指示は、物体をプレート/テーブル上に移動させることでした。トレーニングデータには、ナス、ブロッコリー、ピーマンの移動が含まれています (上の画像の左端に表示)。著者らは、トレーニングデータに表示されるオブジェクトに対して最初に実験を行います。この設定で、著者らは気を散らすものや背景の変化を加えた実験も行いました。

著者らは、トレーニングデータには含まれていないオブジェクトについても実験しました。見えないオブジェクトには、見えないオブジェクトのインスタンス(トレーニングデータに表示されていないナス、ブロッコリー、ピーマンのセット) と見えないオブジェクトのカテゴリ(トマトと黄桃) が含まれます。

以下は引き出しを開けたり閉めたりする実験です。

下の表に示すように、GR-1 は実デバイス実験において既存の方法よりも大幅に優れています。

アブレーション実験では、著者らは、将来のフレーム予測を削除した場合と、将来のフレーム予測を保持しながら事前トレーニング済みモデルを削除した場合のモデルの機能を比較しました。結果は、将来のフレームの予測と事前トレーニングの両方が、GR-1 が堅牢なロボット操作を学習できるようにする上で重要な役割を果たすことを示しています。アクションを予測する際に将来のフレームの予測を含めると、GR-1 は言語の指示に基づいて将来のシーンの変化を予測する能力を学習できるようになります。この機能はまさにロボット操作に必要な機能です。人間の言語指示に基づいてシーン内のアプリケーションの変化を予測することで、ロボットの動作の生成を導くことができます。大規模なビデオデータによる事前トレーニングにより、GR-1 は将来を予測するための堅牢で一般化可能な機能を学習できるようになります。

結論は

GR-1 は、大規模なビデオ生成事前トレーニングがロボットの複雑なマルチタスク操作の学習に役立つことを初めて実証しました。 GR-1 は、まず大規模なビデオデータで事前トレーニングされ、その後ロボットデータで微調整されます。 GR-1 は、シミュレーション環境と実機実験の両方で SOTA 結果を達成し、非常に困難なゼロショット転送において堅牢なパフォーマンスを実証しました。

<<: 清華大学は、2D拡散モデルを使用して不完全な3Dオブジェクトを補完する3D再構築の新しい方法、O²-Reconを提案しました。

>>: Pika 1.0 はアニメーション業界に完全な革命をもたらします!ドリームワークスの創設者は、3年後にはアニメーションのコストが10分の1に下がると予測