ByteDance の新しい具現化された知能の成果: 大規模なビデオデータでトレーニングされた GR-1 は、複雑なタスクを簡単に処理します

ByteDance の新しい具現化された知能の成果: 大規模なビデオデータでトレーニングされた GR-1 は、複雑なタスクを簡単に処理します

最近、GPT モデルは NLP の分野で大きな成功を収めています。 GPT モデルは、まず大規模なデータで事前トレーニングされ、その後、特定の下流タスクのデータで微調整されます。大規模な事前トレーニングにより、モデルは一般化可能な機能を学習し、下流のタスクに簡単に転送できるようになります。

しかし、自然言語データと比較すると、ロボットデータは非常に不足しています。さらに、ロボット データには、画像、言語、ロボットの状態、ロボットの動作など、複数のモダリティが含まれます。これらの困難を克服するために、過去の研究では、対照学習[1]とマスクモデリング[2]を使用して事前トレーニングを実行し、ロボットの学習を向上させる試みがなされてきました。

最新の研究では、ByteDance ResearchチームがGR-1を提案し、大規模なビデオ生成事前トレーニングにより、エンドツーエンドのマルチタスク操作におけるロボットのパフォーマンスと一般化能力が大幅に向上することを初めて実証しました。実験により、この事前トレーニング方法によりモデルのパフォーマンスが大幅に向上することが示されました。非常に困難な CALVIN ロボット操作シミュレーション データセットにおいて、GR-1 は 1) マルチタスク学習、2) ゼロショット シーン転送、3) 少量データ、4) ゼロショット言語命令転送で SOTA 結果を達成しました。実際のマシンでは、ビデオで事前トレーニングされた GR-1 は、目に見えないシーンやオブジェクトでも既存の方法を大幅に上回ります。

GR-1 CALVINで複数のミッションを連続して完了する

GR-1は実機上で複数のタスクをエンドツーエンドで完了します


  • 論文アドレス: https://arxiv.org/abs/2312.13139
  • 論文ウェブサイト: https://gr1-manipulation.github.io

方法

GR-1 は、モデル アーキテクチャとして GPT スタイルのトランスフォーマーを使用するエンドツーエンドのロボット操作モデルです。 GR-1 はまず、大規模なビデオ データでビデオ予測を事前トレーニングします。事前トレーニング後、GR-1 はロボット データに基づいて微調整されました。微調整のためのトレーニング タスクには、将来のフレームの予測とロボットの動作の予測が含まれます。

GR-1はビデオ生成の事前トレーニングにEgo4D [3]データから8Mの画像を使用します。事前トレーニング段階では、GR-1 への入力にはビデオ クリップとビデオを説明するテキストが含まれます。テキスト情報はCLIP[4]テキストエンコーダを使用してエンコードされます。ビデオ内の画像はMAE [5]を使用してエンコードされ、その後、トークンの数を減らすためにPerciever Resampler [6]に渡されます。出力側GR-1はタイムスタンプごとに[OBS]トークンを学習して未来のフレームの画像を出力します。 [OBS] 対応する出力はトランスフォーマーを介して画像にデコードされます。事前トレーニング段階では、GR-1 は平均二乗誤差 (MSE) 損失関数を使用します。

ロボットデータの微調整フェーズでは、GR-1 の入力にはタスク言語の指示、ロボットの状態、観察画像が含まれます。ロボット状態には、6次元のロボット姿勢とグリッパーの開閉状態が含まれます。ロボットの状態は MLP を介してエンコードされます。出力には、将来のフレームの画像とロボットのアクションが含まれます。言語と画像は、事前トレーニング段階と同じ方法でエンコードされます。出力 GR-1 は、[ACT] トークンを学習して、次のタイムスタンプ ロボットのアクションを予測します。ロボット動作の損失関数は滑らかな L1 損失を使用し、グリップ動作の損失関数はバイナリクロスエントロピー損失を使用します。

実験

著者らは、GR-1 の性能を検証するために、CALVIN シミュレーション プラットフォーム上で多数の実験を実施しました。 CALVIN は、挑戦的なロボットのマルチタスク操作シミュレーション プラットフォームです。言語指示と 4 つの異なる環境 (A、B、C、D) による 34 の操作タスクが含まれます。

ABCD->D 実験では、ロボットは A、B、C、D の 4 つの環境のデータでトレーニングされ、D でテストされます。 ABC->D 実験では、ロボットは A、B、C の 3 つの環境のデータでトレーニングされ、D でテストされます。この実験は、GR-1 がゼロショット シナリオの移行に対処する能力をテストすることを目的としています。テスト中、ロボットは 5 つのタスクを連続して完了する必要があります。この表は、1、2、3、4、5 つのタスクを連続して完了する際のさまざまな方法の成功率と、完了したタスクの平均数を示しています。 GR-1 は両方の実験で既存の方法よりも優れており、ゼロショットのシーン転送では大幅にリードしています。

この研究では、データが比較的少ない場合の GR-1 のパフォーマンスを理解するために、小規模なデータセットでの実験も実施しました。 10% データの実験では、著者らは 34 のタスクごとにトレーニング軌跡の数を 66 に制限しました。軌跡の総数は、ABCD->D 実験の約 10% です。 GR-1 の未知の言語への対応能力をテストするために、著者らは GPT-4 を使用して、テスト用の各タスクに対して 50 個の新しい未知の言語指示を生成しました。 GR-1 は、小規模なデータセットと言語指示が不明な設定の両方で既存の方法よりも優れています。

GR-1 実機実験では、次の図に示すように、物体の移動と引き出しの開閉を行います。

移動物体実験の指示は、物体をプレート/テーブル上に移動させることでした。トレーニング データには、ナス、ブロッコリー、ピーマンの移動が含まれています (上の画像の左端に表示)。著者らは、トレーニング データに表示されるオブジェクトに対して最初に実験を行います。この設定で、著者らは気を散らすもの背景の変化を加えた実験も行いました。

著者らは、トレーニング データには含まれていないオブジェクトについても実験しました。見えないオブジェクトには、見えないオブジェクトのインスタンス(トレーニング データに表示されていないナス、ブロッコリー、ピーマンのセット) と見えないオブジェクトのカテゴリ(トマトと黄桃) が含まれます。

以下は引き出しを開けたり閉めたりする実験です。

下の表に示すように、GR-1 は実デバイス実験において既存の方法よりも大幅に優れています。

アブレーション実験では、著者らは、将来のフレーム予測を削除した場合と、将来のフレーム予測を保持しながら事前トレーニング済みモデルを削除した場合のモデルの機能を比較しました。結果は、将来のフレームの予測と事前トレーニングの両方が、GR-1 が堅牢なロボット操作を学習できるようにする上で重要な役割を果たすことを示しています。アクションを予測する際に将来のフレームの予測を含めると、GR-1 は言語の指示に基づいて将来のシーンの変化を予測する能力を学習できるようになります。この機能はまさにロボット操作に必要な機能です。人間の言語指示に基づいてシーン内のアプリケーションの変化を予測することで、ロボットの動作の生成を導くことができます。大規模なビデオデータによる事前トレーニングにより、GR-1 は将来を予測するための堅牢で一般化可能な機能を学習できるようになります。

結論は

GR-1 は、大規模なビデオ生成事前トレーニングがロボットの複雑なマルチタスク操作の学習に役立つことを初めて実証しました。 GR-1 は、まず大規模なビデオ データで事前トレーニングされ、その後ロボット データで微調整されます。 GR-1 は、シミュレーション環境と実機実験の両方で SOTA 結果を達成し、非常に困難なゼロショット転送において堅牢なパフォーマンスを実証しました。

<<:  清華大学は、2D拡散モデルを使用して不完全な3Dオブジェクトを補完する3D再構築の新しい方法、O²-Reconを提案しました。

>>:  Pika 1.0 はアニメーション業界に完全な革命をもたらします!ドリームワークスの創設者は、3年後にはアニメーションのコストが10分の1に下がると予測

ブログ    
ブログ    

推薦する

...

ICML 2022の審査結果は「包囲」された、ヤン・ルカン:3つの論文を提出したが、3つとも却下された

ちょうど今、チューリング賞受賞者のヤン・ルカン氏がツイッターにメッセージを投稿した。「3本の論文を提...

...

1 つの記事で理解する: 「コンピューター ビジョン」とは一体何でしょうか?

[[183558]]誰かがあなたにボールを投げてきたら、どうしますか? もちろん、すぐにキャッチす...

人工知能の時代にITキャリアを築く方法

人工知能(AI)技術がより高度になるにつれ、ITプロフェッショナルは将来、AIに対して優位に立つため...

Java プログラミング スキル - データ構造とアルゴリズム「バランス バイナリ ツリー」

[[390860]]バイナリソートツリーで起こりうる問題シーケンス {1,2,3,4,5,6} が...

研究:ChatGPTが提供するがん治療オプションには誤った情報が満載

8月27日、OpenAIのチャットボットChatGPTは世界中で人気となっているものの、重要な分野...

運輸省:2025年までに自動運転技術の産業化を推進

道路交通自動運転技術の開発と応用の促進に関する運輸省の指導意見:道路交通の自動運転技術の開発と応用を...

...

...

自動運転HMI設計のポイントは何ですか?

ヒューマンマシンインターフェースがなければ、ドライバーは自動運転車 (AV) と通信できません。さら...

...

複数の負荷分散アルゴリズムとそのJavaコード実装

まず、負荷分散とは何かを紹介します(百科事典より)負荷分散は既存のネットワーク構造に基づいて構築され...