ByteDance の新しい具現化された知能の成果: 大規模なビデオデータでトレーニングされた GR-1 は、複雑なタスクを簡単に処理します

ByteDance の新しい具現化された知能の成果: 大規模なビデオデータでトレーニングされた GR-1 は、複雑なタスクを簡単に処理します

最近、GPT モデルは NLP の分野で大きな成功を収めています。 GPT モデルは、まず大規模なデータで事前トレーニングされ、その後、特定の下流タスクのデータで微調整されます。大規模な事前トレーニングにより、モデルは一般化可能な機能を学習し、下流のタスクに簡単に転送できるようになります。

しかし、自然言語データと比較すると、ロボットデータは非常に不足しています。さらに、ロボット データには、画像、言語、ロボットの状態、ロボットの動作など、複数のモダリティが含まれます。これらの困難を克服するために、過去の研究では、対照学習[1]とマスクモデリング[2]を使用して事前トレーニングを実行し、ロボットの学習を向上させる試みがなされてきました。

最新の研究では、ByteDance ResearchチームがGR-1を提案し、大規模なビデオ生成事前トレーニングにより、エンドツーエンドのマルチタスク操作におけるロボットのパフォーマンスと一般化能力が大幅に向上することを初めて実証しました。実験により、この事前トレーニング方法によりモデルのパフォーマンスが大幅に向上することが示されました。非常に困難な CALVIN ロボット操作シミュレーション データセットにおいて、GR-1 は 1) マルチタスク学習、2) ゼロショット シーン転送、3) 少量データ、4) ゼロショット言語命令転送で SOTA 結果を達成しました。実際のマシンでは、ビデオで事前トレーニングされた GR-1 は、目に見えないシーンやオブジェクトでも既存の方法を大幅に上回ります。

GR-1 CALVINで複数のミッションを連続して完了する

GR-1は実機上で複数のタスクをエンドツーエンドで完了します


  • 論文アドレス: https://arxiv.org/abs/2312.13139
  • 論文ウェブサイト: https://gr1-manipulation.github.io

方法

GR-1 は、モデル アーキテクチャとして GPT スタイルのトランスフォーマーを使用するエンドツーエンドのロボット操作モデルです。 GR-1 はまず、大規模なビデオ データでビデオ予測を事前トレーニングします。事前トレーニング後、GR-1 はロボット データに基づいて微調整されました。微調整のためのトレーニング タスクには、将来のフレームの予測とロボットの動作の予測が含まれます。

GR-1はビデオ生成の事前トレーニングにEgo4D [3]データから8Mの画像を使用します。事前トレーニング段階では、GR-1 への入力にはビデオ クリップとビデオを説明するテキストが含まれます。テキスト情報はCLIP[4]テキストエンコーダを使用してエンコードされます。ビデオ内の画像はMAE [5]を使用してエンコードされ、その後、トークンの数を減らすためにPerciever Resampler [6]に渡されます。出力側GR-1はタイムスタンプごとに[OBS]トークンを学習して未来のフレームの画像を出力します。 [OBS] 対応する出力はトランスフォーマーを介して画像にデコードされます。事前トレーニング段階では、GR-1 は平均二乗誤差 (MSE) 損失関数を使用します。

ロボットデータの微調整フェーズでは、GR-1 の入力にはタスク言語の指示、ロボットの状態、観察画像が含まれます。ロボット状態には、6次元のロボット姿勢とグリッパーの開閉状態が含まれます。ロボットの状態は MLP を介してエンコードされます。出力には、将来のフレームの画像とロボットのアクションが含まれます。言語と画像は、事前トレーニング段階と同じ方法でエンコードされます。出力 GR-1 は、[ACT] トークンを学習して、次のタイムスタンプ ロボットのアクションを予測します。ロボット動作の損失関数は滑らかな L1 損失を使用し、グリップ動作の損失関数はバイナリクロスエントロピー損失を使用します。

実験

著者らは、GR-1 の性能を検証するために、CALVIN シミュレーション プラットフォーム上で多数の実験を実施しました。 CALVIN は、挑戦的なロボットのマルチタスク操作シミュレーション プラットフォームです。言語指示と 4 つの異なる環境 (A、B、C、D) による 34 の操作タスクが含まれます。

ABCD->D 実験では、ロボットは A、B、C、D の 4 つの環境のデータでトレーニングされ、D でテストされます。 ABC->D 実験では、ロボットは A、B、C の 3 つの環境のデータでトレーニングされ、D でテストされます。この実験は、GR-1 がゼロショット シナリオの移行に対処する能力をテストすることを目的としています。テスト中、ロボットは 5 つのタスクを連続して完了する必要があります。この表は、1、2、3、4、5 つのタスクを連続して完了する際のさまざまな方法の成功率と、完了したタスクの平均数を示しています。 GR-1 は両方の実験で既存の方法よりも優れており、ゼロショットのシーン転送では大幅にリードしています。

この研究では、データが比較的少ない場合の GR-1 のパフォーマンスを理解するために、小規模なデータセットでの実験も実施しました。 10% データの実験では、著者らは 34 のタスクごとにトレーニング軌跡の数を 66 に制限しました。軌跡の総数は、ABCD->D 実験の約 10% です。 GR-1 の未知の言語への対応能力をテストするために、著者らは GPT-4 を使用して、テスト用の各タスクに対して 50 個の新しい未知の言語指示を生成しました。 GR-1 は、小規模なデータセットと言語指示が不明な設定の両方で既存の方法よりも優れています。

GR-1 実機実験では、次の図に示すように、物体の移動と引き出しの開閉を行います。

移動物体実験の指示は、物体をプレート/テーブル上に移動させることでした。トレーニング データには、ナス、ブロッコリー、ピーマンの移動が含まれています (上の画像の左端に表示)。著者らは、トレーニング データに表示されるオブジェクトに対して最初に実験を行います。この設定で、著者らは気を散らすもの背景の変化を加えた実験も行いました。

著者らは、トレーニング データには含まれていないオブジェクトについても実験しました。見えないオブジェクトには、見えないオブジェクトのインスタンス(トレーニング データに表示されていないナス、ブロッコリー、ピーマンのセット) と見えないオブジェクトのカテゴリ(トマトと黄桃) が含まれます。

以下は引き出しを開けたり閉めたりする実験です。

下の表に示すように、GR-1 は実デバイス実験において既存の方法よりも大幅に優れています。

アブレーション実験では、著者らは、将来のフレーム予測を削除した場合と、将来のフレーム予測を保持しながら事前トレーニング済みモデルを削除した場合のモデルの機能を比較しました。結果は、将来のフレームの予測と事前トレーニングの両方が、GR-1 が堅牢なロボット操作を学習できるようにする上で重要な役割を果たすことを示しています。アクションを予測する際に将来のフレームの予測を含めると、GR-1 は言語の指示に基づいて将来のシーンの変化を予測する能力を学習できるようになります。この機能はまさにロボット操作に必要な機能です。人間の言語指示に基づいてシーン内のアプリケーションの変化を予測することで、ロボットの動作の生成を導くことができます。大規模なビデオデータによる事前トレーニングにより、GR-1 は将来を予測するための堅牢で一般化可能な機能を学習できるようになります。

結論は

GR-1 は、大規模なビデオ生成事前トレーニングがロボットの複雑なマルチタスク操作の学習に役立つことを初めて実証しました。 GR-1 は、まず大規模なビデオ データで事前トレーニングされ、その後ロボット データで微調整されます。 GR-1 は、シミュレーション環境と実機実験の両方で SOTA 結果を達成し、非常に困難なゼロショット転送において堅牢なパフォーマンスを実証しました。

<<:  清華大学は、2D拡散モデルを使用して不完全な3Dオブジェクトを補完する3D再構築の新しい方法、O²-Reconを提案しました。

>>:  Pika 1.0 はアニメーション業界に完全な革命をもたらします!ドリームワークスの創設者は、3年後にはアニメーションのコストが10分の1に下がると予測

ブログ    
ブログ    
ブログ    

推薦する

ヘルスケアにおける AI: 注目すべき 3 つのトレンド

COVID-19 パンデミック、メンタルヘルス危機、医療費の高騰、人口の高齢化により、業界のリーダ...

ドローン配送がレイアウトブームを巻き起こす、普及するには2つのポイントに注意が必要

滴滴出行が昨年11月にドローンによる食品配達サービスを検討すると発表し、美団も最近ドローン配達隊に加...

人工知能は創造的な仕事を促進できるでしょうか?

今日、ほぼすべての AI 作業は機械学習の成功に基づいています。機械学習には分析を検討するための十分...

ディープラーニングチップ研究の新潮流:処理の中核となるメモリ

[[186777]]過去 2 年間、機械学習、特にディープ ニューラル ネットワークのニーズを満たす...

世論調査によると、日本の男性の約60%が人工知能と交際する意向がある

[[252365]]日経新聞によると、日本の世論調査会社が、人工知能(AI)と恋に落ちたり友達になっ...

...

...

ビデオメタデータとは何ですか?

ビデオ メタデータの分析と使用は、セキュリティにおける現在の多くの刺激的な開発の基盤となっています。...

ヘッドライトから始めて、自動運転はどのようにして攻撃性を排除するのでしょうか?

これは、鞭で打たれるとどんどん速く回転するコマのような「高離職率」社会です。技術推論において非常に重...

...

8年が経ちました。Googleが中国に戻るという噂は本当でしょうか?

[51CTO.com オリジナル記事] Google の中国復帰について新たな声が上がっている。最...

...

クラウドコンピューティングと人工知能が伝統的な医学を覆すのは時間の問題だ

2016年1月、国家衛生計画出産委員会は専門医向けの「5+3+x」標準化研修システムを発行しました。...

GPT-4はMITの学位を取得できない、MITの研究チームは「不正行為」と反応したが、ネットユーザーはそれを信じない

数日前、「大規模言語モデルを使用した MIT 数学および EECS カリキュラムの調査」と題された論...