Google DeepMind が 3 つのロボット成果を連続でリリース! 2つの機能が完全に改善され、データ収集システムは同時に20台のロボットを管理できるようになりました

Google DeepMind が 3 つのロボット成果を連続でリリース! 2つの機能が完全に改善され、データ収集システムは同時に20台のロボットを管理できるようになりました

スタンフォード大学の「エビフライと皿洗い」ロボットとほぼ同時に、 Google DeepMindも最新の具現化された知能の成果を発表しました。

そしてそれは3つのバーストです:

まず、意思決定のスピード向上に重点を置いた新モデルにより、ロボットの動作速度が 14% 向上しました(従来の Robotics Transformer と比較) 。高速化しても品質は低下せず、精度は 10.6% 向上しました。

さらに、一般化に重点を置いた新しいフレームワークがあり、ロボットの動作軌道プロンプトを作成し、ロボットがこれまでに見たことのない 41 のタスクに 63% の成功率で取り組むことを可能にします。

この配列を過小評価しないでください。以前の 29% と比較すると、かなりの改善です

最後に、一度に 20 台のロボットを管理できるロボットデータ収集システムがあります。現在、ロボットの活動から 77,000 件の実験データが収集されており、Google がその後のトレーニング作業をより適切に完了するのに役立ちます。

では、これら 3 つの結果は具体的に何でしょうか?一つずつ見ていきましょう。

ロボットを日常的に使うための第一歩:ロボットはこれまで見たことのないタスクもこなせるようになる

Google は、実際に現実世界に参入できるロボットを生み出すには、次の 2 つの基本的な課題を解決する必要があると考えています。

1. 新しいタスクプロモーション機能

2. 意思決定のスピードを向上させる

この 3 部構成のシリーズの最初の 2 つの成果は、主にこれら 2 つの主要領域に改良を加えたもので、どちらも Google の基本ロボット モデル Robotics Transformer (略して RT)をベースに構築されました。

まず最初のもの、ロボットの一般化を支援するRT-Trajectoryを見てみましょう。

人間にとっては、テーブルを拭くなどの作業を完了することは簡単に理解できますが、ロボットはそれを完全に理解するわけではありません。

幸いなことに、この指示をロボットに伝える方法は数多くあり、ロボットが実際に物理的な行動をとることを可能にします。

一般的に言えば、従来の方法は、タスクを特定のアクションにマッピングし、ロボット アームにそれを完了させるというものです。たとえば、テーブルを拭く作業は、「クランプを閉じる、左に移動する、右に移動する」という動作に分解できます。

明らかに、このアプローチは一般化能力が低いです。

ここで、Google が新たに提案した RT-Trajectory は、視覚的なヒントを提供することでロボットにタスクを完了する方法を教えます。

具体的には、RT-Trajectory によって制御されるロボットは、トレーニング中に 2D 軌道強化データを追加します。

これらの軌跡は、ルートやキーポイントを含む RGB 画像として表示され、ロボットがタスクの実行を学習する際に、低レベルですが非常に役立つ手がかりを提供します。

このモデルにより、ロボットがこれまでに見たことのないタスクを実行する際の成功率が 100% 直接的に向上しました(Google の基本ロボット モデル RT-2 と比較して 29% から 63%)

RT-Trajectory は、次のようなさまざまな方法で軌跡を作成できることに留意してください。
人間のデモンストレーションを見たり、手描きのスケッチを受け入れたり、VLM (Visual Language Model)を通じて生成したりします。

ロボットを日常的に使うための第2ステップ:意思決定は迅速でなければならない

一般化能力が向上した後は、意思決定のスピードに重点を置きます。

Google の RT モデルは Transformer アーキテクチャを使用します。Transformer は強力ですが、2 次複雑度のアテンション モジュールに大きく依存しています。

したがって、RT モデルへの入力が 2 倍になると(たとえば、ロボットに高解像度のセンサーを装備するなど) 、それを処理するために必要なコンピューティング リソースが 4 倍に増加し、意思決定が大幅に遅くなります。

ロボットの速度を上げるために、Google は Robotics Transformer の基本モデルをベースにSARA-RTを開発しました。

SARA-RT は、新しいモデル微調整方法を使用して、元の RT モデルをより効率的にします。

この方法は、Google では「上向きトレーニング」と呼ばれています。その主な機能は、処理品質を維持しながら、元の 2 次複雑度を線形複雑度に変換することです。

SARA-RT を数十億のパラメータを持つ RT-2 モデルに適用すると、さまざまなタスクでより高速な動作速度とより高い精度を実現できます。

また、SARA-RT は、高価な事前トレーニングを必要とせずに Transformer を高速化する一般的な方法を提供するため、十分に一般化できることも言及する価値があります。

データが足りませんか?自分だけの作品を作る

最後に、ロボットが人間から割り当てられたタスクをよりよく理解できるようにするために、Google もデータから始めて、収集システムである AutoRT を直接構築しました。

このシステムは、大規模モデル(LLM、VLMを含む)とロボット制御モデル(RT)を組み合わせて、ロボットに現実世界でさまざまなタスクを実行するよう継続的に指示し、データを生成および収集します。

具体的なプロセスは以下のとおりです。

ロボットが「自由に」環境に接触し、ターゲットに近づくようにします。

次に、カメラと VLM モデルを使用して、目の前のシーン(そこにどのような具体的なオブジェクトがあるのか​​など)を説明します。

LLM はこの情報を使用して、いくつかの異なるタスクを生成します。

ロボットは生成された後、すぐには実行されないことに注意してください。代わりに、LLM を使用して、独立して完了できるタスク、人間によるリモート制御が必要なタスク、まったく完了できないタスクをフィルタリングします

たとえば、「ポテトチップスの袋を開ける」というタスクは、ロボットアームが 2 つ必要になるため(デフォルトでは 1 つだけ)、完了できません。

そして、このスクリーニングタスクを完了すると、ロボットは実際の実行を開始できます。

最後に、AutoRT システムはデータ収集を完了し、多様性評価を実行します。

AutoRT は一度に最大 20 台のロボットを連携させることができ、7 か月間にわたって 6,650 個の固有タスクを含む合計 77,000 件のテスト データを収集したと報告されています。

最後に、Google はこのシステムのセキュリティにも特に重点を置いています。

結局のところ、AutoRT の収集タスクは現実世界で実行されるため、「安全ガードレール」が不可欠です。

具体的には、ミッション用のロボットを審査する法学修士課程によって提供される基本的な安全ガイドラインは、アイザック・アシモフのロボット工学三原則に部分的に影響を受けています。その第一原則は、「ロボットは人間を傷つけてはならない」というものです。

第二に、ロボットは人間、動物、鋭利な物体、電気製品に関わる作業を行ってはならないという要件が含まれています。

しかし、これではまだ十分ではありません。

そのため、AutoRT には、従来のロボットに見られる多層的な実用的な安全対策も備わっています。

たとえば、ロボットの関節にかかる力が所定のしきい値を超えるとロボットは自動的に停止したり、人間の視界内にある物理的なスイッチによってすべての動作を停止したりすることができます。

Google の最新の成果について詳しく知りたいですか?

朗報です。RT-Trajectory は論文のみがオンラインで公開されていますが、それ以外はコードと論文が一緒に公開されています。ぜひご覧ください。

もう一つ

Google ロボットについて話すとき、RT-2 について言及する必要があります(この記事のすべての結果は RT-2 に基づいて構築されています)

このモデルは、Google の研究者 54 名によって 7 か月かけて作成され、今年 7 月末にリリースされました。

ビジュアル・テキスト・マルチモーダル大規模モデル VLM が組み込まれているため、「人間の言語」を理解できるだけでなく、「人間の言語」について推論し、ライオン、クジラ、恐竜の 3 つのプラスチックおもちゃから「絶滅した動物」を正確に拾い上げるなど、1 ステップでは完了できないいくつかのタスクを実行できます。これは驚くべきことです。

現在、わずか 5 か月強で一般化能力と意思決定速度が急速に向上しており、私たちはため息をついています。ロボットが実際に何千もの家庭に浸透するのがどれほど速いのか想像もつきません。

<<:  XiaoIce がクローンを正式にリリース: すでに年間 100 万元を稼いだ人もいます!

>>:  Google の家庭用ロボットがスタンフォード大学のエビ揚げロボットに挑む!猫と遊ぶためにお茶と水を出し、3回続けてフリックして猫と遊ぶ

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

ライフル銃で動くロボット犬の発明者が恐怖を巻き起こす:プログラミング制御は恐れる必要はない

[[429985]]先週、米国陸軍協会(AUSA)の会議がワシントンで開催されました。アメリカのロボ...

MITのロボットは、浸透する無線周波数を使って隠れた物体を感知する

[[391062]]海外メディアの報道によると、世界中の研究者がロボットが周囲の状況をよりよく認識...

合成データ生成器はAIのバイアス問題を解決できるかもしれない

AI の偏見は、個人にさまざまな影響を及ぼす可能性がある深刻な問題です。人工知能が進歩するにつれて、...

ニューラルネットワークが大きいほど良いのはなぜですか? NeurIPSの論文が証明:堅牢性は一般化の基礎である

ニューラルネットワークの研究方向が徐々に超大規模な事前トレーニング済みモデルへと移行するにつれて、研...

金融業界がAI自動化を採用すべき理由

ガートナーによると、「ロボティック・プロセス・オートメーション(RPA)ソフトウェア市場は2020年...

...

「自由に眠る」にはヘッドバンドを着けるだけ | Nature サブ出版物

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

...

...

AIとロボット工学でオフショア業務を効率化する方法

長い間、肉体的に過酷で危険な仕事が特徴とされてきた石油産業は、変革を遂げつつある。この変化は、通信技...

世界を支配するトップ 10 のアルゴリズムをご存知ですか?

Reddit に、私たちの現代生活におけるアルゴリズムの重要性と、どのアルゴリズムが現代文明に最も...

...

AIの技術的負債の解消は急務

この流行は世界市場に衝撃をもたらしたが、人工知能(AI)企業への資本投資は増加し続けている。 CB ...

AWS クラウド機械学習を使用したサーバーレスニュースデータパイプラインの構築

[[436699]] [51CTO.com クイック翻訳]アナリストとして、私はニュースや業界の最新...