Google の家庭用ロボットがスタンフォード大学のエビ揚げロボットに挑む!猫と遊ぶためにお茶と水を出し、3回続けてフリックして猫と遊ぶ

インターネット上で話題となったスタンフォード大学のエビ揚げロボットは、1日で人気が急上昇した。

結局のところ、料理や食器洗いができ、家事から解放される万能ロボットを家に持ち帰りたくない人がいるでしょうか!

このプロジェクトはスタンフォード大学の中国チームによって3か月で完了したと言われています。

本日、チームはさらなる詳細を直接発表しました。

ロボットのスキルは多様で素晴らしいです。

かつては、人間が忙しく掃除をしている間、チャットボットはのんびりと詩を朗読したり絵を描いたりしていました。このスタイルの絵は、どう見ても間違っているように思えました。

ついに誰かが思い出した。ロボットの主な仕事の一つは、人間の家事を手伝うことだ！

私たちが知らない驚きの出来事はありますか？

スタンフォード大学のこの調理ロボットは...

花に水をやる。

写真

床を掃く。

写真

コーヒーを淹れる。

マスターのひげそりを手伝ってください。

写真

トイレットペーパーを一枚取り、テーブルの上のミルクを拭き取ります。

写真

ボウルを食器洗い機から取り出します。

写真

猫と遊びましょう。

写真

衣類を洗う（汚れた衣類の入った袋を洗濯機に入れる、袋から洗濯ビーズを取り出す、洗剤を外して投入する、洗濯機のボタンを押すなど）。

写真

小さなカゴを押して衣類を集めます。

写真

ベッドシーツを整え、枕カバーを交換してください。

写真

衣服を折ります（ジッパーを閉めるなどの繊細な作業も行えます）。

写真

ボトルのキャップを外して、ビール1本を職場のマスターに送ります。

写真

あなたの主人におやすみなさいと言い、ベッドに横たわっている彼のために杯を覆いなさい。

写真

最後に、イースターエッグがあります。忙しい一日が終わると、ロボットは自分で充電し、一日を終えて、所有者に奉仕し続けます。

写真

Google DeepMindのロボットが三重爆弾攻撃を研究

もちろん、Google DeepMind は遅れをとるつもりはない。

本日、Google DeepMind は、ロボット工学技術を私たちの日常生活に役立てることを目指した一連の進歩についても正式に発表しました。

写真

Google DeepMind のこのロボットは果物の収穫を手伝ってくれます。

写真

引き出しからコーラの缶を取り出してください。

写真

歯ブラシを並べるのを手伝ってください。

写真

全体的に見て、スタンフォードのエビフライロボットの機能は悪くありません。

2つの重要な課題を解決する

Google は、AutoRT、SARA-RT、RT-Trajectory などのテクノロジーを使用して、ロボットがより迅速に意思決定を行い、環境をより深く理解し、環境内を移動できるようにしています。

本当に有能なロボットを生産するには、2 つの基本的な課題に対処する必要があります。

1 つは、新しい状況に対して行動を一般化する能力を向上させることであり、もう 1 つは意思決定の速度を向上させることです。

Google の DeepMind チームは、両方の分野で大きな改善を実現しました。

SARA-RT: ロボットトランスフォーマーの効率化

まず、SARA-RT システムは、新しい「アップトレーニング」アプローチを使用して、ロボット Transformer モデルをより効率的なバージョンに変換します。

これにより、ロボットの展開に必要な計算要件が削減され、品質を維持しながら速度が向上します。

写真

研究者らが SARA-RT を Google の最先端の RT-2 モデルに適用したところ、最良のバージョンでは、短い画像履歴を与えた後、精度が 10.6% 向上し、速度が 14% 向上しました。

Transformer は強力ですが、計算要件によって制限され、意思決定が遅くなる可能性があります。

Transformer は、二次複雑度のアテンションモジュールに大きく依存しています。

つまり、RT モデルへの入力が 2 倍になると、その入力を処理するために必要なコンピューティングリソースが 4 倍に増加し、意思決定が遅くなることになります。

前述のように、SARA-RT は効率を向上させるために「上向きトレーニング」アプローチを使用します。「上向きトレーニング」は、二次複雑度を純粋な線形複雑度に変換し、計算要件を大幅に削減します。この変換により、元のモデルの速度が向上するだけでなく、パフォーマンスも維持されます。

研究者らは、これが品質を損なうことなく計算の改善をもたらす初のスケーラブルな注目メカニズムであると考えているという。

写真

Google は使いやすさを重視してこのシステムを設計し、より多くの研究者や実務家がロボット工学などの分野にこのシステムを適用することを期待しています。

SARA は、計算コストの高い事前トレーニングを必要とせずに Transformer を高速化する一般的な方法を提供するため、このアプローチは Transformer テクノロジの使用を拡大するのに役立ちます。

同時に、SARA-RT はさまざまなオープンソースの線形変数を使用できるため、追加のコードは必要ありません。

写真

SARA-RT-2 モデルは、ロボットの動作が画像やテキストコマンドに応じて変化する操作タスクに使用されます。

SARA-RT はさまざまなトランスフォーマーモデルに適用できます。例えば、ロボットの深度カメラからの空間データを処理するポイントクラウドトランスフォーマーに SARA-RT を適用すると、速度が 2 倍以上になります。

RT-Trajectory: ロボットに一般化を学習させる

次に、RT-Trajectory モデルは、ロボットの動きを表す視覚的なシルエットをトレーニングに自動的に追加することで、指示に従う方法を学習します。

ご存知のように、人間はテーブルを拭く方法を直感的に理解できますが、ロボットはさまざまな方法を使用して指示を実際の物理的な動作に変換する必要があります。

RT-Trajectory モデルは、トレーニングデータセット内の各ビデオを取得し、タスクを実行する際のロボットグリッパーの軌跡の 2D スケッチを重ね合わせます。

このようにして、軌道は、ロボットの制御ポリシーを学習する際に、モデルに RGB 画像の形式で低レベルの有用な視覚的な手がかりを提供します。

写真

また、人間のデモンストレーションを見たり、スケッチを理解したり、VLM によって生成された図面を見たりして、軌道を作成することもできます。

トレーニングデータには含まれていない 41 のタスクをテストしたところ、RT-Trajectory によって制御されるアームは 63 パーセントの成功率を達成しました。

写真

従来、ロボットアームのトレーニングは、抽象的な自然言語（「テーブルを拭く」）を特定のアクション（グリッパーを閉じる、左に動かす、右に動かす）にマッピングすることに依存しており、モデルを新しいタスクに一般化することが困難でした。

対照的に、RT-Trajectory モデルでは、ビデオやスケッチに含まれる特定のロボットの動作を解釈することで、タスクを完了するために「何をすべきか」を RT モデルが理解できるようになります。

このシステムは非常に汎用性が高く、望ましいタスクの人間のデモンストレーションを見て軌道を作成することもできるほか、手描きのスケッチも受け入れることができます。

さまざまなロボットプラットフォームに簡単に適応できます。

AutoRT: 大規模モデルによるロボットのトレーニング

3 番目に、AutoRT は基盤となるモデルの力を活用して、現実世界の人間の目標を理解し、ロボットが新しい環境でトレーニングデータを収集できるようにするシステムを作成します。

これはロボットの学習範囲の拡大に役立つ可能性があります。

写真

AutoRT は、基礎モデル (LLM、VLM など) とロボット制御モデル (RT-1、RT-2) を組み合わせて、新しい環境にロボットを展開してトレーニングデータを収集できるシステムを作成します。

AutoRT は、カメラとエンドエフェクタを備えた複数のロボットを同時に制御し、さまざまな設定でさまざまなタスクを実行できます。

このプロセス中、システムはまず VLM を使用して周囲の状況を把握します。

写真

（１）自律走行型車輪ロボットが複数の物体がある場所を発見する。（２）VLMはLLMに対してシーンとオブジェクトを説明する。（３）LLMは、ロボットがさまざまな操作タスクを実行し、選択を行う前に、どのタスクがロボットの支援なしで完了できるか、どのタスクは人間の遠隔操作が必要か、どのタスクは不可能かを判断することを推奨しています。（４）選択したタスクを試し、経験的データを収集し、データの多様性と新規性を評価します。これは行ったり来たりします。

次に、LLM は各ロボットの創造的なタスクを考え出し、ロボットが実行すべきタスクを選択します。

7 か月にわたる評価期間中、AutoRT は最大 20 台のロボットを同時に安全に調整し、さまざまなオフィス内を整然と移動できるようにしました。

写真

しかし、重要な疑問があります。ロボットが人間の安全を守ることをどのように保証できるのでしょうか?

まず、AutoRT には、LLM ベースの意思決定者に「ロボット憲法」を提供する安全ガードレールがあります。ロボットのタスクを選択するときは、これらの安全上のヒントに従う必要があります。

この「ロボット憲法」は、アシモフのロボット工学三原則に一部ヒントを得たものです。第一に、ロボットは人間を傷つけてはいけません。また、ロボットは人間、動物、鋭利な物体、電気製品に関わるいかなる作業も行ってはなりません。

ただし、これでは安全性が保証されるわけではないため、AutoRT システムは従来のロボット工学技術の安全対策を採用しています。

たとえば、ロボットの関節にかかる力が所定の閾値を超えた場合に、ロボットが自動的に停止するようにプログラムすることができます。

さらに、すべてのアクティブなロボットは物理的に非アクティブ化され、人間の監督者の視界内に維持される必要があります。

ネットユーザー：今年はロボット爆発の年

2024年の最初の週には、さまざまなロボット研究が爆発的に進み、誰もが興奮しました。

一方ではスタンフォードが学術界のロボット工学の成果を代表し、他方ではグーグルが産業界の成果を代表し、両者が登場しました。

ネットユーザーによると、ロボットと人工知能エージェントは今年好調なスタートを切ったという。今後数か月に向けて準備をしましょう。

写真

今週を「ロボットウィーク」と呼ぶ人もいます。

写真

今後 2 年以内に、AI とロボット工学の融合が、生成 AI と同じように爆発的に増加すると思います。

「ChatGPT」の瞬間が来ます。

写真

NVIDIA のシニアサイエンティストである Jim Fan 氏は、次のように述べています。

2024年はロボットの年です。

Mobile-Aloha は、調理（人間によるリモコン操作）などの両手を使った作業を柔軟に実行できるオープンソースのロボットハードウェアです。近い将来、人間レベルのロボットの追求におけるボトルネックは、ハードウェアではなく脳になるでしょう。

この研究は学術予算を持つ 3 人の研究者によって行われました。なんと素晴らしい仕事でしょう！スタンフォードは素晴らしいです！

リソースの制約により、学界はもはや最先端の LLM の発祥地ではなくなりました。しかし、少なくとも短期的には、ロボット工学は学界と産業界の間の競争条件を平等にしています。

ハードウェアの価格がより手頃になるのは避けられない傾向です。博士課程を目指す学生へのアドバイス: ロボットを受け入れてください。少なくとも周りに人間はそれほど多くないので、自分の強みを発揮する余地が増えます。

写真

今後数か月でロボット工学の分野でどんな驚きが私たちを待っているのかはわかりません。

参考文献:

https://twitter.com/GoogleDeepMind/status/1742932234892644674 https://deepmind.google/discover/blog/shaping-the-future-of-advanced-robotics/?utm_source=twitter&utm_medium=social

https://twitter.com/zipengfu/status/1742973258528612724

<<: Google DeepMind が 3 つのロボット成果を連続でリリース! 2つの機能が完全に改善され、データ収集システムは同時に20台のロボットを管理できるようになりました

>>: