Google の家庭用ロボットがスタンフォード大学のエビ揚げロボットに挑む!猫と遊ぶためにお茶と水を出し、3回続けてフリックして猫と遊ぶ

Google の家庭用ロボットがスタンフォード大学のエビ揚げロボットに挑む!猫と遊ぶためにお茶と水を出し、3回続けてフリックして猫と遊ぶ

インターネット上で話題となったスタンフォード大学のエビ揚げロボットは、1日で人気が急上昇した。

結局のところ、料理や食器洗いができ、家事から解放される万能ロボットを家に持ち帰りたくない人がいるでしょうか!

このプロジェクトはスタンフォード大学の中国チームによって3か月で完了したと言われています。

本日、チームはさらなる詳細を直接発表しました。

ロボットのスキルは多様で素晴らしいです。

かつては、人間が忙しく掃除をしている間、チャットボットはのんびりと詩を朗読したり絵を描いたりしていました。このスタイルの絵は、どう見ても間違っているように思えました。

ついに誰かが思い出した。ロボットの主な仕事の一つは、人間の家事を手伝うことだ!

私たちが知らない驚きの出来事はありますか?

スタンフォード大学のこの調理ロボットは...

花に水をやる。

写真

床を掃く。

写真

コーヒーを淹れる。

マスターのひげそりを手伝ってください。

写真

トイレットペーパーを一枚取り、テーブルの上のミルクを拭き取ります。

写真

ボウルを食器洗い機から取り出します。

写真

猫と遊びましょう。

写真

衣類を洗う(汚れた衣類の入った袋を洗濯機に入れる、袋から洗濯ビーズを取り出す、洗剤を外して投入する、洗濯機のボタンを押すなど)。

写真

小さなカゴを押して衣類を集めます。

写真

ベッドシーツを整え、枕カバーを交換してください。

写真

衣服を折ります(ジッパーを閉めるなどの繊細な作業も行えます)。

写真

ボトルのキャップを外して、ビール1本を職場のマスターに送ります。

写真

あなたの主人におやすみなさいと言い、ベッドに横たわっている彼のために杯を覆いなさい。

写真

最後に、イースターエッグがあります。忙しい一日が終わると、ロボットは自分で充電し、一日を終えて、所有者に奉仕し続けます。

写真

Google DeepMindのロボットが三重爆弾攻撃を研究

もちろん、Google DeepMind は遅れをとるつもりはない。

本日、Google DeepMind は、ロボット工学技術を私たちの日常生活に役立てることを目指した一連の進歩についても正式に発表しました。

写真

Google DeepMind のこのロボットは果物の収穫を手伝ってくれます。

写真

引き出しからコーラの缶を取り出してください。

写真

歯ブラシを並べるのを手伝ってください。

写真

全体的に見て、スタンフォードのエビフライロボットの機能は悪くありません。

2つの重要な課題を解決する

Google は、AutoRT、SARA-RT、RT-Trajectory などのテクノロジーを使用して、ロボットがより迅速に意思決定を行い、環境をより深く理解し、環境内を移動できるようにしています。

本当に有能なロボットを生産するには、2 つの基本的な課題に対処する必要があります。

1 つは、新しい状況に対して行動を一般化する能力を向上させることであり、もう 1 つは意思決定の速度を向上させることです。

Google の DeepMind チームは、両方の分野で大きな改善を実現しました。

SARA-RT: ロボットトランスフォーマーの効率化

まず、SARA-RT システムは、新しい「アップトレーニング」アプローチを使用して、ロボット Transformer モデルをより効率的なバージョンに変換します。

これにより、ロボットの展開に必要な計算要件が削減され、品質を維持しながら速度が向上します。

写真

研究者らが SARA-RT を Google の最先端の RT-2 モデルに適用したところ、最良のバージョンでは、短い画像履歴を与えた後、精度が 10.6% 向上し、速度が 14% 向上しました。

Transformer は強力ですが、計算要件によって制限され、意思決定が遅くなる可能性があります。

Transformer は、二次複雑度のアテンション モジュールに大きく依存しています。

つまり、RT モデルへの入力が 2 倍になると、その入力を処理するために必要なコンピューティング リソースが 4 倍に増加し、意思決定が遅くなることになります。

前述のように、SARA-RT は効率を向上させるために「上向きトレーニング」アプローチを使用します。 「上向きトレーニング」は、二次複雑度を純粋な線形複雑度に変換し、計算要件を大幅に削減します。この変換により、元のモデルの速度が向上するだけでなく、パフォーマンスも維持されます。

研究者らは、これが品質を損なうことなく計算の改善をもたらす初のスケーラブルな注目メカニズムであると考えているという。

写真

Google は使いやすさを重視してこのシステムを設計し、より多くの研究者や実務家がロボット工学などの分野にこのシステムを適用することを期待しています。

SARA は、計算コストの高い事前トレーニングを必要とせずに Transformer を高速化する一般的な方法を提供するため、このアプローチは Transformer テクノロジの使用を拡大するのに役立ちます。

同時に、SARA-RT はさまざまなオープンソースの線形変数を使用できるため、追加のコードは必要ありません。

写真

SARA-RT-2 モデルは、ロボットの動作が画像やテキスト コマンドに応じて変化する操作タスクに使用されます。

SARA-RT はさまざまなトランスフォーマー モデルに適用できます。例えば、ロボットの深度カメラからの空間データを処理するポイントクラウドトランスフォーマーに SARA-RT を適用すると、速度が 2 倍以上になります。

RT-Trajectory: ロボットに一般化を学習させる

次に、RT-Trajectory モデルは、ロボットの動きを表す視覚的なシルエットをトレーニングに自動的に追加することで、指示に従う方法を学習します。

ご存知のように、人間はテーブルを拭く方法を直感的に理解できますが、ロボットはさまざまな方法を使用して指示を実際の物理的な動作に変換する必要があります。

RT-Trajectory モデルは、トレーニング データセット内の各ビデオを取得し、タスクを実行する際のロボット グリッパーの軌跡の 2D スケッチを重ね合わせます。

このようにして、軌道は、ロボットの制御ポリシーを学習する際に、モデルに RGB 画像の形式で低レベルの有用な視覚的な手がかりを提供します。

写真

また、人間のデモンストレーションを見たり、スケッチを理解したり、VLM によって生成された図面を見たりして、軌道を作成することもできます。

トレーニング データには含まれていない 41 のタスクをテストしたところ、RT-Trajectory によって制御されるアームは 63 パーセントの成功率を達成しました。

写真

従来、ロボットアームのトレーニングは、抽象的な自然言語(「テーブルを拭く」)を特定のアクション(グリッパーを閉じる、左に動かす、右に動かす)にマッピングすることに依存しており、モデルを新しいタスクに一般化することが困難でした。

対照的に、RT-Trajectory モデルでは、ビデオやスケッチに含まれる特定のロボットの動作を解釈することで、タスクを完了するために「何をすべきか」を RT モデルが理解できるようになります。

このシステムは非常に汎用性が高く、望ましいタスクの人間のデモンストレーションを見て軌道を作成することもできるほか、手描きのスケッチも受け入れることができます。

さまざまなロボット プラットフォームに簡単に適応できます。

AutoRT: 大規模モデルによるロボットのトレーニング

3 番目に、AutoRT は基盤となるモデルの力を活用して、現実世界の人間の目標を理解し、ロボットが新しい環境でトレーニング データを収集できるようにするシステムを作成します。

これはロボットの学習範囲の拡大に役立つ可能性があります。

写真

AutoRT は、基礎モデル (LLM、VLM など) とロボット制御モデル (RT-1、RT-2) を組み合わせて、新しい環境にロボットを展開してトレーニング データを収集できるシステムを作成します。

AutoRT は、カメラとエンドエフェクタを備えた複数のロボットを同時に制御し、さまざまな設定でさまざまなタスクを実行できます。

このプロセス中、システムはまず VLM を使用して周囲の状況を把握します。

写真

(1)自律走行型車輪ロボットが複数の物体がある場所を発見する。 (2)VLMはLLMに対してシーンとオブジェクトを説明する。 (3)LLMは、ロボットがさまざまな操作タスクを実行し、選択を行う前に、どのタスクがロボットの支援なしで完了できるか、どのタスクは人間の遠隔操作が必要か、どのタスクは不可能かを判断することを推奨しています。 (4)選択したタスクを試し、経験的データを収集し、データの多様性と新規性を評価します。これは行ったり来たりします。

次に、LLM は各ロボットの創造的なタスクを考え出し、ロボットが実行すべきタスクを選択します。

7 か月にわたる評価期間中、AutoRT は最大 20 台のロボットを同時に安全に調整し、さまざまなオフィス内を整然と移動できるようにしました。

写真

しかし、重要な疑問があります。ロボットが人間の安全を守ることをどのように保証できるのでしょうか?

まず、AutoRT には、LLM ベースの意思決定者に「ロボット憲法」を提供する安全ガードレールがあります。ロボットのタスクを選択するときは、これらの安全上のヒントに従う必要があります。

この「ロボット憲法」は、アシモフのロボット工学三原則に一部ヒントを得たものです。第一に、ロボットは人間を傷つけてはいけません。また、ロボットは人間、動物、鋭利な物体、電気製品に関わるいかなる作業も行ってはなりません。

ただし、これでは安全性が保証されるわけではないため、AutoRT システムは従来のロボット工学技術の安全対策を採用しています。

たとえば、ロボットの関節にかかる力が所定の閾値を超えた場合に、ロボットが自動的に停止するようにプログラムすることができます。

さらに、すべてのアクティブなロボットは物理的に非アクティブ化され、人間の監督者の視界内に維持される必要があります。

ネットユーザー:今年はロボット爆発の年

2024年の最初の週には、さまざまなロボット研究が爆発的に進み、誰もが興奮しました。

一方ではスタンフォードが学術界のロボット工学の成果を代表し、他方ではグーグルが産業界の成果を代表し、両者が登場しました。

ネットユーザーによると、ロボットと人工知能エージェントは今年好調なスタートを切ったという。今後数か月に向けて準備をしましょう。

写真

今週を「ロボットウィーク」と呼ぶ人もいます。

写真

今後 2 年以内に、AI とロボット工学の融合が、生成 AI と同じように爆発的に増加すると思います。

「ChatGPT」の瞬間が来ます。

写真

NVIDIA のシニア サイエンティストである Jim Fan 氏は、次のように述べています。

2024年はロボットの年です。

Mobile-Aloha は、調理(人間によるリモコン操作)などの両手を使った作業を柔軟に実行できるオープンソースのロボット ハードウェアです。近い将来、人間レベルのロボットの追求におけるボトルネックは、ハードウェアではなく脳になるでしょう。

この研究は学術予算を持つ 3 人の研究者によって行われました。なんと素晴らしい仕事でしょう!スタンフォードは素晴らしいです!

リソースの制約により、学界はもはや最先端の​​ LLM の発祥地ではなくなりました。しかし、少なくとも短期的には、ロボット工学は学界と産業界の間の競争条件を平等にしています。

ハードウェアの価格がより手頃になるのは避けられない傾向です。博士課程を目指す学生へのアドバイス: ロボットを受け入れてください。少なくとも周りに人間はそれほど多くないので、自分の強みを発揮する余地が増えます。

写真

今後数か月でロボット工学の分野でどんな驚きが私たちを待っているのかはわかりません。

参考文献:

https://twitter.com/GoogleDeepMind/status/1742932234892644674 https://deepmind.google/discover/blog/shaping-the-future-of-advanced-robotics/?utm_source=twitter&utm_medium=social

https://twitter.com/zipengfu/status/1742973258528612724

<<:  Google DeepMind が 3 つのロボット成果を連続でリリース! 2つの機能が完全に改善され、データ収集システムは同時に20台のロボットを管理できるようになりました

>>: 

ブログ    

推薦する

...

コードを自動生成できるAIベースの開発ツール5選

今日、機械学習の可能性に関心を持つプログラマーは、人工知能と AI ベースのソフトウェア開発ツールを...

ビジュアルトランスフォーマーのより深い理解: ビジュアルトランスフォーマーの解剖学

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...

ロボットと人工知能の違いは何でしょうか?

テクノロジーの世界では、「ロボット工学」と「人工知能(AI)」という 2 つの用語がしばしば結び付け...

任澤平:「新インフラ」は時代の痕跡を刻む

【51CTO.comオリジナル記事】今年、我が国では間違いなく新しいインフラがホットな話題です。 2...

彼の人工知能ツールは生きた細胞の内部を覗くことができる

[[272732]] ▲ 図:アレン細胞科学研究所のコンピュータービジョン研究者、グレッグ・ジョンソ...

AIOps が IT 管理を変革する方法

世界がコロナウイルス危機の影響に取り組む中、業界団体は競合するネットワーク リソース、高まるユーザー...

自動運転データの所有権をめぐる戦い

次のようなシナリオを想像してください。 あなたはレベル3の自動運転機能を備えたAudi A8を所有し...

エイリアンがトレンド検索リストのトップに!米国が初のUFO公聴会を開催

昨日、米国議会の公聴会が中国国内の複数のメディアのトレンド検索のトップに躍り出た。 これを一言でまと...

将来の知能社会に向けた人工知能の基礎教育の強化

人工知能の基礎教育を強化することは、将来の社会の発展に備えるための避けられない選択であり、要件です。...

自動運転や人工知能はあなたの将来の生活にどのような変化をもたらすでしょうか?

[[324253]] 01 自動運転車社会科学者は、郊外化、汚染、自由、家族旅行、命の喪失、救われ...

グラフィックで説明する 10 個のグラフ アルゴリズム

例と視覚化による 10 個の基本的なグラフ アルゴリズムの簡単な紹介グラフは、ソーシャル メディア ...

10分で多言語チャットボットを作成する方法

[51CTO.com クイック翻訳]チャットボットは、人間との会話を自動的に行い、組織と顧客間のビジ...