ロボットが人間のように学習できるようにする Google RT-2 AI モデルとは何ですか?

ビッグモデルが急増し、仮想世界から現実世界に進出しています。 Google DeepMind は最近、Robotic Transformer 2 (RT-2) 大規模言語モデルを発表しました。これにより、人間は純粋な言語コマンドを通じてロボットの制御を最適化できるようになり、重要な前進を遂げました。

これまでの大規模モデルとは異なり、これは「視覚・言語・行動」（VLA）モデルです。業界では、Google の動きは、ロボット「ウォーリー」や「C-3PO」と同様に、人間の環境に適応できる汎用ロボットを開発することだと考えている。

GoogleのRT-2は特定のタスクのために訓練する必要がない

人間は、何かのタスクを学習する必要がある場合、多くの場合、読書や観察を通じて学習します。 RT-2 は多少似ており、大規模な言語モデル (ChatGPT を駆動するテクノロジー) を使用します。 RT-2 はインターネットからテキストと画像を見つけ、モデルをトレーニングして、特定のタスク用に特別にトレーニングされていなくてもパターンとアクションを認識できるようにします。

たとえば、Google によれば、RT-2 は特別な訓練を受けなくてもゴミを識別して捨てることができるという。 RT-2 はゴミとは何か、ゴミをどのように処理するかを理解し、一連のアクションを完了します。 RT-2 は、食品の包み紙やバナナの皮がゴミであることも知っています。

Google のエンジニアは、RT-2 に絶滅した動物を拾うように命令すると、RT-2 ロボットは 3 つの像から恐竜を見つけることができるとさえ述べています。

これまで、ゴミの識別、ゴミの収集、ゴミの廃棄など、ゴミ処理を AI に行わせるには、特別なトレーニングが必要でした。 RT-2 は違います。ネットワークデータから多くの知識を取得し、すでにゴミが何であるかを知っており、特別なトレーニングなしでゴミを識別できます。

たとえば、AIロボットにリンゴを拾わせたい場合、まずはロボットにリンゴの成長の仕方や物理的特性など、リンゴに関するあらゆることを教える必要があります。それだけでなく、環境内のリンゴを認識し、リンゴを赤いボールと混同しないようにする必要があります。そして最も重要なのは、AIがリンゴの拾い方を知っていることです。

GoogleのRT-2は汎用ロボット構築に向けた大きな一歩

一般的に、科学者はロボット AI をトレーニングするために、手動で取得した大量のデータポイントを使用します。あらゆるシナリオをカバーするには、トレーニングに多大な時間とコストがかかります。現実世界は複雑で常に変化しており、ロボットアシスタントが役に立つためには、プログラムされる可能性が低いシナリオを正しく処理する必要があります。

RT-2 の開発において、DeepMind は強力な一般化機能を備えた変形 AI モデルの利点を追求しました。 RT-2 は、PaLI-X や PaLM-E など、Google が以前に開発した AI を活用しています。 RT-2 モデルを使用すると、ロボットはカメラ画像を処理し、実行すべきアクションを予測できます。

Google は、訓練されたタスクであれば、6,000 回以上の試行を経ても RT-2 は RT-1 と同等のパフォーマンスを発揮することを発見しました。トレーニングされていないタスクでは、RT-2 は RT-1 の 2 倍のパフォーマンスを発揮します。つまり、RT-2 はまだ完璧ではないものの、新しいシナリオや新しいタスクを学習する際のパフォーマンスは優れていると Google は考えています。

DeepMind の目標は汎用ロボットの構築ですが、Google もまだ多くの研究作業が残されていることを認めています。しかし、RT-2 は正しい研究方向であるはずです。 RT-2 が完璧になれば、人間はロボットに「テキストコマンド」を与え、それに従って動作させることができるようになります。

Google RT-2は人間と同じように、学習したことを新しいシナリオに適用できる。

RT-2 の最大の進歩は、ネットワークデータから基本的な概念とアイデアを学習し、学習した知識を使用してロボットにアクションを完了するように指示することで、機械が操作言語を理解し、さらには「話す」ことさえ可能にしたことです。

ロボットが変化する環境内で一般的なタスクを実行するには、複雑で抽象的なタスクを管理する必要があります。これまでに遭遇したことのない環境の場合、ロボットは正しく対応する必要があります。

純粋に仮想世界で動作するチャットボットとは異なり、ロボットは現実世界に存在します。ロボットは抽象的な概念を理解し、それを実際の物理的な環境に適用する必要があります。

RT-2 が登場する前は、ロボットは複雑なシステムスタックに依存して動作していました。つまり、ロボットが適切に機能するには、高レベルの推論システムが低レベルのオペレーティングシステムと連携して動作していました。この方法は少し面倒でした。 RT-2 はよりシンプルで、複雑な推論とアクション出力を 1 つのモデルに統合します。

RT-2の最大の特徴は、言語と視覚のトレーニングデータから概念を学習し、それをロボットの動作に変換することです。これまでトレーニングしたことのないタスクに対しても、より強力な処理能力を備えています。つまり、RT-2 は人間と同じように、以前に学習した概念を新しいシナリオに適用できるのです。

Google の調査は、AI がロボットに速いペースで影響を与えていることを人間に伝えているようだ。多機能汎用ロボットの開発は人類の夢です。RT-2が大きな飛躍をもたらすことを期待します。（ナイフ）

<<: 新しい時代を受け入れよう: スマートホームが贅沢な生活を再定義する

>>: マイクロソフト、マルチモーダルアプローチでAIの理解能力を向上させるプロジェクトRumiを実証

ブログ

ロボットが人間のように学習できるようにする Google RT-2 AI モデルとは何ですか?

ルカンはソラを世界モデルとして非難し、自己回帰LLMは単純すぎると述べた。

WOTグローバルテクノロジーイノベーションカンファレンス2022：12の人気トピックがオンライン化されることが確定しましたので、ご確認ください！

アメリカン・エキスプレスはAIを活用して不正行為を検出し、セキュリティを強化

脳コンピューターインターフェース技術は本当に人気がある

個人情報保護における人工知能データの役割

人工知能があなたの好きな家を見つけるお手伝いをします

AIが写真を見て場所を推測、その精度は90%以上！スタンフォードの最新のPIGEONモデル：予測誤差の40％は25キロメートル未満

2020年のスマートセキュリティ技術の開発動向

推薦する

Transformerは画像を生成することも可能で、新しいViTGANのパフォーマンスはCNNベースのGANに匹敵する。

小売業における人工知能：生き残りは賢くなることにかかっている

人工知能「XiaoIce」がデザイナーに変身した経緯が明らかに

人工知能は諸刃の剣です。EUは利益を促進し、害を避けるための規制を導入しました。

AIはデジタル変革の失敗から学ぶ必要がある

清華大学の唐潔氏のチームは、ダル・イーよりも優れた成果を挙げた「中国のAIデザイナー」を作成した。

避けるべきよくあるコーディングミス

ヘルスケア分野で人工知能がどのように台頭しているか

ボストンダイナミクスのスポットが工場に入り、作業を開始しました！現代自動車はそれを夜間警備に配備し、工場の安全管理官に変身させる

ロボット革命はビジネス環境を変えている

最もよく使われる機械学習アルゴリズムのトップ10を簡単に理解する

ニューラルネットワーク「錬金術炉」の内部構造はどのようになっているのでしょうか？オックスフォード大学の博士課程学生による論文の解釈