ロボットが人間のように学習できるようにする Google RT-2 AI モデルとは何ですか?

ロボットが人間のように学習できるようにする Google RT-2 AI モデルとは何ですか?

ビッグモデルが急増し、仮想世界から現実世界に進出しています。 Google DeepMind は最近、Robotic Transformer 2 (RT-2) 大規模言語モデルを発表しました。これにより、人間は純粋な言語コマンドを通じてロボットの制御を最適化できるようになり、重要な前進を遂げました。

これまでの大規模モデルとは異なり、これは「視覚・言語・行動」(VLA)モデルです。業界では、Google の動きは、ロボット「ウォーリー」や「C-3PO」と同様に、人間の環境に適応できる汎用ロボットを開発することだと考えている。

GoogleのRT-2は特定のタスクのために訓練する必要がない

人間は、何かのタスクを学習する必要がある場合、多くの場合、読書や観察を通じて学習します。 RT-2 は多少似ており、大規模な言語モデル (ChatGPT を駆動するテクノロジー) を使用します。 RT-2 はインターネットからテキストと画像を見つけ、モデルをトレーニングして、特定のタスク用に特別にトレーニングされていなくてもパターンとアクションを認識できるようにします。

たとえば、Google によれば、RT-2 は特別な訓練を受けなくてもゴミを識別して捨てることができるという。 RT-2 はゴミとは何か、ゴミをどのように処理するかを理解し、一連のアクションを完了します。 RT-2 は、食品の包み紙やバナナの皮がゴミであることも知っています。

Google のエンジニアは、RT-2 に絶滅した動物を拾うように命令すると、RT-2 ロボットは 3 つの像から恐竜を見つけることができるとさえ述べています。

これまで、ゴミの識別、ゴミの収集、ゴミの廃棄など、ゴミ処理を AI に行わせるには、特別なトレーニングが必要でした。 RT-2 は違います。ネットワーク データから多くの知識を取得し、すでにゴミが何であるかを知っており、特別なトレーニングなしでゴミを識別できます。

たとえば、AIロボットにリンゴを拾わせたい場合、まずはロボットにリンゴの成長の仕方や物理的特性など、リンゴに関するあらゆることを教える必要があります。それだけでなく、環境内のリンゴを認識し、リンゴを赤いボールと混同しないようにする必要があります。そして最も重要なのは、AIがリンゴの拾い方を知っていることです。

GoogleのRT-2は汎用ロボット構築に向けた大きな一歩

一般的に、科学者はロボット AI をトレーニングするために、手動で取得した大量のデータ ポイントを使用します。あらゆるシナリオをカバーするには、トレーニングに多大な時間とコストがかかります。現実世界は複雑で常に変化しており、ロボットアシスタントが役に立つためには、プログラムされる可能性が低いシナリオを正しく処理する必要があります。

RT-2 の開発において、DeepMind は強力な一般化機能を備えた変形 AI モデルの利点を追求しました。 RT-2 は、PaLI-X や PaLM-E など、Google が以前に開発した AI を活用しています。 RT-2 モデルを使用すると、ロボットはカメラ画像を処理し、実行すべきアクションを予測できます。

Google は、訓練されたタスクであれば、6,000 回以上の試行を経ても RT-2 は RT-1 と同等のパフォーマンスを発揮することを発見しました。トレーニングされていないタスクでは、RT-2 は RT-1 の 2 倍のパフォーマンスを発揮します。つまり、RT-2 はまだ完璧ではないものの、新しいシナリオや新しいタスクを学習する際のパフォーマンスは優れていると Google は考えています。

DeepMind の目標は汎用ロボットの構築ですが、Google もまだ多くの研究作業が残されていることを認めています。しかし、RT-2 は正しい研究方向であるはずです。 RT-2 が完璧になれば、人間はロボットに「テキスト コマンド」を与え、それに従って動作させることができるようになります。

Google RT-2は人間と同じように、学習したことを新しいシナリオに適用できる。

RT-2 の最大の進歩は、ネットワーク データから基本的な概念とアイデアを学習し、学習した知識を使用してロボットにアクションを完了するように指示することで、機械が操作言語を理解し、さらには「話す」ことさえ可能にしたことです。

ロボットが変化する環境内で一般的なタスクを実行するには、複雑で抽象的なタスクを管理する必要があります。これまでに遭遇したことのない環境の場合、ロボットは正しく対応する必要があります。

純粋に仮想世界で動作するチャットボットとは異なり、ロボットは現実世界に存在します。ロボットは抽象的な概念を理解し、それを実際の物理的な環境に適用する必要があります。

RT-2 が登場する前は、ロボットは複雑なシステム スタックに依存して動作していました。つまり、ロボットが適切に機能するには、高レベルの推論システムが低レベルのオペレーティング システムと連携して動作していました。この方法は少し面倒でした。 RT-2 はよりシンプルで、複雑な推論とアクション出力を 1 つのモデルに統合します。

RT-2の最大の特徴は、言語と視覚のトレーニングデータから概念を学習し、それをロボットの動作に変換することです。これまでトレーニングしたことのないタスクに対しても、より強力な処理能力を備えています。つまり、RT-2 は人間と同じように、以前に学習した概念を新しいシナリオに適用できるのです。

Google の調査は、AI がロボットに速いペースで影響を与えていることを人間に伝えているようだ。多機能汎用ロボットの開発は人類の夢です。RT-2が大きな飛躍をもたらすことを期待します。 (ナイフ)

<<:  新しい時代を受け入れよう: スマートホームが贅沢な生活を再定義する

>>:  マイクロソフト、マルチモーダルアプローチでAIの理解能力を向上させるプロジェクトRumiを実証

ブログ    
ブログ    

推薦する

...

人類の生存に関わる問題ですか? AI システムの説明可能性を調査する理由は何ですか?

この記事は公開アカウント「Reading Core Technique」(ID: AI_Discov...

...

ロボットと人間:その組み合わせが産業オートメーションの様相を変える可能性

進化する産業オートメーションの世界では、人間と機械の境界を越えた革新的なパートナーシップが生まれてい...

ディープラーニングにも欠陥があり、同質のAIスタートアップ間の競争は熾烈になるだろう

[[186262]]この人工知能の波は急速に到来し、画像認識、音声認識、自動運転など、多くの難題を次...

海外メディア:科学者らが深海を探索できる魚のようなソフトロボットを設計

3月4日のニュース、外国メディアの報道によると、ネイチャー誌に最近発表された研究によると、中国のエン...

新型コロナウイルスによりスマートシティがさらにスマート化

[[373550]]人工知能は、都市をよりスマートで効率的な仕事と生活の場へと変革する道を開きます。...

AIは英語のエッセイを添削できますか? IELTS、CET-4、CET-6の採点、コメント、エラー修正が必要です

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

Nvidiaの生成AIスーパーチップGH200はH100の2倍の計算能力を持つ。黄仁訓:それは狂ったように推論できる

アーキテクチャの革新を待つことができず、Nvidia は生成 AI 専用のチップを「先行して」リリー...

採血時に血管が見つからない?人工知能には解決策がある

[[318810]]ビッグデータダイジェスト制作出典: rutgers.edu編纂者:張大毓如、夏亜...

Baidu がスマートミニプログラムをリリース: Baidu Brain 3.0 に完全に統合され、12 月にオープンソース化

7月4日、北京国家会議センターで「Baidu Create 2018」Baidu AI開発者会議が開...

「幻想」を消し去れ! Google の新しい ASPIRE メソッドにより、LLM は自己採点が可能になり、その効果はボリューム モデルよりも 10 倍優れています。

大規模モデルの「幻覚」問題は解決されつつあるのでしょうか?ウィスコンシン大学マディソン校とグーグルの...

あなたの周りにある、機械学習の一般的な使用例トップ 7!

想像してみてください。あなたはずっと夢見てきた機械学習の職種の面接を受けに行こうとしています。すべて...

この記事を読んで人工知能を始めましょう!

今、テクノロジーの世界で最もホットなものは何ですか?答えはおそらく人工知能、機械学習、ディープラーニ...

製品の価格については心配しないでください。AI が教えてくれます!

[[341780]] ▲写真:ゲッティベインが 1,700 人以上のビジネス リーダーを対象に実施...