ビッグモデルが急増し、仮想世界から現実世界に進出しています。 Google DeepMind は最近、Robotic Transformer 2 (RT-2) 大規模言語モデルを発表しました。これにより、人間は純粋な言語コマンドを通じてロボットの制御を最適化できるようになり、重要な前進を遂げました。 これまでの大規模モデルとは異なり、これは「視覚・言語・行動」(VLA)モデルです。業界では、Google の動きは、ロボット「ウォーリー」や「C-3PO」と同様に、人間の環境に適応できる汎用ロボットを開発することだと考えている。 GoogleのRT-2は特定のタスクのために訓練する必要がない 人間は、何かのタスクを学習する必要がある場合、多くの場合、読書や観察を通じて学習します。 RT-2 は多少似ており、大規模な言語モデル (ChatGPT を駆動するテクノロジー) を使用します。 RT-2 はインターネットからテキストと画像を見つけ、モデルをトレーニングして、特定のタスク用に特別にトレーニングされていなくてもパターンとアクションを認識できるようにします。 たとえば、Google によれば、RT-2 は特別な訓練を受けなくてもゴミを識別して捨てることができるという。 RT-2 はゴミとは何か、ゴミをどのように処理するかを理解し、一連のアクションを完了します。 RT-2 は、食品の包み紙やバナナの皮がゴミであることも知っています。 Google のエンジニアは、RT-2 に絶滅した動物を拾うように命令すると、RT-2 ロボットは 3 つの像から恐竜を見つけることができるとさえ述べています。 これまで、ゴミの識別、ゴミの収集、ゴミの廃棄など、ゴミ処理を AI に行わせるには、特別なトレーニングが必要でした。 RT-2 は違います。ネットワーク データから多くの知識を取得し、すでにゴミが何であるかを知っており、特別なトレーニングなしでゴミを識別できます。 たとえば、AIロボットにリンゴを拾わせたい場合、まずはロボットにリンゴの成長の仕方や物理的特性など、リンゴに関するあらゆることを教える必要があります。それだけでなく、環境内のリンゴを認識し、リンゴを赤いボールと混同しないようにする必要があります。そして最も重要なのは、AIがリンゴの拾い方を知っていることです。 GoogleのRT-2は汎用ロボット構築に向けた大きな一歩 一般的に、科学者はロボット AI をトレーニングするために、手動で取得した大量のデータ ポイントを使用します。あらゆるシナリオをカバーするには、トレーニングに多大な時間とコストがかかります。現実世界は複雑で常に変化しており、ロボットアシスタントが役に立つためには、プログラムされる可能性が低いシナリオを正しく処理する必要があります。 RT-2 の開発において、DeepMind は強力な一般化機能を備えた変形 AI モデルの利点を追求しました。 RT-2 は、PaLI-X や PaLM-E など、Google が以前に開発した AI を活用しています。 RT-2 モデルを使用すると、ロボットはカメラ画像を処理し、実行すべきアクションを予測できます。 Google は、訓練されたタスクであれば、6,000 回以上の試行を経ても RT-2 は RT-1 と同等のパフォーマンスを発揮することを発見しました。トレーニングされていないタスクでは、RT-2 は RT-1 の 2 倍のパフォーマンスを発揮します。つまり、RT-2 はまだ完璧ではないものの、新しいシナリオや新しいタスクを学習する際のパフォーマンスは優れていると Google は考えています。 DeepMind の目標は汎用ロボットの構築ですが、Google もまだ多くの研究作業が残されていることを認めています。しかし、RT-2 は正しい研究方向であるはずです。 RT-2 が完璧になれば、人間はロボットに「テキスト コマンド」を与え、それに従って動作させることができるようになります。 Google RT-2は人間と同じように、学習したことを新しいシナリオに適用できる。 RT-2 の最大の進歩は、ネットワーク データから基本的な概念とアイデアを学習し、学習した知識を使用してロボットにアクションを完了するように指示することで、機械が操作言語を理解し、さらには「話す」ことさえ可能にしたことです。 ロボットが変化する環境内で一般的なタスクを実行するには、複雑で抽象的なタスクを管理する必要があります。これまでに遭遇したことのない環境の場合、ロボットは正しく対応する必要があります。 純粋に仮想世界で動作するチャットボットとは異なり、ロボットは現実世界に存在します。ロボットは抽象的な概念を理解し、それを実際の物理的な環境に適用する必要があります。 RT-2 が登場する前は、ロボットは複雑なシステム スタックに依存して動作していました。つまり、ロボットが適切に機能するには、高レベルの推論システムが低レベルのオペレーティング システムと連携して動作していました。この方法は少し面倒でした。 RT-2 はよりシンプルで、複雑な推論とアクション出力を 1 つのモデルに統合します。 RT-2の最大の特徴は、言語と視覚のトレーニングデータから概念を学習し、それをロボットの動作に変換することです。これまでトレーニングしたことのないタスクに対しても、より強力な処理能力を備えています。つまり、RT-2 は人間と同じように、以前に学習した概念を新しいシナリオに適用できるのです。 Google の調査は、AI がロボットに速いペースで影響を与えていることを人間に伝えているようだ。多機能汎用ロボットの開発は人類の夢です。RT-2が大きな飛躍をもたらすことを期待します。 (ナイフ) |
<<: 新しい時代を受け入れよう: スマートホームが贅沢な生活を再定義する
>>: マイクロソフト、マルチモーダルアプローチでAIの理解能力を向上させるプロジェクトRumiを実証
7月10日、人材分析・計画会社Visierは、英国、米国、カナダ、ドイツの250社以上の企業の従業員...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
翻訳者 | 朱 仙中校正:孫淑娟導入私たちは人工知能の黄金時代にいます。 AI ソリューションを導入...
世界の建設業界の現状人口ボーナスの消滅により、中国の建設業界は人件費への大きな圧力に直面しているほか...
[[229220]]よく知られているように、SQL は、開発者が大量のデータに対して効率的な操作を...
人間は機械にゲームをさせることに魅了されているようだ。1770 年という早い時期に、発明家たちは「ト...
ChatGPTに代表される大規模モデル技術の急速な発展により、レコメンデーションシステムは革命的な変...
今日のデジタル時代において、データ センターは、私たちのつながった世界を動かし続けるための膨大な情報...
[[189866]]私たちは皆、検証コードに精通しています。reCAPTCHA は、人間と機械を区別...
2017年に第1回世界情報会議が開催されて以来、天津では257件のプロジェクトが実施され、1000億...
先日開幕した ICCAD 2023 カンファレンスで、NVIDIA チームは AI モデルを使用して...