ロボットチャットGPTが登場: ビッグモデルが現実世界に登場、DeepMindの画期的な進歩

インターネット上の言語と画像を習得した後、大きなモデルが最終的に現実世界に入り、「具現化された知能」が次の発展の方向になるはずだと私たちは知っています。

大規模なモデルをロボットに接続し、単純な自然言語を使用して複雑な指示を置き換え、追加のデータやトレーニングを必要とせずに具体的な行動計画を作成するというのは、美しいビジョンのように思えますが、少し遠いようにも思えます。結局のところ、ロボット工学の分野は非常に難しいことで有名です。

しかし、AIは私たちが想像するよりも速く進化しています。

今週の金曜日、 Google DeepMind は、ロボットを制御するための世界初の視覚・言語・行動 (VLA) モデルである RT-2 のリリースを発表しました。

今では、複雑なコマンドを使用する代わりに、ChatGPT のようにロボットを直接制御できます。

写真

RT-2 はどれくらいインテリジェントですか? DeepMindの研究者はロボットアームを使ってこれを実演した。彼らはAIに「絶滅した動物」を選ぶように指示した。アームが伸び、爪が開いて落ち、恐竜の人形をつかんだ。

写真

これまで、ロボットは見たことのない物体を確実に理解することができず、「絶滅した動物」と「プラスチックの恐竜人形」を結びつけるような推論を行うことはできなかった。

ロボットにテイラー・スウィフトにコーラの缶を渡すように指示します。

このロボットは本物のファンであることがわかり、それは人間にとって朗報です。

ChatGPT のような大規模な言語モデルの開発は、ロボット工学の分野に革命をもたらしています。Google は最先端の言語モデルをロボットに搭載し、ついにロボットに人工脳を搭載できるようにしました。

DeepMindが最近提出した論文の中で、研究者らは、RT-2モデルはネットワークとロボットのデータに基づいてトレーニングされ、Bardなどの大規模言語モデルの研究の進歩を活用し、それをロボットのデータと組み合わせたと述べています。新しいモデルは英語以外の指示も理解できます。

グーグルの幹部は、RT-2はロボットの製造とプログラミングの方法における大きな進歩だと述べた。「この変化により、私たちは研究アプローチ全体を再考する必要がある」と、グーグル・ディープマインドのロボット工学責任者、ヴィンセント・ヴァンホーケ氏は語った。「私たちが以前やっていたことの多くは、完全に役に立たなくなってしまいました。」

RT-2はどのように機能しますか?

DeepMind の RT-2 は Robotic Transformer、つまりロボットのトランスフォーマーモデルです。

ロボットに人間の言語を理解させ、SF映画のように生存能力を発揮させることは簡単なことではありません。仮想環境と比較すると、現実の物理世界は複雑で無秩序であり、ロボットは通常、人間に代わって単純なことを行うために複雑な指示を必要とします。対照的に、人間は本能的に何をすべきかを知っています。

これまで、ロボットのトレーニングには長い時間がかかり、研究者はさまざまなタスクごとに個別のソリューションを構築する必要がありました。RT-2 の強力な機能により、ロボットはより多くの情報を独自に分析し、次に何をすべきかを推測できるようになります。

RT-2 は、ビジョン言語モデル (VLM) を基盤として、ネットワークとロボットのデータから学習し、その知識をロボットが制御できる一般的な指示に変換できるビジョン言語アクション (VLA) モデルという新しい概念を生み出しました。このモデルは、疲れた人にはどの飲み物が最適か（エナジードリンク）などの思考連鎖の手がかりを使用することさえできました。

RT-2 アーキテクチャとトレーニングプロセス

実際、Google は昨年早くも RT-1 バージョンのロボットをリリースしました。RT-1 は、事前トレーニング済みのモデルを 1 つだけ使用して、さまざまな感覚入力 (視覚、テキストなど) から指示を生成し、複数のタスクを実行できます。

事前トレーニングモデルとして、それを適切に構築するには、当然ながら自己教師学習のための大量のデータが必要です。 RT-2 は RT-1 をベースにしており、17 か月間にわたりオフィスやキッチン環境で 13 台のロボットによって収集された RT-1 のデモンストレーションデータを使用します。

DeepMindはVLAモデルを作成した

前述のように、RT-2 は VLM 上に構築されており、VLM モデルは Web 規模のデータでトレーニングされており、視覚的な質問への回答、画像のキャプション作成、オブジェクト認識などのタスクを実行するために使用できます。さらに、研究者らは、以前に提案された2つのVLMモデル、PaLI-X（Pathways Language and Image model）とPaLM-E（Pathways Language model Embodied）をRT-2のバックボーンとして採用し、これらのモデルの視覚・言語・行動バージョンをRT-2-PaLI-XとRT-2-PaLM-Eと名付けました。

視覚言語モデルがロボットを制御するには、まだアクション制御というステップが残っています。この研究では非常にシンプルなアプローチを採用しました。ロボットの動作を別の言語、つまりテキストトークンとして表現し、Web 規模の視覚言語データセットとともにトレーニングしました。

ロボットの動作のエンコードは、Brohan らが RT-1 モデル用に提案した離散化手法に基づいています。

下の図に示すように、この研究ではロボットの動作をテキスト文字列として表現します。これは、「1 128 91 241 5 101 127 217」などのロボットの動作トークン番号のシーケンスである場合があります。

文字列は、ロボットに現在のエピソードを続行するか終了するかを指示するフラグで始まり、ロボットはその指示に従ってエンドエフェクタとロボットグリッパーの位置と回転を変更します。

アクションはテキスト文字列として表されるため、ロボットがアクションコマンドを実行するのは、文字列コマンドを実行するのと同じくらい簡単です。この表現により、既存の視覚言語モデルを直接微調整し、視覚言語アクションモデルに変換できます。

推論中、テキストトークンはロボットのアクションに分解され、閉ループ制御が実現されます。

実験

研究者らは、RT-2 モデルに関して一連の定性的および定量的実験を実施しました。

下の図は、RT-2 の意味理解と基本推論のパフォーマンスを示しています。たとえば、「イチゴを正しいボウルに入れる」というタスクでは、RT-2 はイチゴとボウルの表現を理解するだけでなく、シーンのコンテキストで推論して、イチゴを同様の果物と一緒に配置する必要があることを認識する必要があります。「テーブルから落ちそうなバッグを拾う」というタスクでは、RT-2 は 2 つのバッグを区別し、不安定な位置にある物体を識別するために、バッグの物理的特性を理解する必要があります。

これらすべてのシナリオでテストされたインタラクションは、ロボットデータではこれまで見られなかったことに注意する必要があります。

下の図は、4 つのベンチマークにおいて、RT-2 モデルが以前の RT-1 およびビジョン事前トレーニング済み (VC-1) ベースラインよりも優れていることを示しています。

RT-2 は、元のタスクでのロボットのパフォーマンスを維持し、これまでに見たことのないシーンでのロボットのパフォーマンスを RT-1 の 32% から 62% に向上させます。

一連の結果は、視覚言語モデル (VLM) を強力な視覚言語アクション (VLA) モデルに変換でき、VLM 事前トレーニングとロボットデータを組み合わせることでロボットを直接制御できることを示しています。

ChatGPTと同様に、この機能が大規模に適用されれば、世界はおそらく大きな変化を遂げるでしょう。しかし、グーグルはRT-2ロボットをすぐに使用する予定はなく、人間の言語を理解できるこれらのロボットは能力を実証するレベルにとどまらないだろうと研究者は考えているとだけ述べている。

言語モデルを内蔵したロボットを想像してみてください。このロボットは倉庫に入れられ、薬を受け取ったり、洗濯物を畳んだり、食器洗い機から食器を取り出したり、家の中のものを片付けたりするホームアシスタントとしても使えます。

これにより、本当に有人環境でのロボットの使用への扉が開かれ、肉体労働を必要とするあらゆる方向を担うことができるようになるかもしれません。つまり、ChatGPTが仕事に与える影響を予測する以前のOpenAIレポートでは、大規模なモデルでは影響できなかった部分をカバーできるようになります。

具現化された知性、それは遠い未来ではないでしょうか?

最近では、具現化された知能は多くの研究者が研究している方向性です。今月、スタンフォード大学のフェイフェイ・リー氏のチームが新たな成果を披露した。視覚言語モデルに大規模言語モデルを追加することで、AIは3D空間で分析と計画を行い、ロボットの動作を誘導できる。

写真

知慧君氏の汎用ヒューマノイドロボットスタートアップ「Agibot」が昨夜公開したビデオでは、ロボットが大規模な言語モデルに基づいて自動的に行動を調整し、タスクを実行する能力も披露された。

写真

8月には、志慧軍氏の会社が最近の成果のいくつかを披露する予定だ。

大型モデルの分野では大きな出来事が起ころうとしていることがわかります。

<<: VSCodeでChatGPTを実行すると、ファイルを直接生成できます。

>>: GPT-X に基づく製品コピーライティングと画像生成の実践

ブログ

ロボットチャットGPTが登場: ビッグモデルが現実世界に登場、DeepMindの画期的な進歩

RT-2はどのように機能しますか?

実験

具現化された知性、それは遠い未来ではないでしょうか?

AIはデータセキュリティをどう変えるのか

人工知能トレーナー、ドローンパイロット…聞いたことのない「新しい職業」が登場している

ショッピングをもっと便利に：Mogujie ビジュアル検索テクノロジーアーキテクチャの実践

ブロックチェーンが人工知能に力を与える方法

自動車学校がロボットコーチカーを導入：全行程を通じて優しい音声ガイド、コーチに怒鳴られる必要はもうない

AIはいかにして「医療の神様」となったのか？

2020年のコロナウイルスパンデミックが仕事の未来に与える影響

推薦する

女性が自動車事故後に自分自身を「変身」させ始める：左手のチップでドアが開き、右手でNFCをスキャンできる、「バイオハッカー」はどれほど狂っているのか？

人工知能（AI）が商業ビルのアプリケーションで成功を収める

ロボット工学が環境に優しい建物にどのように役立つか

この式がブロックされると、AI IQはゼロになります

数千億単位の数学専用大規模モデルMathGPTが公開テストを開始

XiaoIce 技術担当副社長、周立氏: AI 対話がメタバースの新たな未来を切り開く

シングルトランスフォーマー情報検索、Google は微分可能な検索インデックスでデュアルエンコーダーモデルに勝利

機械学習を推奨するマーケティングアカウントが増えています。これは本当に信頼できるのでしょうか?

アルゴリズムは美しいものです。私がこれらの古典的な Java アルゴリズムについて話すのを聞いた後、あなたはアルゴリズムの虜になるでしょう。

人工知能の主な研究段階と将来の発展方向は何ですか?

なぜ記憶はAIの発展を妨げる問題となるのでしょうか？

Python 用 OpenCV について Dlib を使って顔検出を実装する