ロボットチャットGPTが登場: ビッグモデルが現実世界に登場、DeepMindの画期的な進歩

ロボットチャットGPTが登場: ビッグモデルが現実世界に登場、DeepMindの画期的な進歩

インターネット上の言語と画像を習得した後、大きなモデルが最終的に現実世界に入り、「具現化された知能」が次の発展の方向になるはずだと私たちは知っています。

大規模なモデルをロボットに接続し、単純な自然言語を使用して複雑な指示を置き換え、追加のデータやトレーニングを必要とせずに具体的な行動計画を作成するというのは、美しいビジョンのように思えますが、少し遠いようにも思えます。結局のところ、ロボット工学の分野は非常に難しいことで有名です。

しかし、AIは私たちが想像するよりも速く進化しています。

今週の金曜日、 Google DeepMind は、ロボットを制御するための世界初の視覚・言語・行動 (VLA) モデルである RT-2 のリリースを発表しました

今では、複雑なコマンドを使用する代わりに、ChatGPT のようにロボットを直接制御できます。

写真

RT-2 はどれくらいインテリジェントですか? DeepMindの研究者はロボットアームを使ってこれを実演した。彼らはAIに「絶滅した動物」を選ぶように指示した。アームが伸び、爪が開いて落ち、恐竜の人形をつかんだ。

写真

これまで、ロボットは見たことのない物体を確実に理解することができず、「絶滅した動物」と「プラスチックの恐竜人形」を結びつけるような推論を行うことはできなかった。

ロボットにテイラー・スウィフトにコーラの缶を渡すように指示します。

このロボットは本物のファンであることがわかり、それは人間にとって朗報です。

ChatGPT のような大規模な言語モデルの開発は、ロボット工学の分野に革命をもたらしています。Google は最先端の言語モデルをロボットに搭載し、ついにロボットに人工脳を搭載できるようにしました。

DeepMindが最近提出した論文の中で、研究者らは、RT-2モデルはネットワークとロボットのデータに基づいてトレーニングされ、Bardなどの大規模言語モデルの研究の進歩を活用し、それをロボットのデータと組み合わせたと述べています。新しいモデルは英語以外の指示も理解できます。

グーグルの幹部は、RT-2はロボットの製造とプログラミングの方法における大きな進歩だと述べた。 「この変化により、私たちは研究アプローチ全体を再考する必要がある」と、グーグル・ディープマインドのロボット工学責任者、ヴィンセント・ヴァンホーケ氏は語った。 「私たちが以前やっていたことの多くは、完全に役に立たなくなってしまいました。」

RT-2はどのように機能しますか?

DeepMind の RT-2 は Robotic Transformer、つまりロボットのトランスフォーマー モデルです。

ロボットに人間の言語を理解させ、SF映画のように生存能力を発揮させることは簡単なことではありません。仮想環境と比較すると、現実の物理世界は複雑で無秩序であり、ロボットは通常、人間に代わって単純なことを行うために複雑な指示を必要とします。対照的に、人間は本能的に何をすべきかを知っています。

これまで、ロボットのトレーニングには長い時間がかかり、研究者はさまざまなタスクごとに個別のソリューションを構築する必要がありました。RT-2 の強力な機能により、ロボットはより多くの情報を独自に分析し、次に何をすべきかを推測できるようになります。

RT-2 は、ビジョン言語モデル (VLM) を基盤として、ネットワークとロボットのデータから学習し、その知識をロボットが制御できる一般的な指示に変換できるビジョン言語アクション (VLA) モデルという新しい概念を生み出しました。このモデルは、疲れた人にはどの飲み物が最適か(エナジードリンク)などの思考連鎖の手がかりを使用することさえできました。

RT-2 アーキテクチャとトレーニングプロセス

実際、Google は昨年早くも RT-1 バージョンのロボットをリリースしました。RT-1 は、事前トレーニング済みのモデルを 1 つだけ使用して、さまざまな感覚入力 (視覚、テキストなど) から指示を生成し、複数のタスクを実行できます。

事前トレーニング モデルとして、それを適切に構築するには、当然ながら自己教師学習のための大量のデータが必要です。 RT-2 は RT-1 をベースにしており、17 か月間にわたりオフィスやキッチン環境で 13 台のロボットによって収集された RT-1 のデモンストレーション データを使用します。

DeepMindはVLAモデルを作成した

前述のように、RT-2 は VLM 上に構築されており、VLM モデルは Web 規模のデータでトレーニングされており、視覚的な質問への回答、画像のキャプション作成、オブジェクト認識などのタスクを実行するために使用できます。さらに、研究者らは、以前に提案された2つのVLMモデル、PaLI-X(Pathways Language and Image model)とPaLM-E(Pathways Language model Embodied)をRT-2のバックボーンとして採用し、これらのモデルの視覚・言語・行動バージョンをRT-2-PaLI-XとRT-2-PaLM-Eと名付けました。

視覚言語モデルがロボットを制御するには、まだアクション制御というステップが残っています。この研究では非常にシンプルなアプローチを採用しました。ロボットの動作を別の言語、つまりテキスト トークンとして表現し、Web 規模の視覚言語データセットとともにトレーニングしました。

ロボットの動作のエンコードは、Brohan らが RT-1 モデル用に提案した離散化手法に基づいています。

下の図に示すように、この研究ではロボットの動作をテキスト文字列として表現します。これは、「1 128 91 241 5 101 127 217」などのロボットの動作トークン番号のシーケンスである場合があります。

文字列は、ロボットに現在のエピソードを続行するか終了するかを指示するフラグで始まり、ロボットはその指示に従ってエンド エフェクタとロボット グリッパーの位置と回転を変更します。

アクションはテキスト文字列として表されるため、ロボットがアクション コマンドを実行するのは、文字列コマンドを実行するのと同じくらい簡単です。この表現により、既存の視覚言語モデルを直接微調整し、視覚言語アクション モデルに変換できます。

推論中、テキスト トークンはロボットのアクションに分解され、閉ループ制御が実現されます。

実験

研究者らは、RT-2 モデルに関して一連の定性的および定量的実験を実施しました。

下の図は、RT-2 の意味理解と基本推論のパフォーマンスを示しています。たとえば、「イチゴを正しいボウルに入れる」というタスクでは、RT-2 はイチゴとボウルの表現を理解するだけでなく、シーンのコンテキストで推論して、イチゴを同様の果物と一緒に配置する必要があることを認識する必要があります。 「テーブルから落ちそうなバッグを拾う」というタスクでは、RT-2 は 2 つのバッグを区別し、不安定な位置にある物体を識別するために、バッグの物理的特性を理解する必要があります。

これらすべてのシナリオでテストされたインタラクションは、ロボット データではこれまで見られなかったことに注意する必要があります。

下の図は、4 つのベンチマークにおいて、RT-2 モデルが以前の RT-1 およびビジョン事前トレーニング済み (VC-1) ベースラインよりも優れていることを示しています。

RT-2 は、元のタスクでのロボットのパフォーマンスを維持し、これまでに見たことのないシーンでのロボットのパフォーマンスを RT-1 の 32% から 62% に向上させます。

一連の結果は、視覚言語モデル (VLM) を強力な視覚言語アクション (VLA) モデルに変換でき、VLM 事前トレーニングとロボット データを組み合わせることでロボットを直接制御できることを示しています。

ChatGPTと同様に、この機能が大規模に適用されれば、世界はおそらく大きな変化を遂げるでしょう。しかし、グーグルはRT-2ロボットをすぐに使用する予定はなく、人間の言語を理解できるこれらのロボットは能力を実証するレベルにとどまらないだろうと研究者は考えているとだけ述べている。

言語モデルを内蔵したロボットを想像してみてください。このロボットは倉庫に入れられ、薬を受け取ったり、洗濯物を畳んだり、食器洗い機から食器を取り出したり、家の中のものを片付けたりするホームアシスタントとしても使えます。

これにより、本当に有人環境でのロボットの使用への扉が開かれ、肉体労働を必要とするあらゆる方向を担うことができるようになるかもしれません。つまり、ChatGPTが仕事に与える影響を予測する以前のOpenAIレポートでは、大規模なモデルでは影響できなかった部分をカバーできるようになります。

具現化された知性、それは遠い未来ではないでしょうか?

最近では、具現化された知能は多くの研究者が研究している方向性です。今月、スタンフォード大学のフェイフェイ・リー氏のチームが新たな成果を披露した。視覚言語モデルに大規模言語モデルを追加することで、AIは3D空間で分析と計画を行い、ロボットの動作を誘導できる。

写真

知慧君氏の汎用ヒューマノイドロボットスタートアップ「Agibot」が昨夜公開したビデオでは、ロボットが大規模な言語モデルに基づいて自動的に行動を調整し、タスクを実行する能力も披露された。

写真

8月には、志慧軍氏の会社が最近の成果のいくつかを披露する予定だ。

大型モデルの分野では大きな出来事が起ころうとしていることがわかります。

<<:  VSCodeでChatGPTを実行すると、ファイルを直接生成できます。

>>:  GPT-X に基づく製品コピーライティングと画像生成の実践

推薦する

プロジェクト管理における人工知能の役割

人工知能 (AI) の台頭とさまざまな業界への統合の増加に伴い、プロジェクト管理も進化しています。 ...

ADMap: 干渉防止オンライン高精度マップへの新しいアプローチ

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...

人気のLlama 2は1週間で15万回以上ダウンロードされ、誰かがRust実装をオープンソース化した。

数日前、Meta は Llama 2 の無料商用バージョンをリリースし、AI コミュニティに大きなセ...

機械学習の運用はクラウドコンピューティングの運用には適していない

クラウド コンピューティング サービス チームに機械学習機能を備えたシステムを提供することは間違いで...

ロボットを活用する3つの革新的な方法

ロボットは、高齢の両親を助けたり、子供を教育したり、料理をしたりすることができます。ロボット産業は創...

...

ByteDanceのLi Hang氏:科学におけるAIの探究と進歩

近年、自然言語処理、コンピュータービジョン、音声処理など、人工知能のさまざまな分野が、ディープラーニ...

...

...

...

混合交通流におけるコネクテッド自動運転車の衝突回避方法: モデルベースの強化学習アプローチ

[[429494]] 2021年10月11日にarXivにアップロードされた論文「混合交通流における...

MITとIBMが共同で「コンピュータービジョンの黄金時代に備える」ための新しいデータセットを発表

人工知能の分野における画像分類問題に関して言えば、トレーニングとテストに最もよく使用されるデータセッ...

この AI 商用リストをお見逃しなく: アプリケーションで問題が解決するかもしれません (最終部分)

[[220562]]編纂者:小凡文、肖怡月、江宝尚長らくお待ちいただいておりましたが、ついにAIリ...

売上を予測するための 5 つの機械学習テクニック

売上予測は、機械学習 (ML) の一般的かつ重要な用途です。予測売上は、ベースラインを確立して新しい...