インターネット上の言語と画像を習得した後、大きなモデルが最終的に現実世界に入り、「具現化された知能」が次の発展の方向になるはずだと私たちは知っています。 大規模なモデルをロボットに接続し、単純な自然言語を使用して複雑な指示を置き換え、追加のデータやトレーニングを必要とせずに具体的な行動計画を作成するというのは、美しいビジョンのように思えますが、少し遠いようにも思えます。結局のところ、ロボット工学の分野は非常に難しいことで有名です。 しかし、AIは私たちが想像するよりも速く進化しています。 今週の金曜日、 Google DeepMind は、ロボットを制御するための世界初の視覚・言語・行動 (VLA) モデルである RT-2 のリリースを発表しました。 今では、複雑なコマンドを使用する代わりに、ChatGPT のようにロボットを直接制御できます。 写真 RT-2 はどれくらいインテリジェントですか? DeepMindの研究者はロボットアームを使ってこれを実演した。彼らはAIに「絶滅した動物」を選ぶように指示した。アームが伸び、爪が開いて落ち、恐竜の人形をつかんだ。 写真 これまで、ロボットは見たことのない物体を確実に理解することができず、「絶滅した動物」と「プラスチックの恐竜人形」を結びつけるような推論を行うことはできなかった。 ロボットにテイラー・スウィフトにコーラの缶を渡すように指示します。 このロボットは本物のファンであることがわかり、それは人間にとって朗報です。 ChatGPT のような大規模な言語モデルの開発は、ロボット工学の分野に革命をもたらしています。Google は最先端の言語モデルをロボットに搭載し、ついにロボットに人工脳を搭載できるようにしました。 DeepMindが最近提出した論文の中で、研究者らは、RT-2モデルはネットワークとロボットのデータに基づいてトレーニングされ、Bardなどの大規模言語モデルの研究の進歩を活用し、それをロボットのデータと組み合わせたと述べています。新しいモデルは英語以外の指示も理解できます。 グーグルの幹部は、RT-2はロボットの製造とプログラミングの方法における大きな進歩だと述べた。 「この変化により、私たちは研究アプローチ全体を再考する必要がある」と、グーグル・ディープマインドのロボット工学責任者、ヴィンセント・ヴァンホーケ氏は語った。 「私たちが以前やっていたことの多くは、完全に役に立たなくなってしまいました。」 RT-2はどのように機能しますか?DeepMind の RT-2 は Robotic Transformer、つまりロボットのトランスフォーマー モデルです。 ロボットに人間の言語を理解させ、SF映画のように生存能力を発揮させることは簡単なことではありません。仮想環境と比較すると、現実の物理世界は複雑で無秩序であり、ロボットは通常、人間に代わって単純なことを行うために複雑な指示を必要とします。対照的に、人間は本能的に何をすべきかを知っています。 これまで、ロボットのトレーニングには長い時間がかかり、研究者はさまざまなタスクごとに個別のソリューションを構築する必要がありました。RT-2 の強力な機能により、ロボットはより多くの情報を独自に分析し、次に何をすべきかを推測できるようになります。 RT-2 は、ビジョン言語モデル (VLM) を基盤として、ネットワークとロボットのデータから学習し、その知識をロボットが制御できる一般的な指示に変換できるビジョン言語アクション (VLA) モデルという新しい概念を生み出しました。このモデルは、疲れた人にはどの飲み物が最適か(エナジードリンク)などの思考連鎖の手がかりを使用することさえできました。 RT-2 アーキテクチャとトレーニングプロセス 実際、Google は昨年早くも RT-1 バージョンのロボットをリリースしました。RT-1 は、事前トレーニング済みのモデルを 1 つだけ使用して、さまざまな感覚入力 (視覚、テキストなど) から指示を生成し、複数のタスクを実行できます。 事前トレーニング モデルとして、それを適切に構築するには、当然ながら自己教師学習のための大量のデータが必要です。 RT-2 は RT-1 をベースにしており、17 か月間にわたりオフィスやキッチン環境で 13 台のロボットによって収集された RT-1 のデモンストレーション データを使用します。 DeepMindはVLAモデルを作成した 前述のように、RT-2 は VLM 上に構築されており、VLM モデルは Web 規模のデータでトレーニングされており、視覚的な質問への回答、画像のキャプション作成、オブジェクト認識などのタスクを実行するために使用できます。さらに、研究者らは、以前に提案された2つのVLMモデル、PaLI-X(Pathways Language and Image model)とPaLM-E(Pathways Language model Embodied)をRT-2のバックボーンとして採用し、これらのモデルの視覚・言語・行動バージョンをRT-2-PaLI-XとRT-2-PaLM-Eと名付けました。 視覚言語モデルがロボットを制御するには、まだアクション制御というステップが残っています。この研究では非常にシンプルなアプローチを採用しました。ロボットの動作を別の言語、つまりテキスト トークンとして表現し、Web 規模の視覚言語データセットとともにトレーニングしました。 ロボットの動作のエンコードは、Brohan らが RT-1 モデル用に提案した離散化手法に基づいています。 下の図に示すように、この研究ではロボットの動作をテキスト文字列として表現します。これは、「1 128 91 241 5 101 127 217」などのロボットの動作トークン番号のシーケンスである場合があります。 文字列は、ロボットに現在のエピソードを続行するか終了するかを指示するフラグで始まり、ロボットはその指示に従ってエンド エフェクタとロボット グリッパーの位置と回転を変更します。 アクションはテキスト文字列として表されるため、ロボットがアクション コマンドを実行するのは、文字列コマンドを実行するのと同じくらい簡単です。この表現により、既存の視覚言語モデルを直接微調整し、視覚言語アクション モデルに変換できます。 推論中、テキスト トークンはロボットのアクションに分解され、閉ループ制御が実現されます。 実験研究者らは、RT-2 モデルに関して一連の定性的および定量的実験を実施しました。 下の図は、RT-2 の意味理解と基本推論のパフォーマンスを示しています。たとえば、「イチゴを正しいボウルに入れる」というタスクでは、RT-2 はイチゴとボウルの表現を理解するだけでなく、シーンのコンテキストで推論して、イチゴを同様の果物と一緒に配置する必要があることを認識する必要があります。 「テーブルから落ちそうなバッグを拾う」というタスクでは、RT-2 は 2 つのバッグを区別し、不安定な位置にある物体を識別するために、バッグの物理的特性を理解する必要があります。 これらすべてのシナリオでテストされたインタラクションは、ロボット データではこれまで見られなかったことに注意する必要があります。 下の図は、4 つのベンチマークにおいて、RT-2 モデルが以前の RT-1 およびビジョン事前トレーニング済み (VC-1) ベースラインよりも優れていることを示しています。 RT-2 は、元のタスクでのロボットのパフォーマンスを維持し、これまでに見たことのないシーンでのロボットのパフォーマンスを RT-1 の 32% から 62% に向上させます。 一連の結果は、視覚言語モデル (VLM) を強力な視覚言語アクション (VLA) モデルに変換でき、VLM 事前トレーニングとロボット データを組み合わせることでロボットを直接制御できることを示しています。 ChatGPTと同様に、この機能が大規模に適用されれば、世界はおそらく大きな変化を遂げるでしょう。しかし、グーグルはRT-2ロボットをすぐに使用する予定はなく、人間の言語を理解できるこれらのロボットは能力を実証するレベルにとどまらないだろうと研究者は考えているとだけ述べている。 言語モデルを内蔵したロボットを想像してみてください。このロボットは倉庫に入れられ、薬を受け取ったり、洗濯物を畳んだり、食器洗い機から食器を取り出したり、家の中のものを片付けたりするホームアシスタントとしても使えます。 これにより、本当に有人環境でのロボットの使用への扉が開かれ、肉体労働を必要とするあらゆる方向を担うことができるようになるかもしれません。つまり、ChatGPTが仕事に与える影響を予測する以前のOpenAIレポートでは、大規模なモデルでは影響できなかった部分をカバーできるようになります。 具現化された知性、それは遠い未来ではないでしょうか?最近では、具現化された知能は多くの研究者が研究している方向性です。今月、スタンフォード大学のフェイフェイ・リー氏のチームが新たな成果を披露した。視覚言語モデルに大規模言語モデルを追加することで、AIは3D空間で分析と計画を行い、ロボットの動作を誘導できる。 写真 知慧君氏の汎用ヒューマノイドロボットスタートアップ「Agibot」が昨夜公開したビデオでは、ロボットが大規模な言語モデルに基づいて自動的に行動を調整し、タスクを実行する能力も披露された。 写真 8月には、志慧軍氏の会社が最近の成果のいくつかを披露する予定だ。 大型モデルの分野では大きな出来事が起ころうとしていることがわかります。 |
<<: VSCodeでChatGPTを実行すると、ファイルを直接生成できます。
>>: GPT-X に基づく製品コピーライティングと画像生成の実践
最近の世界的な調査によると、企業の事業がハッキングされると莫大な損失が発生し、サイバー攻撃1回あたり...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
まとめディープフィードフォワードシーケンスメモリネットワークに基づく音声合成システムを提案します。こ...
米国現地時間11月7日月曜日に開催された第1回OpenAI開発者会議で、同社CEOのサム・アルトマン...
人工知能はあらゆる社会的立場を変えるイノベーションです。これは、データを統合し、情報を分析し、その後...
人工知能 (AI) は指数関数的な成長によりさらに進歩していますが、この最新技術には依然として限界が...
人工知能を使って患者の死期を予測するというのは、ディストピアSFシリーズ『ブラック・ミラー』のような...
Persona AI は、人々がチャットボットと対話する方法に革命をもたらします。ニューラル言語モ...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
背景検索技術が発展するにつれ、検索シナリオにおける教師あり学習アルゴリズムの限界が徐々に認識されるよ...
[[279350]] OpenAI のロボットハンドは片手でルービックキューブを解くことを学習し、...
倫理的配慮無人運転車の問題は、自動運転車の倫理性の問題として要約できます。この問題の典型的なバージョ...
医療画像解析に機械学習 (ML) を実装することは新しいことではありません。放射線科医は、自動化ツー...