Google AGI ロボットの大躍進！ 54人のチームが7か月間かけて強力な一般化と推論を実現した。これはDeepMindとGoogle Brainの合併後の新たな成果である。

この記事はAI新メディアQuantum Bit（公開アカウントID：QbitAI）より許可を得て転載しています。転載の際は出典元にご連絡ください。

爆発的な人気を博しているビッグモデルは、Google DeepMind のロボット工学研究を一変させています。

彼らの最新の成果の 1 つは、構築に 7 か月かかり、オンラインで大ヒットとなったロボットプロジェクトRT-2です。

効果はどのくらいですか？

人間の言葉で命令するだけで、目の前の小さな男はロボットアームを振って考え、「主人の仕事」を完了することができます。

ポップシンガーのテイラー・スウィフトに水を渡したり、スターのチームロゴを特定したりするなど:

ロボットは能動的に考えることもできるので、「絶滅した動物を選んで」と頼めば、ライオン、クジラ、恐竜の3つのプラスチックのおもちゃの中から恐竜を正確に選ぶことができます。

ネットユーザーによれば、この能力を過小評価してはいけない、これは「絶滅した動物」から「プラスチックの恐竜」への論理的飛躍である。

さらに驚くべきは、「疲れている人のために飲み物を選ぶ」といった一連の思考を必要とする多段階の推論問題を簡単に解くことができることです。コマンドを聞くとすぐに、小さな手がレッドブルにまっすぐ向かいます。とても賢いです。

それを見たネットユーザーの中にはため息をついた人もいた。

もう待てない、早く人間の皿洗いを始めろ（犬の頭）

Google DeepMind のこの成果は54 人の研究者の協力の結果であり、最終的に今日私たちが「とても簡単」だと感じる状態になるまでに 7 か月かかったことがわかっています。

ニューヨークタイムズによると、Google DeepMindのロボット工学技術ディレクターであるヴィンセント・ヴァンホーケ氏は、このビッグモデルが同部門の研究の方向性を完全に変えたと考えている。

この（大きなモデルの）変更により、研究プロジェクト全体を再考する必要がありました。
以前勉強したことの多くは完全に効果がなくなってしまいました。

では、RT-2 はどのような効果を達成できるのでしょうか。また、この研究は具体的に何についてなのでしょうか。

マルチモーダルな大型モデルをロボットアームに組み込む

RT-2 （ロボティック・トランスフォーマー2）と呼ばれるこのロボットプロジェクトは、昨年末にリリースされたRT-1の「進化版」です。

他のロボット研究と比較した場合、RT-2 の核心的な利点は、「人間の言語」を理解できるだけでなく、「人間の言語」について推論し、それをロボットが理解できる指示に変換することで、段階的にタスクを完了できることです。

具体的には、記号理解、推論、人間認識という 3 つの主要な機能があります。

最初の機能は「シンボル理解」であり、大規模なモデルで事前トレーニングされた知識を、ロボットがこれまで見たことのないデータに直接拡張することができます。例えば、ロボットのデータベースには「レッドブル」は存在しませんが、大きな模型の知識から「レッドブル」の外観を理解して把握し、物体を保持することができます。

2 つ目の能力は「推論」であり、これも RT-2 の核となる利点です。ロボットは、数学、視覚的推論、多言語理解という 3 つの主要なスキルを習得する必要があります。

スキル 1 には、数学的論理推論コマンド「バナナを 2 + 1 の合計が配置される位置に置きます」が含まれます。

スキル 2、視覚的推論(「イチゴを正しいボウルに入れる」など)

3 番目のスキルである多言語理解は、スペイン語で「アイテムの山から最もユニークなものを選びなさい」と命令するなど、英語がなくても指示を完了できます。

3つ目の能力は人間認識で、人間の行動を正確に識別し理解する能力です。冒頭で紹介した「テイラー・スウィフトに水をあげる」という例は、この能力の実証例の1つです。

では、これら 3 つの機能はどのように実現されるのでしょうか?

簡単に言えば、ビジュアル・テキスト・マルチモーダル・モデル（VLM）の「推論」「認識」「数学」などの機能をロボットの操作機能と組み合わせることです。

これを実現するために、研究者らは、ビジョン・テキスト・アクション大規模モデル(VLM)に「ロボットアクションモダリティ」と呼ばれるモダリティを追加し、ビジョン・テキスト・アクション大規模モデル(VLA)に変えました。

その後、元々非常に特殊なロボットの動作データがテキストトークンに変換されます。

例えば、回転の度合いや配置する座標点などのデータを、「特定の場所に配置してください」というテキストに変換できます。

このように、ロボットデータは視覚言語データセットでもトレーニングに使用できます。同時に、推論プロセス中に、元のテキスト指示がロボットデータに変換され、ロボットの制御などの一連の操作が実現されます。

はい、それはとても単純で粗雑です（手動の犬の頭）

この研究では、研究チームは主に、50億と550億のPaLI-X 、30億のPaLI 、120億のPaLM-Eなど、 Googleの一連の基本的な大型モデルに基づいて「アップグレード」しました。

大規模モデル自体の機能を向上させるために、研究者らは多大な努力を注ぎ、最近人気の思考チェーン、ベクトルデータベース、無勾配アーキテクチャを活用しました。

この一連の操作により、RT-2 には昨年リリースされた RT-1 と比較して多くの新しい利点がもたらされます。

具体的な実験結果を見てみましょう。

RT-1の最大3倍の性能

RT-2 は、前世代のロボットモデル RT-1 のデータを使用してトレーニングされます(つまり、データは変更されておらず、方法のみが変更されています) 。

データは、オフィスに設置されたキッチン環境で 13 台のロボットを使用して17 か月間にわたって収集されました。

実際のテスト（合計6,000回）では、著者らはRT-2にこれまで見たことのない多くのオブジェクトを与え、タスクを完了するためにRT-2が微調整データを超えた意味理解を実行することを要求しました。

結果はかなり良好でした:

これらには、文字、国旗、キャラクターを認識するなどの簡単なコマンドから、人形から陸生動物を識別する、色の違う動物を選択する、さらにはテーブルから落ちそうなおやつを拾うなどのコマンドが含まれます。

シンボル理解、推論、人間認識という 3 つのサブ機能の点では、RT-2 の両方のバリアントは RT-1 や別の視覚事前トレーニング方法である VC-1 よりもはるかに優れており、パフォーマンスは最大 3 倍優れています。

前述のように、2 つのバリアントはそれぞれ 120 億のパラメータを持つ PaLM-E と 550 億のパラメータを持つ PaLI-X でトレーニングされています。

具体的な一般化能力評価では、複数のベースラインモデルによるマルチカテゴリセグメンテーションテストを通じて、最終的にRT-2のパフォーマンスが約2倍向上したことがわかりました。

(残念ながら、他のチームの最新の LLM ベースのロボット工学アプローチと比較したことはありません。)

RT-2 のさまざまな設定が一般化結果にどのように影響するかをよりよく理解するために、著者らは 2 つの主要な評価タイプを設計しました。

まず、モデルのサイズに関して言えば、RT-2 PaLI-X バリアントのみがそれぞれ 50 億のパラメータと 550 億のパラメータでトレーニングされています。

次に、トレーニング方法に関しては、モデルを最初からトレーニングする方法、微調整する方法、共同微調整の方法を使用します。

最終結果は、視覚言語モデルの事前トレーニングされた重みの重要性とモデルの一般化能力は、モデルのサイズとともに増加する傾向があることを示しています。

さらに、著者らはオープンソース言語テーブルベンチマークでも RT-2 を評価し、その結果、シミュレーションベンチマークで SOTA 結果(以前の 77% に対して 90%)を達成したことが示されました。

最後に、RT-2 PaLM-E バリアントは、単一のニューラルネットワーク内で LLM、VLM、およびロボットコントローラーとして機能できる視覚言語アクションモデルであるため、RT-2 は制御可能な思考連鎖推論も実行できます。

下の図に示すように、推論を必要とする 5 つのタスク(特に興味深いのは、ハンマーの代わりになるアイテムを選択するという最後のタスク) のうち、コマンドを受け取った後、最初に自然言語の手順を出力し、次に特定のアクショントークンを与えます。

最後にまとめると、この最新の RT-2 モデルは、マシンがこれまで見たことのないさまざまなシナリオに適しているだけでなく、より優れた一般化機能も備えています。同時に、より優れた大規模モデルのサポートにより、推論などのいくつかの難しい新機能も習得しています。

もう一つ

Google がロボット工学の研究を大型モデルに集中させているのは根拠のない話ではないようだ。

この2日間だけでも、コロンビア大学と共同で発表した「大型モデルを活用してロボット操作スキルの習得を支援する」という論文も非常に好評でした。

この論文では、ロボットが大規模なモデルにうまく適応できるだけでなく、元のロボットの基本的な操作と制御機能も保持できる新しいフレームワークを提案します。

RT-2 とは異なり、このプロジェクトはオープンソースです。

大型モデルがロボット部門全体のアップグレードを牽引したのは事実だ。

フェイフェイ・リー氏のチームによる具現化された知能の分野での最近の成果を考慮すると、大型モデルを使用してロボットを駆動することは確かに研究のトレンドになっており、すでに非常に有望な進歩の波が見られるようになったと言えます。

この研究の方向性に対してどのような期待を抱いていますか?

プロジェクトアドレス: https://robotics-transformer2.github.io/

<<: GPT-4 は上司とプログラマーに取って代わります。この GitHub プロジェクトは最も検索されています。著者: AI に反復処理を学習させる

>>: ソフトマックスを放棄した初の大規模線形アテンショントランスフォーマーモデル: 1750億のパラメータ、より優れた速度と精度

OpenAIを去った偉人カパシ氏は「教え始めた」。おなじみのミニコードスタイルのまま、新しいプロジェクトが日々増えている。

Google AGI ロボットの大躍進！ 54人のチームが7か月間かけて強力な一般化と推論を実現した。これはDeepMindとGoogle Brainの合併後の新たな成果である。

マルチモーダルな大型モデルをロボットアームに組み込む

RT-1の最大3倍の性能

もう一つ

OpenAIを去った偉人カパシ氏は「教え始めた」。おなじみのミニコードスタイルのまま、新しいプロジェクトが日々増えている。

大きなモデルが必ずしも良いモデルとは限らない。小さな機械学習こそが未来だ

自然言語処理ライブラリ - Snownlp

看護師の負担を軽減し、病院の効率化を実現します！医療物流ロボットが「新たな人気」に

米国は自動運転に関する最も厳しい新規制を発行：L2〜L5を完全にカバー、今月30件のテスラ事故が調査された

GPTストアはオンラインになるとすぐに混乱に陥り、偽造品、偽のトラフィック、禁止されたコンテンツが次々と出現します

資金調達、新製品、アプリケーションは引き続き成長中：8月のドローン業界の最新動向の概要

アプリランキング操作の水軍が復活：Appleのアルゴリズムを破るために5倍のコストを費やす

推薦する

収集する価値のあるAIツールメモ8つ

顔認証決済の登場：「決済戦争」の次なる激戦点となるか？

マスク氏：ニューラリンクが初めて人体にチップを埋め込み、製品化へ

空軍の最高データ・AI責任者がAIを通じて戦略的優位性を獲得する方法について語る

テクノロジーは無罪？ AIが女性の服を直接「脱がす」！

機械学習と人工知能の未来について語る

AIは人間の脳を模倣しています！ 2021年のトップ10の会議論文: 脳は「教師なし」でも学習する

ディープラーニングは自動運転車にとって何を意味するのでしょうか?

GPT-4の5倍の性能を持つGoogle Geminiは、本当にOpenAIやMicrosoftに勝てるのでしょうか？