過去 1 年間、生成型人工知能の開発におけるキーワードは「ビッグ」でした。 強化学習の先駆者であるリッチ・サットンの「コンピューティングパワーをフル活用すれば、大きな力で奇跡を起こすことができる」という考えは、人々に徐々に受け入れられてきました。膨大な量のデータこそが、AIモデルが驚異的な知性を発揮する中核的な理由です。データのサイズが大きく、品質が高く、注釈が詳細であるほど、モデルが理解できる世界に関する知識は包括的になり、よりインテリジェントな結果が得られます。 では、なぜ人工知能の進歩は、SF映画に出てくるような万能の執事ロボットに反映されないのでしょうか?テーブルを片付け、洗濯物を畳み、朝食を作ることができるロボットはどこにあるのでしょうか? 重要な理由の1つは、ロボット工学の分野では、単なる力で奇跡を起こすことが難しいことです。生成AIのテキストや画像のトレーニングデータはインターネットで簡単に入手できますが、ロボットのトレーニングデータは通常、特定のタスクに応じて研究室の研究者によって1つずつ作成されます。このプロセスは長くて退屈なことが多いです。 大量のデータのサポートがなければ、ロボットは実験室を出て、朝食を作るなどの作業を自力で実行することができません。素晴らしいロボット研究の成果は、多くの場合、特定の研究室で開発された特定のタスクを実行するロボットのモデルにすぎず、他の研究室のロボット研究に対する参考価値は限られています。 テスラのオプティマスロボットは遠隔操作で洗濯物を畳みます。 多くのロボットの経験をまとめた「教科書」があれば、新しいロボットはそれを一度に学習することができ、ロボット間でトレーニングデータを共有できるようになります。このアプローチは、ロボットに新しいタスクを手動で実行させることによる時間とエネルギーの制約を克服できるでしょうか? この疑問の答えを得るために、北米、ヨーロッパ、アジアの 34 のロボット工学研究所が共同で、Google Deepmind が主導する RT-X プロジェクトを立ち上げました。 RT-X プロジェクトの目標は、データ、リソース、コードを統合して、汎用ロボットを実現することです。このプロジェクトの主要参加者であるカリフォルニア大学バークレー校のセルゲイ・レバイン教授と、Google DeepMindの上級科学者カロル・ハウスマン氏は、RT-Xプロジェクトの進捗状況をまとめた「汎用ロボット脳を作るグローバルプロジェクト」と題する記事を共同執筆した。 RT-X プロジェクトがこれまでに何をしてきたかを見てみましょう。 汎用ロボットを構築するにはどこから始めればよいでしょうか?人間には強力な学習能力があります。少し練習すれば、脳は手足を動かさずに、道具を拾ったり、自転車に乗ったり、車に乗ったりといった動作を行えるようになります。言い換えれば、私たちの体の中で何かが変化するのですが、私たちの脳はそれを理解しているのです。 RT-X の目標は、ロボットにこの種の「思考」を与え、単一のディープ ニューラル ネットワークでさまざまな種類のロボットを制御できるようにすることです。この機能は「クロス表現」と呼ばれます。 しかし、「クロス表現」の問題は、ロボットデータでトレーニングされたディープニューラルネットワークがさまざまなロボットを「制御」できるかどうかです。外観、物理的特性、機能が大きく異なるこれらのロボットを単一のニューラル ネットワークで「統合」できれば、ロボット学習のための大規模なデータ セットの可能性が解き放たれます。 RT-X プロジェクトが公開した Open X-Embodiment データセットは規模が大きく、現在、市場で一般的に使用されているロボットアームを含む 22 台のロボットの約 100 万件のテストデータが含まれています。オブジェクトのピックアップと配置、組み立て、ケーブル配線などの特殊なタスクのデータも含まれており、合計で約 500 種類の操作と他のオブジェクトとの数千の相互作用が含まれます。 Open X-Embodiment は現在、実際のロボットの動作に関する最大のオープンソース データセットです。 驚くべき発見は、大規模なデータセットから学習する大規模モデルのアイデアがロボット工学の分野にも当てはまるということです。研究者たちは、ChatGPT などの現在の LLM と同じモデルを活用した比較的単純な機械学習アプローチを使用して、Open X-Embodiment データセットに基づく一般的なロボット制御アルゴリズムをトレーニングすることができました。人が脳を使って車の運転や自転車の乗り方を学ぶのと同じように、Open X-Embodiment データセットでトレーニングされたモデルは、ロボット自体のカメラを通じて、モデルが制御しているロボットの種類を簡単に認識できます。たとえば、カメラが UR10 産業用アームであると認識した場合、モデルは UR10 に適したコマンドを送信します。低価格の WidowX 趣味用ロボット アームが識別された場合、モデルはそれに応じて指示を調整します。 Google は、Open X-Embodiment データセットに基づいて RT-X モデルをトレーニングしました。 「ロボットビッグモデル」の性能をテストするために、RT-Xプロジェクトに参加している5つの研究室が個別にテストを行った。彼らは、RT-X のトレーニング結果を独自に開発した最良の制御システムと比較しました。各研究室のテストプロジェクトには、物体の拾い上げや移動、ドアの開閉、クリップに配線を通すなど、ロボットが本来研究しているタスクが含まれています。驚くべきことに、統合された「ビッグモデル」は各研究室の最良の方法よりも優れた性能を発揮し、ロボットがタスクを完了する平均成功率が約 50% 向上しました。 さらに驚くべき発見は、次のアニメーションに示すように、RT-X モデルが他のロボットの経験を利用して、さまざまな環境でトレーニングされているロボットの堅牢性を向上させることができるということです。 ロボットが同じ研究室で同じタスクを実行している場合でも、わずかに異なる環境では、同じアクションを正常に完了できない可能性があります。衣服、箱、テーブルを変更した後、テスラ オプティマスは将来必ず衣服を折りたたむことを学ぶだろうとマスク氏が強調したのも不思議ではない。 したがって、他のロボットの他の状況での経験を活用できることは、RT-X モデルによって制御されるロボットが変化や特殊な状況に対処するのに役立ちます。 自律的に推論できるロボットの構築上記の結果に勇気づけられ、Google DeepMind の研究チームは、このデータをより深い推論機能を持つシステムに統合する方法を研究し続けました。複雑な意味的推論をロボットデータのみから学習するのは困難です。たとえば、「リンゴを瓶とオレンジの間に移動する」などの複雑なタスクでは、ロボットが画像内のオブジェクト間の意味関係、基本的な常識、および身体能力に直接関係しないその他の記号知識を理解する必要があります。 複雑な意味的推論の問題を解決するために、研究者たちは、インターネット全体の画像とテキストのデータという別の巨大なデータソースを追加することにしました。彼らは、自然言語と画像の関係を理解することを必要とする多くのタスクにすでに熟練している既存の大規模な視覚言語モデルを使用しました。 ChatGPT や Bard のような公開モデルです。このモデルは、画像入力に基づいて質問に答えることができ、視覚的な質問回答、キャプション作成、その他のオープンエンドの視覚理解タスクなどの問題を解決できます。 研究チームは、トレーニング後、生成AIモデルはロボットのコマンド(「バナナをお皿に載せる」など)に応じてロボットの動作を出力することもでき、ロボットはコマンドに従って動作を実行することを発見した。これらの調査結果に基づいて、Google DeepMind 研究チームはこのアプローチを Open X-Embodiment データセットに適用しました。 インターネットから得た知能と世界中のロボット工学データの組み合わせを評価するために、Google DeepMind は RT-X モデルを自社のモバイル ロボット アームでテストしました。研究者たちは、これまでで最も厳格な汎用ベンチマークテストを実施しました。これには、ロボットが物体を認識し、物体をうまく操作し、複雑なテキストコマンドに従い、テキストと画像の情報を統合し、論理的推論を実行する能力を習得する必要があります。この能力は、人間がジェネラリストである理由の 1 つです。 研究者らは2セットの評価を実施した。彼らは、Google のロボットを含まず、ベースラインとして複数のロボットのデータを含まないモデルを使用しました。実際、Open X-Embodiment データセットには Google DeepMind のロボットによるデモンストレーションが 10 万件以上含まれているため、データセット内の他のロボットが動作するかどうかは不明のままです。そこで、Open X-Embodimentの全体データに基づいた評価を試みた。 Google のロボットアームにとって、「リンゴを缶とオレンジの間に移動させる」ことは最も難しい評価タスクの 1 つです。これは空間関係についての推論を伴うタスクです。 「2+3の答えが書かれた紙の上に物体を置く」という課題では、数学の問題も解く必要があります。これらの課題は、RT-X モデルによってロボット アームが実行できる推論能力と結論を導き出す能力をテストするように設計されています。 この場合、ロボットアームの推論能力(例えば、「間」と「上」の意味についての推論)は視覚言語モデルのトレーニングにおけるフルネットワークデータから得られ、推論出力をロボットの動作に適用する能力(つまり、ロボットアームに正しい方向に動くように指示する)は、RT-X によるロボットデータのトレーニングから得られます。以下のビデオは、研究チームがロボットにトレーニング データに含まれていないタスクを実行するように依頼した評価例を示しています。 特別な訓練を受けなくても、Google のロボットアームは「リンゴを瓶とオレンジの間に移動する」という指示に従うことができた。この機能は、汎用ロボット頭脳への第一歩である RT-X によって可能になりました。 これらのタスクは人間にとっては些細なことのように思えるかもしれませんが、汎用ロボットにとっては大きな課題です。 「between」、「near」、「on」の意味を明確に説明する特定のロボットデモンストレーションデータがなければ、ロボットのトレーニングデータを共有したとしても、それに基づくシステムはこれらのコマンドの意味を理解できません。 完全なネットワーク知識を視覚言語モデルに統合することにより、RT-X の完全なシステムはロボット研究における多くの問題を解決します。研究チームは、共有ロボットデータの追加により、Google ロボットの一般化能力が 3 倍向上したことを発見しました。これは、Open X-Embodiment データセットが、ロボットがさまざまな身体的スキルを習得するのに役立つだけでなく、視覚言語モデルにおける意味的および記号的知識と身体的動作をより適切に結び付けるのにも役立つことを示唆しています。これらの接続により、ロボットはある一定の常識を獲得します。将来、ロボットはこれらの方法に基づいて「朝食を持ってきてください」といった複雑で微妙な指示を理解し、温かい朝食を提供できるようになるでしょう。 RT-Xプロジェクトの次のステップRT-X プロジェクトは、ロボット工学コミュニティが団結することで大きな進歩が達成できることを示しています。地域間および機関間の取り組みにより、Google DeepMind は多様なロボットデータセットを統合し、包括的なマルチロボット評価を実施しました。以前は、単一の機関でこれを行うことは不可能でした。 RT-X の発起者は、より多くの研究者が協力に参加し、データを共有することを期待しています。また、具現化された知能の研究をサポートするためのツール、モデル、インフラストラクチャも開発します。 大規模な言語モデルが幅広い言語ベースのタスクをマスターしたのと同様に、RT-X プロジェクトの現在の進歩により、大規模な具現化されたロボット モデルがロボット工学の分野を変革する可能性が開かれました。将来、Google DeepMind は、現実世界の多くのロボットタスクの基礎として同じ基本モデルを使用する予定です。おそらくいつの日か、ロボットは微調整のみ、あるいは事前トレーニング済みの基本モデルにプロンプトを入力するだけで、新しいスキルを習得できるようになるでしょう。 ChatGPT をこのように使用すると、ロボットに絞り袋の使い方や書き方のフォントを指示する必要がなく、ロボットがケーキに「Happy Birthday」と書いてデコレーションできるようになります。 RT-X プロジェクトに参加する研究室が増えるにつれて、Google DeepMind は単一のニューラル ネットワークで複数のロボットを制御する可能性をさらに高めたいと考えています。将来的には、生成されたさまざまなシミュレーション データを追加したり、より多くの種類のロボット (たとえば、腕や指の数が異なるロボット) を追加したり、さまざまなセンサー スイート (深度カメラや触覚センサーなど) を導入したり、操作と移動の動作を組み合わせたりすることが考えられます。 おそらく将来的には、汎用ロボット脳があらゆるロボットを操作できるようになり、世界中のすべてのロボットが共有データの恩恵を受けることができるようになるでしょう。 |
<<: AI4Science はまだ誤った提案なのでしょうか? 2年後、ワークショップ主催者はAI4Scienceを再検討する
>>: ジェネレーティブ AI: 職場の CIO にとって未知の要素
音声アシスタントからチャットボットまで、人工知能 (AI) はテクノロジーとのやり取りの方法に革命を...
[[286697]]この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI...
米国現地時間1月17日火曜日、人工知能分野のリーダーであるOpenAIは、自社のブログで「Colle...
4月17日、市場調査会社リサーチ・アンド・マーケッツが最近発表したレポートでは、2025年までに世界...
著者:Chris Kadoch 氏は Rekor Systems の最高技術責任者です。 [[376...
自動運転車の台頭により、都市の建設方法や都市環境における交通手段に対する考え方が一変するでしょう。 ...
この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...
著者: トーマス・クラバーン編纂者:ヤン・ジェン制作:51CTO テクノロジースタック(WeChat...
主にロジスティック回帰について説明します。ロジスティック回帰には多くの基本概念が含まれており、ニュー...
最近発表された論文で、チューリング賞受賞者のヨシュア・ベンジオ氏らは、チームの現在の研究の焦点である...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
1 はじめにみなさんこんにちは、フェイ先生です。機械学習の定番フレームワークであるscikit-l...
この2日間で大きなニュースがありました。Appleが自動車の製造をやめると発表したのです。このニュー...