フェイフェイ・リーのチームの新しい研究：脳制御ロボットが家事を行い、脳コンピューターインターフェースに少ないサンプルで学習する能力を与える

将来的には、考えただけでロボットに家事を任せることができるようになるかもしれません。スタンフォード大学の Jiajun Wu 氏と Fei-Fei Li 氏のチームが最近提案した NOIR システムでは、ユーザーは非侵襲性の EEG デバイスを通じてロボットを制御し、日常のタスクを完了することができます。

NOIR は EEG 信号をロボットスキルのライブラリにデコードします。今では、すき焼きを作ったり、服にアイロンをかけたり、チーズをすりおろしたり、三目並べをしたり、さらにはロボット犬を撫でたりといった作業もこなせるようになった。このモジュール式システムは強力な学習機能を備えており、日常生活における複雑で変化するタスクを処理できます。

脳ロボットインターフェース (BRI) は、人間の芸術、科学、工学の集大成です。数え切れないほどの SF 作品や創造的な芸術作品で目にしてきましたが、BRI を真に実現するのは容易ではありません。人間と完璧に連携できるロボットシステムを作成するには、画期的な科学的研究が必要です。

このようなシステムの重要な要素は、機械が人間と通信する能力です。人間と機械のコラボレーションやロボットの学習のプロセスにおいて、人間は動作、ボタンの押下、視線、表情、言語などを通じて意図を伝えます。神経信号を介してロボットと直接通信することは、最もエキサイティングであると同時に、最も困難な展望でもあります。

最近、スタンフォード大学の Jiajun Wu 氏と Fei-Fei Li 氏が率いる学際的なチームが、汎用インテリジェント BRI システム NOIR (Neural Signal Operated Intelligent Robots) を提案しました。

論文アドレス: https://openreview.net/pdf?id=eyykI3UIHa

プロジェクトウェブサイト: https://noir-corl.github.io/

このシステムは非侵襲的な脳波（EEG）技術に基づいています。システムの主な原理は階層的な共有自律性、つまり人間が高レベルの目標を定義し、ロボットが低レベルの動作指示を実行して目標を達成することであると報告されています。このシステムは、神経科学、ロボット工学、機械学習の新たな進歩を取り入れ、従来の方法よりも改善を実現しています。チームは貢献内容を要約します。

まず、NOIR は汎用性が高く、さまざまなタスクに使用でき、さまざまなコミュニティで簡単に使用できます。研究によると、NOIR は最大 20 の日常的な活動を実行できます。対照的に、以前の BRI システムは通常、1 つまたは少数のタスク用に設計されていたか、単なるシミュレーションシステムでした。さらに、NOIR システムは、最小限のトレーニングで一般の人々でも使用できます。

第二に、NOIR の「I」は、ロボットシステムがインテリジェントであり、適応能力を備えていることを示しています。このロボットには多様なスキルライブラリが搭載されており、人間による集中的な監視なしに低レベルのアクションを実行できます。 Pick (obj-A) や MoveTo (x,y) などのパラメーター化されたスキルプリミティブを使用すると、ロボットは人間の行動目標を自然に取得、解釈、実行できます。

さらに、NOIR システムには、共同作業のプロセス中に人間が何を達成したいかを学習する機能があります。研究によると、基礎となるモデルの最近の進歩を活用することで、システムは非常に限られたデータにも適応できることが示されています。これにより、システムの効率が大幅に向上します。

NOIR の主要な技術的貢献には、神経信号をデコードして人間の意図を理解するためのモジュール式ワークフローが含まれます。神経信号から人間の意図を解読することは極めて困難であることを理解することが重要です。これを実現するために、チームは人間の意図を、操作対象となるオブジェクト (What)、オブジェクトと対話する方法 (How)、対話の場所 (Where) という 3 つの要素に分解するというアプローチを採用しました。彼らの研究は、これらの信号がさまざまな種類の神経データからデコードできることを示しています。これらの分解された信号は、パラメータ化されたロボットのスキルに自然に対応し、ロボットに効果的に伝達できます。

3 人の被験者が NOIR システムを使用して、すき焼きを作る、衣類にアイロンをかける、三目並べをする、ロボット犬を撫でるなど、テーブルやモバイルの操作を伴う 20 種類の家庭内作業を、脳信号を使用して完了することに成功しました。

実験では、少数ショットのロボット学習に人間を教師として使用することで、NOIR システムの効率が大幅に向上することが示されています。人間の脳信号を利用して協力し、インテリジェントなロボットシステムを構築するこのアプローチは、人々、特に障害を持つ人々の生活の質を向上させる重要な支援技術を開発する大きな可能性を秘めています。

NOIRシステム

この研究が解決しようとしている課題は次のとおりです。1. さまざまなタスクに適用できる汎用的な BRI システムを構築するにはどうすればよいでしょうか。 2. 人間の脳からの関連する通信信号を解読するにはどうすればよいでしょうか? 3. より効率的なコラボレーションを実現するために、ロボットの知能と適応性を向上させるにはどうすればよいでしょうか?図 2 にシステムの概要を示します。

このシステムでは、人間は計画エージェントとして機能し、認識、計画、行動目標のロボットへの伝達を担当します。一方、ロボットはこれらの目標を達成するために事前に定義された基本的なスキルを使用します。

ユニバーサル BRI システムを作成するという全体的な目標を達成するには、両方の設計を相乗的に統合する必要があります。この目的のために、研究チームは新しい脳信号デコードワークフローを提案し、ロボットに独自のスキルのパラメータ化されたライブラリを装備しました。最後に、研究チームは少数サンプルの模倣学習技術を使用して、ロボットがより効率的に学習できるようにしました。

脳：モジュール式デコードワークフロー

図 3 に示すように、人間の意図は、操作対象となるオブジェクト (What)、オブジェクトと対話する方法 (How)、対話の場所 (Where) の 3 つの要素に分類されます。

EEG 信号から特定のユーザーの意図を解読することは困難ですが、定常視覚誘発電位 (SSVEP) と運動イメージを通じて実現できます。簡単に言えば、このプロセスには次のものが含まれます。

定常視覚誘発電位（SSVEP）で物体を選択する
運動イメージ（MI）によるスキルとパラメータの選択
筋肉を緊張させて確認するか中断するかを選択する

ロボット工学: パラメータ化された基本スキル

パラメータ化されたプリミティブスキルを組み合わせてさまざまなタスクに再利用することで、複雑で多様な操作を実現できます。さらに、人間にとって、これらのスキルは非常に直感的です。人間もエージェントもこれらのスキルの制御メカニズムを理解する必要はないため、スキルが堅牢でさまざまなタスクに適応できる限り、どのような手段でも実装できます。

研究チームは実験に2台のロボットを使用しました。卓上操作タスク用のFranka Emika Pandaロボットアームと、移動操作タスク用のPAL Tiagoロボットです。次の表は、これら 2 台のロボットの基本スキルを示しています。

ロボット学習を利用して効率的なBRIを実現する

上で説明したモジュール式のデコードワークフローと基本的なスキルライブラリが NOIR の基盤となります。ただし、このシステムの効率はさらに向上する可能性があります。ロボットは、コラボレーションプロセス中にユーザーのアイテム、スキル、パラメーター選択の好みを学習できる必要があります。これにより、将来的には、ユーザーの希望する目標を予測し、より優れた自動化を実現し、デコードをよりシンプルかつ簡単に行うことができます。オブジェクトの位置、ポーズ、配置、インスタンスは実行ごとに異なる可能性があるため、学習および一般化機能が必要です。さらに、人間のデータを収集するのはコストがかかるため、学習アルゴリズムには高いサンプル効率が必要です。

チームはこの目的のために、検索ベースの少数サンプルのアイテムとスキルの選択と、単一サンプルのスキルパラメータ学習という 2 つの方法を採用しました。

検索ベースの少数ショットアイテムとスキルの選択。この方法は、観測された状態の暗黙的な表現を学習できます。新しい観測状態が与えられると、潜在空間内で最も類似した状態と対応するアクションが見つかります。図 4 にこのアプローチの概要を示します。

タスク中、画像と人間が選択した項目とスキルのペアで構成されるデータポイントが記録されます。これらの画像は、まず事前にトレーニングされた R3M モデルによってエンコードされ、ロボット操作タスクに役立つ特徴が抽出され、次にいくつかのトレーニング可能な完全接続レイヤーに渡されます。これらのレイヤーは、トリプレット損失を伴う対照学習を使用してトレーニングされ、同じ「アイテム-スキル」ラベルを持つ画像が潜在空間内でより近くなるように促します。学習された画像埋め込みとアイテムスキルラベルはメモリに保存されます。

テスト中、モデルは潜在空間内の最も近いデータポイントを取得し、そのデータポイントに関連付けられたアイテムとスキルのペアを人間に提案します。

単発スキルパラメータ学習。パラメータ選択のプロセスでは、運動イメージ (MI) による正確なカーソル操作が必要となるため、広範囲にわたる人間の関与が必要になります。人間の作業負荷を軽減するために、チームは、カーソル制御の開始点となるアイテムとスキルのペアが与えられた場合にパラメータを予測できる学習アルゴリズムを提案しました。ユーザーがカップのハンドルを持ち上げる正確なキーポイントを正確に特定できたと仮定すると、将来このパラメータを再度指定する必要がありますか?最近、DINOv2 などの基本モデルは大幅に進歩し、対応する意味上のキーポイントを見つけることができるようになったため、パラメータを再度指定する必要がなくなりました。

以前の研究と比較して、ここで提案された新しいアルゴリズムは単一サンプルであり、意味的フラグメントではなく特定の 2D ポイントを予測します。図 4 に示すように、トレーニングイメージ (360 × 240) とパラメーター選択 (x、y) が与えられると、モデルは異なるテストイメージ内の意味的に対応するポイントを予測します。チームは、意味的特徴を取得するために、事前にトレーニングされた DINOv2 モデルを具体的に使用しました。

実験と結果

タスク。実験のために選択されたタスクは、人間の日常的なニーズをある程度反映できる「行動」と「日常生活活動」のベンチマークからのものです。図 1 は、16 個のデスクトップタスクと 4 個のモバイル操作タスクを含む実験タスクを示しています。

サンドイッチ作りとCOVID患者のケアに関する実験手順の例を以下に示します。

実験手順。実験中、ユーザーは隔離された部屋に留まり、じっとしたまま画面上のロボットを観察し、脳信号のみを通じてロボットとコミュニケーションをとった。

システムパフォーマンス。表 1 は、成功までの試行回数と、成功した場合のタスク完了時間という 2 つの指標に基づいてシステムパフォーマンスをまとめたものです。

これらのタスクの長さと難しさにもかかわらず、NOIR は非常に有望な結果を達成しました。平均して、タスクを完了するのに 1.83 回の試行しかかかりませんでした。

デコード精度。脳信号のデコード精度が NOIR システムの成功の鍵となります。表 2 は、さまざまな段階でのデコード精度をまとめたものです。 SSVEP に基づく CCA (正準相関分析) は 81.2% という高い精度を達成でき、項目選択が概ね正確であることがわかります。

アイテムとスキルの選択結果。では、新しく提案されたロボット学習アルゴリズムは NOIR の効率を向上させることができるのでしょうか?研究者らはまず、項目とスキルの選択学習を評価した。この目的のために、研究者らは MakePasta タスクのオフラインデータセットを収集しました。このデータセットでは、各「アイテムとスキル」のペアに 15 個のトレーニング例が含まれています。画像が与えられた場合、正しいアイテムとスキルの両方が予測されると、予測は正しいとみなされます。結果を表3に示す。

ResNet を使用した単純な画像分類モデルは平均精度 0.31 を達成しましたが、新しい方法では事前トレーニング済みの ResNet バックボーンに基づいて 0.73 という大幅に高い精度を達成しており、対照学習と検索ベースの学習の重要性が強調されています。

ワンショットパラメータ学習の結果。研究者らは、事前に収集されたデータセットに基づく複数のベンチマークと新しいアルゴリズムを比較した。表4に予測結果のMSE値を示します。

また、SetTable タスクでの実際のタスク実行において、パラメータ学習アルゴリズムの有効性を実証しました。図 5 は、カーソルの移動を制御する際に節約される人的労力の量を示しています。

<<:

>>: クレイジーすぎる、GPTsがオンライン：ウルトラマンがマスクの大型模型の手こすりを披露、誰かがサードパーティのマーケットを作った