模倣学習: ロボットはプログラミングなしで自然言語を理解できます!

模倣学習: ロボットはプログラミングなしで自然言語を理解できます!

人間が日常のコミュニケーションで話す自然言語の指示を使用して、ロボットアームにタスクを実行するよう指示することは大きな課題です。アリゾナ州立大学、インテル AI ラボ、オレゴン州立大学の研究チームは、操作タスクにおける模倣学習の柔軟な目標として言語を使用し、人間の専門家とロボット間のコミュニケーションの架け橋を提供しました。トレーニング中に、モデルは言語、視覚、運動制御間の相関関係を関連付けて捉えることを学習し、結果として言語に基づいた制御ポリシーが生成されます。これらのポリシーは、人間のユーザーが構造化されていないコマンドを発行するためのシンプルで直感的なインターフェースを提供します。

将来的には、非構造化自然言語を模倣学習に組み込むことで、自律型ロボットのプログラミングの必要性が減り、人間とロボットの自然なやり取りが可能になる可能性があります。この革新により、医療、小売、製造、食品などの業界で自動化ロボットの使用が新たなレベルに引き上げられる可能性があります。ロボットが特定の文構造、完璧な文法、またはドメイン固有の言語を持つ必要がなくなることで、小売倉庫から商品をピックアップして梱包したり、レストランでロボットアームに食事の準備を指示したりするなどの作業を人間がロボットに指示することが容易になります。医療分野では、人間が音声コマンドを使用して自律型車椅子を操作したり、薬局がロボットアームを使用して薬を梱包したりすることもできます。

1 模倣学習とコミュニケーションチャネル

研究チームは、アリゾナ州立大学のサイモン・ステプティス、ジョセフ・キャンベル、チッタ・バラル、ヘニ・ベン・アモール、オレゴン州立大学のステファン・リーの各研究者と共同で、2020年のNeurIPSカンファレンスの基調講演で論文「ロボット操作タスクのための言語条件付け模倣学習」を発表しました。

図のキャプション: 論文「ロボット操作タスクのための言語条件付け模倣学習」

論文リンク: https://arxiv.org/abs/2010.12083

模倣学習はロボットに新しいスキルを教える簡単な方法です。プログラミングが不要なので、機能的または確率的表現に変換できる一連のデモンストレーションを提供するだけで済みます。ただし、このアプローチの制限は、必要なすべての情報が利用可能であることを保証するために、状態表現を慎重に設計する必要があることです。ニューラル手法は、ロボットがタスク固有の特徴表現を学習できるようにすることで、模倣学習を高次元空間に拡張します。しかし、これらのアプローチには、ユーザーが追加コストをほとんどかけずに、目的のタスクに関する詳細情報を提供できる通信チャネルがありません。したがって、プログラマーもユーザーも目標を定義するために数値的な方法に頼らなければなりません。

これらの課題を克服するために、研究チームは、高レベルのセマンティック モジュールと低レベルのコントローラーで構成される操作タスクを処理するためのエンドツーエンドの言語制約付き制御戦略を開発し、言語、視覚、制御を単一のフレームワークに統合しました。

戦略の生成は、言語からビジョンへの翻訳プロセスとして考えることができます。エンドツーエンドのアプローチを使用する場合、アプローチは概念的にセマンティック モデルと制御モデルの 2 つの部分に分割されます。セマンティック モデルは、言語的および視覚的観点からタスクの独自の表現を作成します。制御モデルは、ロボットの現在の状態を考慮しながら、タスク表現をタスク固有の制御ポリシーに変換します。

2 件の評価: ピッキングとダンピングの作業

研究チームは、卓上でのシミュレーションによるロボットタスクでこの新しいアプローチを評価しました。このタスクでは、専門家が 7 自由度のロボット マニピュレーターに、一連のピッキング動作とダンピング動作を実行する方法を教えました。訓練中、専門家は「赤いボウルに少し注ぐ」などの言葉による説明とともに、作業の運動感覚的なデモンストレーションを提供しました。テーブル上には、さまざまな形、サイズ、色のオブジェクトが複数ある場合があり、自然言語による説明があいまいになることがよくあります。ロボットは、利用可能な生データ ソースから重要な情報を効果的に抽出し、何をどのように行うか、どこに移動するかを決定する方法を学習する必要があります。

1

図1: ダンピング作業を行うロボットアーム

トレーニングおよびテストデータを生成するために、5 人の専門家が同義語置換法を使用して 200 個の口頭タスク説明テンプレートを提供しました。模倣学習には大量のデモンストレーションが必要なので、研究チームはこの自動手法を使用して、タスク用に同じ文章のさまざまなバリエーションを作成することでデモンストレーションを生成しました。このモデルは、合成生成された 40,000 のシーンでトレーニングされています。

3 言語制限操作課題の結果

このモデルの全体的なタスクは、カップを持ち上げてから最初に正しいボウルに注ぐことができた回数の割合を表します。この一連の手順は、新しい環境の 84% で正常に実行されました。摘み取りのみの成功率は98%、ダンピングの成功率は85%でした。これらの結果は、モデルが訓練された動作を物体の位置、言語コマンド、または知覚入力の変化にうまく一般化することを示唆しています。チームの作業は、言語、視覚、制御をうまく統合するためのベンチマークを設定します。

チームは、生成されたロボット制御信号を補足するために補助損失を使用しました。オブジェクト検出の注意とポリシー生成の両方をガイドすると、ダンピング タスクのパフォーマンスが向上します。研究チームはまた、5人の新たな参加者にコマンドを発してもらい、それを合成言語と比較することでモデルを評価した。全体的に、モデルは新しい参加者からの新しい自然言語コマンドにうまく反応しました。

自然言語による指示は、将来、機械学習やロボット工学の新しい用途を切り開く可能性があるようです。​

<<:  MLOps 実装を成功させるためのベストプラクティス

>>:  PyCaret: 機械学習モデルの開発が簡単に

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

6つの興味深い画像グレースケール変換アルゴリズム

[楊静卓のブログより引用]序文白黒写真の時代は過ぎ去りましたが、今、昔の写真を見ると、昔に戻ったよう...

ネイチャー誌の年間トップ10科学者・イベント:天問1号の主任設計者、張栄橋氏がリスト入り

Nature の年間トップ 10 科学者およびトップ 10 科学イベントが発表されました。今年の科学...

衣服にNFCを追加: 袖をかざすだけで安全に支払い

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

この記事では、人工知能がクラウドコンピューティングをどのように変え、私たちの生活にどのような影響を与えるかを説明します。

AIがクラウドコンピューティングをどう変えるかクラウド コンピューティングは、オンライン アクティ...

AIoT: IoTと人工知能の完璧な組み合わせ

ビッグデータを備えたモノのインターネットは産業用 IoT を企業の神経系と考えてください。これは、生...

...

...

スタンフォード大学:大きなモデルは間違った方向に「転がっている」のか?コンテキスト ウィンドウが長くなるほど、モデルは愚かになります。

言語モデルでは、コンテキスト ウィンドウは、特定のコンテキストに関連するテキストを理解して生成するた...

AIOps 初心者ガイド

【51CTO.com クイック翻訳】ビジネスリーダーとして、企業がコンピューターベースの業務をますま...

機械学習プロジェクトが失敗する9つの理由

この記事では、データ サイエンス プロジェクトが失敗する最も一般的な理由をまとめ、落とし穴を回避する...

...

インテルは新しい小さな「スピン量子ビット」チップをテスト中

最近、インテルの研究者らは、新しい小さな「スピン量子ビット」チップをテストしていることを明らかにした...

インテリジェント運転ビッグデータの最先端の研究の進歩と典型的な応用

1. はじめにインテリジェント運転とは、一般的には、自動運転や車両のインターネット(IoV)などの技...

マイクロソフトは、重大なセキュリティ脆弱性を97%の精度で特定できるAIシステムを開発した。

Microsoft は、テストにおいてセキュリティ脆弱性と非セキュリティ脆弱性を 99% の精度で...