模倣学習: ロボットはプログラミングなしで自然言語を理解できます!

模倣学習: ロボットはプログラミングなしで自然言語を理解できます!

人間が日常のコミュニケーションで話す自然言語の指示を使用して、ロボットアームにタスクを実行するよう指示することは大きな課題です。アリゾナ州立大学、インテル AI ラボ、オレゴン州立大学の研究チームは、操作タスクにおける模倣学習の柔軟な目標として言語を使用し、人間の専門家とロボット間のコミュニケーションの架け橋を提供しました。トレーニング中に、モデルは言語、視覚、運動制御間の相関関係を関連付けて捉えることを学習し、結果として言語に基づいた制御ポリシーが生成されます。これらのポリシーは、人間のユーザーが構造化されていないコマンドを発行するためのシンプルで直感的なインターフェースを提供します。

将来的には、非構造化自然言語を模倣学習に組み込むことで、自律型ロボットのプログラミングの必要性が減り、人間とロボットの自然なやり取りが可能になる可能性があります。この革新により、医療、小売、製造、食品などの業界で自動化ロボットの使用が新たなレベルに引き上げられる可能性があります。ロボットが特定の文構造、完璧な文法、またはドメイン固有の言語を持つ必要がなくなることで、小売倉庫から商品をピックアップして梱包したり、レストランでロボットアームに食事の準備を指示したりするなどの作業を人間がロボットに指示することが容易になります。医療分野では、人間が音声コマンドを使用して自律型車椅子を操作したり、薬局がロボットアームを使用して薬を梱包したりすることもできます。

1 模倣学習とコミュニケーションチャネル

研究チームは、アリゾナ州立大学のサイモン・ステプティス、ジョセフ・キャンベル、チッタ・バラル、ヘニ・ベン・アモール、オレゴン州立大学のステファン・リーの各研究者と共同で、2020年のNeurIPSカンファレンスの基調講演で論文「ロボット操作タスクのための言語条件付け模倣学習」を発表しました。

図のキャプション: 論文「ロボット操作タスクのための言語条件付け模倣学習」

論文リンク: https://arxiv.org/abs/2010.12083

模倣学習はロボットに新しいスキルを教える簡単な方法です。プログラミングが不要なので、機能的または確率的表現に変換できる一連のデモンストレーションを提供するだけで済みます。ただし、このアプローチの制限は、必要なすべての情報が利用可能であることを保証するために、状態表現を慎重に設計する必要があることです。ニューラル手法は、ロボットがタスク固有の特徴表現を学習できるようにすることで、模倣学習を高次元空間に拡張します。しかし、これらのアプローチには、ユーザーが追加コストをほとんどかけずに、目的のタスクに関する詳細情報を提供できる通信チャネルがありません。したがって、プログラマーもユーザーも目標を定義するために数値的な方法に頼らなければなりません。

これらの課題を克服するために、研究チームは、高レベルのセマンティック モジュールと低レベルのコントローラーで構成される操作タスクを処理するためのエンドツーエンドの言語制約付き制御戦略を開発し、言語、視覚、制御を単一のフレームワークに統合しました。

戦略の生成は、言語からビジョンへの翻訳プロセスとして考えることができます。エンドツーエンドのアプローチを使用する場合、アプローチは概念的にセマンティック モデルと制御モデルの 2 つの部分に分割されます。セマンティック モデルは、言語的および視覚的観点からタスクの独自の表現を作成します。制御モデルは、ロボットの現在の状態を考慮しながら、タスク表現をタスク固有の制御ポリシーに変換します。

2 件の評価: ピッキングとダンピングの作業

研究チームは、卓上でのシミュレーションによるロボットタスクでこの新しいアプローチを評価しました。このタスクでは、専門家が 7 自由度のロボット マニピュレーターに、一連のピッキング動作とダンピング動作を実行する方法を教えました。訓練中、専門家は「赤いボウルに少し注ぐ」などの言葉による説明とともに、作業の運動感覚的なデモンストレーションを提供しました。テーブル上には、さまざまな形、サイズ、色のオブジェクトが複数ある場合があり、自然言語による説明があいまいになることがよくあります。ロボットは、利用可能な生データ ソースから重要な情報を効果的に抽出し、何をどのように行うか、どこに移動するかを決定する方法を学習する必要があります。

1

図1: ダンピング作業を行うロボットアーム

トレーニングおよびテストデータを生成するために、5 人の専門家が同義語置換法を使用して 200 個の口頭タスク説明テンプレートを提供しました。模倣学習には大量のデモンストレーションが必要なので、研究チームはこの自動手法を使用して、タスク用に同じ文章のさまざまなバリエーションを作成することでデモンストレーションを生成しました。このモデルは、合成生成された 40,000 のシーンでトレーニングされています。

3 言語制限操作課題の結果

このモデルの全体的なタスクは、カップを持ち上げてから最初に正しいボウルに注ぐことができた回数の割合を表します。この一連の手順は、新しい環境の 84% で正常に実行されました。摘み取りのみの成功率は98%、ダンピングの成功率は85%でした。これらの結果は、モデルが訓練された動作を物体の位置、言語コマンド、または知覚入力の変化にうまく一般化することを示唆しています。チームの作業は、言語、視覚、制御をうまく統合するためのベンチマークを設定します。

チームは、生成されたロボット制御信号を補足するために補助損失を使用しました。オブジェクト検出の注意とポリシー生成の両方をガイドすると、ダンピング タスクのパフォーマンスが向上します。研究チームはまた、5人の新たな参加者にコマンドを発してもらい、それを合成言語と比較することでモデルを評価した。全体的に、モデルは新しい参加者からの新しい自然言語コマンドにうまく反応しました。

自然言語による指示は、将来、機械学習やロボット工学の新しい用途を切り開く可能性があるようです。​

<<:  MLOps 実装を成功させるためのベストプラクティス

>>:  PyCaret: 機械学習モデルの開発が簡単に

推薦する

ロボット工学の可能性を解き放つ:産業に革命を起こし、人々の生活を向上させる

ロボット工学は、SF の世界の概念から、あらゆる分野を変え、人間の生活を向上させる現実のものへと進化...

...

Llama 2を完全に置き換えます!白川2は歴史上最も完全なトレーニングの詳細を明らかにする

この国では、ラマの時代は終わった。 9月6日、百川知能は7Bと13Bのベースとチャットバージョンを含...

2023年の生成AIの包括的なレビュー

2023年には、生成AIが開発者のアプリケーション構築支援において飛躍的な進歩を遂げ、大手ツールベン...

スマートシティのスマートパーキング:建物が利益を上げる方法

スマートシティが到来します。人工知能 (AI)、拡張現実 (AR)、モノのインターネット (IoT)...

AIが旅行業界に浸透し、ロボットが次の休暇を計画するようになる

編集者注: ビジネス旅行者にとって、ついに朗報が届きました。人工知能がついに旅行業界に浸透し、パーソ...

...

...

消費財の画像認識:無人店舗を支える商品認識技術

[[208848]]人工知能は世界を席巻しており、AIの重要な分野の1つであるコンピュータービジョン...

AIアルゴリズムから製品実装までの8つのギャップを数える

今日、人工知能技術は急速に発展し続けており、画像認識、音声認識、意味理解など多くの特定の分野で人間の...

生成AIは高価すぎるため、マイクロソフトやグーグルのような大手テクノロジー企業でさえも導入できない

テクノロジー企業は、AI がビジネスメモを書いたり、コンピューターコードを作成したりできると宣伝して...

...

人工知能の力: ウェブ開発者がいまだに雇用されている理由

記事ソース| https://dzone.com/articles/the-power-of-ai-...

AIがデータセンターのワークロード管理の課題を解決

データセンターのワークロードが急増するにつれ、効率性の向上と経費削減を図りながら IT チームの管理...

AIは人間の教師に取って代わるでしょうか?どれだけの能力があるのか​​を確かめるためにレッスンを受けました

少し前に、「ピーター」と「トニー」という名前の二人の英語教師が人々の注目を集めました。彼らはあらゆる...