バナナの皮をむくのに9つの手順が必要ですか？ロボットが果肉を傷つけないように、研究者たちは何百本ものバナナの皮をむくのに13時間を費やした。

ビッグデータダイジェスト制作

著者: カレブ

ボストン・ダイナミクスを例に挙げると、ロボットはますます多くのことができるようになり、遅かれ早かれロボットが自分の仕事を奪ってしまうのではないかと心配する人も多くいます。

しかし実際には、バナナの皮むきなど、より細かい作業においては、ロボットはまだ人間よりわずかに劣っています。

でも…本当にそんな仕事があるの？ [ドージ]

2018年、カーネギーメロン大学の研究者らは、ロボットに大まかな触覚を与える「フィンガービジョン」と呼ばれるシステムを開発した。このシステムをロボット「バクスター」のアームの先端に取り付けると、バナナの皮むきなどの一連の掴み動作を実行できる。

しかし、ロボットの動きは柔軟性には程遠く、バナナの皮をむくのはただ皮をむくだけではなく、果肉を傷つけないように注意する必要があることがわかります。

ロボットの行動パターンをどのように利用してこのような繊細な動きを実現するかが難しい問題となっている。

つい最近、日本の東京大学の研究者らが、物体をつかむことができる2本の「指」を備えた2本の腕と2本の手を備えたロボットを開発した。ロボットにバナナの皮をむくように訓練するため、ある研究者は、ロボットにその仕事を訓練するのに十分なデータを得るために、13時間かけて何百本ものバナナの皮をむいた。

研究者によると、彼らはバナナの皮をむく作業を9段階に分けた。その結果、ロボットは57%の確率で、バナナの果肉を傷つけずに皮をむくことができた。平均すると、このプロセス全体にかかる時間は1回あたり3分未満だった。

関連する研究は論文の形で発表されています。

論文リンク: https://arxiv.org/pdf/2203.09749.pdf

バナナの皮むきがこんなに難しいとは思わなかった

このバナナの皮むき実験が一体何なのか見てみましょう。

実験で使用されたロボットフレームワークには、2 つの UR5 (Universal Robots) マニピュレーターと、UR5 ロボットと同じ運動パラメータを持つ 2 つのコントローラーを備えた双腕ロボットシステムが含まれています。デモデータは、コントローラでロボットを制御することによって生成されます。 ZED ミニステレオカメラ (StereoLabs) が、2D 変換構造を備えたロボットシステムに搭載されました。

この研究では、バナナを観察できるようにカメラが設置されました。人間のオペレーターは、ロボットを操作しながら、ヘッドマウントディスプレイを通じてステレオカメラの映像を見ることができます。さらに、HMDにアイトラッカー（Tobii）を搭載し、操作者の視線位置をリアルタイムで計測しました。

ある研究者は、ロボットを操作して何百本ものバナナの皮をむき、ロボットが自分で皮をむけるように訓練するために 811 分間のデモンストレーションデータを生成しました。タスクは、バナナをつかむところから、片手でテーブルから持ち上げるところ、もう一方の手でバナナの上部をつかむところ、バナナの皮をむくところ、そして残りの皮をむけるようにバナナを動かすところまで、9 つの段階に分かれています。

バナナをつかむ: 左手でテーブルの上のバナナをつかみます。
拾う: バナナを持ち上げる;
先端を持ちます: 右手を伸ばしてバナナの先端を持ちます。
皮をむく：バナナの先端の皮をむきます。
右に動かすと、右手が近づいて右側の皮に触れます。
右側の皮をむく：バナナの皮を右手に持ち、皮をむきます。
位置を変える: 右手が左側の皮に届くようにバナナを回転させます。
左手を伸ばし、右手を近づけて左側の皮に触れます。
左側を剥く：右手で皮の左側を持ち、剥きます。

バナナに損傷を与える可能性が低い大きな動きの場合、機械学習モデルは、あまり考えずに人間の行動を模倣した軌道を描きます。しかし、腕にバナナを正確に操作するように要求されると、システムは反応的なアプローチに切り替わり、環境の予期しない変化に反応します。

各実験は15本のバナナを使用してテストされ、結果によると、ロボットはバナナの皮むきに57％の成功率を示し、全体のプロセスには3分もかかりませんでした。

「この場合、本当に興味深いのは、人間が使用するプロセスが、深層模倣学習を使用したロボットシステムのトレーニングに適用されたことです」と、英国シェフィールド大学のジョナサン・エイトケン氏は言う。

キム氏はまた、この方法は数百時間や数千時間ではなく 13 時間のトレーニングデータを使用するため、データ効率が良いとも付け加えた。「依然として高価なGPU（グラフィックス処理装置）が大量に必要ですが、私たちの構造を使用することで計算量を大幅に削減できます。」しかし、彼はまた、より優れた運動制御があればよりうまく機能するかもしれないとも述べ、この技術はバナナだけに使われるのではなく、細かい運動能力を必要とするより広範囲のタスクを処理できるシステムを訓練することが目標だと語った。

ロボットはバナナの皮むきを長い間学習してきた

バナナの皮むきのような簡単だが難しい作業以外にも、キッチンに目を向けるロボットが増えています。

2月にスイスの科学者たちは、完璧なフォンデュを作るためのBouebotロボットを発表した。ワインを注ぐことから、かき混ぜてコショウを振りかけること、金属の釘を拾い、パンに穴を開けて台に置くことまで、これらの動作は簡単ではありません。

プロジェクトの技術マネージャーであるルドヴィック・アイモン氏は、コントロールパッドを使用してロボットアームを各チーズの三角形まで下ろし、上部に真空を作り出してチーズを持ち上げます。

プロジェクトの技術マネージャーであるルドヴィック・アイモン氏によると、ロボット開発における最大の課題は、精密機械ロボットに不正確な有機材料を扱わせることだったという。チーズのような材料は完全に平らではなく、高さもまったく同じではありません。

ワークショップ4.0の共同ディレクター、ニコラ・フォンテーヌ（30歳）は次のように語る。「私たちは、イノベーションとスイスの伝統を組み合わせたプロジェクトをやりたかったのですが、フォンデュは完璧な選択でした。スイス人にとってフォンデュは象徴的なものです。また、フォンデュは私たちのアイデンティティ、専門知識の一部であるため、非常に感情的なものでもあります。フォンデュは楽しいものです。ロボット工学とその使用方法について人々と会話する素晴らしい機会でした。」

マサチューセッツ工科大学は、2007年にすでに、人間と同様の目と腕を持ち、外部環境に応じて動作を調整でき、もちろんバナナの皮をむくこともできる知能ロボット「Domo」を開発しました。

Domoの研究開発チームのリーダーであり、MITのコンピューターサイエンスおよび人工知能研究所の博士研究員でもあるアーロン・エドシンガー氏は、Domoの2つの目玉は実際には12台のコンピューターに接続された2台のカメラであり、周囲の環境を積極的に観察し、それに応じた行動をとることができると語った。例えば、人と向き合うとき、視線は相手の顔に集中します。エドシンガー氏はまた、「ロボットの目をより人間らしく設計することで、外界や人間とのやりとりやコミュニケーションが向上するだろう」と述べた。

さらに、Domo はバナナの皮をむくなど、非常に器用な動作も実行できます。事前に設定されたプログラムに従ってのみ動作できる生産ラインロボットと比較して、Domo は未知の環境でも自律的に判断し、タスクを完了することができます。

しかしエドシンガー氏が指摘したように、ロボットは操作手順に関して人間から学び始めているものの、人間と同じくらい快適で自然になるにはまだ長い道のりがある。

<<: テスラロボットに人間の脳意識が搭載される？マスク氏独占インタビュー：AIがミスを犯すことへの恐怖

>>: 「電力を大量に消費する」データセンターで AI はどのような役割を果たすのでしょうか?