4分! OpenAIのロボットハンドは、プログラミングなしで完全に独学で、片手でルービックキューブを解くことを学習しました。

4分! OpenAIのロボットハンドは、プログラミングなしで完全に独学で、片手でルービックキューブを解くことを学習しました。

[[279350]]

OpenAI のロボットハンドは片手でルービックキューブを解くことを学習し、3x3 のルービックキューブを解くのにたった 4 分しかかかりませんでした。その器用さは比類のないものです。

ルービックキューブを渡され、片手しか使えず、時々誰かが邪魔をしてきたら、4 分以内に解くことができますか?両手では無理です。

OpenAI のヒューマノイドロボットハンド Dactyl がそれを実現しました。現在、ルービックキューブを回す動画が広く拡散しており、ネットユーザーからは「人工知能ロボットの新たなマイルストーンが誕生した!」といった声が上がっている。これはロボットの物理的な器用さと機械学習ソフトウェアにおける飛躍的な進歩です。

動画では、このロボットアームの動きが少しぎこちなく、ルービックキューブが今にも落ちそうな感じがするが、各ステップは最終的には非常に正確であることがわかります。

動画の後半では、研究者らは難易度を上げ、布で覆ったり、道具を使って妨害したりしたが、ロボットアームは依然として熱心にルービックキューブで遊んでいた。

大人にとって、3段のルービックキューブを片手で操作するのは簡単ではありません。ロボットハンドがこのような成果を達成できるというのは本当に素晴らしいことです。

[[279354]]

有名なロボット工学の専門家であり、MITの教授でもあるレスリー・ケールブリング氏は、この操作を実際に完了できるとは思ってもいなかったと語った。ミシガン大学の機械制御の専門家であるドミトリー・ベレンソン氏もこれを認め、賞賛した。

ヒューマノイドロボットにルービックキューブを解く訓練を施すOpenAIの試みは、早くも2017年5月に始まった。研究者がルービックキューブを解くことに特に興味を持っている理由は、そのようなロボットハンドを複雑な操作タスクを完了するようにうまく訓練できれば、汎用ロボットの基礎が築かれることになるからです。 2017年7月、OpenAIはシミュレーションでルービックキューブを解きました。しかし、2018年7月時点では、ロボットアームはルービックキューブを解くときに1つのブロックしか操作できませんでした。今、この目標はついに達成されました。下のビデオをご覧ください。ロボットアームは約 4 分で 3x3 ルービックキューブを正常に復元しました

これは、ロボットハンドがルービックキューブを解くプロセス全体です。ビデオは編集されていません。片手でルービックキューブを解くのは人間にとって難しい作業であり、必要な器用さを習得するには子供が数年かかります。ロボットはまだそれを完璧に習得しておらず、成功率はわずか60%です。

次に、OpenAI ロボットがルービックキューブを解く方法を詳しく説明します。

1. 片手でルービックキューブを解く: OpenAI の新しいアルゴリズムは、シミュレーション環境を無限に生成できる

OpenAI は強化学習と Kociemba アルゴリズムを使用してニューラル ネットワークをトレーニングし、ルービック キューブを解くシミュレーションを実行します。私たちは、機械が現在習得するのが難しい問題、つまり知覚と器用な操作に焦点を当てています。したがって、Kociemba のアルゴリズムによって生成される復元に必要な回転と反転を実装するようにニューラル ネットワークをトレーニングします。

ドメインランダム化により、シミュレーションでのみトレーニングされたネットワークを実際のロボットに転送できる

このタスクにおける最大の課題は、現実世界の物理現象を捉えるために、シミュレーションで十分に多様な環境を作成することでした。ルービックキューブやロボットハンドのような複雑なオブジェクトの場合、摩擦、弾性、ダイナミクスなどの要素を測定してモデル化することは難しく、ドメインのランダム化だけでは不十分です。

この問題を克服するために、私たちは自動ドメインランダム化 (ADR)と呼ばれる新しいアプローチを開発しました。これは、シミュレーションでますます困難な環境を無限に生成できるものです。

こうすることで、現実世界の正確なモデルを作成する必要がなくなり、シミュレーションで学習したニューラル ネットワークを転送して現実世界に適用できるようになります。

ADR は、ニューラル ネットワークがルービック キューブを解くことを学習する単一の非ランダム環境から始まります。ニューラル ネットワークのパフォーマンスが向上し、パフォーマンスしきい値に達すると、ドメインのランダム化の量が増加します。これにより、ニューラル ネットワークはよりランダムな環境に一般化することを学習する必要があるため、タスクはさらに困難になります。ネットワークは、パフォーマンスしきい値を再び超えるまで学習を続け、その後さらにランダム化してプロセスを繰り返します。


ADR の適応型キューブ サイズ ランダム化のパラメータの 1 つはキューブ サイズです (上記)。

ADR は固定サイズの立方体から始まり、トレーニングが進むにつれてランダム化の範囲を徐々に拡大します。ルービックキューブの重さ、ロボットの指の摩擦、手の視覚的な表面材質など、他のすべてのパラメータにも同じ手法を適用しました。したがって、ニューラル ネットワークは、こうしたますます困難になるすべての条件下でルービック キューブを解くことを学習する必要があります。

自動ドメインランダム化と手動ドメインランダム化

ドメインランダム化では、ランダム化の範囲を手動で指定する必要がありますが、ランダム化が多すぎると学習が困難になり、ランダム化が少なすぎると実際のロボットへの移行が妨げられるため、これは困難です。 ADR は、人間の介入を必要とせずに時間の経過とともにランダム範囲を自動的に拡張することでこの問題を解決します。 ADR によりドメイン知識の必要性がなくなり、新しいタスクに私たちの方法をより簡単に適用できるようになります。手動のドメインランダム化と比較すると、ADR ではタスクが常に困難になり、トレーニングが収束することはありません。

我々は、すでに強力なベースラインが存在するルービックキューブ反転タスクにおいて、ADR と手動ドメインランダム化を比較しました。当初、ADR は実際のロボットでは成功率が低かった。しかし、ADR によって環境の複雑さの尺度であるエントロピーが増加すると、手動で調整しなくても、パフォーマンスは最終的にベースライン パフォーマンスの 2 倍になります。

堅牢性テスト

ADR を使用すると、シミュレーション環境でニューラル ネットワークをトレーニングし、それを実際のロボット ハンドで使用してルービック キューブを解くことができます。これは、ADR がネットワークをランダム シミュレーションの無限のストリームにさらすためです。トレーニング プロセスのこの複雑さにより、ネットワークはシミュレートされた世界から現実世界に移行できるようになり、直面する物理的な世界を迅速に認識して適応することを学習する必要があります。

ルービックキューブを解いているロボットを邪魔する

私たちのアプローチの限界をテストするために、片手でルービックキューブを解く際のさまざまな摂動実験を実行しました。これは、制御ネットワークの堅牢性をテストするだけでなく、立方体の位置と方向を推定するために使用する視覚ネットワークの堅牢性もテストします。

ADR でトレーニングしたシステムは、このような摂動条件でトレーニングしていなかったにもかかわらず、摂動に対して驚くほど堅牢であることがわかりました。すべての摂動テストで、ロボット ハンドは、パフォーマンスは最適ではないものの、ほとんどの反転と回転を正常に実行できました

メタ学習

私たちは、メタ学習、つまり学習することを学ぶことは、環境内の変化する状況にシステムが迅速に適応できるようにするため、汎用システムを構築するための重要な前提条件であると考えています。 ADR の背後にある仮説は、メモリ拡張ネットワークと十分にランダム化された環境を組み合わせると、ネットワークが、展開された環境にその動作を迅速に適応させることができる学習アルゴリズムを実装する、創発的なメタ学習につながるというものです。

これを体系的にテストするために、さまざまな摂動(ネットワークのメモリのリセット、ダイナミクスのリセット、ジョイントの切断など)の下で、ニューラル ネットワークが各ルービック キューブを正常に反転させる(異なる色の面が上を向くように回転させる)のにかかった時間を測定しました。私たちはこれらの実験をシミュレーション環境で実施しており、制御された環境で 10,000 回を超えるパフォーマンス テストを実行できます。

最初は、ニューラル ネットワークがより多くのフリップを正常に完了するにつれて、ニューラル ネットワークが適応することを学習するため、連続した成功間の時間が短縮されます。摂動が適用されると(上のグラフの灰色の縦線)、成功回数が急上昇します。これは、ネットワークが採用した戦略が変化する環境では機能しないためです。その後、ネットワークは新しい環境を再学習し、成功までの時間が以前のベースラインまで再び短縮されることがわかります。

下の画像は、シミュレーション環境でロボットアームがルービックキューブを解く様子を視覚化したものです。

Interpretability Toolbox の構成要素である非負行列分解を使用して、この高次元ベクトルを 6 つのグループに圧縮し、各グループに固有の色を割り当てます。各ステップで現在の優勢なグループの色が表示されます。

2. ルービックキューブを回すことがロボット技術の飛躍的進歩だと考えられるのはなぜですか?

実際、ルービックキューブを解くことができるロボットは Dactyl だけではありません。ルービック キューブを解くために特別に設計されたロボットは、3 次以上のルービック キューブを Dactyl よりも速く処理できますが、なぜ Dactyl だけがこれほど高く評価されているのでしょうか。

OpenAI の研究科学者でロボット工学の責任者である Peter Welinder 氏は、その理由は Dactyl がルービック キューブを解くために特別に設計されていないためだと考えています。ルービックキューブで遊ぶのは単なるデモであり、Dactyl の最大のハイライトは「自己学習」です。

現在、人工知能ロボットが特定のシナリオで人間を上回ることができるのは、特定のタスクに対する継続的な微調整と最適化の結果であり、タスクを可能な限り効率的に実行するようにプログラムされているためです。しかし、ロボットが「快適ゾーン」から一歩踏み出すと、人間の赤ちゃんよりも悪くなる可能性がある。

人工知能とロボット工学の業界は、長期にわたるトレーニングやターゲットを絞ったプログラミングなしに、現実世界のさまざまな実用的なタスクを自力で処理することを学習できるロボットを構築するという目標を達成することを常に望んできました。彼らに希望を与えたのはダクティルでした!

Dactyl には「自己学習」機能があり、さまざまなシナリオに自動的に適応できます。 OpenAI は、いつの日か、SF 映画にしか登場しない古典的なロボットキャラクターがスクリーンから飛び出し、何千もの家庭に入り込み、人類にサービスを提供できるようになることを期待しています。

OpenAIチームは、Dactylがルービックキューブの課題をうまく解決したことは、実際の問題に取り組む前にシミュレーショントレーニングを通じて新しい課題を学習できることも証明していると考えている。

<<:  2019 年のディープラーニング自然言語処理のトップ 10 開発トレンド

>>:  MITの新しい研究によると、機械学習ではフェイクニュースを検知できない

ブログ    
ブログ    
ブログ    

推薦する

AI技術の現状を理解するのに役立つ45の数字

2019年7月現在、AIの現状はどうなっているのでしょうか。最新の調査、研究、予測に基づき、AI技術...

ネットワークセキュリティ運用保守サービスにおける人工知能の応用

近年、国内外のサイバーセキュリティ情勢はますます複雑化しており、従来のモデルでは国民経済の生命線に関...

...

...

杜暁曼自動機械学習プラットフォームの実践

1. 機械学習プラットフォームまず、Du Xiaomanの機械学習プラットフォームの背景、開発プロセ...

機械学習を学ぶ際に早い段階で知っておくべき3つのこと

私は長年、学界と産業界の両方で機械学習モデリングに取り組んできましたが、Scalable ML で「...

Baidu AIの新インフラが2020 CIFTISでデビュー、最新の人工知能成果をパノラマ展示

新たな科学技術革命と産業変革が起こりつつあり、デジタル技術とインテリジェント技術は我が国のサービス産...

超音波脳読み取りはマスクの脳コンピューターインターフェースよりも正確で侵襲性が低い

脳コンピューターインターフェース分野で新たなニュースがあります。 IEEE Spectrum による...

IoTが災害管理にどのように役立つか

[[405572]]災害管理における IoT の活用は、災害を予測し、早期に当局に警告し、災害の影響...

SQL Server の時間アルゴリズム

以下の記事では、SQL Server の時間間隔の計算に関する問題をまとめています。SQL Serv...

...

機械学習は「原子幾何学」の秘密を明らかにし、数学の発展を促進した

代数多様体とその方程式。代数幾何学は、一方では方程式の研究である代数学、他方では図形の研究である幾何...

...