4分！ OpenAIのロボットハンドは、プログラミングなしで完全に独学で、片手でルービックキューブを解くことを学習しました。

[[279350]]

OpenAI のロボットハンドは片手でルービックキューブを解くことを学習し、3x3 のルービックキューブを解くのにたった 4 分しかかかりませんでした。その器用さは比類のないものです。

ルービックキューブを渡され、片手しか使えず、時々誰かが邪魔をしてきたら、4 分以内に解くことができますか?両手では無理です。

OpenAI のヒューマノイドロボットハンド Dactyl がそれを実現しました。現在、ルービックキューブを回す動画が広く拡散しており、ネットユーザーからは「人工知能ロボットの新たなマイルストーンが誕生した！」といった声が上がっている。これはロボットの物理的な器用さと機械学習ソフトウェアにおける飛躍的な進歩です。

動画では、このロボットアームの動きが少しぎこちなく、ルービックキューブが今にも落ちそうな感じがするが、各ステップは最終的には非常に正確であることがわかります。

動画の後半では、研究者らは難易度を上げ、布で覆ったり、道具を使って妨害したりしたが、ロボットアームは依然として熱心にルービックキューブで遊んでいた。

大人にとって、3段のルービックキューブを片手で操作するのは簡単ではありません。ロボットハンドがこのような成果を達成できるというのは本当に素晴らしいことです。

[[279354]]

有名なロボット工学の専門家であり、MITの教授でもあるレスリー・ケールブリング氏は、この操作を実際に完了できるとは思ってもいなかったと語った。ミシガン大学の機械制御の専門家であるドミトリー・ベレンソン氏もこれを認め、賞賛した。

ヒューマノイドロボットにルービックキューブを解く訓練を施すOpenAIの試みは、早くも2017年5月に始まった。研究者がルービックキューブを解くことに特に興味を持っている理由は、そのようなロボットハンドを複雑な操作タスクを完了するようにうまく訓練できれば、汎用ロボットの基礎が築かれることになるからです。 2017年7月、OpenAIはシミュレーションでルービックキューブを解きました。しかし、2018年7月時点では、ロボットアームはルービックキューブを解くときに1つのブロックしか操作できませんでした。今、この目標はついに達成されました。下のビデオをご覧ください。ロボットアームは約 4 分で 3x3 ルービックキューブを正常に復元しました。

これは、ロボットハンドがルービックキューブを解くプロセス全体です。ビデオは編集されていません。片手でルービックキューブを解くのは人間にとって難しい作業であり、必要な器用さを習得するには子供が数年かかります。ロボットはまだそれを完璧に習得しておらず、成功率はわずか60％です。

次に、OpenAI ロボットがルービックキューブを解く方法を詳しく説明します。

1. 片手でルービックキューブを解く: OpenAI の新しいアルゴリズムは、シミュレーション環境を無限に生成できる

OpenAI は強化学習と Kociemba アルゴリズムを使用してニューラルネットワークをトレーニングし、ルービックキューブを解くシミュレーションを実行します。私たちは、機械が現在習得するのが難しい問題、つまり知覚と器用な操作に焦点を当てています。したがって、Kociemba のアルゴリズムによって生成される復元に必要な回転と反転を実装するようにニューラルネットワークをトレーニングします。

ドメインランダム化により、シミュレーションでのみトレーニングされたネットワークを実際のロボットに転送できる

このタスクにおける最大の課題は、現実世界の物理現象を捉えるために、シミュレーションで十分に多様な環境を作成することでした。ルービックキューブやロボットハンドのような複雑なオブジェクトの場合、摩擦、弾性、ダイナミクスなどの要素を測定してモデル化することは難しく、ドメインのランダム化だけでは不十分です。

この問題を克服するために、私たちは自動ドメインランダム化 (ADR)と呼ばれる新しいアプローチを開発しました。これは、シミュレーションでますます困難な環境を無限に生成できるものです。

こうすることで、現実世界の正確なモデルを作成する必要がなくなり、シミュレーションで学習したニューラルネットワークを転送して現実世界に適用できるようになります。

ADR は、ニューラルネットワークがルービックキューブを解くことを学習する単一の非ランダム環境から始まります。ニューラルネットワークのパフォーマンスが向上し、パフォーマンスしきい値に達すると、ドメインのランダム化の量が増加します。これにより、ニューラルネットワークはよりランダムな環境に一般化することを学習する必要があるため、タスクはさらに困難になります。ネットワークは、パフォーマンスしきい値を再び超えるまで学習を続け、その後さらにランダム化してプロセスを繰り返します。

ADR の適応型キューブサイズランダム化のパラメータの 1 つはキューブサイズです (上記)。

ADR は固定サイズの立方体から始まり、トレーニングが進むにつれてランダム化の範囲を徐々に拡大します。ルービックキューブの重さ、ロボットの指の摩擦、手の視覚的な表面材質など、他のすべてのパラメータにも同じ手法を適用しました。したがって、ニューラルネットワークは、こうしたますます困難になるすべての条件下でルービックキューブを解くことを学習する必要があります。

自動ドメインランダム化と手動ドメインランダム化

ドメインランダム化では、ランダム化の範囲を手動で指定する必要がありますが、ランダム化が多すぎると学習が困難になり、ランダム化が少なすぎると実際のロボットへの移行が妨げられるため、これは困難です。 ADR は、人間の介入を必要とせずに時間の経過とともにランダム範囲を自動的に拡張することでこの問題を解決します。 ADR によりドメイン知識の必要性がなくなり、新しいタスクに私たちの方法をより簡単に適用できるようになります。手動のドメインランダム化と比較すると、ADR ではタスクが常に困難になり、トレーニングが収束することはありません。

我々は、すでに強力なベースラインが存在するルービックキューブ反転タスクにおいて、ADR と手動ドメインランダム化を比較しました。当初、ADR は実際のロボットでは成功率が低かった。しかし、ADR によって環境の複雑さの尺度であるエントロピーが増加すると、手動で調整しなくても、パフォーマンスは最終的にベースラインパフォーマンスの 2 倍になります。

堅牢性テスト

ADR を使用すると、シミュレーション環境でニューラルネットワークをトレーニングし、それを実際のロボットハンドで使用してルービックキューブを解くことができます。これは、ADR がネットワークをランダムシミュレーションの無限のストリームにさらすためです。トレーニングプロセスのこの複雑さにより、ネットワークはシミュレートされた世界から現実世界に移行できるようになり、直面する物理的な世界を迅速に認識して適応することを学習する必要があります。

ルービックキューブを解いているロボットを邪魔する

私たちのアプローチの限界をテストするために、片手でルービックキューブを解く際のさまざまな摂動実験を実行しました。これは、制御ネットワークの堅牢性をテストするだけでなく、立方体の位置と方向を推定するために使用する視覚ネットワークの堅牢性もテストします。

ADR でトレーニングしたシステムは、このような摂動条件でトレーニングしていなかったにもかかわらず、摂動に対して驚くほど堅牢であることがわかりました。すべての摂動テストで、ロボットハンドは、パフォーマンスは最適ではないものの、ほとんどの反転と回転を正常に実行できました。

メタ学習

私たちは、メタ学習、つまり学習することを学ぶことは、環境内の変化する状況にシステムが迅速に適応できるようにするため、汎用システムを構築するための重要な前提条件であると考えています。 ADR の背後にある仮説は、メモリ拡張ネットワークと十分にランダム化された環境を組み合わせると、ネットワークが、展開された環境にその動作を迅速に適応させることができる学習アルゴリズムを実装する、創発的なメタ学習につながるというものです。

これを体系的にテストするために、さまざまな摂動（ネットワークのメモリのリセット、ダイナミクスのリセット、ジョイントの切断など）の下で、ニューラルネットワークが各ルービックキューブを正常に反転させる（異なる色の面が上を向くように回転させる）のにかかった時間を測定しました。私たちはこれらの実験をシミュレーション環境で実施しており、制御された環境で 10,000 回を超えるパフォーマンステストを実行できます。

最初は、ニューラルネットワークがより多くのフリップを正常に完了するにつれて、ニューラルネットワークが適応することを学習するため、連続した成功間の時間が短縮されます。摂動が適用されると（上のグラフの灰色の縦線）、成功回数が急上昇します。これは、ネットワークが採用した戦略が変化する環境では機能しないためです。その後、ネットワークは新しい環境を再学習し、成功までの時間が以前のベースラインまで再び短縮されることがわかります。

下の画像は、シミュレーション環境でロボットアームがルービックキューブを解く様子を視覚化したものです。

Interpretability Toolbox の構成要素である非負行列分解を使用して、この高次元ベクトルを 6 つのグループに圧縮し、各グループに固有の色を割り当てます。各ステップで現在の優勢なグループの色が表示されます。

2. ルービックキューブを回すことがロボット技術の飛躍的進歩だと考えられるのはなぜですか?

実際、ルービックキューブを解くことができるロボットは Dactyl だけではありません。ルービックキューブを解くために特別に設計されたロボットは、3 次以上のルービックキューブを Dactyl よりも速く処理できますが、なぜ Dactyl だけがこれほど高く評価されているのでしょうか。

OpenAI の研究科学者でロボット工学の責任者である Peter Welinder 氏は、その理由は Dactyl がルービックキューブを解くために特別に設計されていないためだと考えています。ルービックキューブで遊ぶのは単なるデモであり、Dactyl の最大のハイライトは「自己学習」です。

現在、人工知能ロボットが特定のシナリオで人間を上回ることができるのは、特定のタスクに対する継続的な微調整と最適化の結果であり、タスクを可能な限り効率的に実行するようにプログラムされているためです。しかし、ロボットが「快適ゾーン」から一歩踏み出すと、人間の赤ちゃんよりも悪くなる可能性がある。

人工知能とロボット工学の業界は、長期にわたるトレーニングやターゲットを絞ったプログラミングなしに、現実世界のさまざまな実用的なタスクを自力で処理することを学習できるロボットを構築するという目標を達成することを常に望んできました。彼らに希望を与えたのはダクティルでした！

Dactyl には「自己学習」機能があり、さまざまなシナリオに自動的に適応できます。 OpenAI は、いつの日か、SF 映画にしか登場しない古典的なロボットキャラクターがスクリーンから飛び出し、何千もの家庭に入り込み、人類にサービスを提供できるようになることを期待しています。

OpenAIチームは、Dactylがルービックキューブの課題をうまく解決したことは、実際の問題に取り組む前にシミュレーショントレーニングを通じて新しい課題を学習できることも証明していると考えている。

<<: 2019 年のディープラーニング自然言語処理のトップ 10 開発トレンド

>>: MITの新しい研究によると、機械学習ではフェイクニュースを検知できない

4分！ OpenAIのロボットハンドは、プログラミングなしで完全に独学で、片手でルービックキューブを解くことを学習しました。

人工知能専攻では主に何を学ぶのですか？キャリアの方向性と展望は何ですか?

人工知能と拡張現実はオンラインショッピング行動に影響を与える

Java プログラミングスキル - データ構造とアルゴリズム「単方向リンクリスト」

UiPath: RPA の台頭が企業のデジタル化の青写真を描く

サイバーセキュリティにおける人工知能の長所と短所

機械学習情報工場になるためには、企業はリーン製造からこれらの6つの基本を学ぶ必要がある

アルゴリズムについていつも心配しているなら、脳を鍛えるのに役立つ12のアルゴリズム設計プロジェクトを紹介します

推薦する

GitHub ホットリストのトップ: オープンソースの GPT-4 コードインタープリター、任意の Python ライブラリをインストールでき、ローカルターミナルで実行可能

AI技術の現状を理解するのに役立つ45の数字

マイクロソフトコンピュータビジョンイノベーション & リサーチフォーラム 1 日目: 3 つの最先端検出テクノロジの解説

ネットワークセキュリティ運用保守サービスにおける人工知能の応用

杜暁曼自動機械学習プラットフォームの実践

機械学習を学ぶ際に早い段階で知っておくべき3つのこと

Baidu AIの新インフラが2020 CIFTISでデビュー、最新の人工知能成果をパノラマ展示

超音波脳読み取りはマスクの脳コンピューターインターフェースよりも正確で侵襲性が低い

IoTが災害管理にどのように役立つか

SQL Server の時間アルゴリズム

機械学習は「原子幾何学」の秘密を明らかにし、数学の発展を促進した