4分! OpenAIのロボットハンドは、プログラミングなしで完全に独学で、片手でルービックキューブを解くことを学習しました。

4分! OpenAIのロボットハンドは、プログラミングなしで完全に独学で、片手でルービックキューブを解くことを学習しました。

[[279350]]

OpenAI のロボットハンドは片手でルービックキューブを解くことを学習し、3x3 のルービックキューブを解くのにたった 4 分しかかかりませんでした。その器用さは比類のないものです。

ルービックキューブを渡され、片手しか使えず、時々誰かが邪魔をしてきたら、4 分以内に解くことができますか?両手では無理です。

OpenAI のヒューマノイドロボットハンド Dactyl がそれを実現しました。現在、ルービックキューブを回す動画が広く拡散しており、ネットユーザーからは「人工知能ロボットの新たなマイルストーンが誕生した!」といった声が上がっている。これはロボットの物理的な器用さと機械学習ソフトウェアにおける飛躍的な進歩です。

動画では、このロボットアームの動きが少しぎこちなく、ルービックキューブが今にも落ちそうな感じがするが、各ステップは最終的には非常に正確であることがわかります。

動画の後半では、研究者らは難易度を上げ、布で覆ったり、道具を使って妨害したりしたが、ロボットアームは依然として熱心にルービックキューブで遊んでいた。

大人にとって、3段のルービックキューブを片手で操作するのは簡単ではありません。ロボットハンドがこのような成果を達成できるというのは本当に素晴らしいことです。

[[279354]]

有名なロボット工学の専門家であり、MITの教授でもあるレスリー・ケールブリング氏は、この操作を実際に完了できるとは思ってもいなかったと語った。ミシガン大学の機械制御の専門家であるドミトリー・ベレンソン氏もこれを認め、賞賛した。

ヒューマノイドロボットにルービックキューブを解く訓練を施すOpenAIの試みは、早くも2017年5月に始まった。研究者がルービックキューブを解くことに特に興味を持っている理由は、そのようなロボットハンドを複雑な操作タスクを完了するようにうまく訓練できれば、汎用ロボットの基礎が築かれることになるからです。 2017年7月、OpenAIはシミュレーションでルービックキューブを解きました。しかし、2018年7月時点では、ロボットアームはルービックキューブを解くときに1つのブロックしか操作できませんでした。今、この目標はついに達成されました。下のビデオをご覧ください。ロボットアームは約 4 分で 3x3 ルービックキューブを正常に復元しました

これは、ロボットハンドがルービックキューブを解くプロセス全体です。ビデオは編集されていません。片手でルービックキューブを解くのは人間にとって難しい作業であり、必要な器用さを習得するには子供が数年かかります。ロボットはまだそれを完璧に習得しておらず、成功率はわずか60%です。

次に、OpenAI ロボットがルービックキューブを解く方法を詳しく説明します。

1. 片手でルービックキューブを解く: OpenAI の新しいアルゴリズムは、シミュレーション環境を無限に生成できる

OpenAI は強化学習と Kociemba アルゴリズムを使用してニューラル ネットワークをトレーニングし、ルービック キューブを解くシミュレーションを実行します。私たちは、機械が現在習得するのが難しい問題、つまり知覚と器用な操作に焦点を当てています。したがって、Kociemba のアルゴリズムによって生成される復元に必要な回転と反転を実装するようにニューラル ネットワークをトレーニングします。

ドメインランダム化により、シミュレーションでのみトレーニングされたネットワークを実際のロボットに転送できる

このタスクにおける最大の課題は、現実世界の物理現象を捉えるために、シミュレーションで十分に多様な環境を作成することでした。ルービックキューブやロボットハンドのような複雑なオブジェクトの場合、摩擦、弾性、ダイナミクスなどの要素を測定してモデル化することは難しく、ドメインのランダム化だけでは不十分です。

この問題を克服するために、私たちは自動ドメインランダム化 (ADR)と呼ばれる新しいアプローチを開発しました。これは、シミュレーションでますます困難な環境を無限に生成できるものです。

こうすることで、現実世界の正確なモデルを作成する必要がなくなり、シミュレーションで学習したニューラル ネットワークを転送して現実世界に適用できるようになります。

ADR は、ニューラル ネットワークがルービック キューブを解くことを学習する単一の非ランダム環境から始まります。ニューラル ネットワークのパフォーマンスが向上し、パフォーマンスしきい値に達すると、ドメインのランダム化の量が増加します。これにより、ニューラル ネットワークはよりランダムな環境に一般化することを学習する必要があるため、タスクはさらに困難になります。ネットワークは、パフォーマンスしきい値を再び超えるまで学習を続け、その後さらにランダム化してプロセスを繰り返します。


ADR の適応型キューブ サイズ ランダム化のパラメータの 1 つはキューブ サイズです (上記)。

ADR は固定サイズの立方体から始まり、トレーニングが進むにつれてランダム化の範囲を徐々に拡大します。ルービックキューブの重さ、ロボットの指の摩擦、手の視覚的な表面材質など、他のすべてのパラメータにも同じ手法を適用しました。したがって、ニューラル ネットワークは、こうしたますます困難になるすべての条件下でルービック キューブを解くことを学習する必要があります。

自動ドメインランダム化と手動ドメインランダム化

ドメインランダム化では、ランダム化の範囲を手動で指定する必要がありますが、ランダム化が多すぎると学習が困難になり、ランダム化が少なすぎると実際のロボットへの移行が妨げられるため、これは困難です。 ADR は、人間の介入を必要とせずに時間の経過とともにランダム範囲を自動的に拡張することでこの問題を解決します。 ADR によりドメイン知識の必要性がなくなり、新しいタスクに私たちの方法をより簡単に適用できるようになります。手動のドメインランダム化と比較すると、ADR ではタスクが常に困難になり、トレーニングが収束することはありません。

我々は、すでに強力なベースラインが存在するルービックキューブ反転タスクにおいて、ADR と手動ドメインランダム化を比較しました。当初、ADR は実際のロボットでは成功率が低かった。しかし、ADR によって環境の複雑さの尺度であるエントロピーが増加すると、手動で調整しなくても、パフォーマンスは最終的にベースライン パフォーマンスの 2 倍になります。

堅牢性テスト

ADR を使用すると、シミュレーション環境でニューラル ネットワークをトレーニングし、それを実際のロボット ハンドで使用してルービック キューブを解くことができます。これは、ADR がネットワークをランダム シミュレーションの無限のストリームにさらすためです。トレーニング プロセスのこの複雑さにより、ネットワークはシミュレートされた世界から現実世界に移行できるようになり、直面する物理的な世界を迅速に認識して適応することを学習する必要があります。

ルービックキューブを解いているロボットを邪魔する

私たちのアプローチの限界をテストするために、片手でルービックキューブを解く際のさまざまな摂動実験を実行しました。これは、制御ネットワークの堅牢性をテストするだけでなく、立方体の位置と方向を推定するために使用する視覚ネットワークの堅牢性もテストします。

ADR でトレーニングしたシステムは、このような摂動条件でトレーニングしていなかったにもかかわらず、摂動に対して驚くほど堅牢であることがわかりました。すべての摂動テストで、ロボット ハンドは、パフォーマンスは最適ではないものの、ほとんどの反転と回転を正常に実行できました

メタ学習

私たちは、メタ学習、つまり学習することを学ぶことは、環境内の変化する状況にシステムが迅速に適応できるようにするため、汎用システムを構築するための重要な前提条件であると考えています。 ADR の背後にある仮説は、メモリ拡張ネットワークと十分にランダム化された環境を組み合わせると、ネットワークが、展開された環境にその動作を迅速に適応させることができる学習アルゴリズムを実装する、創発的なメタ学習につながるというものです。

これを体系的にテストするために、さまざまな摂動(ネットワークのメモリのリセット、ダイナミクスのリセット、ジョイントの切断など)の下で、ニューラル ネットワークが各ルービック キューブを正常に反転させる(異なる色の面が上を向くように回転させる)のにかかった時間を測定しました。私たちはこれらの実験をシミュレーション環境で実施しており、制御された環境で 10,000 回を超えるパフォーマンス テストを実行できます。

最初は、ニューラル ネットワークがより多くのフリップを正常に完了するにつれて、ニューラル ネットワークが適応することを学習するため、連続した成功間の時間が短縮されます。摂動が適用されると(上のグラフの灰色の縦線)、成功回数が急上昇します。これは、ネットワークが採用した戦略が変化する環境では機能しないためです。その後、ネットワークは新しい環境を再学習し、成功までの時間が以前のベースラインまで再び短縮されることがわかります。

下の画像は、シミュレーション環境でロボットアームがルービックキューブを解く様子を視覚化したものです。

Interpretability Toolbox の構成要素である非負行列分解を使用して、この高次元ベクトルを 6 つのグループに圧縮し、各グループに固有の色を割り当てます。各ステップで現在の優勢なグループの色が表示されます。

2. ルービックキューブを回すことがロボット技術の飛躍的進歩だと考えられるのはなぜですか?

実際、ルービックキューブを解くことができるロボットは Dactyl だけではありません。ルービック キューブを解くために特別に設計されたロボットは、3 次以上のルービック キューブを Dactyl よりも速く処理できますが、なぜ Dactyl だけがこれほど高く評価されているのでしょうか。

OpenAI の研究科学者でロボット工学の責任者である Peter Welinder 氏は、その理由は Dactyl がルービック キューブを解くために特別に設計されていないためだと考えています。ルービックキューブで遊ぶのは単なるデモであり、Dactyl の最大のハイライトは「自己学習」です。

現在、人工知能ロボットが特定のシナリオで人間を上回ることができるのは、特定のタスクに対する継続的な微調整と最適化の結果であり、タスクを可能な限り効率的に実行するようにプログラムされているためです。しかし、ロボットが「快適ゾーン」から一歩踏み出すと、人間の赤ちゃんよりも悪くなる可能性がある。

人工知能とロボット工学の業界は、長期にわたるトレーニングやターゲットを絞ったプログラミングなしに、現実世界のさまざまな実用的なタスクを自力で処理することを学習できるロボットを構築するという目標を達成することを常に望んできました。彼らに希望を与えたのはダクティルでした!

Dactyl には「自己学習」機能があり、さまざまなシナリオに自動的に適応できます。 OpenAI は、いつの日か、SF 映画にしか登場しない古典的なロボットキャラクターがスクリーンから飛び出し、何千もの家庭に入り込み、人類にサービスを提供できるようになることを期待しています。

OpenAIチームは、Dactylがルービックキューブの課題をうまく解決したことは、実際の問題に取り組む前にシミュレーショントレーニングを通じて新しい課題を学習できることも証明していると考えている。

<<:  2019 年のディープラーニング自然言語処理のトップ 10 開発トレンド

>>:  MITの新しい研究によると、機械学習ではフェイクニュースを検知できない

ブログ    
ブログ    

推薦する

汎用人工知能は存在するのか?

現在、一部の学者は、汎用人工知能を研究したいと言っています。これは、機械翻訳、音声認識、画像の分類と...

マイクロサービスにおける電流制限ロジックとアルゴリズム

[[341117]]この記事はWeChatの公開アカウント「Invincible Coder」から転...

AI、ゼロトラスト、エッジの近代化、マルチクラウド: 2024年に注目すべき技術トレンド

実際、ChatGPTによって引き起こされたこの新しいAIの波では、世界的なテクノロジー大手、AIメー...

【就職活動】データサイエンスと機械学習のための最も包括的な面接ガイド

[[234501]]この記事では、データサイエンスと機械学習の面接で遭遇する可能性のあるさまざまな質...

ブロックチェーンが人工知能に力を与える方法

現在、データはデジタル環境に残っており、共有する動機はほとんどありません。これにより、Google、...

PageRankアルゴリズムとPR値の転送の詳細な分析

PageRank アルゴリズムは、Google のランキング アルゴリズム (ランキング式) の一部...

インベントリ | 2018 年のベスト 30 の機械学習プロジェクト

編集者注: この記事は Mybridge からのもので、過去 1 年間 (2017 年) で最も素晴...

...

大きなモデルには画像がラベル付けされるので、簡単な会話だけで十分です。清華大学とNUSから

マルチモーダル大規模モデルに検出およびセグメンテーション モジュールを統合すると、画像の切り取りが簡...

顔認識の背後にあるもの:怖いのは技術ではなく…

以前、AI顔変換ソフトウェアZAOが一夜にして人気を博したことで、サーバーが「満杯になって崩壊」する...

機械経済の到来: つながる世界を動かす

機械経済は、長年にわたる急速な社会の発展と新しい製造プロセスへの移行によって進化してきました。第一次...

100日間人工知能について学んだ後、私は次の5つの結論に達しました

この記事の著者は Jamie Beach です。彼は 100 日間人工知能を独学した後、人工知能に関...

コード生成のためのツリーベースのTransformerアーキテクチャ

導入:コード生成は、プログラマーの生産性を大幅に向上させる可能性を秘めた重要な AI 問題です。自然...

AIが世界中の産業に及ぼす影響

人工知能は、すでに私たちの世界を微妙かつ広範囲に変化させている、画期的な技術です。クラウド コンピュ...

人工知能はメタバースのビジョンの実現に役立つでしょうか?

現在、メタバースの分野は、誇大宣伝と新規プロジェクトの立ち上げ数の点で急速に成長しており、業界の市場...