4分! OpenAIのロボットハンドは、プログラミングなしで完全に独学で、片手でルービックキューブを解くことを学習しました。

4分! OpenAIのロボットハンドは、プログラミングなしで完全に独学で、片手でルービックキューブを解くことを学習しました。

[[279350]]

OpenAI のロボットハンドは片手でルービックキューブを解くことを学習し、3x3 のルービックキューブを解くのにたった 4 分しかかかりませんでした。その器用さは比類のないものです。

ルービックキューブを渡され、片手しか使えず、時々誰かが邪魔をしてきたら、4 分以内に解くことができますか?両手では無理です。

OpenAI のヒューマノイドロボットハンド Dactyl がそれを実現しました。現在、ルービックキューブを回す動画が広く拡散しており、ネットユーザーからは「人工知能ロボットの新たなマイルストーンが誕生した!」といった声が上がっている。これはロボットの物理的な器用さと機械学習ソフトウェアにおける飛躍的な進歩です。

動画では、このロボットアームの動きが少しぎこちなく、ルービックキューブが今にも落ちそうな感じがするが、各ステップは最終的には非常に正確であることがわかります。

動画の後半では、研究者らは難易度を上げ、布で覆ったり、道具を使って妨害したりしたが、ロボットアームは依然として熱心にルービックキューブで遊んでいた。

大人にとって、3段のルービックキューブを片手で操作するのは簡単ではありません。ロボットハンドがこのような成果を達成できるというのは本当に素晴らしいことです。

[[279354]]

有名なロボット工学の専門家であり、MITの教授でもあるレスリー・ケールブリング氏は、この操作を実際に完了できるとは思ってもいなかったと語った。ミシガン大学の機械制御の専門家であるドミトリー・ベレンソン氏もこれを認め、賞賛した。

ヒューマノイドロボットにルービックキューブを解く訓練を施すOpenAIの試みは、早くも2017年5月に始まった。研究者がルービックキューブを解くことに特に興味を持っている理由は、そのようなロボットハンドを複雑な操作タスクを完了するようにうまく訓練できれば、汎用ロボットの基礎が築かれることになるからです。 2017年7月、OpenAIはシミュレーションでルービックキューブを解きました。しかし、2018年7月時点では、ロボットアームはルービックキューブを解くときに1つのブロックしか操作できませんでした。今、この目標はついに達成されました。下のビデオをご覧ください。ロボットアームは約 4 分で 3x3 ルービックキューブを正常に復元しました

これは、ロボットハンドがルービックキューブを解くプロセス全体です。ビデオは編集されていません。片手でルービックキューブを解くのは人間にとって難しい作業であり、必要な器用さを習得するには子供が数年かかります。ロボットはまだそれを完璧に習得しておらず、成功率はわずか60%です。

次に、OpenAI ロボットがルービックキューブを解く方法を詳しく説明します。

1. 片手でルービックキューブを解く: OpenAI の新しいアルゴリズムは、シミュレーション環境を無限に生成できる

OpenAI は強化学習と Kociemba アルゴリズムを使用してニューラル ネットワークをトレーニングし、ルービック キューブを解くシミュレーションを実行します。私たちは、機械が現在習得するのが難しい問題、つまり知覚と器用な操作に焦点を当てています。したがって、Kociemba のアルゴリズムによって生成される復元に必要な回転と反転を実装するようにニューラル ネットワークをトレーニングします。

ドメインランダム化により、シミュレーションでのみトレーニングされたネットワークを実際のロボットに転送できる

このタスクにおける最大の課題は、現実世界の物理現象を捉えるために、シミュレーションで十分に多様な環境を作成することでした。ルービックキューブやロボットハンドのような複雑なオブジェクトの場合、摩擦、弾性、ダイナミクスなどの要素を測定してモデル化することは難しく、ドメインのランダム化だけでは不十分です。

この問題を克服するために、私たちは自動ドメインランダム化 (ADR)と呼ばれる新しいアプローチを開発しました。これは、シミュレーションでますます困難な環境を無限に生成できるものです。

こうすることで、現実世界の正確なモデルを作成する必要がなくなり、シミュレーションで学習したニューラル ネットワークを転送して現実世界に適用できるようになります。

ADR は、ニューラル ネットワークがルービック キューブを解くことを学習する単一の非ランダム環境から始まります。ニューラル ネットワークのパフォーマンスが向上し、パフォーマンスしきい値に達すると、ドメインのランダム化の量が増加します。これにより、ニューラル ネットワークはよりランダムな環境に一般化することを学習する必要があるため、タスクはさらに困難になります。ネットワークは、パフォーマンスしきい値を再び超えるまで学習を続け、その後さらにランダム化してプロセスを繰り返します。


ADR の適応型キューブ サイズ ランダム化のパラメータの 1 つはキューブ サイズです (上記)。

ADR は固定サイズの立方体から始まり、トレーニングが進むにつれてランダム化の範囲を徐々に拡大します。ルービックキューブの重さ、ロボットの指の摩擦、手の視覚的な表面材質など、他のすべてのパラメータにも同じ手法を適用しました。したがって、ニューラル ネットワークは、こうしたますます困難になるすべての条件下でルービック キューブを解くことを学習する必要があります。

自動ドメインランダム化と手動ドメインランダム化

ドメインランダム化では、ランダム化の範囲を手動で指定する必要がありますが、ランダム化が多すぎると学習が困難になり、ランダム化が少なすぎると実際のロボットへの移行が妨げられるため、これは困難です。 ADR は、人間の介入を必要とせずに時間の経過とともにランダム範囲を自動的に拡張することでこの問題を解決します。 ADR によりドメイン知識の必要性がなくなり、新しいタスクに私たちの方法をより簡単に適用できるようになります。手動のドメインランダム化と比較すると、ADR ではタスクが常に困難になり、トレーニングが収束することはありません。

我々は、すでに強力なベースラインが存在するルービックキューブ反転タスクにおいて、ADR と手動ドメインランダム化を比較しました。当初、ADR は実際のロボットでは成功率が低かった。しかし、ADR によって環境の複雑さの尺度であるエントロピーが増加すると、手動で調整しなくても、パフォーマンスは最終的にベースライン パフォーマンスの 2 倍になります。

堅牢性テスト

ADR を使用すると、シミュレーション環境でニューラル ネットワークをトレーニングし、それを実際のロボット ハンドで使用してルービック キューブを解くことができます。これは、ADR がネットワークをランダム シミュレーションの無限のストリームにさらすためです。トレーニング プロセスのこの複雑さにより、ネットワークはシミュレートされた世界から現実世界に移行できるようになり、直面する物理的な世界を迅速に認識して適応することを学習する必要があります。

ルービックキューブを解いているロボットを邪魔する

私たちのアプローチの限界をテストするために、片手でルービックキューブを解く際のさまざまな摂動実験を実行しました。これは、制御ネットワークの堅牢性をテストするだけでなく、立方体の位置と方向を推定するために使用する視覚ネットワークの堅牢性もテストします。

ADR でトレーニングしたシステムは、このような摂動条件でトレーニングしていなかったにもかかわらず、摂動に対して驚くほど堅牢であることがわかりました。すべての摂動テストで、ロボット ハンドは、パフォーマンスは最適ではないものの、ほとんどの反転と回転を正常に実行できました

メタ学習

私たちは、メタ学習、つまり学習することを学ぶことは、環境内の変化する状況にシステムが迅速に適応できるようにするため、汎用システムを構築するための重要な前提条件であると考えています。 ADR の背後にある仮説は、メモリ拡張ネットワークと十分にランダム化された環境を組み合わせると、ネットワークが、展開された環境にその動作を迅速に適応させることができる学習アルゴリズムを実装する、創発的なメタ学習につながるというものです。

これを体系的にテストするために、さまざまな摂動(ネットワークのメモリのリセット、ダイナミクスのリセット、ジョイントの切断など)の下で、ニューラル ネットワークが各ルービック キューブを正常に反転させる(異なる色の面が上を向くように回転させる)のにかかった時間を測定しました。私たちはこれらの実験をシミュレーション環境で実施しており、制御された環境で 10,000 回を超えるパフォーマンス テストを実行できます。

最初は、ニューラル ネットワークがより多くのフリップを正常に完了するにつれて、ニューラル ネットワークが適応することを学習するため、連続した成功間の時間が短縮されます。摂動が適用されると(上のグラフの灰色の縦線)、成功回数が急上昇します。これは、ネットワークが採用した戦略が変化する環境では機能しないためです。その後、ネットワークは新しい環境を再学習し、成功までの時間が以前のベースラインまで再び短縮されることがわかります。

下の画像は、シミュレーション環境でロボットアームがルービックキューブを解く様子を視覚化したものです。

Interpretability Toolbox の構成要素である非負行列分解を使用して、この高次元ベクトルを 6 つのグループに圧縮し、各グループに固有の色を割り当てます。各ステップで現在の優勢なグループの色が表示されます。

2. ルービックキューブを回すことがロボット技術の飛躍的進歩だと考えられるのはなぜですか?

実際、ルービックキューブを解くことができるロボットは Dactyl だけではありません。ルービック キューブを解くために特別に設計されたロボットは、3 次以上のルービック キューブを Dactyl よりも速く処理できますが、なぜ Dactyl だけがこれほど高く評価されているのでしょうか。

OpenAI の研究科学者でロボット工学の責任者である Peter Welinder 氏は、その理由は Dactyl がルービック キューブを解くために特別に設計されていないためだと考えています。ルービックキューブで遊ぶのは単なるデモであり、Dactyl の最大のハイライトは「自己学習」です。

現在、人工知能ロボットが特定のシナリオで人間を上回ることができるのは、特定のタスクに対する継続的な微調整と最適化の結果であり、タスクを可能な限り効率的に実行するようにプログラムされているためです。しかし、ロボットが「快適ゾーン」から一歩踏み出すと、人間の赤ちゃんよりも悪くなる可能性がある。

人工知能とロボット工学の業界は、長期にわたるトレーニングやターゲットを絞ったプログラミングなしに、現実世界のさまざまな実用的なタスクを自力で処理することを学習できるロボットを構築するという目標を達成することを常に望んできました。彼らに希望を与えたのはダクティルでした!

Dactyl には「自己学習」機能があり、さまざまなシナリオに自動的に適応できます。 OpenAI は、いつの日か、SF 映画にしか登場しない古典的なロボットキャラクターがスクリーンから飛び出し、何千もの家庭に入り込み、人類にサービスを提供できるようになることを期待しています。

OpenAIチームは、Dactylがルービックキューブの課題をうまく解決したことは、実際の問題に取り組む前にシミュレーショントレーニングを通じて新しい課題を学習できることも証明していると考えている。

<<:  2019 年のディープラーニング自然言語処理のトップ 10 開発トレンド

>>:  MITの新しい研究によると、機械学習ではフェイクニュースを検知できない

ブログ    
ブログ    

推薦する

35 歳の技術者が管理職に転身するにはどうすればいいでしょうか?アリババの上級アルゴリズム専門家が10の考えを明かす

[[313295]] 35歳前後というのはエンジニアにとって珍しい年齢です。技術者は、純粋に技術的な...

...

人工知能は 5 つの主要な地球規模の問題に解決策をもたらす | ダボス ブログ

[[183562]]人々は常に人工知能について多くの懸念を抱いています。人工知能は私たちの仕事にとっ...

サイバーセキュリティの専門家が知っておくべきAIフレームワーク

1. AIフレームワークの重要性AIフレームワークは、人工知能のオペレーティングシステムであり、基本...

...

人工知能は裁判所によって特許発明者とみなされるでしょうか?

人工知能(AI)は、新薬の発見から新しい数学の問題の解決まで、あらゆることを人間が行うのに役立ってお...

「フルスタック自社開発」自動運転に大きな後退か?

01 「フルスタック自主開発」は小さな農民経済過去2年間、私はさまざまな機会に、さまざまなサプライ...

USTC 統合入力フィルタリング フレームワーク: すべてのデータ モダリティをサポートするフィルタリング可能性の最初の理論的分析

モバイル デバイスの計算能力が向上し、センサー データのリアルタイム分析の需要が高まるにつれて、モバ...

メタヘッドセットが舌トラッキング機能を追加、ネットユーザー衝撃「理由は聞かないし、知りたくもない」

突然でしたね… Meta の MR ヘッドセットは舌を追跡できるようになりました。効果は次のようにな...

コーチや監督者になる...人間と機械のコラボレーションにより、AIはあなたをよりよく理解します

一見退屈で冷淡なアルゴリズムは、継続的な反復とアップグレードを経て、外界を認識でき、人間の意思決定を...

OpenAIの共同創設者Karpathyがアルパカに恋をする: 赤ちゃんLlama2を実装する純粋なCコード、MacBookが動作可能、1.6kの星を獲得

今週、Meta のオープンソース Llama2 が AI コミュニティ全体で人気を博しました。その結...

デジタル変革、人工知能、そして生産性の問題

企業がデジタル変革を進める際に、生成 AI がいかにして企業の生産性を向上させることができるかについ...

ノーベル賞を予約しますか? DeepMind の創設者が「ノーベル賞」ラスカー賞を受賞、AlphaFold が「科学のための AI」のベンチマークに

9月21日、生理学・医学分野の最高賞であるラスカー賞が発表されました!ラスカー賞には、基礎医学研究賞...

生成 AI とビッグモデルの違いと関連性は何ですか?

近年、ChatGPT、GPT-4、BARD、Claudeなどの大規模モデルが急速かつ大幅な進歩を遂げ...

予測分析: 組織内の時間とデータの再考

[[278064]]時系列は標準的な分析手法ですが、より高度な機械学習ツールでは、より正確な予測モデ...