6 つの SOTA を制覇、Google の行動クローニング アルゴリズムが CoRL サミットに登場、ロボットの作業速度が 10 倍に

6 つの SOTA を制覇、Google の行動クローニング アルゴリズムが CoRL サミットに登場、ロボットの作業速度が 10 倍に

[[440499]]

Google チームは、CoRL 2021 で暗黙的動作クローニング (Implicit BC) アルゴリズムを提案しました。このアルゴリズムは、7 つのテスト タスクのうち 6 つで、これまでの最高のオフライン強化学習方法 (Conservative Q Learning) を上回るパフォーマンスを発揮しました。暗黙的 BC は現実世界でも非常に優れたパフォーマンスを発揮し、ベースラインの明示的動作クローニング (明示的 BC) モデルよりも 10 倍優れたパフォーマンスを発揮します。

過去数年間のロボット学習は大きく進歩しましたが、ロボットエージェントの一部のポリシーは、正確な動作や複雑な動作を模倣する際に、決定的にアクションを選択するのにまだ苦労しています。

ロボットはテーブル上の小さなスライダーをスロットに正確にスライドさせる必要があります。この課題を解決するには多くの方法があり、それぞれ正確な動きと修正が必要です。ロボットはこれらの戦略オプションのうち 1 つだけを採用することができ、スライダーが予想よりもスライドするたびに戦略を変更する必要があります。

人間はそのようなタスクが簡単だと思うかもしれないが、ロボットの場合はそうではないことが多く、ロボットは人間の専門家には優柔不断または不正確に見える行動を学習することが多い。

ロボットはスライダーをテーブル上でスライドさせてから、それを固定具に正確に挿入する必要があります。明示的な動作のクローン化モデルはためらいながら動作します。

ロボットの決断力を高めるために、研究者は離散化された行動空間を使用して、ロボットが選択肢の間で迷うのではなく、明確な「どちらか一方」の選択をするように強制することがよくあります。

たとえば、離散化は、AlphaGo、AlphaStar、OpenAI の Dota をプレイする AI エージェントなど、近年の多くの有名なゲームエージェント モデルに固有の機能です。

[[440501]]

しかし、離散化には独自の制限があり、空間的に連続した現実世界で動作するロボットの場合、離散化には少なくとも 2 つの欠点があります。

  1. 精度が限られています。
  2. 多くの異なる次元を離散化すると、次元の計算コストが非常に高くなるため、メモリと計算の要件が大幅に増加する可能性があります。 3D コンピューター ビジョン タスクにおける最近の重要なモデルの多くは、離散表現ではなく連続表現によって駆動されます。

離散化された特徴の落とし穴なしに決定論的なポリシーを学習するために、Google チームは、CoRL 2021 で実証された新しいシンプルな模倣学習方法である暗黙的動作クローニング (Implicit BC) のオープンソース アルゴリズムを提案しました。

このアプローチは、シミュレートされたベンチマーク タスクと、正確で積極的な動作を必要とする実際のロボット タスクの両方で有望な結果を実現します。 7 つのテスト タスクのうち、6 つでは、Implicit BC のパフォーマンスが、これまでの最高のオフライン強化学習方法 (Conservative Q Learning) よりも優れています。

興味深いことに、暗黙的 BC は報酬情報を必要とせずにこれらの結果を達成します。つまり、より複雑な強化学習の代わりに、比較的単純な教師あり学習を使用できます。

暗黙的な動作クローニング (暗黙的な BC)

行動のクローニングの一種であるこのアプローチは、ロボットがデモンストレーションから新しいスキルを学習するための最も簡単な方法であると言えるでしょう。行動クローニングでは、エージェントは標準的な教師あり学習を通じて専門家の行動を模倣する方法を学習します。従来の動作クローニングでは、通常、明示的なニューラル ネットワーク (下の図の左側を参照) をトレーニングして、観察を受け入れ、エキスパート アクションを出力します。

暗黙的な動作クローニングの背後にある重要な考え方は、ニューラル ネットワークをトレーニングして、観察とアクションを取得し、熟練したアクションの場合は低い数値、熟練していないアクションの場合は高い数値を出力するようにし、動作クローニングをエネルギー ベースのモデリング問題に変換することです。

明示的戦略 (左) と暗黙的戦略 (右) の違いの描写。暗黙的なポリシーでは、「argmin」は、特定の観測と組み合わせたときにエネルギー関数の値を最小化するアクションを表します。

トレーニング後、暗黙的な動作クローニング戦略は、特定の観測に対して最も低いエネルギー関数値を持つアクション入力を見つけることによってアクションを生成します。

暗黙的な BC モデルをトレーニングするために、研究者は InfoNCE 損失を使用しました。これにより、ネットワークはデータセット内の専門家のアクションに対して低いエネルギーを出力し、他のすべてのアクションに対して高いエネルギーを出力します。興味深いことに、観察とアクションの両方を行うモデルを使用するというこの考え方は、強化学習では一般的ですが、教師ありポリシー学習では一般的ではありません。

上の図は、暗黙的モデルが不連続性にどのように適応するかを示すアニメーションを示しています。この場合、暗黙的モデルはステップ サイズ (ヘヴィサイド) 関数に適合するようにトレーニングされます。左: フィッティングされた黒いトレーニング ポイントの 2D プロット。色はエネルギー値を表します (青は低く、茶色は高い)。中央: トレーニング中のエネルギー モデルの 3D プロット。右: トレーニング損失曲線。

Google AI は、トレーニングを終えると、暗黙的モデルは、以前の明示的モデルでは解決が困難だった不連続性を正確にモデル化するのに特に優れていることを発見し、それによって、異なる動作を決定的に切り替えることができる新しい戦略を生成しました。

この問題に対して従来の明示的モデルのパフォーマンスが低いのはなぜでしょうか?

現代のニューラル ネットワークでは、ほとんどの場合、連続的な活性化関数が使用されます。たとえば、Tensorflow、Jax、PyTorch はすべて、連続的な活性化関数のみを提供します。

これらの活性化関数を使用して構築された明示的なネットワークは、不連続なデータを適合させるときに正確に表現できないため、データ ポイント間に連続した曲線を描く必要があります。暗黙的モデルの主な利点は、ネットワーク自体が連続したレイヤーのみで構成されている場合でも、鋭い不連続性を表現できることです。

不連続関数を暗黙的モデル (上) と明示的モデル (下) でフィッティングする例。赤で強調表示されたインセットは、暗黙的モデルが不連続点 (a) と (b) を表し、明示的モデルが不連続点 (c) と (d) の間に連続した線を描く必要があることを示しています。

Google AI は、この点に関して理論的基礎を確立し、普遍近似の概念を提案し、暗黙的ニューラル ネットワークが表現できる関数のカテゴリを証明しました。これは、将来の研究の証明とガイドに役立ちます。

Google AI が最初にこのアプローチを試みた際に直面した課題の 1 つは、「動作の高次元性」でした。つまり、ロボットは複数のモーターを同時に調整する方法を決定する必要がありました。高いアクション次元に拡張するために、Google AI は自己回帰モデル、つまりランジュバン動力学を使用します。

新しいSOTA

実験では、Google AI は暗黙的 BC が現実世界で特に優れたパフォーマンスを発揮し、ミリメートル精度のスライダースライドおよびスロットタスクでベースラインの明示的動作クローニング (明示的 BC) モデルを 10 倍上回るパフォーマンスを発揮することを発見しました。

このタスクでは、暗黙のモデルは、スライダーを所定の位置にスライドさせる前に、いくつかの連続した正確な調整を行います。

スライダーをスロットに正確に挿入するタスクの例。これらは、(表示されたカメラからの)画像のみを入力として使用する暗黙のポリシーの自律的な動作です。

このタスクには複数の決定要因があります。ブロックの対称性と押す動作の順序が任意であるため、さまざまな解決策が考えられます。

ロボットは、スライダーが十分に押し込まれたかどうかを判断し、別の方向へのスライドに切り替える必要があります。このプロセスは不連続であるため、連続的に制御されるロボットではこのタスクで非常に決断力に欠けることになります。

このタスクを達成するためのさまざまな戦略。これらは暗黙のポリシーからの自律的な動作であり、画像のみを入力として使用します。

もう 1 つの難しいタスクでは、ロボットはスライダーを色で並べ替える必要がありますが、選択順序は任意であるため、多数の可能な解決策が生成されます。

困難な連続スクリーニングタスクにおける明示的な BC モデルのパフォーマンス (4 倍高速)

このタスクでは、明示的モデルのパフォーマンスは依然として低いですが、暗黙的モデルのパフォーマンスは向上しています。

困難な連続スクリーニングタスクにおける暗黙的 BC モデルのパフォーマンス (4 倍高速)

さらに、Google AI のテストでは、Implicit BC モデルは人間の手を見たことがなかったにもかかわらず、干渉に直面したときに強力な適応性を発揮することができました。

ロボットが妨害を受けたときの暗黙的BCモデルの堅牢な動作

全体として、Google AI は、暗黙的 BC ポリシーが、いくつかの異なるタスク ドメインにわたって最先端のオフライン強化学習方法よりも優れた結果を達成できることを発見しました。

暗黙的 BC は、少数のデモンストレーション (わずか 19)、画像観察に基づく高い観察次元、最大 30 の高いアクション次元など、ロボットが多数のアクチュエータを最大限に活用する必要がある多くの困難なタスクを達成できます。

暗黙的なポリシー学習の結果を複数のドメインにわたるベースラインと比較する

暗黙的 BC には現在限界がありますが、教師あり学習を使用した行動のクローン作成は、ロボットが人間の行動の例から学習するための最も簡単な方法の 1 つです。

この研究は、行動のクローニングを行う際に明示的な戦略を暗黙的な戦略に置き換えることで、ロボットが「ためらい」を克服し、より複雑で正確な行動を模倣できるようになることを示しています。

暗黙的 BC によって達成された実験結果はロボット学習の問題から得られたものですが、暗黙的関数が鋭い不連続性とマルチモーダル ラベルをモデル化する機能は、機械学習の他の分野でも幅広く応用できる可能性があります。

<<:  AIoT: IoTと人工知能の完璧な組み合わせ

>>:  Snapdragon 8の4倍のAIコンピューティングパワーハードテクノロジー:超解像度アップと信号強化ダウン、複数のアルゴリズムを同時に実行

ブログ    
ブログ    

推薦する

...

トラックに「透明マント」を装着し、自動運転車を衝突させる。これは誰がより早く攻撃できるかを競う競争だ

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

北京大学と智遠は、大規模モデルが自律的にオープンワールドを探索できるようにするトレーニングフレームワークLLaMA-Riderを提案した。

大規模言語モデルは、強力で普遍的な言語生成および理解機能を備えているため、汎用的なインテリジェントエ...

IoTと農業: コネクティビティが農業をどう変えるのか

インダストリー 4.0 はよく知られたアイデアですが、アグリカルチャー 4.0 はあまり知られていな...

時間はお金だというのは本当です!この日本人男性は9日間で5千円を費やして「タイムマシン」を作ったが、1分巻き戻すのにかかる費用はたった1円だ。

子どもたちが小学生の頃、時間を大切にすることを教えるために、大人たちは「時間はお金であり、お金で時間...

...

2019 年に人工知能アルゴリズムのポジションをめぐる競争がこれほど激しいのはなぜでしょうか?

AI関連の学位取得者は高給を得るのが難しいとメディアが以前報じていたのとは全く対照的に、多くの応募...

Jenkins 独自のユーザー データベース暗号化アルゴリズムの簡単な分析

Jenkins のアクセス制御は、セキュリティ ドメイン (認証) と承認戦略に分かれています。その...

AIモデルのオープンソースの定義を変える必要がある

オープンソースライセンスは進化すべきだと思いますか? 2023年は人工知能(AI)の登場とともに新年...

ミストラルAIの新モデルはGPT-4をベンチマークしており、オープンソースではなくマイクロソフトと協力、ネットユーザー:当初の意図を忘れた

生成AIの分野で、新たな重量級の製品が登場しました。月曜日の夜、ミストラルAIは「フラッグシップ」の...

【WOTI】English FluencyのLin Hui氏:教育分野でのAIはまだ初期段階にある

[51CTO.comからのオリジナル記事] 51CTOが主催するWOTI2017グローバルイノベーシ...

効率的な本人認証の鍵:生体認証技術

生体認証技術は、指紋、顔の特徴、虹彩などの人体の固有の生理学的特徴と人間の行動特性を利用して個人のア...

1行のコードでsklearnの操作が数千倍高速化

1 はじめにみなさんこんにちは、フェイ先生です。機械学習の定番フレームワークであるscikit-l...

インターネット上の無料データサイエンス、機械学習、人工知能のMOOCベスト20

21 世紀において、伝統的な教育は人生において必要な段階ではなく、選択肢となっています。インターネ...

嫌がらせ電話をかけてきた相手は実はAIロボットだった?

「ネットワークの向こう側に犬がいるかどうかは分からない」 - テクノロジーの発展により、同じ原理が...