Google チームは、CoRL 2021 で暗黙的動作クローニング (Implicit BC) アルゴリズムを提案しました。このアルゴリズムは、7 つのテスト タスクのうち 6 つで、これまでの最高のオフライン強化学習方法 (Conservative Q Learning) を上回るパフォーマンスを発揮しました。暗黙的 BC は現実世界でも非常に優れたパフォーマンスを発揮し、ベースラインの明示的動作クローニング (明示的 BC) モデルよりも 10 倍優れたパフォーマンスを発揮します。 過去数年間のロボット学習は大きく進歩しましたが、ロボットエージェントの一部のポリシーは、正確な動作や複雑な動作を模倣する際に、決定的にアクションを選択するのにまだ苦労しています。 ロボットはテーブル上の小さなスライダーをスロットに正確にスライドさせる必要があります。この課題を解決するには多くの方法があり、それぞれ正確な動きと修正が必要です。ロボットはこれらの戦略オプションのうち 1 つだけを採用することができ、スライダーが予想よりもスライドするたびに戦略を変更する必要があります。 人間はそのようなタスクが簡単だと思うかもしれないが、ロボットの場合はそうではないことが多く、ロボットは人間の専門家には優柔不断または不正確に見える行動を学習することが多い。 ロボットはスライダーをテーブル上でスライドさせてから、それを固定具に正確に挿入する必要があります。明示的な動作のクローン化モデルはためらいながら動作します。 ロボットの決断力を高めるために、研究者は離散化された行動空間を使用して、ロボットが選択肢の間で迷うのではなく、明確な「どちらか一方」の選択をするように強制することがよくあります。 たとえば、離散化は、AlphaGo、AlphaStar、OpenAI の Dota をプレイする AI エージェントなど、近年の多くの有名なゲームエージェント モデルに固有の機能です。 しかし、離散化には独自の制限があり、空間的に連続した現実世界で動作するロボットの場合、離散化には少なくとも 2 つの欠点があります。
離散化された特徴の落とし穴なしに決定論的なポリシーを学習するために、Google チームは、CoRL 2021 で実証された新しいシンプルな模倣学習方法である暗黙的動作クローニング (Implicit BC) のオープンソース アルゴリズムを提案しました。 このアプローチは、シミュレートされたベンチマーク タスクと、正確で積極的な動作を必要とする実際のロボット タスクの両方で有望な結果を実現します。 7 つのテスト タスクのうち、6 つでは、Implicit BC のパフォーマンスが、これまでの最高のオフライン強化学習方法 (Conservative Q Learning) よりも優れています。 興味深いことに、暗黙的 BC は報酬情報を必要とせずにこれらの結果を達成します。つまり、より複雑な強化学習の代わりに、比較的単純な教師あり学習を使用できます。 暗黙的な動作クローニング (暗黙的な BC)行動のクローニングの一種であるこのアプローチは、ロボットがデモンストレーションから新しいスキルを学習するための最も簡単な方法であると言えるでしょう。行動クローニングでは、エージェントは標準的な教師あり学習を通じて専門家の行動を模倣する方法を学習します。従来の動作クローニングでは、通常、明示的なニューラル ネットワーク (下の図の左側を参照) をトレーニングして、観察を受け入れ、エキスパート アクションを出力します。 暗黙的な動作クローニングの背後にある重要な考え方は、ニューラル ネットワークをトレーニングして、観察とアクションを取得し、熟練したアクションの場合は低い数値、熟練していないアクションの場合は高い数値を出力するようにし、動作クローニングをエネルギー ベースのモデリング問題に変換することです。 明示的戦略 (左) と暗黙的戦略 (右) の違いの描写。暗黙的なポリシーでは、「argmin」は、特定の観測と組み合わせたときにエネルギー関数の値を最小化するアクションを表します。 トレーニング後、暗黙的な動作クローニング戦略は、特定の観測に対して最も低いエネルギー関数値を持つアクション入力を見つけることによってアクションを生成します。 暗黙的な BC モデルをトレーニングするために、研究者は InfoNCE 損失を使用しました。これにより、ネットワークはデータセット内の専門家のアクションに対して低いエネルギーを出力し、他のすべてのアクションに対して高いエネルギーを出力します。興味深いことに、観察とアクションの両方を行うモデルを使用するというこの考え方は、強化学習では一般的ですが、教師ありポリシー学習では一般的ではありません。 上の図は、暗黙的モデルが不連続性にどのように適応するかを示すアニメーションを示しています。この場合、暗黙的モデルはステップ サイズ (ヘヴィサイド) 関数に適合するようにトレーニングされます。左: フィッティングされた黒いトレーニング ポイントの 2D プロット。色はエネルギー値を表します (青は低く、茶色は高い)。中央: トレーニング中のエネルギー モデルの 3D プロット。右: トレーニング損失曲線。 Google AI は、トレーニングを終えると、暗黙的モデルは、以前の明示的モデルでは解決が困難だった不連続性を正確にモデル化するのに特に優れていることを発見し、それによって、異なる動作を決定的に切り替えることができる新しい戦略を生成しました。 この問題に対して従来の明示的モデルのパフォーマンスが低いのはなぜでしょうか? 現代のニューラル ネットワークでは、ほとんどの場合、連続的な活性化関数が使用されます。たとえば、Tensorflow、Jax、PyTorch はすべて、連続的な活性化関数のみを提供します。 これらの活性化関数を使用して構築された明示的なネットワークは、不連続なデータを適合させるときに正確に表現できないため、データ ポイント間に連続した曲線を描く必要があります。暗黙的モデルの主な利点は、ネットワーク自体が連続したレイヤーのみで構成されている場合でも、鋭い不連続性を表現できることです。 不連続関数を暗黙的モデル (上) と明示的モデル (下) でフィッティングする例。赤で強調表示されたインセットは、暗黙的モデルが不連続点 (a) と (b) を表し、明示的モデルが不連続点 (c) と (d) の間に連続した線を描く必要があることを示しています。 Google AI は、この点に関して理論的基礎を確立し、普遍近似の概念を提案し、暗黙的ニューラル ネットワークが表現できる関数のカテゴリを証明しました。これは、将来の研究の証明とガイドに役立ちます。 Google AI が最初にこのアプローチを試みた際に直面した課題の 1 つは、「動作の高次元性」でした。つまり、ロボットは複数のモーターを同時に調整する方法を決定する必要がありました。高いアクション次元に拡張するために、Google AI は自己回帰モデル、つまりランジュバン動力学を使用します。 新しいSOTA実験では、Google AI は暗黙的 BC が現実世界で特に優れたパフォーマンスを発揮し、ミリメートル精度のスライダースライドおよびスロットタスクでベースラインの明示的動作クローニング (明示的 BC) モデルを 10 倍上回るパフォーマンスを発揮することを発見しました。 このタスクでは、暗黙のモデルは、スライダーを所定の位置にスライドさせる前に、いくつかの連続した正確な調整を行います。 スライダーをスロットに正確に挿入するタスクの例。これらは、(表示されたカメラからの)画像のみを入力として使用する暗黙のポリシーの自律的な動作です。 このタスクには複数の決定要因があります。ブロックの対称性と押す動作の順序が任意であるため、さまざまな解決策が考えられます。 ロボットは、スライダーが十分に押し込まれたかどうかを判断し、別の方向へのスライドに切り替える必要があります。このプロセスは不連続であるため、連続的に制御されるロボットではこのタスクで非常に決断力に欠けることになります。 このタスクを達成するためのさまざまな戦略。これらは暗黙のポリシーからの自律的な動作であり、画像のみを入力として使用します。 もう 1 つの難しいタスクでは、ロボットはスライダーを色で並べ替える必要がありますが、選択順序は任意であるため、多数の可能な解決策が生成されます。 困難な連続スクリーニングタスクにおける明示的な BC モデルのパフォーマンス (4 倍高速) このタスクでは、明示的モデルのパフォーマンスは依然として低いですが、暗黙的モデルのパフォーマンスは向上しています。 困難な連続スクリーニングタスクにおける暗黙的 BC モデルのパフォーマンス (4 倍高速) さらに、Google AI のテストでは、Implicit BC モデルは人間の手を見たことがなかったにもかかわらず、干渉に直面したときに強力な適応性を発揮することができました。 ロボットが妨害を受けたときの暗黙的BCモデルの堅牢な動作 全体として、Google AI は、暗黙的 BC ポリシーが、いくつかの異なるタスク ドメインにわたって最先端のオフライン強化学習方法よりも優れた結果を達成できることを発見しました。 暗黙的 BC は、少数のデモンストレーション (わずか 19)、画像観察に基づく高い観察次元、最大 30 の高いアクション次元など、ロボットが多数のアクチュエータを最大限に活用する必要がある多くの困難なタスクを達成できます。 暗黙的なポリシー学習の結果を複数のドメインにわたるベースラインと比較する 暗黙的 BC には現在限界がありますが、教師あり学習を使用した行動のクローン作成は、ロボットが人間の行動の例から学習するための最も簡単な方法の 1 つです。 この研究は、行動のクローニングを行う際に明示的な戦略を暗黙的な戦略に置き換えることで、ロボットが「ためらい」を克服し、より複雑で正確な行動を模倣できるようになることを示しています。 暗黙的 BC によって達成された実験結果はロボット学習の問題から得られたものですが、暗黙的関数が鋭い不連続性とマルチモーダル ラベルをモデル化する機能は、機械学習の他の分野でも幅広く応用できる可能性があります。 |
>>: Snapdragon 8の4倍のAIコンピューティングパワーハードテクノロジー:超解像度アップと信号強化ダウン、複数のアルゴリズムを同時に実行
最近、LeCun は、依然として崩壊問題と自己監督に関する新しい研究を発表しました。今回、彼は新しい...
地震、ハリケーン、洪水などの自然災害は、広大な地域と何百万人もの人々に影響を及ぼし、物流上の大きな課...
これらの AI 搭載ガジェットはあなたの家をスマートにします。 『2001年宇宙の旅』の全知全能のH...
この記事は公開アカウント「Reading Core Technique」(ID: AI_Discov...
人工知能の広範な応用は今日よく知られていますが、人工知能は具体的にどのように企業のソーシャル メディ...
過去 10 年間で、強化学習 (RL) は機械学習で最も人気のある研究分野の 1 つになりました。R...
米国計算機協会(ACM)は、2017年のチューリング賞を、チップ業界の巨匠2名、スタンフォード大学元...
ビッグデータと人工知能は、企業が新しい方法で顧客体験を向上させるのに役立ちます。 AIとビッグデータ...
[[279047]] [51CTO.com クイック翻訳] 今日、さまざまな新しいトレンドの出現に...
現在では、カメラ機能はスマートフォンの標準機能となり、スマートフォンの大きなセールスポイントとなって...
「シンギュラリティ」は、人工知能(AI)の将来展望とその社会的影響を説明する重要な概念です。 AIの...