6 つの SOTA を制覇、Google の行動クローニングアルゴリズムが CoRL サミットに登場、ロボットの作業速度が 10 倍に

[[440499]]

Google チームは、CoRL 2021 で暗黙的動作クローニング (Implicit BC) アルゴリズムを提案しました。このアルゴリズムは、7 つのテストタスクのうち 6 つで、これまでの最高のオフライン強化学習方法 (Conservative Q Learning) を上回るパフォーマンスを発揮しました。暗黙的 BC は現実世界でも非常に優れたパフォーマンスを発揮し、ベースラインの明示的動作クローニング (明示的 BC) モデルよりも 10 倍優れたパフォーマンスを発揮します。

過去数年間のロボット学習は大きく進歩しましたが、ロボットエージェントの一部のポリシーは、正確な動作や複雑な動作を模倣する際に、決定的にアクションを選択するのにまだ苦労しています。

ロボットはテーブル上の小さなスライダーをスロットに正確にスライドさせる必要があります。この課題を解決するには多くの方法があり、それぞれ正確な動きと修正が必要です。ロボットはこれらの戦略オプションのうち 1 つだけを採用することができ、スライダーが予想よりもスライドするたびに戦略を変更する必要があります。

人間はそのようなタスクが簡単だと思うかもしれないが、ロボットの場合はそうではないことが多く、ロボットは人間の専門家には優柔不断または不正確に見える行動を学習することが多い。

ロボットはスライダーをテーブル上でスライドさせてから、それを固定具に正確に挿入する必要があります。明示的な動作のクローン化モデルはためらいながら動作します。

ロボットの決断力を高めるために、研究者は離散化された行動空間を使用して、ロボットが選択肢の間で迷うのではなく、明確な「どちらか一方」の選択をするように強制することがよくあります。

たとえば、離散化は、AlphaGo、AlphaStar、OpenAI の Dota をプレイする AI エージェントなど、近年の多くの有名なゲームエージェントモデルに固有の機能です。

しかし、離散化には独自の制限があり、空間的に連続した現実世界で動作するロボットの場合、離散化には少なくとも 2 つの欠点があります。

精度が限られています。
多くの異なる次元を離散化すると、次元の計算コストが非常に高くなるため、メモリと計算の要件が大幅に増加する可能性があります。 3D コンピュータービジョンタスクにおける最近の重要なモデルの多くは、離散表現ではなく連続表現によって駆動されます。

離散化された特徴の落とし穴なしに決定論的なポリシーを学習するために、Google チームは、CoRL 2021 で実証された新しいシンプルな模倣学習方法である暗黙的動作クローニング (Implicit BC) のオープンソースアルゴリズムを提案しました。

このアプローチは、シミュレートされたベンチマークタスクと、正確で積極的な動作を必要とする実際のロボットタスクの両方で有望な結果を実現します。 7 つのテストタスクのうち、6 つでは、Implicit BC のパフォーマンスが、これまでの最高のオフライン強化学習方法 (Conservative Q Learning) よりも優れています。

興味深いことに、暗黙的 BC は報酬情報を必要とせずにこれらの結果を達成します。つまり、より複雑な強化学習の代わりに、比較的単純な教師あり学習を使用できます。

暗黙的な動作クローニング (暗黙的な BC)

行動のクローニングの一種であるこのアプローチは、ロボットがデモンストレーションから新しいスキルを学習するための最も簡単な方法であると言えるでしょう。行動クローニングでは、エージェントは標準的な教師あり学習を通じて専門家の行動を模倣する方法を学習します。従来の動作クローニングでは、通常、明示的なニューラルネットワーク (下の図の左側を参照) をトレーニングして、観察を受け入れ、エキスパートアクションを出力します。

暗黙的な動作クローニングの背後にある重要な考え方は、ニューラルネットワークをトレーニングして、観察とアクションを取得し、熟練したアクションの場合は低い数値、熟練していないアクションの場合は高い数値を出力するようにし、動作クローニングをエネルギーベースのモデリング問題に変換することです。

明示的戦略 (左) と暗黙的戦略 (右) の違いの描写。暗黙的なポリシーでは、「argmin」は、特定の観測と組み合わせたときにエネルギー関数の値を最小化するアクションを表します。

トレーニング後、暗黙的な動作クローニング戦略は、特定の観測に対して最も低いエネルギー関数値を持つアクション入力を見つけることによってアクションを生成します。

暗黙的な BC モデルをトレーニングするために、研究者は InfoNCE 損失を使用しました。これにより、ネットワークはデータセット内の専門家のアクションに対して低いエネルギーを出力し、他のすべてのアクションに対して高いエネルギーを出力します。興味深いことに、観察とアクションの両方を行うモデルを使用するというこの考え方は、強化学習では一般的ですが、教師ありポリシー学習では一般的ではありません。

上の図は、暗黙的モデルが不連続性にどのように適応するかを示すアニメーションを示しています。この場合、暗黙的モデルはステップサイズ (ヘヴィサイド) 関数に適合するようにトレーニングされます。左: フィッティングされた黒いトレーニングポイントの 2D プロット。色はエネルギー値を表します (青は低く、茶色は高い)。中央: トレーニング中のエネルギーモデルの 3D プロット。右: トレーニング損失曲線。

Google AI は、トレーニングを終えると、暗黙的モデルは、以前の明示的モデルでは解決が困難だった不連続性を正確にモデル化するのに特に優れていることを発見し、それによって、異なる動作を決定的に切り替えることができる新しい戦略を生成しました。

この問題に対して従来の明示的モデルのパフォーマンスが低いのはなぜでしょうか?

現代のニューラルネットワークでは、ほとんどの場合、連続的な活性化関数が使用されます。たとえば、Tensorflow、Jax、PyTorch はすべて、連続的な活性化関数のみを提供します。

これらの活性化関数を使用して構築された明示的なネットワークは、不連続なデータを適合させるときに正確に表現できないため、データポイント間に連続した曲線を描く必要があります。暗黙的モデルの主な利点は、ネットワーク自体が連続したレイヤーのみで構成されている場合でも、鋭い不連続性を表現できることです。

不連続関数を暗黙的モデル (上) と明示的モデル (下) でフィッティングする例。赤で強調表示されたインセットは、暗黙的モデルが不連続点 (a) と (b) を表し、明示的モデルが不連続点 (c) と (d) の間に連続した線を描く必要があることを示しています。

Google AI は、この点に関して理論的基礎を確立し、普遍近似の概念を提案し、暗黙的ニューラルネットワークが表現できる関数のカテゴリを証明しました。これは、将来の研究の証明とガイドに役立ちます。

Google AI が最初にこのアプローチを試みた際に直面した課題の 1 つは、「動作の高次元性」でした。つまり、ロボットは複数のモーターを同時に調整する方法を決定する必要がありました。高いアクション次元に拡張するために、Google AI は自己回帰モデル、つまりランジュバン動力学を使用します。

新しいSOTA

実験では、Google AI は暗黙的 BC が現実世界で特に優れたパフォーマンスを発揮し、ミリメートル精度のスライダースライドおよびスロットタスクでベースラインの明示的動作クローニング (明示的 BC) モデルを 10 倍上回るパフォーマンスを発揮することを発見しました。

このタスクでは、暗黙のモデルは、スライダーを所定の位置にスライドさせる前に、いくつかの連続した正確な調整を行います。

スライダーをスロットに正確に挿入するタスクの例。これらは、（表示されたカメラからの）画像のみを入力として使用する暗黙のポリシーの自律的な動作です。

このタスクには複数の決定要因があります。ブロックの対称性と押す動作の順序が任意であるため、さまざまな解決策が考えられます。

ロボットは、スライダーが十分に押し込まれたかどうかを判断し、別の方向へのスライドに切り替える必要があります。このプロセスは不連続であるため、連続的に制御されるロボットではこのタスクで非常に決断力に欠けることになります。

このタスクを達成するためのさまざまな戦略。これらは暗黙のポリシーからの自律的な動作であり、画像のみを入力として使用します。

もう 1 つの難しいタスクでは、ロボットはスライダーを色で並べ替える必要がありますが、選択順序は任意であるため、多数の可能な解決策が生成されます。

困難な連続スクリーニングタスクにおける明示的な BC モデルのパフォーマンス (4 倍高速)

このタスクでは、明示的モデルのパフォーマンスは依然として低いですが、暗黙的モデルのパフォーマンスは向上しています。

困難な連続スクリーニングタスクにおける暗黙的 BC モデルのパフォーマンス (4 倍高速)

さらに、Google AI のテストでは、Implicit BC モデルは人間の手を見たことがなかったにもかかわらず、干渉に直面したときに強力な適応性を発揮することができました。

ロボットが妨害を受けたときの暗黙的BCモデルの堅牢な動作

全体として、Google AI は、暗黙的 BC ポリシーが、いくつかの異なるタスクドメインにわたって最先端のオフライン強化学習方法よりも優れた結果を達成できることを発見しました。

暗黙的 BC は、少数のデモンストレーション (わずか 19)、画像観察に基づく高い観察次元、最大 30 の高いアクション次元など、ロボットが多数のアクチュエータを最大限に活用する必要がある多くの困難なタスクを達成できます。

暗黙的なポリシー学習の結果を複数のドメインにわたるベースラインと比較する

暗黙的 BC には現在限界がありますが、教師あり学習を使用した行動のクローン作成は、ロボットが人間の行動の例から学習するための最も簡単な方法の 1 つです。

この研究は、行動のクローニングを行う際に明示的な戦略を暗黙的な戦略に置き換えることで、ロボットが「ためらい」を克服し、より複雑で正確な行動を模倣できるようになることを示しています。

暗黙的 BC によって達成された実験結果はロボット学習の問題から得られたものですが、暗黙的関数が鋭い不連続性とマルチモーダルラベルをモデル化する機能は、機械学習の他の分野でも幅広く応用できる可能性があります。

<<: AIoT: IoTと人工知能の完璧な組み合わせ

>>: Snapdragon 8の4倍のAIコンピューティングパワーハードテクノロジー：超解像度アップと信号強化ダウン、複数のアルゴリズムを同時に実行

ブログ

6 つの SOTA を制覇、Google の行動クローニングアルゴリズムが CoRL サミットに登場、ロボットの作業速度が 10 倍に

暗黙的な動作クローニング (暗黙的な BC)

新しいSOTA

ヘルスケアにおける AI と ML の可能性を解き放つ

ついにAI、BI、ビッグデータ、データサイエンスをわかりやすく説明する人が出てきた

プログラマーはAIアルゴリズムを使用して3,000匹の新しいポケモンを生成した

音声インターフェース：私たちはインタラクションの次の時代の瀬戸際にいる

ReLU がビジュアル Transformer のソフトマックスに取って代わり、DeepMind の新しい手法でコストが急速に削減される

CV退化！心理学者が顔認識を学び、世界中の表情を区別するために600万本のビデオを訓練

2023 年のネットワークパーティション: AI と自動化が状況をどのように変えるか

シンプルでスマートなアプローチ: Python による顔認識

家庭用ロボットを作り、独自の研究開発の道を歩む

推薦する

人工知能にはどのような分野が含まれますか?どのように機能しますか?

AIが独自に病気を診断できる場合、人間の医師は責任を回避できるのでしょうか？

HuaweiとXiaomiの携帯電話を使ったDIY自律ナビゲーションロボット：わずか300元、チュートリアルはオープンソースで誰でも始められる

生成 AI、その開発は持続可能か?

AI Factory がコンセプトから産業化まで迅速かつ安全に移行する方法

人工知能の時代では、女の子よりも男の子の方が失業する可能性が高いです！

AutoAI: ModelOps と DevOps を同期してデジタル変革を推進

ファーウェイと4つの主要パートナーが共同でAscend AIの大規模モデルトレーニングおよびプッシュ統合ソリューションをリリース