人間は、脳内の神経系が外部環境の変化に継続的に適応するためにその構造を変える能力を持っていることを証明しました。脳内のニューロン間の接続であるシナプスは、学習と経験によって新しい接続を確立することができます。 同様に、感覚代替の才能も人間のスキルツリーに存在します。たとえば、生まれつき目が見えなくても、画像を音に変換することで人体の形状を知覚できるようになる人もいます。 AIにこの能力が与えられれば、コウモリやイルカのように、耳を使って音や反響を通じて周囲の世界を「見る」ことができるようになるだろう。 最近、Google Brain の「トランスフォーマーとしての感覚ニューロン: 強化学習のための順列不変ニューラル ネットワーク」という論文で、強化学習にはこの「感覚代替」機能があることが実証されました。 論文アドレス: https://arxiv.org/pdf/2109.02869.pdf 具体的には、著者らは論文の中で、環境からの各感覚入力を、異なるが関連性のあるニューラル ネットワークに入力できる一連の強化学習システムを設計しました。これらのニューラル ネットワーク間には固定された関係がないことは特筆に値します。 この研究は、これらの感覚ネットワークは、局所的に受信した情報を統合するように訓練することができ、注意メカニズムを介したコミュニケーションを通じて、全体的に一貫した解決策に集合的に到達できることを示しています。 さらに、1 つのイベントで入力の順序がランダムに複数回入れ替わった場合でも、システムはタスクを実行できます。 1. 証明プロセス現代のディープラーニング システムは通常、モデルが再トレーニングされるか、ユーザーがモデルの入力順序を修正しない限り、感覚入力のランダムな並べ替えに適応できません。しかし、メタ学習はモデルがそのような変化に適応するのに役立つ技術です。たとえば、適応重み、ヘブビアン学習、モデルベースの方法などです。 論文では、著者らが研究したエージェントにはすべて、感覚入力を処理し、タスクを実行するときに入力を突然ランダムに並べ替えるという共通の特徴が 1 つあります。 セルオートマトンに関連する自己組織化ニューラル ネットワークの最近の進歩に触発されて、私たちの実験では、各感覚入力 (連続制御環境内の単一の状態、または視覚環境内のピクセルのパッチ) が個別のニューラル ネットワーク モジュールに送られ、一度にこの特定の感覚入力チャネルからの情報のみが統合されます。 これらの個々の感覚ニューラル ネットワーク モジュールは、ローカルで情報を受信すると同時に、出力情報を常にブロードキャストしています。 Set Transformer アーキテクチャを参照すると、アテンション メカニズムがこの情報を組み合わせてグローバル潜在コードを形成し、それがエージェントのアクション スペースに変換されます。注意メカニズムは、ニューラル ネットワークの適応重み付けの一種として考えることができ、この場合、任意の数の感覚入力を任意のランダムな順序で処理できるようになります。 実験では、著者らは、個々の感覚ニューラル ネットワーク モジュールは、ローカル情報のみを受信するにもかかわらず、グローバルに一貫したポリシーを共同で生成できること、また、そのようなシステムは、いくつかの一般的な強化学習 (RL) 環境でタスクを実行するようにトレーニングできることを発見しました。さらに、私たちのシステムは、単一のエピソード内で順序が再度並べ替えられた場合でも、ランダムに並べ替えられた順序で異なる数の感覚入力チャネルを利用できます。 上記のように、pong エージェントは、画面の小さなサブセット (30%) が並べ替えられた順序で与えられた場合でも動作し続けます。 一方、順列に対して不変な観測空間の一貫した表現をシステムが学習するように促すことで、ポリシーはより堅牢になり、より一般化されます。研究では、追加のトレーニングを行わなくても、ノイズや冗長な情報を含む入力チャネルが追加されてもシステムが機能し続けることが示されました。視覚環境では、画面からランダムに選択された少数のタイルのみが与えられた場合でも、テスト時により多くのタイルが与えられた場合、システムは追加情報を使用してパフォーマンスを向上させることができます。 著者らはまた、単一の固定された背景でトレーニングされているにもかかわらず、システムが異なる背景の画像を含む視覚環境に一般化できることを実証しています。 最後に、トレーニングをより実用的にするために、著者らは、既存の方法でトレーニングされたポリシーを、望ましい特性を持つ順列不変のポリシーに変換する動作クローニング スキームを提案します。 図1: 方法論の概要 上の図の AttentionNeuron は独立したレイヤーであり、各感覚ニューロンは「順序付けられていない観測」の一部にのみアクセスできます。各ニューロンは、エージェントの以前のアクションと組み合わせて共有機能を使用し、独立して情報を生成します。 凡例: 記号一覧 上記の表では、読者がシステムの各部分を理解できるように、さまざまな強化学習環境のモデルで使用される次元も示しています。 図1: CartPoleSwingUpHarderの順列不変エージェント 上記のデモでは、ユーザーはいつでも 5 つの入力の順序を並べ替えることができ、エージェントが入力の新しい順序にどのように適応するかを観察できます。 デモアドレス: https://attentionneuron.github.io/ 図: カーポールテスト 著者らは、各実験について 1000 回のテスト イベントの平均スコアと標準偏差を報告しています。エージェントは 5 つの感覚入力がある環境でのみトレーニングされました。 図1: 順列不変出力 センサーアレイをそのまま入力した場合(上)、またはアレイをランダムに並べ替えた場合(下)、Attention Neuron 層(16 次元のグローバル潜在コード)の出力は変化しません。黄色は高い値を表し、青は低い値を表します。 図1: 不特定数の追加ノイズチャネルの処理 追加のトレーニングを行わない場合、エージェントは 15 個の入力信号を並べ替えられた順序で受信します。そのうち 10 個は純粋なガウス ノイズ (σ = 0.1) であり、残りの 5 個は環境からの実際の観測値です。前のデモと同様に、ユーザーは 15 個の入力の順序を並べ替え、エージェントが新しい入力順序にどのように適応するかを観察できます。 図1: テストエピソードにおける注意ニューロン層の出力の2次元埋め込み 著者らは、図の中でいくつかの代表的なグループを強調し、そのサンプル入力を示しています。各グループについて、対応する 3 つの入力 (行) を表示し、各入力をアンスタックして時間ディメンション (列) を表示します。 基本的な CarRacing タスク (左) と、修正されたスクリーンウォッシング タスク (右)。 著者のエージェントはこの環境でのみトレーニングを受けています。上図のように、右側の画面はエージェントが観測し、左側の画面は人間の視覚が観測しています。人間は、先に述べた「自転車を後ろ向きに乗る」という例のようなタスクにあまり触れることがないため、観察内容を再配置して運転するのは非常に難しいでしょう。 2. 議論と将来この研究では、著者らは、観察結果を任意の順序で可変長の感覚入力のリストとして提示できるディープラーニングエージェントの特性を調査します。これは、各入力ストリームを個別に処理し、アテンションを使用して処理された情報を統合することによって行われます。エピソード内で観測順序がランダムに複数回変更され、トレーニングが実行されない場合でも、エージェントはタスクを実行できます。各環境のパフォーマンス比較結果を次の表に示します。 進行中の作業における観察の再編成 各エピソードでは、著者は t ステップごとに観察の順序を入れ替えます。 CartPole タスクにはさまざまなバリエーションがあるため、1000 回テストされました。その他のタスクについては、100 回のテストの平均と標準偏差が報告されます。 Atari Pong を除くすべての環境では、エピソードごとに 1000 ステップのハード制限があります。 Atari Pong では、エピソードの最大長はありませんが、各エピソードは通常約 2500 ステップ続くことが確認されています。 エージェントの順序を乱すことで、不完全な観察であっても、各ローカルな感覚入力の意味と、それがグローバルなコンテキストとどのように関連しているかを解釈するように促すことができ、これは多くの現在のアプリケーションで実用的に使用されています。たとえば、ロボットに適用すると、配線の交差や複雑な動的入出力マッピングによるエラーを回避できます。 CartPole 実験に似た設定に、ノイズの多いチャネルを追加することで、数万のノイズの多い入力チャネルが入力されたシステムで、関連情報を持つチャネルの小さなサブセットを識別できるようになります。 制限は、視覚環境の場合、パッチ サイズの選択がパフォーマンスと計算の複雑さに影響することです。著者らは、6x6 ピクセルのパッチ サイズがこのタスクに適しており、4x4 ピクセルのパッチ サイズもある程度は機能するものの、単一ピクセルの観察は機能しないことを発見しました。パッチ サイズが小さいと、注目行列も大きくなり、近似値を使用しない限り計算上不可能になる可能性があります。 もう 1 つの制限は、順列不変性プロパティが入力にのみ適用され、出力には適用されないことです。観察の順序は再度シャッフルできますが、アクションの順序は変更できません。順列不変の出力が機能するためには、各リンクは報酬情報を含む環境とリンク自体の関係を学習するために環境からのフィードバックを必要とします。 今後の興味深い研究の方向性としては、アクション層に同じ特性を与え、各運動ニューロンを注意接続を使用するモジュールとしてモデル化することが挙げられます。私たちのアプローチでは、任意の数のエージェントでエージェントをトレーニングしたり、報酬信号をフィードバックとして提供する単一のポリシーでさまざまな形態のロボットを制御したりすることが可能になります。さらに、本研究では、著者らが設計した方法は、以前のアクションをフィードバック信号として受け入れます。ただし、フィードバック信号はアクションに限定されません。著者らは、環境の観察された変化だけでなく環境自体の変化にも適応する環境報酬などのシグナルを含む将来の研究が、順列不変のメタ学習エージェントを訓練するために行われることを期待していると述べています。 |
<<: なぜ大国は陸上戦闘ロボットで競争しているのでしょうか?
>>: 私の国のドローンは新たな段階に入り、成熟した開発にはまだ3つのレベルを通過する必要があります
VB.NET を学習する場合、中国語の情報が非常に少なく、大多数のプログラマーのニーズを満たすのが難...
GPT-4の伝説の「必勝魔法兵器」- MoE(専門家の混合)アーキテクチャ、自分でも作成できます! ...
[[422011]] 2013年、バハマで仕事をしていたとき、私は現在ドローンとして知られているもの...
[[201235]]概念とそれがビジネス目標に与える影響を学ぶことは非常に重要です。アルゴリズムの...
私はキーワード抽出タスクのための効率的なアルゴリズムを探していました。 目標は、データ コーパスが急...
ヒント エンジニアリング技術は、大規模な言語モデルが検索強化型生成システムで代名詞などの複雑なコア参...
人工知能が広く活用されるようになり、将来の雇用環境に対する不安も広がっています。 2019年に調査会...
AIの開発が国家戦略にまで上り詰めるにつれ、人工知能は大学入試の選択肢の中でも最も注目され、最も人気...
[[352971]]画像ソース: https://pixabay.com/images/id-151...
最近、外国メディアのゲームワールドオブザーバーは、ロシアのオンライン決済サービス企業エクソラがアルゴ...