人間の適応力は恐ろしいですね!目の見えない人は目で世界を見ることはできませんが、練習を積めば杖が目になります。ニューラル ネットワークの目が混沌とした世界しか見ることができなかったら、それに慣れてしまうのでしょうか? Google Brain は最近、NeurIPS 2021 の注目論文でこの問題を研究しました。入力画像はランダムにシャッフルされ、強化学習によって得られたエージェントは依然として正しい決定を下すことができることがわかりました。 人間の感覚能力は実に驚くべきものです。 有名な神経科学者ポール・バッチ・リタはかつて、杖を使う盲人について詳細な観察と研究を行ったことがあります。 彼は、盲人が歩くときに杖を前後に振り、杖の先端が皮膚の触覚受容器を通じて道路状況に関する情報を盲人に伝えていることを発見した。 Bach-y-Rita はこれにインスピレーションを受けました。 彼は、杖は視覚障害者と物体の間の「インターフェース」として見ることができると考えています。杖の圧力と手への接触を通じて、視覚障害者にフィードバックを提供し、部屋のレイアウトなどの空間情報を形成することができます。 したがって、手の皮膚とその触覚受容器は情報収集ステーションのように機能し、脳内で画像を形成する網膜の代わりとなります。 見るために目を使う必要も、聞くために耳を使う必要もありません。本当の視覚と聴覚は脳の中にあるのです。 この適応は感覚代替とも呼ばれ、神経科学では非常に有名な現象です。 しかし、物事を見るのに慣れている角度を調整する、自転車を後ろ向きに乗ることを学ぶなど、難しい適応を達成するには、何週間、何ヶ月、あるいは何年もの練習も必要です。 対照的に、ほとんどのニューラルネットワークは感覚代替の現象をまったく生み出すことができません。 たとえば、ほとんどの強化学習 (RL) モデルでは、モデルの入力が事前に指定された形式である必要があります。これらの形式では、入力ベクトルの長さが固定値に制限され、指定された場所のピクセル強度、ステータス情報、位置、速度など、入力の各要素の正確な意味が事前に決定されます。 Ant や Cart-Pole などの一般的な RL ベンチマーク タスクでは、モデルの入力が変更されたり、現在のタスクに関係のないノイズの多い入力がモデルに入力されたりすると、現在の RL アルゴリズムを使用してトレーニングされたエージェントは機能しなくなります。 この問題に対処するため、Google は NeurIPS 2021 で、順列不変のニューラル ネットワーク モデルを調査するフォーカス ペーパーを公開しました。 このタイプのニューラル ネットワークでは、各感覚ニューロン (環境から感覚入力を受け取るニューロン) が、固定された意味を明示的に割り当てるのではなく、入力信号のコンテキストに基づいて信号の真の意味を見つけることができる必要があります。実験結果は、これらの不特定のエージェントが、破損した不完全な観測だけでなく、追加の冗長またはノイズの多い情報を含む入力を処理できることを示しています。 https://arxiv.org/abs/2109.02869 順列不変とは、特徴間に空間的な関係がなく、入力の順序が変わっても出力結果に影響しないことを意味します。たとえば、多層パーセプトロンでは、ピクセルの位置を変更しても最終結果には影響しませんが、畳み込みネットワークでは、特徴間に空間的な位置関係があります。 状態観察環境における感覚代替への適応に加えて、これらのエージェントは複雑な視覚観察環境における感覚代替にも適応できることを示します。 たとえば、カーレース ゲームでは、入力画像のストリームが絶えずシャッフルされると、画像が人間の目には見えなくなっても、AI は正しいアクションを実行できます。 論文の著者であるユージン・タン氏は、2007年に上海交通大学でコンピュータサイエンスの学士号を取得し、2010年に早稲田大学で修士号を取得しました。氏は主に強化学習とロボット工学の研究に焦点を当てており、関連技術を現実世界の問題に適用することに熱心です。 提案されたアプローチは、各時間ステップで環境から観測を行い、観測の各要素を、互いに固定された関係を持たない、別個だが同一のニューラル ネットワーク (感覚ニューロンとも呼ばれる) に入力します。 各感覚ニューロンは、特定の感覚入力チャネルを通じてのみ時間情報を統合します。各感覚ニューロンは全体像のごく一部しか受け取らないため、全体的かつ一貫した決定を下すためには、互いに通信して情報構造を自己組織化する必要があります。 実験では、研究者らはブロードキャストメッセージを使用してニューロンが互いに通信できるように訓練した。 各感覚ニューロンは、ローカル情報を受信すると同時に、各タイムステップで出力メッセージを継続的にブロードキャストする必要もあります。 Transformer アーキテクチャで使用されるものと同様のアテンション メカニズムを使用して、これらのメッセージを統合し、グローバル潜在コードと呼ばれる出力ベクトルに結合することができます。 次に、ポリシー ネットワークはグローバル潜在コードを使用して、環境と対話するためのエージェントの次のアクションを生成します。操作が終了すると、通信ループは閉じられます。 また、このシステムの入力配置を変更してもモデル出力に影響がないのはなぜか、という疑問もあるかもしれません。 各感覚ニューロンは同一のニューラル ネットワークであるため、特定の 1 つの感覚入力からの情報の処理に限定されません。実際、各感覚ニューロンへの入力は定義されていません。 代わりに、各ニューロンは他の感覚ニューロンが受信した入力に注意を払うことによって、自身の入力信号の意味を見つけなければなりません。 この操作により、エージェントは入力全体をソートされていないセットとして処理するように強制され、システムが入力に対して不変になります。 さらに、訓練されたエージェントは、複数の感覚ニューロンを使用して、実際のニーズに応じて任意の長さの入力を処理できます。 実験結果では、研究者らは単純な状態観察環境においてこのアプローチの堅牢性と柔軟性を実証しました。 一般的な Ant 移動タスクのエージェントは、位置と速度の情報を含む合計 28 個の入力を受け取る必要があります。研究者らは入力ベクトルの順序を複数回シャッフルしましたが、それでも訓練されたエージェントは異なる配置の入力に素早く適応し、ゲームを前進し続けることができることが実験で示されました。 カートポール実験では、エージェントの目標はカートの中央に取り付けられたカートポールを振り、上向きのバランスを保つことです。 通常、エージェントは 5 つの入力のみを認識しますが、研究者は実験環境を変更して 15 の入力信号を混合し、そのうち 10 は純粋なノイズで、残りは環境の実際の観察結果を提供しました。 結果は、エージェントが依然としてタスクを効率的に実行できることを示しており、これはまた、システムが大量のノイズの多い入力を処理する能力があること、およびエージェントが有用であると判断した情報チャネルのみを使用できることも実証しています。 研究者らは、このアプローチを、画像からのピクセルのストリームをモデル入力とする高次元の視覚設定にも適用しました。実験では主に、視覚ベースの RL 環境の画面シャッフル バージョンを研究します。この環境では、各観測フレームが迷路のようなパッチのグリッドに分割され、エージェントはパッチをシャッフルされた順序で処理して、次に実行するアクションを決定する必要があります。 実験では、研究者はエージェントに画面上のパッチのランダムなサンプルを与え、ゲームの残りの部分は変更せずにそのままにしました。 モデルは、これらの固定されたランダムな位置でパッチの 70% を区別することができ、組み込みの Atari 対戦相手に対して依然として対抗できることが判明しました。 興味深いことに、研究者がエージェントに追加情報を公開し、エージェントがより多くの画像パッチを取得できるようにした場合、追加のトレーニングを行わなくてもパフォーマンスが向上しました。 エージェントがすべてのパッチを受信すると、ランダムな順序であっても、組み込み AI に対して 100% の確率で勝利します。 これらの操作により、トレーニング プロセス中の学習の難易度が多少上がりますが、モデルの一般化の向上など、追加の利点ももたらします。新しい画像がトレーニング環境の背景を置き換えても、エージェントは正常に動作できます。 この順列不変ニューラルネットワークは入力を制限せず、多くのノイズをフィルタリングできるため、強化学習の発展を大きく促進すると著者は考えています。 |
<<: 猫=チューリングマシン? 4つのテストにより、「猫コンピューター」が任意の計算を実行できることが証明された
>>: 2022 年に AI はサイバーセキュリティ分野に何をもたらすでしょうか?
過去2、3年で、中国におけるロボティック・プロセス・オートメーション(RPA)の応用は急速に拡大しま...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
【51CTO.com クイック翻訳】 [[393512]] AI、機械学習、ディープラーニングの発展...
オープンソースのMoEモデルがついに国内初のプレイヤーを迎えます!そのパフォーマンスは高密度の Ll...
スマートホームデバイスへの自然言語生成 (NLG) の統合により、テクノロジーとのやり取りの方法に革...
[[227073]] [51CTO.com クイック翻訳] 機械学習は多くの企業が興味を持っている新...
ニューラル ネットワークが優れた画家であることは周知の事実です。スケッチを風景画に変えたり、異なるス...
英国の「ガーディアン」ウェブサイトは、この新しい研究所を設立した理由は、欧州原子核研究機構を設立した...
編集者注: この記事は、MIT Technology Review の副編集長兼編集長であり、AP ...
[[228998]]画像出典: Visual China医療分野はAIが進歩していく上で重要な方向で...
5月15日、世界有数のIoTロック企業であるnokelockの製品発表会が北京金宇シェラトンホテルで...
この魅力的な旅をさらに深く探究する中で、モノのインターネット (IoT)、スマート交通システム、エネ...
中国で新型コロナウイルスの感染が初めて確認されたのは2019年12月19日。感染源については、これま...