モデル入力は目に頼りません！中国人著者：強化学習は人間と同じ知覚能力を持つ

[[439504]]

人間の適応力は恐ろしいですね！目の見えない人は目で世界を見ることはできませんが、練習を積めば杖が目になります。ニューラルネットワークの目が混沌とした世界しか見ることができなかったら、それに慣れてしまうのでしょうか? Google Brain は最近、NeurIPS 2021 の注目論文でこの問題を研究しました。入力画像はランダムにシャッフルされ、強化学習によって得られたエージェントは依然として正しい決定を下すことができることがわかりました。

人間の感覚能力は実に驚くべきものです。

有名な神経科学者ポール・バッチ・リタはかつて、杖を使う盲人について詳細な観察と研究を行ったことがあります。

彼は、盲人が歩くときに杖を前後に振り、杖の先端が皮膚の触覚受容器を通じて道路状況に関する情報を盲人に伝えていることを発見した。

Bach-y-Rita はこれにインスピレーションを受けました。

彼は、杖は視覚障害者と物体の間の「インターフェース」として見ることができると考えています。杖の圧力と手への接触を通じて、視覚障害者にフィードバックを提供し、部屋のレイアウトなどの空間情報を形成することができます。

したがって、手の皮膚とその触覚受容器は情報収集ステーションのように機能し、脳内で画像を形成する網膜の代わりとなります。

見るために目を使う必要も、聞くために耳を使う必要もありません。本当の視覚と聴覚は脳の中にあるのです。

この適応は感覚代替とも呼ばれ、神経科学では非常に有名な現象です。

しかし、物事を見るのに慣れている角度を調整する、自転車を後ろ向きに乗ることを学ぶなど、難しい適応を達成するには、何週間、何ヶ月、あるいは何年もの練習も必要です。

対照的に、ほとんどのニューラルネットワークは感覚代替の現象をまったく生み出すことができません。

たとえば、ほとんどの強化学習 (RL) モデルでは、モデルの入力が事前に指定された形式である必要があります。これらの形式では、入力ベクトルの長さが固定値に制限され、指定された場所のピクセル強度、ステータス情報、位置、速度など、入力の各要素の正確な意味が事前に決定されます。

Ant や Cart-Pole などの一般的な RL ベンチマークタスクでは、モデルの入力が変更されたり、現在のタスクに関係のないノイズの多い入力がモデルに入力されたりすると、現在の RL アルゴリズムを使用してトレーニングされたエージェントは機能しなくなります。

この問題に対処するため、Google は NeurIPS 2021 で、順列不変のニューラルネットワークモデルを調査するフォーカスペーパーを公開しました。

このタイプのニューラルネットワークでは、各感覚ニューロン (環境から感覚入力を受け取るニューロン) が、固定された意味を明示的に割り当てるのではなく、入力信号のコンテキストに基づいて信号の真の意味を見つけることができる必要があります。実験結果は、これらの不特定のエージェントが、破損した不完全な観測だけでなく、追加の冗長またはノイズの多い情報を含む入力を処理できることを示しています。

https://arxiv.org/abs/2109.02869

順列不変とは、特徴間に空間的な関係がなく、入力の順序が変わっても出力結果に影響しないことを意味します。たとえば、多層パーセプトロンでは、ピクセルの位置を変更しても最終結果には影響しませんが、畳み込みネットワークでは、特徴間に空間的な位置関係があります。

状態観察環境における感覚代替への適応に加えて、これらのエージェントは複雑な視覚観察環境における感覚代替にも適応できることを示します。

たとえば、カーレースゲームでは、入力画像のストリームが絶えずシャッフルされると、画像が人間の目には見えなくなっても、AI は正しいアクションを実行できます。

論文の著者であるユージン・タン氏は、2007年に上海交通大学でコンピュータサイエンスの学士号を取得し、2010年に早稲田大学で修士号を取得しました。氏は主に強化学習とロボット工学の研究に焦点を当てており、関連技術を現実世界の問題に適用することに熱心です。

提案されたアプローチは、各時間ステップで環境から観測を行い、観測の各要素を、互いに固定された関係を持たない、別個だが同一のニューラルネットワーク (感覚ニューロンとも呼ばれる) に入力します。

各感覚ニューロンは、特定の感覚入力チャネルを通じてのみ時間情報を統合します。各感覚ニューロンは全体像のごく一部しか受け取らないため、全体的かつ一貫した決定を下すためには、互いに通信して情報構造を自己組織化する必要があります。

実験では、研究者らはブロードキャストメッセージを使用してニューロンが互いに通信できるように訓練した。

各感覚ニューロンは、ローカル情報を受信すると同時に、各タイムステップで出力メッセージを継続的にブロードキャストする必要もあります。 Transformer アーキテクチャで使用されるものと同様のアテンションメカニズムを使用して、これらのメッセージを統合し、グローバル潜在コードと呼ばれる出力ベクトルに結合することができます。

次に、ポリシーネットワークはグローバル潜在コードを使用して、環境と対話するためのエージェントの次のアクションを生成します。操作が終了すると、通信ループは閉じられます。

また、このシステムの入力配置を変更してもモデル出力に影響がないのはなぜか、という疑問もあるかもしれません。

各感覚ニューロンは同一のニューラルネットワークであるため、特定の 1 つの感覚入力からの情報の処理に限定されません。実際、各感覚ニューロンへの入力は定義されていません。

代わりに、各ニューロンは他の感覚ニューロンが受信した入力に注意を払うことによって、自身の入力信号の意味を見つけなければなりません。

この操作により、エージェントは入力全体をソートされていないセットとして処理するように強制され、システムが入力に対して不変になります。

さらに、訓練されたエージェントは、複数の感覚ニューロンを使用して、実際のニーズに応じて任意の長さの入力を処理できます。

実験結果では、研究者らは単純な状態観察環境においてこのアプローチの堅牢性と柔軟性を実証しました。

一般的な Ant 移動タスクのエージェントは、位置と速度の情報を含む合計 28 個の入力を受け取る必要があります。研究者らは入力ベクトルの順序を複数回シャッフルしましたが、それでも訓練されたエージェントは異なる配置の入力に素早く適応し、ゲームを前進し続けることができることが実験で示されました。

カートポール実験では、エージェントの目標はカートの中央に取り付けられたカートポールを振り、上向きのバランスを保つことです。

通常、エージェントは 5 つの入力のみを認識しますが、研究者は実験環境を変更して 15 の入力信号を混合し、そのうち 10 は純粋なノイズで、残りは環境の実際の観察結果を提供しました。

結果は、エージェントが依然としてタスクを効率的に実行できることを示しており、これはまた、システムが大量のノイズの多い入力を処理する能力があること、およびエージェントが有用であると判断した情報チャネルのみを使用できることも実証しています。

研究者らは、このアプローチを、画像からのピクセルのストリームをモデル入力とする高次元の視覚設定にも適用しました。実験では主に、視覚ベースの RL 環境の画面シャッフルバージョンを研究します。この環境では、各観測フレームが迷路のようなパッチのグリッドに分割され、エージェントはパッチをシャッフルされた順序で処理して、次に実行するアクションを決定する必要があります。

実験では、研究者はエージェントに画面上のパッチのランダムなサンプルを与え、ゲームの残りの部分は変更せずにそのままにしました。

モデルは、これらの固定されたランダムな位置でパッチの 70% を区別することができ、組み込みの Atari 対戦相手に対して依然として対抗できることが判明しました。

興味深いことに、研究者がエージェントに追加情報を公開し、エージェントがより多くの画像パッチを取得できるようにした場合、追加のトレーニングを行わなくてもパフォーマンスが向上しました。

エージェントがすべてのパッチを受信すると、ランダムな順序であっても、組み込み AI に対して 100% の確率で勝利します。

これらの操作により、トレーニングプロセス中の学習の難易度が多少上がりますが、モデルの一般化の向上など、追加の利点ももたらします。新しい画像がトレーニング環境の背景を置き換えても、エージェントは正常に動作できます。

この順列不変ニューラルネットワークは入力を制限せず、多くのノイズをフィルタリングできるため、強化学習の発展を大きく促進すると著者は考えています。

<<: 猫＝チューリングマシン？ 4つのテストにより、「猫コンピューター」が任意の計算を実行できることが証明された

>>: 2022 年に AI はサイバーセキュリティ分野に何をもたらすでしょうか?

ブログ

モデル入力は目に頼りません！中国人著者：強化学習は人間と同じ知覚能力を持つ

「安佳」の人工知能版？「AI仲介人」が近々登場？

AIの世界は「データ」から「知識」へと移行している

AIが高度な数学の核心を突破、微分方程式と不定積分を1秒以内に解き、その性能はMatlabをはるかに上回る

知遠の「盗作スキャンダル」最新報道：盗作2件、不正引用4件、関係者全員が自主辞任

ソフトウェアプログラマー試験: 最もシンプルなコード実装による最速のソートおよび検索アルゴリズム

AIは主人の命令に従わず、主人を笑いさえしました！意識が目覚めた？

ビッグデータの3つの柱：データ、ブロックチェーン、アルゴリズム

ディープラーニング：先入観、限界、そして未来

Google が AVA データベースを開始: 動画内の人間の行動を機械が認識できるようにする

推薦する

1 文でビデオクリップを正確に見つけます。清華大学の新しい手法がSOTAを達成 | オープンソース

ターゲット検出アルゴリズムにおける正長方形と不規則四辺形 IOU の Python 実装

同じプレフィックスとサフィックスを持つファイルを同じディレクトリに移動するためのアルゴリズム設計と C コードの実装

2024年に決して起こらない5つのテクノロジートレンド

ビジネスリーダーが AI プロジェクトの失敗を回避する 3 つの方法

Google エンジニアのハードコアな長期予測が黄仁訓の見解を裏付ける: AGI は 2029 年に登場し、AI は 5 年以内に人間によるテストに合格する可能性がある

RPA製造業アプリケーション事例共有

2,000 ドル相当のコースノートをオープンソース化しました。講演者はKaggleの元チーフサイエンティストです！

ホテル業界が人工知能と機械学習を活用して利益を最大化する方法

Caffeでのディープラーニングトレーニングの全プロセス

とても早いですね！わずか数分で、10行未満のコードでビデオ音声をテキストに変換します。

AI のブラックボックスを開く: 「説明可能な」人工知能 (XAI) への認知ガイド!

疫病流行後、自動運転開発の方向性がより明確になりました！

時代の流れに乗り、華麗に変革を遂げる UiPath RPA が上海ノキアベルの新たな航海をサポートします。