強化学習は、抽象的思考を行うときに脳がどのように機能するかを明らかにする

[[418206]]

「すべての芸術はある程度抽象的である。」

20 世紀の世界的に有名な彫刻家ヘンリー・スペンサー・ムーアは、芸術は抽象化の最も優れた例の一つであると信じていました。しかし、抽象化は芸術的創造などの高度な認知行動に限定されるものではありません。抽象化は、直接的な感覚情報を超越する人間の思考のユニークな能力です。

脳は抽象化を構築し、使用するのが得意です。最近の神経科学の研究では、研究者らは強化学習アルゴリズムと脳画像を組み合わせて、感覚機能の評価に基づく抽象的なメカニズムを実証しました。これは、教育やリハビリ、精神疾患の治療、新しい人工知能アルゴリズムの開発への新たな道を切り開く可能性があります。

この研究は、7月13日に「価値シグナルが学習中の抽象化を導く」というタイトルでeLife誌に掲載されました。

抽象化は、私たちと環境との相互作用のあらゆる側面を網羅します。森の中を歩いているときに小川を渡らなければならないと想像してください。この一見単純な動作には、無数の視覚的および聴覚的特徴の処理が必要です。強化学習（RL）は、高次元の感覚入力（川を見る、聞く）からアクション（川を渡る）を直接出力しますが、計算上のボトルネックが発生します。この問題を克服するには、抽象表現が効果的な解決策であると考えられてきました。

抽象化とは、高次の概念、カテゴリ、またはパターンに焦点を当てるために詳細が削除された高次元空間から簡略化された地図を切り出すことと考えることができます。では、抽象的な表現は脳内でどのように構築されるのでしょうか?

研究チームは、物事の関連性のルールを繰り返し学習するための実験にボランティアを招待し、機能的磁気共鳴画像法（fMRI）技術を使用して彼らの脳活動を記録しました。次に、研究者らは強化学習モデリングを通じてボランティアの評価プロセスを追跡し、抽象化のレベルに応じて学習戦略を分離しました。

学習中の価値構築の神経基質。（出典：論文）

共著者で、ATR京都計算神経科学研究所所長の川人光雄博士は、ニューロフィードバック操作について次のように詳しく説明しています。「機械学習と高度な神経画像技術を使用することで、意識の閾値を下回る精神的表現が脳内に現れるかどうか、またいつ現れるかをリアルタイムで検出できるようになりました。参加者に小さな報酬を与えると、この精神的表現は時間の経過とともに報酬（価値）と一致します。このようにして、脳を「だまして」これらの新しい価値のある精神的表現を使用して抽象的な思考を構築することができます。」

実験では、学習を通じて、価値の高い抽象的表現がボランティアの行動をますます導き、より良い選択とより高い主観的自信につながることが示されています。ここで「価値」は、目標依存の抽象的表現を形成する上で重要な要素です。

単純な意思決定問題を通じて高レベルの抽象機能を学ぶ

「この研究は、基本的な視覚刺激や単純な意思決定問題を用いた抽象化など、高度に複雑な機能を調査している点で、この種の研究の中ではユニークです」と、チームを率いた京都の国際電気通信基礎技術研究所の主任研究員、アウレリオ・コルテーゼ博士は述べた。

研究チームは参加者に、パックマンがどのフルーツを好むかを尋ねた。パックマンには、色、口の向き、縞模様の向きという 3 つの特徴がある。参加者は選択を行った後に結果を見せられ、継続的な試行から特徴と果物の間の隠れた関連性を学び、関連性のルールが早く発見されるほど報酬が高くなることが伝えられた。

実験に参加したボランティアの学習課題と行動結果。（出典：論文）

「しかし、この単純さは私たちを根本的なメカニズムに直接導き、神経科学の文献における長年の疑問を解決するのに役立ちます。なぜ私たちは脳内で価値信号を見続けるのか？抽象化が鍵かもしれません。私たちは常に抽象的な言葉で考える必要があります。そうでなければ、私たちの世界は複雑になりすぎてしまいます。」

研究者は、古典的な RL アルゴリズムである Q 学習に基づいて、特徴強化学習 (Feature RL) と抽象強化学習 (Abstract RL) を提案しました。実験的な比較の結果、より速く学習するためにはエージェントは抽象強化学習を使用する必要があり、他の戦略ではタスクブロックの完了が遅くなることが判明しました。

強化学習の専門家と価値計算のハイブリッド。（出典：論文）

価値シグナルと抽象的思考の関係

研究チームはまた、感覚皮質の定位効果を介して抽象化を促進する価値の因果的役割を調べる2番目の実験も行った。特徴評価誘導学習における抽象化の因果仮説は、報酬の形で特徴表現に人工的に価値を加えることで抽象化の使用が増加するという直接分析を通じて検証されました。

ニューロフィードバックを介して感覚表現に人工的に価値を注入すると、抽象化が促進されます。（出典：論文）

価値と抽象化はタスク空間の次元を削減する上で密接に関連しているように見えますが、その根底にあるメカニズムは何でしょうか?

共著者で、ロンドン大学ロンドン校認知神経科学研究所教授のベネデット・デ・マルティーノ博士は次のように述べている。「価値は、チョコレートバーの価値のように、伝統的に喜びと結び付けられてきました。価値が知性のある側面の中心であるかもしれないという結論は、おそらく過激です。価値そのものは抽象的な概念である可能性が高く、意思決定におけるタスクステータスの概念と密接に結びついています。」

しかし、この研究は、抽象的思考を生み出す上での価値の役割について新たな視点を提供します。つまり、脳内の価値信号が複雑な学習戦略の開発において重要なアルゴリズム的役割を果たすということです。「この研究は、人間の心のアルゴリズム的性質を理解し、最終的にはこの知識を人工知能の新しいアーキテクチャに変換し、精神疾患の新しい治療法につなげるための、私たちの幅広い取り組みの一環です。」

<<: OpenAI CLIPモデルポケット版、24MBでテキスト画像マッチングを実現、iPhoneでも実行可能

>>: 2021 年のビジネスインテリジェンスの 7 つのトレンド