強化学習のゴッドファーザーによる新しい論文では、意思決定エージェントの普遍的なモデルを探求しています。学際的な共通点を見つける

強化学習のゴッドファーザーによる新しい論文では、意思決定エージェントの普遍的なモデルを探求しています。学際的な共通点を見つける

強化学習と意思決定に関する学際会議 (RLDM) の重要な前提は、複数の分野が長期にわたる目標指向の意思決定に共通の関心を持っていることです。

最近、アルバータ大学のコンピュータサイエンスの教授であり、強化学習の先駆者であるリチャード・S・サットン氏は、最新の論文「インテリジェントな意思決定者の共通モデルの探求」で、心理学、人工知能、経済学、制御理論、神経科学などの分野で実質的かつ広範囲に応用できる意思決定者の視点を提案し、この前提を強化し、深めました。同氏はこれを「インテリジェントエージェントの共通モデル」と呼んでいます。通常、モデルには、生物、世界、またはアプリケーション ドメインに固有のものは何も含まれませんが、意思決定者とその世界との相互作用のすべての側面 (入力、出力、および目標が存在する必要があります) と、意思決定者の内部コンポーネント (認識、意思決定、内部評価、および世界モデル) がカバーされます。

論文アドレス: https://arxiv.org/pdf/2202.13252.pdf

サットンはこれらの側面と構成要素を特定し、分野によって名前は異なるが、本質的には同じ考え方を指していると指摘しています。彼は、分野を超えて適用できる中立的な用語を設計することの課題と利点について議論し、多様な分野を統合するために、インテリジェントエージェントの実質的な普遍的なモデルを認識し、それに基づいて構築する時が来ていると述べました。

リチャード・S・サットン、ディープマインド・アルバータの著名な研究科学者であり、強化学習のゴッドファーザー

意思決定者のための共通モデルの探求

RLDM の前提は、目標を達成するために時間をかけて学習し、意思決定を行うことに関心のあるすべての分野の視点を集めて共有することに価値があるということです。心理学や神経科学などの自然科学分野、人工知能や最適化制御理論などの工学科学分野、経済学や人類学などの社会科学分野では、インテリジェントな意思決定者に部分的にしか焦点を当てていません。それぞれの分野には異なる視点がありますが、共通の要素があります。学際性の目標の 1 つは、政策立案者にとってすべてまたは多くの分野に共通する側面である共通の核を特定することです。意思決定者のためのこのような共通モデルが確立されれば、アイデアや結果の交換が促進され、進歩が早まり、得られる理解がより根本的で永続的なものとなる可能性があります。

政策立案者の間で共通モデルを模索することは新しいことではない。現在の活力の重要な指標は、RLDM や NeurIPS などの学際的な会議や、Neural Computation、Biological Cyber​​netics、Adaptive Behavior などのジャーナルの成功です。心理学におけるベイズ法の広範な応用、神経科学におけるドーパミンによる報酬予測誤差の説明、機械学習におけるニューラル ネットワークのメタファーの長年にわたる使用など、学際的な相互作用から多くの科学的洞察が得られます。分野間のこうした重要な関係の多くは、分野自体と同じくらい古いものですが、解決にはほど遠い状態です。分野間、あるいは分野内でも共通点を見つけるには、多くの違いを無視しなければなりません。私たちは選択的になり、全体像を見て、例外がないことを期待してはなりません。

したがって、本論文では、サットンはインテリジェントな意思決定者モデルの探究を進めることを望んでいます。まず、探索と実りある学際的な相互作用を明確に区別します。次に、目標は累積的な数値信号を最大化することであり、これは非常に学際的であることを強調します。次に、意思決定者の特定の内部構造、つまり特定の方法で相互作用し、複数の分野で共有される 4 つの主要なコンポーネントを強調します。最後に、分野間の共通点を覆い隠す用語の違いを強調し、学際的な思考を促進する用語を提供します。

交流規約

意思決定者は、個別のステップに分割できる時間の経過に伴って意思決定を行い、各ステップで新しい情報を受け取り、後で受け取る情報に影響を与える可能性のある意思決定を行います。つまり、時間の経過とともに、交換される信号との相互作用が発生します。シグナルとそれを交換するエンティティにはどのような用語を使用すればよいでしょうか?心理学では、意思決定者とは、刺激を受け取って環境に反応を送る生物です。制御理論では、意思決定者はコントローラーと呼ばれ、状態を受信して​​制御対象のエンティティに制御信号を送信します。政策立案者は他の分野では他の用語を使用しますが、これは読者を特定の分野に偏らせることなく、むしろ学問分野の境界を越えて考えることを促す用語を見つけることの難しさを示しています。

用語を確立するための良い方法は、言葉が何を伝えようとしているのか、何を伝えようとしていないのかを明確にすることです。後者は私たちにとって特に重要です。なぜなら、私たちは用語が特定の分野に特有の直感を呼び起こすことを望まないからです。たとえば、意思決定者を生物とみなすことは、人工知能のようにそれを機械とみなすことと干渉します。意思決定者の本質は、行動においてある程度の自律性を持ち、入力に対して非常に敏感であり、将来の入力に影響を与える傾向があることです。意思決定者の適切な名前はエージェントです。エージェントとは、「意思決定や特定の効果を生み出す上で積極的な役割を果たす人または物」と定義されます。人工知能の分野では、機械または人間である意思決定者を表すためにエージェントという用語がよく使用されます。インテリジェントエージェントは、自律性と目的を暗示するため、意思決定者にとっても好ましいものです。

では、意思決定エージェントは何とやりとりするのでしょうか?答えは、エージェントではないすべてのもの、つまり環境または世界と相互作用するということです。どちらの用語も特定の分野と強く結びついているわけではありませんが、この記事で「世界」を選んだ理由は、それがより単純であり、同時に特定の分野と結びついていないという点で印象的だからです。下の図に示すように、エージェントが世界と相互作用するシナリオを完成させるには、各方向に送信される信号に名前を付ける必要があります。エージェントがアクションを起こし、知覚や観察を受け取ると言うのは自然です。ここで「観察」が使用されているのは、それがこの目的のための確立された用語であり、機械が知覚力を持っているかどうかについての形而上学的な議論を避けるためです。標準的な用法では、観察とは世界の状態に関する潜在的に不完全な情報を指します。

基本ルール

これまでの議論では、用語に関してサットンが従いたい基本的なルールと手順が次のように説明されています。

  1. 言葉が伝えようとしている分野に依存しない意味を決定する。
  2. その意味を捉え、特定の分野に偏りすぎない常識的な言葉を見つけます。
  3. 学際的な共通点が見つかるまで、最初の 2 つの手順を繰り返します。

サットンが従う 2 番目の基本ルールは、用語ではなく内容に関するものです。一般的な意思決定モデルを開発する場合、どのような側面を含め、除外する必要がありますか?彼が従おうとした規則は、フィールドの結合ではなく交差をカバーすることでした。つまり、ある側面を包含するには、それが 1 つのドメインに現れるだけでは不十分であり、少なくとも他のすべてのドメインではないにしても、多くのドメインに関連している必要があります。一般的なモデルの側面は、目標を達成するために、時間の経過とともにすべての決定に普遍的に適用可能でなければなりません。

一般的なモデルには、ビジョン、目標、3D 空間、他のエージェント、言語など、私たちの世界に固有のものは何も含まれていてはいけません。私たちが除外する単純な例としては、人間を他の動物とは異なるユニークなものにするすべてのもの、または動物が生態学的環境に適応するために進化してきたすべての特定の知識があります。これらはすべて、人類学と動物行動学において特に重要なトピックであり、自然の知的システムに対する理解を大きく前進させましたが、一般的なモデルには当てはまりません。同様に、トレーニングをあまり必要としないアプリケーションを開発するために、人間の設計者によって AI システムに組み込まれたすべてのドメイン知識を除外します。これらはすべて、それぞれの分野内では重要ですが、分野を超えて適用されることを意図した一般的なモデルとは無関係です。

共通意思決定モデルは、学際的な相互作用を促進するだけでなく、他の用途にも使用できます。既存の分野とその価値はすでに確立されているため、分野内で共通の発見を見つけることは簡単です。自然システムを理解することには明らかな科学的価値があり、より有用な工学製品を作成することには大きな実用的価値があります。しかし、インテリジェントな意思決定と自然な意思決定の関係を考慮せず、インテリジェントな意思決定製品の実際の有用性を考慮しなければ、インテリジェントな意思決定のプロセスを理解することに科学的な価値はないのでしょうか?サットンはそう思う。インテリジェントな意思決定は現時点では確立された科学ではありませんが、将来的には生物学やその工学的応用から独立した意思決定科学になる可能性があります。

付加的な報酬

それでは、意思決定エージェントの目標について説明しましょう。現在、ほとんどの分野では、エージェントの直接的な制御外で生成されるスカラー信号の観点からエージェントの目標が指定されているため、その生成は世界の中に配置されます。一般的なケースでは、この信号は各タイム ステップで到着し、合計を最大化することが目標となります。この加算報酬は、目標を割引合計または有限範囲合計として表現したり、各タイムステップでの平均報酬として表現したりするために使用できます。報酬には、ペイオフ、ゲイン、効用、さらには報酬を最小限に抑えるためのコストなど、さまざまな名前があります。コストが負になることが許容される場合、コスト計算と最小化は形式的には同等になります。より単純だが、依然として人気のある目標の概念は、達成すべき世界の状態というものです。目標状態が使用されることもありますが、追加報酬ほど一般的ではありません。たとえば、目標状態では目標を維持できず、時間コストと不確実性の間のトレードオフを明示的に示すこともできませんが、これらはすべて、加法フレームワークによって簡単に処理できます。

付加的報酬には長い学際的な歴史があります。心理学では、報酬は主に、動物にとって快い外部の物体または出来事に対して使用されます。たとえその快いものが、より基本的な方法で報酬を与える何か、つまり主要な強化子と物体との関連から生じたものであってもです。現在、オペレーションズ・リサーチ、経済学、人工知能における報酬の使用は、より重要なシグナル、および外部のオブジェクトやイベントに関連付けられるのではなく受信されるシグナルに限定されています。この用法は、1960 年代の最適制御とオペレーションズ リサーチにおけるマルコフ決定プロセスの発展とともに確立されたようです。現在では、経済学、強化学習、神経科学、心理学、オペレーションズ・リサーチ、人工知能の複数のサブフィールドなど、幅広い分野で標準となっています。

意思決定エージェントの標準コンポーネント

それでは、エージェントの内部構造を見てみましょう。エージェントの一般的なモデルの内部構造は、通常、下の図に示すように、知覚、反応戦略、価値関数、遷移モデルの 4 つの部分で構成されます。これら 4 つのコンポーネントは多くの分野に共通していますが、これらすべてを含むエージェントはほとんどありません。もちろん、特定のエージェントには他の部分も含まれる場合があります。Sutton は、以下でこれら 4 つのコンポーネントを紹介しています。

知覚コンポーネントは、観察とアクションのストリームを処理して主観的状態を生成します。主観的状態は、これまでのエージェントと世界の相互作用の要約であり、アクションの選択 (反応ポリシー)、将来の報酬の予測 (価値関数)、将来の主観的状態の予測 (遷移モデル) に役立ちます。状態はエージェントの観察と行動に相対的であり、現実世界の内部動作に対応しない可能性があるため、主観的です。多くの場合、主観的状態の構成は固定されており、その場合、エージェントは主観的状態を観察として直接受け取ると想定されます。たとえば、Atari ゲームでは、主観的な状態は最後の 4 つのビデオ フレームとそれに隣接するアクションである可能性があります。ベイズアプローチでは、主観的状態は世界の内部の仕組みと関係があります。主観的状態の目的は、潜在状態を使用して世界の内部の仕組みの確率分布を近似することです。予測状態アプローチでは、主観的状態は予測のセットです。ディープラーニングでは、主観的状態は通常、再帰型人工ニューラル ネットワークの瞬間的なアクティビティです。制御理論では、知覚コンポーネントの計算は、状態認識または状態推定と呼ばれることがよくあります。

一般に、知覚コンポーネントは再帰形式である必要があり、これによりエージェントは、以前の長い観察やアクションを再検討することなく、以前の主観的状態、最新の観察、最新のアクションから主観的状態を効率的に計算できます。知覚コンポーネントは、高速処理、つまりエージェントと世界の相互作用の連続する時間ステップ間の時間間隔内でタスクを完了できる必要があります。

一般モデルの反応戦略コンポーネントは、主観的な状態をアクションにマッピングします。知覚と同様に、反応戦略も高速である必要があり、知覚速度と反応戦略の組み合わせによってエージェントの全体的な反応時間が決まります。エンドツーエンド学習の場合のように、知覚戦略と応答戦略が一緒に扱われることもあります。行動生成を認識と戦略に分割することは、多くの分野で一般的です。エンジニアリングでは、知覚は学習されるものではなく、エージェントの一部でもなく、与えられたものであると考えられることがよくあります。エンジニアリングには明らかに対応戦略に関するアイデアがあり、通常は分析的に計算または導き出されます。 AI システムでは、アクションの前に大量の処理が行われることを想定することがよくあります (例: チェスをプレイするプログラム)。心理学では、知覚は行動をサポートするが先行するものとみなされることが多く、特定の行動への影響とは独立して研究することができます。

一般モデルの価値関数コンポーネントは、主観的な状態 (または状態とアクションのペア) を、期待される累積報酬として操作的に定義されるスカラー評価にマッピングします。この評価は高速で、直感などの要因に依存しませんが、長年の経験 (または専門家の設計) や効率的なストレージやキャッシュからの広範な計算に基づく場合があります。いずれにしても、研究者は対応戦略の変更の進捗をサポートするために評価をすぐに利用できます。

価値関数には非常に広範囲にわたる学際的な歴史があります。経済学では、これらは効用関数と呼ばれ、心理学では、二次強化子の古い考え方と報酬予測の新しい考え方に関連しています。価値関数という用語は、もともと動的プログラミングから来ており、その後、強化学習に応用され、価値関数は理論とほとんどの学習方法の重要な要素として広く使用されています。神経科学では、価値関数のエラー、つまり報酬予測エラーが、神経伝達物質ドーパミンの位相信号伝達を説明すると考えられています。

エージェントの一般モデルの 4 番目で最後のコンポーネントである遷移モデルは、状態を受け取り、エージェントが別のアクションを実行した場合に次の状態がどうなるかを予測します。変換モデルは世界モデルと呼ぶこともできますが、そうすると変換モデルの役割が誇張されてしまいます。遷移モデルは、さまざまなアクションの影響をシミュレートし、価値関数の助けを借りて、起こり得る結果を評価し、予測される良い結果をもたらすアクションを支持し、予測される悪い結果をもたらすアクションに対して反応戦略を変更するために使用されます。

変換モデルは多くの分野で重要な役割を果たします。心理学では、変換モデルと知覚によって提供される世界の内部モデルは、ケネス・クレイク(1943年)とエドワード・トールマン(1948年)の研究以来、卓越した思考モデルとなっています。神経科学の分野では、カール・フリストンやジェフ・ホーキンスなどの理論家たちが脳に関する広範な理論を展開し始めました。最近、心理学において、ダニエル・カーネマン (2011) は、システム I とシステム II という 2 つの心理システムの概念を提唱しました。制御理論とオペレーションズ・リサーチでは、研究者は微分方程式モデル、差分方程式、マルコフモデルなど、さまざまな形式の遷移モデルをよく使用します。強化学習では、モデルベース学習手法が古くから提案されており、大規模なアプリケーションで効果を発揮し始めています。現代のディープラーニングの分野では、ヨシュア・ベンジオ、ヤン・ルカン、ユルゲン・シュミットフーバーなどの著名な研究者が、世界予測モデルを理論的思考の中心に据えています。

制限と評価

これは、一般的なエージェント モデルを見つけるタスクに対するシンプルなアプローチです。この記事で簡単に述べたすべての点は、詳細に説明し、歴史をより深く扱う価値がある。しかし、要点は明らかであるように思われます。私たちは普遍的なモデルの有力な候補を提案しました。エージェント、世界、アクション、観察、報酬の観点から見たその外部インターフェースは、汎用的かつ自然であり、自然科学と工学の両方で広く採用されています。インテリジェント エージェントの 4 つの内部コンポーネントにも、それぞれ長く広範な学際的な伝統があります。

この記事で提案されている一般的なモデルは、抜けている部分について批判される可能性があります。たとえば、報酬以外には明確な予測効果は観察されておらず、探索、好奇心、または内発的動機についても触れていません。そして、4 つのコンポーネントすべてに学習が関与する必要がありますが、ここでは、反応型戦略のコンテキストでのみ、一般的な観点からのみ学習について説明します。読者は、いくつかの機能が一般モデルに含まれておらず、その重要性が過小評価されていると考え、間違いなく失望するでしょう。

たとえば、エージェントが自ら考え出す補助的なサブタスク(Sutton et al. 2022)は、エージェントが抽象的な認知構造を開発するための重要な手段でありながら、過小評価されていると私は主張します。しかし、補助的なサブタスクは広く認識されていないため、インテリジェントエージェントの一般的なモデルには登場せず、分野を超えて適切に認識されていません。

この記事で提案されている一般的なモデルエージェントは、最良かつ最新のものになることを意図しているわけではありませんが、出発点となることを願っています。多くの分野で広く理解されるシンプルなデザインを目指しています。研究者が新しいエージェント設計を導入するときはいつでも、一般モデルは、新しい設計が一般モデルとどのように異なるか、または一般モデルを拡張するかを説明するために使用できる標準として機能することを目的としています。

<<:  Metaverse と Web3 は似ていますが、最も重要な違いは何でしょうか?

>>:  Transformerのトレーニング問題を解決するために、Microsoft Researchは1000層のTransformerを開発しました。

ブログ    
ブログ    
ブログ    

推薦する

言語モデルの倫理的・社会的リスクについて

このホワイトペーパーでは、6 つの具体的なリスク領域について概説しています。I. 差別、排除、毒性、...

Megvii Technology: 人工知能が携帯電話の「視覚」革命をリード

[51CTO.comより引用] 現在、AIの幕が開き、人類世界は蒸気時代、電気時代、情報化時代に続く...

アルゴリズムエンジニアとして働くために養豚場に行く?月20,000

[[282855]]皆さんご存知の通り、今年の「ブラザーツー」の値段は大変高く、信じられないほど高...

...

「業界最強」と称されるアリトン・イー・チエンウェン、国内No.1大型モデルを目指す

どの時代にもメインテーマがあり、次の10年の主なテーマはAIです。 ChatGPTの登場以来、中国で...

...

「スマートストア」のAIカメラは何ができるのか?

スマートシティが理論的な概念から正式な計画と建設へと進化するにつれて、スマートストアはスマートシティ...

データ汚染を防ぐのは困難です。機械学習モデルに「悪いことを学習」させないでください

過去 10 年間、クラウド コンピューティングの普及により、多くの企業に高性能コンピューティングおよ...

デジタルセンサーを使用してピンホールカメラを作るにはどうすればいいですか?

ビッグデータダイジェスト制作出典: IEEE近年、ピンホール写真に対する人々の関心は年々高まり、関連...

...

DeSRAは欠陥を検出して除去し、実際のシーンの超解像におけるGANをより完璧にします

生成的敵対的ネットワーク (GAN) を使用した画像超解像 (SR) は、リアルな詳細を復元する上で...

AIoT: 次世代コンバージェンスの利点と用途を理解する

人工知能 (AI) とモノのインターネット (IoT) は、過去 10 年間を定義してきました。ビッ...

人工知能ロボットの開発にはどのプログラミング言語を選択すればよいでしょうか?

この記事では、ロボット開発で使用される最も人気のあるプログラミング言語のトップ10を見ていきます。そ...

2017 年の Quora における機械学習の 5 つの主要な応用シナリオ

[[194046]] 2015 年、Quora のエンジニアリング部門長である Xavier Ama...

モバイルロボットソフトウェアの自動テストの課題への対応

自動化されたモバイル ホーム ロボットの複雑さを探り、セットアップの特有の課題と制約の克服に焦点を当...