人工知能の分野では、何十年もの間、コンピューター科学者が視覚、言語、推論、運動能力などの知的能力を再現するためのさまざまな複雑なメカニズムとテクノロジーを設計、開発してきました。こうした取り組みにより、AI システムは限られた環境下で特定の問題を効果的に解決できるようになりましたが、人間や動物と同じ知能を持つシステムはまだ開発されていません。 人間と同等かそれ以上の知能を持つ人工知能を汎用人工知能(AGI)と呼びます。このようなシステムは、人間が実行できるあらゆるインテリジェントなタスクを実行できると考えられており、人工知能分野における主要な研究目標の 1 つです。汎用人工知能の探求は現在も続いています。最近、強化学習の専門家であるデビッド・シルバー、リチャード・サットンらは、「報酬だけで十分」と題した論文の中で、知能とその関連能力は報酬の最大化を促進するものとして理解されるべきであると提唱した。 論文の宛先: この研究では、知識、学習、知覚、社会的知能、言語、一般化、模倣など、自然知能と人工知能の分野で研究されている知的行動を促進するには報酬で十分であると考えられており、研究者らは、知的能力を備えた行動を開発するには報酬と試行錯誤の経験を最大化することで十分であると考えています。したがって、彼らは強化学習が汎用人工知能の発展を促進するだろうと結論付けました。 AIへの2つの道AI を作成するための一般的なアプローチは、コンピューター内でインテリジェントな動作の要素を再現することです。たとえば、哺乳類の視覚システムに関する理解により、画像を分類したり、写真内の物体の位置を特定したり、物体の境界を定義したりできるさまざまな人工知能システムが生まれました。同様に、言語に対する私たちの理解は、質問応答、テキスト生成、機械翻訳など、さまざまな自然言語処理システムの開発に役立っています。 しかし、これらは限定的な AI の例であり、一般的な問題解決機能ではなく、特定のタスクを実行するように設計されたシステムです。一部の研究者は、複数の狭い範囲の AI モジュールを組み立てることで、複数のスキルを必要とする複雑な問題を解決できる、より強力なインテリジェント システムを作成できると考えています。 この研究において、研究者たちは、汎用人工知能を作成する方法は、単純だが効果的な一連のルールを再現することであると考えています。この研究では、報酬を最大化するという一般的な目標は、少なくとも自然知能と人工知能のほとんどの知的行動を促進するのに十分であるという仮説を初めて提唱しました。 「 基本的に、自然そのものはこのように機能します。数十億年にわたる自然淘汰とランダムな突然変異により、生物は進化してきました。環境の課題に対処できる生物だけが生き残り、繁殖することができ、残りは淘汰されます。このシンプルでありながら効果的なメカニズムにより、生物は感知し、生き残り、環境を変え、互いにコミュニケーションをとるためのさまざまなスキルと能力を進化させることができました。 研究者らは、「動物や人間が直面する自然界と同様に、人工エージェントが将来直面する環境は本質的に非常に複雑なため、こうした環境でうまく生き残るためには複雑な能力が必要になる」と述べている。したがって、報酬を最大化することで測られる成功には、エージェントが関連する知的能力を発揮する必要がある。この意味では、報酬の最大化という一般的な目標は、知能の目標の多く、おそらくすべてを包含することになります。さらに研究者たちは、報酬を最大化する最も一般的でスケーラブルな方法は、環境と相互作用することで学習するインテリジェントエージェントを使用することだと考えています。 報酬は十分だAI に対する多くのインタラクティブなアプローチと同様に、強化学習は、問題を、時間の経過とともに順番に相互作用する 2 つのシステム、つまり決定を行うエージェント (ソリューション) と、その決定によって影響を受ける環境 (問題) に分解するプロトコルに従います。これは、複数のエージェント、複数の環境、またはその他の相互作用パターンを考慮する可能性のある他の専用プロトコルとは対照的です。 この研究では、強化学習の考え方に基づいて、報酬はさまざまな目標を表現するのに十分であると考えています。さまざまな形態の知能は、対応する報酬を最大化するものとして理解することができ、各形態の知能に関連付けられた能力は、報酬の追求において暗黙的に生成される可能性があります。したがって、この研究では、すべての知能とそれに関連する能力は、「報酬があれば十分」という単一の仮定で理解できると仮定しています。知能とそれに関連する能力は、エージェントの環境内での行動の報酬を最大化するものとして理解できます。 この仮定が重要なのは、それが正しければ、報酬を最大化するエージェントは成功を達成するという目標を達成する過程で暗黙的に知能関連の能力を生み出すことができ、優れた知能能力を持つエージェントは「適者生存」できることになるからです。研究者たちは、報酬が十分であるという仮定を以下の観点から議論した。 知識と学習この研究では、知識をエージェントの内部情報として定義しています。たとえば、知識は、アクションの選択、累積報酬の予測、将来の観測の特徴の予測に使用される関数のパラメータに含めることができます。知識の中には、先験的な知識もあれば、学習を通じて獲得される知識もあります。報酬最大化エージェントは、自然エージェントの進化や人工エージェントの設計など、状況に応じて前者を組み込み、学習を通じて後者を獲得します。環境が充実し続けるにつれて、ニーズのバランスは知識の学習へとますます傾くでしょう。 感知人間は、味方と敵を区別したり、運転中に周囲の状況を分析したりするなど、報酬を蓄積するためにさまざまな知覚能力を必要とします。これには、視覚、聴覚、嗅覚、体性感覚、固有感覚など、複数の感覚様式が必要になる場合があります。 教師あり学習と比較して、報酬最大化の観点から知覚について考えると、最終的には、次のような困難で現実的な知覚形式を含む、より広範囲の知覚行動をサポートできる可能性があります。 行動と観察は、触覚知覚、視覚サッカード、物理的実験、エコーロケーションなどの複数の知覚様式で絡み合っていることがよくあります。 認識される効用は通常、エージェントの行動に依存します。 情報の取得には明示的なコストと暗黙的なコストの両方がかかる可能性があります。 データの分布は多くの場合コンテキストに依存し、リッチな環境では潜在的なデータの多様性がエージェントの能力や既存のデータの量をはるかに超える可能性があります。これには経験から得られた認識が必要です。 多くの知覚アプリケーションでは、ラベル付けされたデータにアクセスできません。 ソーシャルインテリジェンス社会的知能とは、他のインテリジェントエージェントを理解し、効果的に対話する能力です。この研究の仮説によれば、社会的知能は、エージェントの環境内でエージェントの累積報酬を最大化するものとして理解できる。この標準的なエージェント環境プロトコルによれば、エージェントは環境の他の側面を観察して影響を与えるのと同様に、他のエージェントの動作を観察し、自身の動作を通じてそれらに影響を与えることができます。他のエージェントの行動を予測し、影響を与えることができるエージェントは、通常、より大きな累積報酬を獲得できます。したがって、環境が社会的知能を必要とする場合(動物や人間がいる環境など)、報酬の最大化によって社会的知能を生み出すことができます。 言語言語は、自然知能と人工知能の両方において、かなりの研究の対象となってきました。言語は人間の文化や交流において重要な役割を果たしているため、知能そのものの定義は、言語、特に自然言語を理解して使用する能力を前提としていることが多いです。 しかし、現在の言語モデルだけでは、次のような幅広い知能関連の言語能力を生成するには不十分です。 言語は多くの場合文脈に依存し、話されている内容だけでなく、エージェントの環境で起こっている他のこととも関連し、視覚やその他の感覚様式を通じて知覚されることもあります。さらに、言語には、身振り、表情、声のトーンの変化など、他の表現行動が組み込まれていることがよくあります。 言語には目的があり、環境に影響を与える可能性があります。たとえば、営業担当者は売上を最大化するために言葉遣いを調整することを学びます。 言語の具体的な意味と有用性は、状況とエージェントの行動によって異なります。たとえば、鉱山労働者は岩石の安定性に関する言語を必要とするかもしれませんし、農家は土壌の肥沃度に関する言語を必要とするかもしれません。さらに、言語には機会費用がかかる場合があります。たとえば、農業について議論する人は必ずしも農業に従事しているとは限りません。 豊かな環境では、予期せぬ出来事に対処するための言語の潜在的な有用性は、いかなるコーパスの容量を超える可能性があります。このような場合、言語の問題は経験を通じて動的に解決する必要があるかもしれません。たとえば、新しい技術を開発したり、新しい問題を解決する方法を見つけたりすることです。 この研究では、「報酬だけで十分」という仮定に基づき、これらすべての幅広い能力を含む豊かな言語スキルは報酬の追求から生まれるはずだと主張している。 一般化一般化は、ある問題に対する解決策を別の問題に対する解決策に転用する能力として定義されることが多いです。たとえば、教師あり学習では、一般化は、あるデータセット (写真など) から学習したソリューションを別のデータセット (絵画など) に転送することに重点を置く場合があります。 研究の仮説によれば、一般化は、標準的なエージェント環境プロトコルに従い、エージェントと単一の複雑な環境との間の連続的な相互作用のストリームにおける累積報酬を最大化することによって達成できる。人間の世界のような環境では、エージェントがさまざまな時点で環境のさまざまな側面にさらされるため、一般化が必要です。たとえば、果物を食べる動物は毎日新しい木に遭遇するかもしれませんし、怪我をしたり、干ばつに悩まされたり、外来種に直面したりするかもしれません。いずれの場合も、動物は過去の状態からの経験を一般化することで、新しい状態に素早く適応する必要があります。動物が直面するさまざまな状態は、異なるラベルの付いたタスクにきちんと分割されるわけではありません。代わりに、状態は動物の行動に依存し、さまざまな時間スケールで繰り返されるさまざまな要素を組み合わせることで、状態の重要な側面を観察できるようになります。同様に、豊富な環境では、効率的に報酬を蓄積するために、エージェントが過去の状態から将来の状態へと、関連するすべての複雑さを伴って一般化する必要があります。 真似する模倣は人間や動物の知能に関連する重要な能力であり、人間や動物が言語、知識、運動能力などの他の能力を素早く習得するのに役立ちます。人工知能において、模倣は、教師の行動、観察、報酬に関する明示的なデータが提供されると、行動のクローン作成を通じてデモンストレーションから学習するものとして定式化されることが多い。対照的に、観察学習の自然な能力には、他の人間や動物の観察された行動からのあらゆる形態の学習が含まれ、教師の行動、観察、報酬に直接アクセスする必要はありません。これは、複雑な環境では、行動のクローン化による直接的な模倣よりも、次のようなより広範で現実的な観察学習能力が必要になる可能性があることを示唆しています。 他のエージェントは、教師データを含む特別なデータセットの存在を前提とせずに、エージェントの環境の一部になる場合があります(例:母親を観察している赤ちゃん)。 エージェントは、自身の状態と他のエージェントの状態、または自身のアクションと他のエージェントの観察との間の関連性を学習する必要がある場合があり、その結果、抽象化のレベルが上がる可能性があります。 他のエージェントは部分的にしか観察できない場合があり、そのアクションや目標は不完全にしか推測できない可能性があります。 他のエージェントは、回避すべき望ましくない動作を示す場合があります。 環境内には、さまざまなスキルやさまざまなレベルの能力を示す他のエージェントが多数存在する可能性があります。 私たちは、これらのより広範な観察学習能力は、他のエージェントを単にその環境の構成要素と見なす単一のエージェントの観点から、報酬の最大化によって推進される可能性があり、行動クローニングと同じ利点の多くにつながる可能性があると提案します。たとえば、サンプル効率の高い知識獲得ですが、これにはより広範で包括的なコンテキストが必要です。 一般的な知能この研究の仮定に基づくと、一般的な知能は、単一の複雑な環境において特定の報酬を最大化することによって達成されるものと理解できます。たとえば、自然知能は、そのライフサイクル全体を通じて、自然界との相互作用から生じる経験の継続的な流れに向けられています。動物の経験の流れは十分に豊富で多様なので、全体的な報酬(空腹や繁殖など)を最大化するために、さまざまなサブ目標(採餌、戦闘、逃走など)を達成するための柔軟な能力が必要になる場合があります。同様に、エージェントの経験ストリームが十分に豊富であれば、単一の目標(バッテリー寿命や生存など)には、同様に広範囲のサブ目標を達成する能力が暗黙的に必要になる可能性があるため、報酬の最大化は汎用 AI を生成するのに十分なはずです。 強化学習エージェントこの研究の主な前提は、知能とそれに関連する能力は、エージェントの性質とは無関係に、報酬の最大化を促進するものとして理解できるというものです。したがって、報酬を最大化するエージェントをどのように構築するかが重要な問題です。この研究では、この質問は質問自体、つまり「報酬の最大化」によっても答えられると考えています。具体的には、研究者たちは、環境とやりとりする継続的な経験から報酬を最大化する方法を学ぶ、一般的な能力を備えたエージェントを構想しています。このタイプのエージェントは強化学習エージェントと呼ばれます。 報酬を最大化するためのあらゆる可能な解決策の中で、最も自然なのは、もちろん、環境と相互作用することで経験から学ぶことです。このインタラクティブな体験は、時間の経過とともに、原因と結果、行動の結果、報酬がどのように蓄積されるかに関する豊富な情報を提供します。エージェントの行動を事前に決定する(設計者の環境に関する事前知識を信頼する)のではなく、エージェントに自身の行動を発見する一般的な能力を与える(経験を信頼する)のが自然です。より具体的には、報酬を最大化する設計目標は、報酬を最大化する動作を経験から学習する継続的な内部プロセスを通じて達成されます。 報酬は本当に十分ですか?この研究における「報酬だけで十分」という見解について、一部のネットユーザーは次のように反対の意を表明した。「これは、個人の効用関数という一般的な概念を再文脈化したものと思われる。すべての生物は効用関数を持っており、その目的は個人の効用を最大化することにある。効用理論は深く豊かな歴史的ルーツを持っているが、この論文の効用理論に対する理解は一般的ではない。シルバーとサットンはどちらもRLの分野では大物だが、私にとってこの論文は嫌な予感がする。」 一部のネットユーザーは、これは進化の再パッケージ化だと考えている。 「尊敬されている研究者は自信過剰に陥りやすいのではないか」と疑問を呈する者もいる。 別のネットユーザーはこう言った。「この記事は、何ができるか、何ができないかについていかなる境界も設定していません。関数を直接分析せずに、関数を最大化しようとすると、何が出現して何が出現しないか分からないのですか?報酬関数は、これらの報酬を獲得するためのシステムと組み合わされて、「出現」行動の空間を完全に決定し、何が現れても、彼らにとってはそれは知的な行動です。」 しかし、中にはもっともな疑問を提起する人もいます。 最終的な目標報酬は一般的な知能を生み出すのでしょうか、それとも何らかの追加的な信号を生み出すのでしょうか?純粋な報酬シグナルは局所的最大値に留まるのでしょうか?彼らの主張は、非常に複雑な環境ではそうはならないというものです。 しかし、環境が十分に複雑で、モデルに十分なパラメータがあり、局所的最大値に陥っていない場合、システムが問題の些細で単純な部分を解決したら、パフォーマンスを向上させる唯一の方法は、より一般的なソリューションを作成すること、つまり、よりスマートになることです。 |
>>: アラスカ航空は人工知能を活用して時間、燃料、費用を節約
「人工知能によって人間が失業したわけではない。人工知能に携わる人々が先に失業したのだ」これはもとも...
「九章」量子コンピューティングのプロトタイプ、「天極」脳型チップ、国内最大直径のシールドマシン「景華...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
電子廃棄物[[277263]]環境の持続可能性のために AI と IoT を活用すると、現在の環境保...
テクノロジーは建設業界にかつてないほど大きな影響を与えています。クラウドベースのコラボレーションやデ...
導入前回の記事では、統計学習における予測と推論の違いを紹介しました。これら 2 つの方法の主な違いは...
[[318810]]ビッグデータダイジェスト制作出典: rutgers.edu編纂者:張大毓如、夏亜...
もし人工知能技術によって亡くなった愛する人を生き返らせ、あなたと交流できるようにできるとしたら、あな...
[[436484]]タイムトラベルは本当に可能なのでしょうか?新たな研究によれば、今から数千年後には...
「本を読む」ことしかできない大規模な言語モデルは、現実世界の視覚的認識を備えているのでしょうか?文字...