強化学習の起源:迷路を歩くネズミから人間に勝つAlphaGoまで

強化学習の起源:迷路を歩くネズミから人間に勝つAlphaGoまで

強化学習となると、多くの研究者のアドレナリンが抑えきれないほど湧き上がります!これは、ゲーム AI システム、最新のロボット、チップ設計システム、その他のアプリケーションで非常に重要な役割を果たします。

強化学習アルゴリズムにはさまざまな種類がありますが、大きく分けて「モデルベース」と「モデルフリー」の 2 つのカテゴリに分けられます。

TechTalks との会話の中で、「The Birth of Intelligence」の著者である神経科学者 Daeyeol Lee 氏は、人間と動物の強化学習のさまざまなモデル、人工知能と自然知能、そして将来の研究の方向性について議論しました。​

モデルフリー強化学習

19 世紀後半、心理学者エドワード・ソーンダイクは、モデルフリー強化学習の基礎となった「効果の法則」を提唱しました。ソーンダイクは、特定の状況でプラスの効果をもたらす行動は、その状況で再び発生する可能性が高く、マイナスの効果をもたらす行動は、再び発生する可能性が低いと提唱しました。

ソーンダイクは実験でこの「効果の法則」を研究しました。 彼は迷路の箱の中に猫を入れ、猫が箱から脱出するまでの時間を計測しました。脱出するには、猫はロープやレバーなどの一連の装置を操作しなければなりません。ソーンダイクは、猫がパズルボックスとやりとりすると、脱出を容易にする行動を学習するのを観察しました。時間が経つにつれて、猫たちはどんどん速く箱から逃げるようになりました。ソーンダイクは、猫は自分の行動がもたらす報酬と罰から学ぶことができると結論付けました。 「効果の法則」は後に行動主義への道を開いた。行動主義は、刺激と反応の観点から人間と動物の行動を説明しようとする心理学の分野です。 「効果の法則」は、モデルフリー強化学習の基礎でもあります。モデルフリー強化学習では、エージェントは世界を認識し、行動を起こし、報酬を測定します。

モデルフリー強化学習では、直接的な知識や世界モデルは存在しません。 RL エージェントは、試行錯誤を通じて各アクションの結果を直接体験する必要があります。

モデルベースの強化学習

ソーンダイクの「効果の法則」は 1930 年代まで人気を保っていました。当時、別の心理学者エドワード・トールマンは、ネズミがいかにして迷路を素早く進むことを学ぶかを研究する中で、重要な洞察を得た。実験の中で、トールマンは動物が強化なしに環境について学習できることに気づきました。

たとえば、ネズミを迷路に放つと、ネズミはトンネルを自由に探索し、徐々に環境の構造を学習します。その後、ネズミを再び同じ環境に戻し、餌を見つけたり出口を見つけたりといった強化の手がかりを与えると、迷路を探索しなかった動物よりも早く目的地に到達できる。トールマンはこれを「潜在学習」と呼び、モデルベースの強化学習の基礎となりました。潜在学習により、動物や人間は自分たちの世界の精神的表現を形成し、頭の中で仮説のシナリオをシミュレートし、結果を予測できるようになります。

モデルベースの強化学習の利点は、エージェントが環境内で試行錯誤する必要がなくなることです。 モデルベースの強化学習は、チェスや囲碁などのボードゲームをマスターできる AI システムの開発に特に成功していることは強調する価値があります。これは、これらのゲームの環境が決定論的であるためと考えられます。

モデルベースとモデルフリー

一般的に言えば、モデルベースの強化学習は非常に時間がかかり、時間に極めて敏感な場合には致命的になる可能性があります。 「モデルベースの強化学習は、計算上はるかに複雑です」と Lee 氏は言います。「まずモデルを取得してメンタル シミュレーションを行い、次に神経プロセスの痕跡を見つけてアクションを実行する必要があります。ただし、モデルベースの強化学習は、必ずしもモデルフリーの RL よりも複雑というわけではありません。」環境が非常に複雑な場合、すぐに取得できる比較的単純なモデルでモデル化できれば、シミュレーションははるかにシンプルでコスト効率が高くなります。​

複数の学習モード

実際のところ、モデルベースの強化学習もモデルフリーの強化学習も完璧な解決策ではありません。強化学習システムが複雑な問題を解決しているのを目にする場合には、モデルベースとモデルフリーの強化学習の両方、あるいはさらに多くの形式の学習を使用している可能性があります。 神経科学の研究によると、人間や動物には複数の学習方法があり、脳はいつでもこれらのモードを切り替え続けていることが分かっています。 近年、複数の強化学習パラダイムを組み合わせた人工知能システムの作成への関心が高まっています。 カリフォルニア大学サンディエゴ校の科学者による最近の研究では、モデルフリー強化学習とモデルベース強化学習を組み合わせることで、制御タスクで優れたパフォーマンスを実現できることが示されています。 「AlphaGo のような複雑なアルゴリズムを見ると、モデルフリーとモデルベースの RL の両方の要素があります」と Lee 氏は言います。「盤面の構成に基づいて状態値を学習しますが、基本的にはモデルフリーの RL ですが、モデルベースの前方探索も行います。」

目覚ましい成果にもかかわらず、強化学習の進歩は依然として遅いままです。 RL モデルが複雑で予測不可能な環境に直面すると、パフォーマンスが低下し始めます。​

「私たちの脳は、さまざまな状況に対処するために進化してきた学習アルゴリズムの複雑な世界だと思います」とリー氏は語った。

脳は、これらの学習モードを常に切り替えることに加えて、意思決定に積極的に関与していないときでも、常に学習モードを維持し、更新することができます。

「さまざまな学習モジュールを維持し、同時に更新することは、人工知能システムの効率と精度を向上させるのに役立つ」と心理学者のダニエル・カーネマンは語った。

もう一つ明確にしておく必要があるのは、AI システムがコスト効率よく正しいことを学習できるように、AI システムに適切な帰納的バイアスを適用する方法です。 数十億年にわたる進化により、人間と動物は、できるだけ少ないデータで効果的に学習するために必要な帰納的バイアスを獲得しました。 帰納的バイアスは、現実世界で観察される現象からルールを要約し、モデルに特定の制約を課すこととして理解できます。これは、モデル選択、つまり仮説空間から実際のルールにもっと沿ったモデルを選択する際に役割を果たします。 「環境から得られる情報は非常に少ない」とリー氏は言う。「その情報を使って一般化しなければならない。その理由は、脳には帰納的バイアスがあり、少数の例から一般化しようとする傾向があるからだ。これは進化の産物であり、ますます多くの神経科学者がこれに興味を持っている」。しかし、帰納的バイアスは物体認識タスクではよく理解されているが、社会的関係の構築のような抽象的な問題では不明瞭になる。 これからも、まだまだ分からないことがたくさんありますよ〜〜〜​

参考文献:

https://thenextweb.com/news/everything-you-need-to-know-about-model-free-and-model-based-reinforcement-learning​

<<:  清華大学の黄敏烈氏との対話:自動運転分類を使用してAI対話システムを定義すると、メタバースの仮想コンパニオンはレベル5になる可能性がある

>>:  人工知能は地球規模の気候危機に対処するために何ができるでしょうか?

ブログ    
ブログ    
ブログ    

推薦する

...

ChatGPTヘルプ! 4歳の男の子は3年間で17人の専門医に治療を受けたが、効果はなかった。大型模型が病気の原因を正確に特定した

3年間「奇妙な病気」の治療を求めても効果がなかったのですが、ついにChatGPTによって診断に成功し...

AIがデジタル変革に与える影響

デジタルトランスフォーメーションは10年以上にわたってビジネス変革の中核を担ってきましたが、AIの台...

...

...

Androidスマートフォンを開くと、画面全体に「Big Model」という3つの単語が表示されます。

最近では、Android メーカーは大きなモデルなしで携帯電話の発表会を開催しようとはしません。 O...

盗難防止は自分自身に対する保護にもなりますか?セキュリティの高いスマートドアロックを購入するのは正しいことでしょうか?

指紋認証ドアロックは新しいものではなく、誰もがよく知っているものだと思います。近年、スマートホームが...

スマート建設現場: 2021 年に注目すべき 5 つのスマート建設技術

革新的な建設技術により、大規模建設プロジェクトの安全性、効率性、生産性が大幅に向上します。建設業界に...

顔認識技術と表情認識の最新研究の紹介

[[351523]] 1. 顔認識技術の紹介生体認証技術として、顔認証は非侵入的、非接触、フレンドリ...

ドローン技術がモバイルIoTの範囲を拡大

無人航空機(口語では「ドローン」と呼ばれる)は、航空業界に無人航空機を導入することで、ライト兄弟の有...

アルゴリズムの練習とプログラミング学習に最適な 6 つの Web サイト

Google や Facebook のアルゴリズムを理解しなければ、面接に合格することはできません。...

ディープラーニングを始めるために理解すべき25の概念

[[245072]] 1. ニューロン- 脳の基本要素を形成するニューロンと同様に、ニューロンはニュ...

インターネットの罪:Google がいかにして私たちを愚かにしているのか

[[322291]]オリジナル記事はThe Atlantic、著者ニコラス・カーよりこの記事のハイラ...

AIが都市の交通管理を改善する方法

交通分野における人工知能 (AI) の応用は、車両とインフラのより効果的で的を絞った使用に向けたイノ...