深層強化学習の謎を解く

深層強化学習の謎を解く

【51CTO.com クイック翻訳】

 

深層強化学習は、人工知能の最も興味深い分野の 1 つです。ボードゲームやビデオゲーム、自動運転車、ロボット工学、AI ハードウェア設計で人間のチャンピオンに勝つなど、AI テクノロジーにおける最も注目すべき成果のいくつかは、この会社によるものです。

深層強化学習は、深層ニューラル ネットワークの学習能力を利用して、従来の RL 技術では解決できない複雑な問題を解決します。深層強化学習は機械学習の他の分野よりもはるかに複雑であり、この記事では技術的な詳細に立ち入ることなく、その謎を解き明かします。

ステータス、報酬、アクション

あらゆる強化学習問題の中心となるのはエージェントと環境です。環境はシステムの状態に関する情報を提供します。エージェントは、これらの状態を観察し、離散的 (スイッチを切り替えるなど) または連続的 (ノブを回すなど) なアクションを実行して環境と対話するように設計されています。これらのアクションにより、環境は新しい状態に移行します。そして、新しい状態がシステムの目標に関連しているかどうかに応じて、エージェントは報酬を受け取ります (エージェントを目標から遠ざける場合、報酬はゼロまたは負になることもあります)。

状態-行動-報酬サイクル図

状態-アクション-報酬の各サイクルはステップと呼ばれます。強化学習システムは、目的の状態に到達するか、最大ステップ数に達するまでループと反復を続けます。この一連のステップはエピソードと呼ばれます。各エピソードの開始時に、環境は初期状態に設定され、エージェントの報酬はゼロにリセットされます。

強化学習の目的は、エージェントが報酬を最大化する行動を取るようにトレーニングすることであり、エージェントの行動生成関数はポリシーと呼ばれます。エージェントが適切なポリシーを学習するには、通常、多くのエピソードが必要です。単純な問題の場合、エージェントが適切なポリシーを学習するには、数百のエピソードで十分な場合があります。より複雑な問題の場合、エージェントを実装する前に何百万回もトレーニングする必要がある場合があります。

強化学習システムには、より微妙なニュアンスがあります。たとえば、RL 環境は決定論的または非決定論的になる可能性があります。決定論的な環境では、一連の状態とアクションのペアを複数回実行すると、常に同じ結果が生成されます。対照的に、非決定論的な RL 問題では、環境の状態はエージェントの動作以外の要因 (時間の経過、天候、環境内の他のエージェントなど) によって変化する可能性があります。

強化学習アプリケーション

強化学習の構成要素をよりよく理解するために、いくつかの例を見てみましょう。

チェス:ここで、環境はチェス盤であり、環境の状態は盤上のチェスの駒の位置です。 RL エージェントはプレイヤーの 1 人になることができます (または、両方のプレイヤーが同じ環境で個別にトレーニングされた RL エージェントになることができます)。チェスの各ゲームはエピソードであり、黒板とホワイトボードの端に黒と白のチェスの駒が並べられた初期状態から始まります。各ステップで、エージェントはボード (状態) を観察し、その駒の 1 つを動かし (アクションを実行)、環境を新しい状態に変換します。エージェントはチェックメイト状態に到達すると報酬を受け取り、それ以外の場合は報酬はゼロになります。チェスの主な課題は、プレイヤーは相手をチェックメイトするまで報酬を受け取れないため、そこから学ぶことが難しいことです。

Atari Breakout: Breakout は、プレイヤーがパドルを操作するビデオ ゲームです。画面上をボールが動いていて、ボールがパドルに当たるたびに、レンガが並んでいる画面上部に跳ね返ります。パドルがレンガに当たるたびにレンガは破壊され、ボールは跳ね返ります。 Breakout では、環境はゲーム画面です。状態とは、パドルとレンガの位置、およびボールの位置と速度です。エージェントが実行できるアクションは、左に移動する、右に移動する、またはまったく移動しないです。エージェントは、ボールがレンガに当たるたびに正の報酬を受け取り、ボールがパドルを越えて画面の下部に到達すると負の報酬を受け取ります。

自動運転車:自動運転では、エージェントは車であり、環境は車が移動する空間です。 RL エージェントは、カメラ、LIDAR、その他のセンサーを通じて環境の状態を観察します。エージェントは、加速、ブレーキ、左折または右折などのナビゲーションアクションを実行できます。 RL エージェントは、通常の運転を維持し、衝突を回避し、運転ルールを遵守し、交通ルートをたどることで報酬を得ます。

強化学習機能

基本的に、強化学習の目的は、報酬を最大化するように状態をアクションにマッピングすることです。しかし、RL エージェントは具体的に何を学習するのでしょうか?

RL システムには 3 つの学習アルゴリズムがあります。

戦略ベースのアルゴリズム: これは最も一般的なタイプの最適化です。ポリシーは状態をアクションにマッピングします。ポリシーを学習する RL エージェントは、現在の状態から目標までのアクションの軌跡を作成できます。

たとえば、迷路を進んで出口に到達するためのポリシーを最適化するエージェントを実装します。まず、ランダムな動きをしますが、報酬は得られません。あるエピソードでは、ついに出口に到達し、出口という報酬が与えられます。エージェントが最終目標にどれだけ近いかに基づいて、軌道をたどり、各状態とアクションのペアの報酬を再調整します。次のエピソードでは、RL エージェントは各状態に応じてどのようなアクションを実行するかをより深く理解し、最適なソリューションに収束するまで徐々にポリシーを調整していきます。

REINFORCE は、人気のあるポリシーベースのアルゴリズムです。ポリシーベース関数の利点は、さまざまな強化学習問題に適用できることです。ポリシーベースのアルゴリズムのトレードオフは、サンプル効率が低く、最適なソリューションに収束する前に広範なトレーニングが必要になることです。
価値ベースのアルゴリズム: 価値ベースの関数は、状態とアクションの値を評価することを学習します。価値ベースの関数は、RL エージェントが現在の状態とアクションに対する将来の報酬がどうなるかを評価するのに役立ちます。

値ベースの関数には、Q 値と V 値の 2 つのバリエーションがあります。 Q 関数は、状態とアクションのペアの期待報酬を推定します。 V 関数は状態の値のみを推定します。 Q 関数は、状態とアクションのペアを RL ポリシーに変換する方が簡単なため、より一般的です。

2 つの一般的な値ベースのアルゴリズムは、SARSA と DQN です。値ベースのアルゴリズムは、ポリシーベースの RL よりもサンプル効率が高くなります。それらの制限は、(何らかの変更が加えられない限り)個別のアクション空間でのみ機能することです。

モデルベースのアルゴリズム:モデルベースのアルゴリズムは、強化学習に対して異なるアプローチを採用します。状態とアクションの値を評価するのではなく、現在の状態とアクションに基づいて環境の状態を予測します。モデルベースの強化学習により、エージェントはアクションを実行する前にさまざまな軌道をシミュレートできます。

[[424589]]

モデルベースのアプローチはエージェントに先見性を提供し、手動によるデータ収集の必要性を減らします。これは、トレーニング データと経験の収集にコストがかかり、時間がかかるアプリケーション (ロボット工学や自動運転車など) では非常に有益です。

しかし、モデルベースの強化学習における主な課題は、環境の現実的なモデルを作成することが非常に難しい場合があることです。現実世界のような非決定論的な環境をモデル化するのは困難です。場合によっては、開発者は実際の環境に近いシミュレーションを作成することに成功しています。しかし、これらのシミュレートされた環境のモデルを学習することさえ困難です。
それにもかかわらず、モデルベースのアルゴリズムは、チェスや囲碁などの決定論的な問題で人気が出てきました。モンテカルロ ツリー サーチ (MTCS) は、決定論的な環境に適用できる一般的なモデルベースの手法です。

組み合わせ法:さまざまな種類の強化学習アルゴリズムの欠点を克服するために、科学者はさまざまな種類の学習機能の要素を組み合わせたアルゴリズムを開発しました。たとえば、Actor-Critic アルゴリズムは、ポリシーベースの機能と値ベースの機能の利点を組み合わせています。これらのアルゴリズムは、価値関数 (批評家) からのフィードバックを使用して、ポリシー学習者 (アクター) が正しい方向に改善するように導き、よりサンプル効率の高いシステムを実現します。

なぜ深層強化学習なのか?

これまでのところ、ディープニューラルネットワークについては議論されていません。実際、上で説明したアルゴリズムはすべて、どのような方法でも実装できます。たとえば、Q 学習は、エージェントが環境と対話するときに状態、アクション、報酬のテーブルを作成する古典的な強化学習アルゴリズムです。このようなアプローチは、状態と操作の数が非常に少ない非常に単純な環境を扱う場合に適しています。

ただし、アクションと状態の組み合わせの数が膨大な数に達する可能性のある複雑な環境、または環境が非決定論的でほぼ無限の数の状態を持つ可能性のある環境を扱う場合、すべての可能な状態とアクションのペアを評価することは不可能になります。

このような場合、限られたデータに基づいて最適なポリシーを学習できる近似関数が必要であり、これを実現するのが人工ニューラル ネットワークです。適切な構造と最適化関数が与えられれば、ディープ ニューラル ネットワークはシステムのすべての可能な状態を走査することなく最適なポリシーを学習できます。深層強化学習エージェントは依然として大量のデータ(Dota や StarCraft での数千時間のゲームプレイなど)を必要としますが、従来の強化学習システムでは解決できない問題を解決できます。

たとえば、深層強化学習モデルでは、畳み込みニューラル ネットワークを使用して、カメラ入力やビデオ ゲーム グラフィックスなどの視覚データから状態情報を抽出できます。リカレント ニューラル ネットワークは、ボールの方向や、車が駐車しているか動いているかなど、一連のフレームから有用な情報を抽出できます。この高度な学習機能により、RL エージェントはより複雑な環境を理解し、その状態をアクションにマッピングできるようになります。

深層強化学習は、教師あり機械学習に匹敵します。モデルは環境からのフィードバックに基づいてアクションを生成し、そのパラメータを調整します。ただし、深層強化学習には、従来の教師あり学習とは異なる独自の課題もいくつかあります。

モデルにラベル付きデータセットが提供される教師あり学習とは異なり、RL エージェントは自身の経験の結果にのみアクセスできます。さまざまなトレーニングフェーズで収集された経験に基づいて、最適なポリシーを学習できます。しかし、より良い政策につながる可能性のある他の多くの最適な軌道も見逃される可能性があります。強化学習では、状態とアクションのペアの軌跡を評価する必要もありますが、これは、各トレーニング例が予想される結果とペアになっている教師あり学習の問題よりも学習が困難です。

この追加された複雑さにより、深層強化学習モデルのデータ要件が増加します。しかし、教師あり学習とは異なり、深層強化学習モデルはトレーニング中にデータを収集しますが、教師あり学習では事前にデータを管理して準備することができます。一部のタイプの RL アルゴリズムでは、1 つのエピソードで収集されたデータはその後破棄する必要があり、将来のエピソードでモデル調整プロセスをさらに高速化するために使用することはできません。

深層強化学習と汎用人工知能

AIコミュニティでは、深層強化学習をどこまで推進すべきかをめぐって意見が分かれている。一部の科学者は、適切な RL アーキテクチャを使用すれば、汎用人工知能を含むあらゆる種類の問題を解決できると考えています。これらの科学者は、強化学習は自然知能を生み出すアルゴリズムと同じであり、十分な時間と労力、そして適切な報酬があれば、人間レベルの知能を再現できると考えています。

強化学習では人工知能における最も基本的な問題のいくつかは解決できないと主張する人もいます。別のグループは、深層強化学習エージェントには多くの利点があるものの、明確に定義された問題が必要であり、エージェント自身では新しい問題や解決策を発見することはできないと考えています。

いずれにせよ、深層強化学習がいくつかの非常に複雑な課題の解決に役立ち、今日の AI コミュニティにおける重要な関心と研究分野であり続けることは否定できません。

[51CTOによる翻訳。パートナーサイトに転載する場合は、元の翻訳者と出典を51CTO.comとして明記してください]

<<:  鍵となるのは人工知能コンピューティングセンターを構築し、それを活用することだ

>>:  Ctrip の AI 推論パフォーマンスの自動最適化プラクティス

ブログ    
ブログ    
ブログ    

推薦する

2018 年の 15 大テクノロジー トレンド、テクノロジーに関して正しい方向に進んでいますか?

[[216696]]一般的に言えば、未来そのものを予測することは難しいため、技術動向を明確に予測す...

...

論文と新しいビデオはこちら、サウスイースト大学が「室温超伝導体」LK-99の奇妙な抵抗挙動を説明

最近、各国の科学者らが韓国の「常温超伝導」物質LK-99に関する研究を発表し、悲観的な見方をする人が...

2021年中国人工知能産業の現在の市場状況と有利な軌道の分析コンピュータビジョン軌道

——原題:2021年中国人工知能産業の市場現状と有利な軌道の分析。コンピュータビジョンは1000億...

人事戦略と人材開発の形成における AI の役割

AI の力を活用することで、人事チームは複雑な課題に対処し、効率性を向上させ、前向きな職場環境を育む...

...

...

CMU ロボット犬が逆さまに階段を降りる!オープンソースとしてリリース

正直に言うと、私はロボット犬の技をたくさん見てきました -しかし、私は今日も驚きました。 CMU の...

人工知能技術はビッグデータに基づいていますか?

[[201662]]今や、AI やロボットが徐々に人間の仕事に取って代わる時代になりました。知らな...

不正行為防止スパムテキスト認識のためのZhihuのディープラーニング実践の詳細な説明

背景今年8月時点で、知乎の登録ユーザー数は2億人を突破した。私たちはスパムの管理において、より大きな...

量子畳み込みネットワークにおける「不毛のプラトー」現象が解決され、新たな研究により量子AIの大きな問題が克服された

量子コンピュータの出現は、コンピュータ分野に多くの進歩をもたらしました。量子コンピュータ上で実行され...

シャドーAIの潜在的な脅威に対処するための4つのヒント

AI ツールの導入はほとんどの組織がセキュリティを確保できるよりも速いペースで進んでいるため、シャド...

サム・アルトマンは、AGI が 2030 年までに登場し、GPT-10 の知能が全人類の知能の合計を超えると予測しています。

「人類は2030年までにAGIを開発するかもしれない。」サム・アルトマンは最近のポッドキャストのイ...

...

IBMの調査によると、AIのフィッシング能力は人間と同等であることが判明

この研究は、フィッシングメールの作成において AI と熟練した人間のエンジニアを対決させるという中核...