深層強化学習の謎を解く

深層強化学習の謎を解く

【51CTO.com クイック翻訳】

 

深層強化学習は、人工知能の最も興味深い分野の 1 つです。ボードゲームやビデオゲーム、自動運転車、ロボット工学、AI ハードウェア設計で人間のチャンピオンに勝つなど、AI テクノロジーにおける最も注目すべき成果のいくつかは、この会社によるものです。

深層強化学習は、深層ニューラル ネットワークの学習能力を利用して、従来の RL 技術では解決できない複雑な問題を解決します。深層強化学習は機械学習の他の分野よりもはるかに複雑であり、この記事では技術的な詳細に立ち入ることなく、その謎を解き明かします。

ステータス、報酬、アクション

あらゆる強化学習問題の中心となるのはエージェントと環境です。環境はシステムの状態に関する情報を提供します。エージェントは、これらの状態を観察し、離散的 (スイッチを切り替えるなど) または連続的 (ノブを回すなど) なアクションを実行して環境と対話するように設計されています。これらのアクションにより、環境は新しい状態に移行します。そして、新しい状態がシステムの目標に関連しているかどうかに応じて、エージェントは報酬を受け取ります (エージェントを目標から遠ざける場合、報酬はゼロまたは負になることもあります)。

状態-行動-報酬サイクル図

状態-アクション-報酬の各サイクルはステップと呼ばれます。強化学習システムは、目的の状態に到達するか、最大ステップ数に達するまでループと反復を続けます。この一連のステップはエピソードと呼ばれます。各エピソードの開始時に、環境は初期状態に設定され、エージェントの報酬はゼロにリセットされます。

強化学習の目的は、エージェントが報酬を最大化する行動を取るようにトレーニングすることであり、エージェントの行動生成関数はポリシーと呼ばれます。エージェントが適切なポリシーを学習するには、通常、多くのエピソードが必要です。単純な問題の場合、エージェントが適切なポリシーを学習するには、数百のエピソードで十分な場合があります。より複雑な問題の場合、エージェントを実装する前に何百万回もトレーニングする必要がある場合があります。

強化学習システムには、より微妙なニュアンスがあります。たとえば、RL 環境は決定論的または非決定論的になる可能性があります。決定論的な環境では、一連の状態とアクションのペアを複数回実行すると、常に同じ結果が生成されます。対照的に、非決定論的な RL 問題では、環境の状態はエージェントの動作以外の要因 (時間の経過、天候、環境内の他のエージェントなど) によって変化する可能性があります。

強化学習アプリケーション

強化学習の構成要素をよりよく理解するために、いくつかの例を見てみましょう。

チェス:ここで、環境はチェス盤であり、環境の状態は盤上のチェスの駒の位置です。 RL エージェントはプレイヤーの 1 人になることができます (または、両方のプレイヤーが同じ環境で個別にトレーニングされた RL エージェントになることができます)。チェスの各ゲームはエピソードであり、黒板とホワイトボードの端に黒と白のチェスの駒が並べられた初期状態から始まります。各ステップで、エージェントはボード (状態) を観察し、その駒の 1 つを動かし (アクションを実行)、環境を新しい状態に変換します。エージェントはチェックメイト状態に到達すると報酬を受け取り、それ以外の場合は報酬はゼロになります。チェスの主な課題は、プレイヤーは相手をチェックメイトするまで報酬を受け取れないため、そこから学ぶことが難しいことです。

Atari Breakout: Breakout は、プレイヤーがパドルを操作するビデオ ゲームです。画面上をボールが動いていて、ボールがパドルに当たるたびに、レンガが並んでいる画面上部に跳ね返ります。パドルがレンガに当たるたびにレンガは破壊され、ボールは跳ね返ります。 Breakout では、環境はゲーム画面です。状態とは、パドルとレンガの位置、およびボールの位置と速度です。エージェントが実行できるアクションは、左に移動する、右に移動する、またはまったく移動しないです。エージェントは、ボールがレンガに当たるたびに正の報酬を受け取り、ボールがパドルを越えて画面の下部に到達すると負の報酬を受け取ります。

自動運転車:自動運転では、エージェントは車であり、環境は車が移動する空間です。 RL エージェントは、カメラ、LIDAR、その他のセンサーを通じて環境の状態を観察します。エージェントは、加速、ブレーキ、左折または右折などのナビゲーションアクションを実行できます。 RL エージェントは、通常の運転を維持し、衝突を回避し、運転ルールを遵守し、交通ルートをたどることで報酬を得ます。

強化学習機能

基本的に、強化学習の目的は、報酬を最大化するように状態をアクションにマッピングすることです。しかし、RL エージェントは具体的に何を学習するのでしょうか?

RL システムには 3 つの学習アルゴリズムがあります。

戦略ベースのアルゴリズム: これは最も一般的なタイプの最適化です。ポリシーは状態をアクションにマッピングします。ポリシーを学習する RL エージェントは、現在の状態から目標までのアクションの軌跡を作成できます。

たとえば、迷路を進んで出口に到達するためのポリシーを最適化するエージェントを実装します。まず、ランダムな動きをしますが、報酬は得られません。あるエピソードでは、ついに出口に到達し、出口という報酬が与えられます。エージェントが最終目標にどれだけ近いかに基づいて、軌道をたどり、各状態とアクションのペアの報酬を再調整します。次のエピソードでは、RL エージェントは各状態に応じてどのようなアクションを実行するかをより深く理解し、最適なソリューションに収束するまで徐々にポリシーを調整していきます。

REINFORCE は、人気のあるポリシーベースのアルゴリズムです。ポリシーベース関数の利点は、さまざまな強化学習問題に適用できることです。ポリシーベースのアルゴリズムのトレードオフは、サンプル効率が低く、最適なソリューションに収束する前に広範なトレーニングが必要になることです。
価値ベースのアルゴリズム: 価値ベースの関数は、状態とアクションの値を評価することを学習します。価値ベースの関数は、RL エージェントが現在の状態とアクションに対する将来の報酬がどうなるかを評価するのに役立ちます。

値ベースの関数には、Q 値と V 値の 2 つのバリエーションがあります。 Q 関数は、状態とアクションのペアの期待報酬を推定します。 V 関数は状態の値のみを推定します。 Q 関数は、状態とアクションのペアを RL ポリシーに変換する方が簡単なため、より一般的です。

2 つの一般的な値ベースのアルゴリズムは、SARSA と DQN です。値ベースのアルゴリズムは、ポリシーベースの RL よりもサンプル効率が高くなります。それらの制限は、(何らかの変更が加えられない限り)個別のアクション空間でのみ機能することです。

モデルベースのアルゴリズム:モデルベースのアルゴリズムは、強化学習に対して異なるアプローチを採用します。状態とアクションの値を評価するのではなく、現在の状態とアクションに基づいて環境の状態を予測します。モデルベースの強化学習により、エージェントはアクションを実行する前にさまざまな軌道をシミュレートできます。

[[424589]]

モデルベースのアプローチはエージェントに先見性を提供し、手動によるデータ収集の必要性を減らします。これは、トレーニング データと経験の収集にコストがかかり、時間がかかるアプリケーション (ロボット工学や自動運転車など) では非常に有益です。

しかし、モデルベースの強化学習における主な課題は、環境の現実的なモデルを作成することが非常に難しい場合があることです。現実世界のような非決定論的な環境をモデル化するのは困難です。場合によっては、開発者は実際の環境に近いシミュレーションを作成することに成功しています。しかし、これらのシミュレートされた環境のモデルを学習することさえ困難です。
それにもかかわらず、モデルベースのアルゴリズムは、チェスや囲碁などの決定論的な問題で人気が出てきました。モンテカルロ ツリー サーチ (MTCS) は、決定論的な環境に適用できる一般的なモデルベースの手法です。

組み合わせ法:さまざまな種類の強化学習アルゴリズムの欠点を克服するために、科学者はさまざまな種類の学習機能の要素を組み合わせたアルゴリズムを開発しました。たとえば、Actor-Critic アルゴリズムは、ポリシーベースの機能と値ベースの機能の利点を組み合わせています。これらのアルゴリズムは、価値関数 (批評家) からのフィードバックを使用して、ポリシー学習者 (アクター) が正しい方向に改善するように導き、よりサンプル効率の高いシステムを実現します。

なぜ深層強化学習なのか?

これまでのところ、ディープニューラルネットワークについては議論されていません。実際、上で説明したアルゴリズムはすべて、どのような方法でも実装できます。たとえば、Q 学習は、エージェントが環境と対話するときに状態、アクション、報酬のテーブルを作成する古典的な強化学習アルゴリズムです。このようなアプローチは、状態と操作の数が非常に少ない非常に単純な環境を扱う場合に適しています。

ただし、アクションと状態の組み合わせの数が膨大な数に達する可能性のある複雑な環境、または環境が非決定論的でほぼ無限の数の状態を持つ可能性のある環境を扱う場合、すべての可能な状態とアクションのペアを評価することは不可能になります。

このような場合、限られたデータに基づいて最適なポリシーを学習できる近似関数が必要であり、これを実現するのが人工ニューラル ネットワークです。適切な構造と最適化関数が与えられれば、ディープ ニューラル ネットワークはシステムのすべての可能な状態を走査することなく最適なポリシーを学習できます。深層強化学習エージェントは依然として大量のデータ(Dota や StarCraft での数千時間のゲームプレイなど)を必要としますが、従来の強化学習システムでは解決できない問題を解決できます。

たとえば、深層強化学習モデルでは、畳み込みニューラル ネットワークを使用して、カメラ入力やビデオ ゲーム グラフィックスなどの視覚データから状態情報を抽出できます。リカレント ニューラル ネットワークは、ボールの方向や、車が駐車しているか動いているかなど、一連のフレームから有用な情報を抽出できます。この高度な学習機能により、RL エージェントはより複雑な環境を理解し、その状態をアクションにマッピングできるようになります。

深層強化学習は、教師あり機械学習に匹敵します。モデルは環境からのフィードバックに基づいてアクションを生成し、そのパラメータを調整します。ただし、深層強化学習には、従来の教師あり学習とは異なる独自の課題もいくつかあります。

モデルにラベル付きデータセットが提供される教師あり学習とは異なり、RL エージェントは自身の経験の結果にのみアクセスできます。さまざまなトレーニングフェーズで収集された経験に基づいて、最適なポリシーを学習できます。しかし、より良い政策につながる可能性のある他の多くの最適な軌道も見逃される可能性があります。強化学習では、状態とアクションのペアの軌跡を評価する必要もありますが、これは、各トレーニング例が予想される結果とペアになっている教師あり学習の問題よりも学習が困難です。

この追加された複雑さにより、深層強化学習モデルのデータ要件が増加します。しかし、教師あり学習とは異なり、深層強化学習モデルはトレーニング中にデータを収集しますが、教師あり学習では事前にデータを管理して準備することができます。一部のタイプの RL アルゴリズムでは、1 つのエピソードで収集されたデータはその後破棄する必要があり、将来のエピソードでモデル調整プロセスをさらに高速化するために使用することはできません。

深層強化学習と汎用人工知能

AIコミュニティでは、深層強化学習をどこまで推進すべきかをめぐって意見が分かれている。一部の科学者は、適切な RL アーキテクチャを使用すれば、汎用人工知能を含むあらゆる種類の問題を解決できると考えています。これらの科学者は、強化学習は自然知能を生み出すアルゴリズムと同じであり、十分な時間と労力、そして適切な報酬があれば、人間レベルの知能を再現できると考えています。

強化学習では人工知能における最も基本的な問題のいくつかは解決できないと主張する人もいます。別のグループは、深層強化学習エージェントには多くの利点があるものの、明確に定義された問題が必要であり、エージェント自身では新しい問題や解決策を発見することはできないと考えています。

いずれにせよ、深層強化学習がいくつかの非常に複雑な課題の解決に役立ち、今日の AI コミュニティにおける重要な関心と研究分野であり続けることは否定できません。

[51CTOによる翻訳。パートナーサイトに転載する場合は、元の翻訳者と出典を51CTO.comとして明記してください]

<<:  鍵となるのは人工知能コンピューティングセンターを構築し、それを活用することだ

>>:  Ctrip の AI 推論パフォーマンスの自動最適化プラクティス

ブログ    
ブログ    

推薦する

教育省:100 以上の AI 専門専攻を構築し、500 万人の AI 人材のギャップを埋めます。

AIが再び国家の議題に!教育部は、「国務院による新世代人工知能発展計画の公布に関する通知」を実施し...

強化学習は、抽象的思考を行うときに脳がどのように機能するかを明らかにする

[[418206]] 「すべての芸術はある程度抽象的である。」 20 世紀の世界的に有名な彫刻家ヘン...

人工知能アルゴリズムが核融合の応用に一歩近づく

核融合は現在一般的に使用されている核分裂法よりも安全で環境に優しいことはよく知られています。しかし、...

2022年、PyTorchはトップAIカンファレンスの80%を占める

2012 年にディープラーニングが再び注目されて以来、初期の学術フレームワークである Caffe ...

...

...

Appleが記者会見でFaceIDを発表。あなたは顔認識機能を使ってみますか?

[[203619]] 「もし私が諜報員だったら、生体認証機能をオンにすることは絶対にありません。」...

...

パフォーマンス最適化技術: アルゴリズム

アルゴリズムとその実装にはさまざまな種類がありますが、この記事ではシングルコア、シングルスレッドのア...

...

ディープラーニングアルゴリズム

ディープラーニングアルゴリズムは、マシンビジョンにおける巧妙な受信機コンバーターのようなものです。柔...

...

自動運転ユニコーンは詐欺的すぎて、ルカン氏でさえ確信している

これは普通の自動運転ビデオだと思いますか?写真いいえ、いいえ、いいえ...これは実際には AI によ...

人類はまたもやAIに敗北:ドローンレースの世界チャンピオンが人工知能に敗北

8月31日、人工知能(AI)がチェスやビデオゲームなどの分野で人間に勝利した。そして今回初めて、人間...