教師あり学習、教師なし学習、強化学習とは何ですか?ついに誰かが明らかにした

[[337832]]

01 用語

このセクションでは、機械学習の概要とその 3 つの分類 (教師あり学習、教師なし学習、強化学習) について説明します。まず、機械学習に関連する用語としては、人工知能（AI）、機械学習（ML）、強化学習、ディープラーニングなどがあります。ここでは、これらの用語について簡単にまとめます。

AIは人工知能を意味し、その定義は研究者によって異なります。広義には「人間のような知能を持つシステム、およびそのようなシステムを搭載したロボット」を指します。 AI を実装する方法の 1 つは機械学習です。

機械学習とは、簡単に言えば、「システムにデータ（トレーニングデータまたは学習データと呼ばれる）を与え、そのデータからシステムのパラメータ（変数値）を自動的に決定すること」です。対照的に、ルールベースのシステムは非機械学習システムの例です。ルールベースのシステムでは、実装コード内の if ステートメントなどの分岐条件のパラメータを人間が明確に定義します。

一方、機械学習は、システムが適切に動作するように、トレーニングデータに基づいてコード内のパラメーターを自動的に決定します。システムがトレーニングデータに基づいて動作するために必要なパラメータを計算して決定できるため、機械学習と呼ばれます。

強化学習は機械学習の一種です。機械学習は、教師あり学習、教師なし学習、強化学習の 3 つの主要なカテゴリに分けられます。これら 3 つのカテゴリについては後で説明しますが、今は強化学習が機械学習のサブセットであることを覚えておいてください。

次はディープラーニングです。ディープラーニングは機械学習を実装するアルゴリズムの1つです。機械学習アルゴリズムには、ロジスティック回帰、サポートベクターマシン (SVM)、決定木、ランダムフォレスト、ニューラルネットワークなどがあります。ディープラーニングはニューラルネットワークの一種です。

最後に、深層強化学習があります。深層強化学習は、強化学習と深層学習を組み合わせたものです。

[[337833]]

02 教師あり学習、教師なし学習、強化学習

ここでは、機械学習の3つのタイプ（教師あり学習、教師なし学習、強化学習）をそれぞれ紹介します。

まず、教師あり学習について説明します。

たとえば、「郵便番号の手書き数字を分類する」というのは教師あり学習の一種です。郵便番号分類システムでは、手書きの数字の各画像を 0 から 9 のいずれかに分類します。 0 から 9 などのデータのカテゴリ対象は、ラベルまたはクラスと呼ばれます。このタイプのシステムは、提供されるトレーニングデータに正しいラベルが事前に付けられているため、教師あり学習と呼ばれます。つまり、ラベル付けされたトレーニングデータがシステムの教師になります。

教師あり学習は、学習フェーズと推論フェーズで構成されます。手書き数字の分類をグラフを例にして説明します (図 1.1 を参照)。

図1.1 教師あり学習を使用して手書きの数字を区別する例

学習段階では、0から9までの手書き数字画像データを大量に用意し、それをトレーニングデータとして使用します。トレーニングデータにはラベル（0～9の数値）が付いており、そのラベルを元に「この手書き数字画像は1です」といった手書き数字画像の正解情報が分かります。学習フェーズでは、手書きの数字の画像がシステムに入力されると、システムのパラメータが調整（学習）され、入力画像を正しいラベルとして分類しようとします。

応用段階では、ラベルのない未知の手書き数字画像データがシステムに入力され、画像は 0 から 9 までの出力ラベルのいずれかに分類され、結果が与えられます。正しい結果が学習されていれば、未知の手書き数字画像が入力されたときに、システムは正しい数値ラベルを出力します。手書きの数字の分類に加えて、教師あり学習は画像、音声、テキストデータの分類にも使用できます。

さらに、上記の例で述べた分類タスクに加えて、教師あり学習は回帰などのタスクにも使用されます。

次に、教師なし学習を紹介します。教師なし学習を一言で表現すると「グループ化」です。大量のデータ内の類似したデータをグループ（クラスターと呼ばれる）にグループ化します。たとえば、購入データに基づいて顧客をグループ化するシステムは教師なし学習です。購入履歴の特性に基づいて顧客をグループ化することで、グループごとに異なる販売戦略を実行できます。

購買データ分析の例をグラフで説明します (図 1.2 を参照)。過去 1 年間の各顧客の購入回数と 1 回あたりの平均購入金額のデータが保存され、分析されているとします。これらのデータに基づいて、顧客は 2 つのグループに分けられます。グループ A (左上隅) は、高額商品を低頻度で購入するグループであり、グループ B (右下隅) は、購入を複数回繰り返すものの、1 回あたりの支出額は少ないグループです。

図1.2 教師なし学習を使用して購入データに基づいて顧客をグループ化する例

グループ化に教師なし学習を使用すると、各顧客がどのグループに属しているかを理解し、各グループに最適な販売戦略を実施するのに役立ちます (ただし、一部のビジネスではより詳細な分析も必要になります)。この例で説明したグループ化 (クラスタリング) に加えて、教師なし学習は次元削減やレコメンデーションシステムにも使用されます。

最後に、強化学習について説明します。強化学習は主に「時間変動システムの制御ルールの構築」や「競争ゲーム戦略の構築」に用いられる手法です。例えば、強化学習はロボットの歩行制御や囲碁のプログラムに使用されています (図 1.3 を参照)。

図1.3 強化学習の例（ロボットの歩行制御と囲碁ゲームシステム）

身近な例では、子供が自転車の乗り方を習っているところを想像する方が簡単かもしれません。子どもが自転車の乗り方を学ぶとき、ニュートン力学などの力学の法則や自転車の乗り方の詳しい方法を教える人はいませんし、ビデオを見て自転車の乗り方を学ぶ必要もありません。実際に自分で自転車に乗ってみて、たくさんの失敗を乗り越えて自転車に乗る方法を見つけてください。

強化学習は、自転車の乗り方を学ぶ例のように、制御対象の物理法則を知らずに、目的の制御方法を学習するために繰り返し試行して失敗する学習方法です。

強化学習では訓練データとしてラベル付きデータは存在しませんが、これは教師情報が全く存在しないということを意味するものではありません。システムは強化学習手順に従って動作し、望ましい結果が達成されると報酬と呼ばれる信号を与えます。例えば、ロボットの歩行制御では、歩行できた距離が報酬となります。囲碁のゲームプロセスでは、勝ち負けの結果が報酬となります。失敗に対する報酬は負の値であり、ペナルティとも呼ばれます。

ロボットの歩行制御を教師あり学習で学習させるには、「脚関節がこの角度で、速度がこれくらいのときは、モーターAをこのように回す」といったパターンをできるだけ多く用意し、正しいアプローチを事前に与えておく必要があります。しかし、ロボットが歩行する場合、変化する状態ごとにモーターを制御する正しい方法を予測することは困難です。

一方、強化学習では、歩行制御システムに対して歩行距離を報酬として与え、複数回試行を繰り返します。

このように、強化学習システムは、「前回の試行で行った変更によってさらに前進できた場合、この変更は正しい」という基準に基づいて、繰り返される試行と報酬に基づいて制御ルールを自ら変更します。したがって、ロボットは歩き方を教えなくても、徐々に長い距離を歩けるようになります。

囲碁のような競争ゲームの戦略構築においても、各段階で強いプレイヤーを教師データとして扱って教える必要はなく、成功または失敗を報酬として実験を繰り返すだけで十分です。そうすることで、強化学習システムはゲームのプレイ方法を少しずつ変え、強くなっていきます。

学習した囲碁や将棋のシステムは設計者自身よりも強力であり、これは強化学習によって簡単に実現できます。この説明だけを聞くと、強化学習は魔法のように思えますが、実際には難しい点がたくさんあります。

強化学習は主に「時間変動システムの制御規則の構築」と「戦闘ゲームの戦略の構築」に応用できます。本書では前者の「システム制御」を対象タスクとし、関連するプログラムを書くことで強化学習を学習します。

著者について: 小川雄太郎は東京大学で博士号を取得し、脳機能測定と計算理論に関する神経科学の研究を行ってきました。現在は電通国際情報サービス技術開発部に所属し、機械学習関連技術の研究開発に従事。

この記事は「実践による深層強化学習の学習: PyTorch プログラミング実践」から抜粋したもので、出版社の許可を受けています。

<<: 顧客の声: AI はあなたにとって優先事項ですか? データ戦略から始める必要があります

>>: 畳み込みニューラルネットワークの基礎を1つの記事で学びます。