教師あり学習、教師なし学習、強化学習とは何ですか?ついに誰かが明らかにした

教師あり学習、教師なし学習、強化学習とは何ですか?ついに誰かが明らかにした

01 用語

このセクションでは、機械学習の概要とその 3 つの分類 (教師あり学習、教師なし学習、強化学習) について説明します。まず、機械学習に関連する用語としては、人工知能(AI)、機械学習(ML)、強化学習、ディープラーニングなどがあります。ここでは、これらの用語について簡単にまとめます。

[[337936]]

AIは人工知能を意味し、その定義は研究者によって異なります。広義には「人間のような知能を持つシステム、およびそのようなシステムを搭載したロボット」を指します。 AI を実装する方法の 1 つは機械学習です。

機械学習とは、簡単に言えば、「システムにデータ(トレーニングデータまたは学習データと呼ばれる)を提供し、そのデータを通じてシステムのパラメータ(変数値)を自動的に決定すること」です。対照的に、ルールベースのシステムは非機械学習システムの例です。ルールベースのシステムでは、実装コード内の if ステートメントなどの分岐条件のパラメータを人間が明確に定義します。

一方、機械学習は、システムが適切に動作するように、トレーニング データに基づいてコード内のパラメーターを自動的に決定します。システムがトレーニングデータに基づいて動作するために必要なパラメータを計算して決定できるため、機械学習と呼ばれます。

強化学習は機械学習の一種です。機械学習は、教師あり学習、教師なし学習、強化学習の 3 つの主要なカテゴリに分けられます。これら 3 つのカテゴリについては後で説明しますが、今は強化学習が機械学習のサブセットであることを覚えておいてください。

次はディープラーニングです。ディープラーニングは機械学習を実装するアルゴリズムの1つです。機械学習アルゴリズムには、ロジスティック回帰、サポートベクターマシン (SVM)、決定木、ランダムフォレスト、ニューラルネットワークなどがあります。ディープラーニングはニューラルネットワークの一種です。

最後に、深層強化学習があります。深層強化学習は、強化学習と深層学習を組み合わせたものです。

02 教師あり学習、教師なし学習、強化学習

ここでは、機械学習の3つのタイプ(教師あり学習、教師なし学習、強化学習)をそれぞれ紹介します。

まず、教師あり学習について説明します。

たとえば、「郵便番号の手書き数字を分類する」というのは教師あり学習の一種です。郵便番号分類システムでは、手書きの数字の各画像を 0 から 9 のいずれかに分類します。 0 から 9 などのデータのカテゴリ対象は、ラベルまたはクラスと呼ばれます。このタイプのシステムは、提供されるトレーニング データに正しいラベルが事前に付けられているため、教師あり学習と呼ばれます。つまり、ラベル付けされたトレーニング データがシステムの教師になります。

教師あり学習は、学習フェーズと推論フェーズで構成されます。手書き数字の分類をグラフを例にして説明します (図 1.1 を参照)。

図1.1 教師あり学習を使用して手書きの数字を区別する例

学習段階では、0から9までの手書き数字画像データを大量に用意し、それをトレーニングデータとして使用します。トレーニングデータにはラベル(0~9の数値)が付いており、そのラベルを元に「この手書き数字画像は1です」といった手書き数字画像の正解情報が分かります。学習フェーズでは、手書きの数字画像がシステムに入力されると、システムのパラメータが調整(学習)され、入力画像を正しいラベルに分類しようとします。

応用段階では、ラベルのない未知の手書き数字画像データがシステムに入力され、画像は 0 から 9 までの出力ラベルのいずれかに分類され、結果が与えられます。正しい結果が学習されていれば、未知の手書き数字画像が入力されたときに、システムは正しい数値ラベルを出力します。手書きの数字の分類に加えて、教師あり学習は画像、音声、テキスト データの分類にも使用できます。

さらに、上記の例で述べた分類タスクに加えて、教師あり学習は回帰などのタスクにも使用されます。

次に、教師なし学習を紹介します。教師なし学習を一言で表現すると「グループ化」です。大量のデータの中から類似したデータをグループにまとめます(クラスタリングと呼ばれます)。たとえば、購入データに基づいて顧客をグループ化するシステムは教師なし学習です。購入履歴の特性に基づいて顧客をグループ化することで、グループごとに異なる販売戦略を実行できます。

購買データ分析の例をグラフで説明します (図 1.2 を参照)。過去 1 年間の各顧客の購入回数と 1 回あたりの平均購入金額のデータが保存され、分析されているとします。これらのデータに基づいて、顧客は 2 つのグループに分けられます。グループA(左上隅)は、高額商品を低頻度で購入するグループであり、グループB(右下隅)は、購入を何度も繰り返すものの、そのたびに消費量が少なくなるグループです。

図1.2 教師なし学習を使用して購入データに基づいて顧客をグループ化する例

グループ化に教師なし学習を使用すると、各顧客がどのグループに属しているかを理解し、各グループに最適な販売戦略を実施するのに役立ちます (ただし、一部のビジネスではより詳細な分析が必要になります)。この例で説明したグループ化 (クラスタリング) に加えて、教師なし学習は次元削減やレコメンデーション システムにも使用されます。

最後に、強化学習について説明します。強化学習は主に「時間変動システムの制御ルールの構築」や「競争ゲーム戦略の構築」に用いられる手法です。例えば、強化学習はロボットの歩行制御や囲碁のプログラムに使用されています (図 1.3 を参照)。

図1.3 強化学習の例(ロボットの歩行制御と囲碁ゲームシステム)

身近な例では、子供が自転車の乗り方を習っているところを想像する方が簡単かもしれません。子どもが自転車の乗り方を学ぶとき、ニュートン力学などの力学の法則や自転車の乗り方の詳しい方法を教える人はいませんし、ビデオを見て自転車の乗り方を学ぶ必要もありません。実際に自分で自転車に乗ってみて、たくさんの失敗を乗り越えて自転車に乗る方法を見つけてください。

強化学習は、自転車の乗り方を学ぶ例のように、制御対象の物理法則を知らずに、目的の制御方法を学習するために繰り返し試行して失敗する学習方法です。

強化学習では訓練データとしてラベル付きデータは存在しませんが、これは教師情報が全く存在しないということを意味するものではありません。システムは強化学習手順に従って動作し、望ましい結果が達成されると報酬と呼ばれる信号を与えます。例えば、ロボットの歩行制御では、歩行できた距離が報酬となります。囲碁のゲームプロセスでは、勝ち負けの結果が報酬となります。失敗に対する報酬は負の値であり、ペナルティとも呼ばれます。

ロボットの歩行制御を教師あり学習で学習させるには、「脚関節がこの角度で、速度がこれくらいのときは、モーターAをこのように回す」といったパターンをできるだけ多く用意し、正しいアプローチを事前に与えておく必要があります。しかし、ロボットが歩行する場合、変化する状態ごとにモーターを制御する正しい方法を予測することは困難です。

一方、強化学習では、歩行制御システムに対して歩行距離を報酬として与え、複数回試行を繰り返します。

このように、強化学習システムは、「前回の試行で行った変更によってさらに前進できた場合、この変更は正しい」という基準に基づいて、繰り返される試行と報酬に基づいて制御ルールを自ら変更します。したがって、ロボットは歩き方を教えなくても、徐々に長い距離を歩けるようになります。

囲碁のような競争ゲームの戦略構築においても、各段階で強いプレイヤーを教師データとして扱って教える必要はなく、成功または失敗を報酬として実験を繰り返すだけで十分です。そうすることで、強化学習システムはゲームのプレイ方法を少しずつ変え、強くなっていきます。

学習した囲碁や将棋のシステムは設計者自身よりも強力であり、これは強化学習によって簡単に実現できます。この説明だけを聞くと、強化学習は魔法のように思えますが、実際には難しい点がたくさんあります。

強化学習は主に「時間変動システムの制御規則の構築」と「戦闘ゲームの戦略の構築」に応用できます。本書では前者の「システム制御」を対象タスクとし、関連するプログラムを書くことで強化学習を学習します。

<<:  面接の質問に必ず読むべき一冊! Python のトップ 5 ソート アルゴリズムとその実装コード

>>:  AIはソフトウェアテスターの仕事を「奪う」のでしょうか?

ブログ    
ブログ    
ブログ    

推薦する

インテルの宋吉強氏:AIは爆発の臨界点に達しており、今年中に専用チップを発売する予定

インテルとニューインテリジェンスが共同で開催した2017年ニューインテリジェンスオープンソースエコシ...

DrivingGaussian: リアルなサラウンドビューデータ、運転シーンの再構成SOTA

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...

新しい消費者向け IoT と人工知能の開発を加速させる機会は何でしょうか?

近年、世界的な技術開発の加速化が進み、新世代の情報通信技術が次々と導入され、数多くの新たなビジネスモ...

...

FMI2017----人工知能とビッグデータが時代を力づける

2017年8月5日、ペガサスが主催する「FMI人工知能&ビッグデータサミットフォーラム」が北京国家会...

Caffeでのディープラーニングトレーニングの全プロセス

[[189573]]今日の目標は、Caffe を使用してディープラーニング トレーニングの全プロセス...

OpenAIを去った偉人カパシ氏は「教え始めた」。おなじみのミニコードスタイルのまま、新しいプロジェクトが日々増えている。

偉大なカルパシー氏はOpenAIを辞任し、当初は1週間の休暇を取ると脅していた。写真しかし、瞬く間に...

TigerGraphは、伝染病の予防と制御を完全にサポートするために、エンタープライズレベルのバージョンのライセンスを無償で公開します。

新型コロナウイルスによる肺炎の発生以来、全国の人々が不安に思っています。世界をリードするスケーラブル...

デジタル変革の3つの大きな落とし穴に注意: インテルがPing An Healthcare Technologyに「エンドツーエンド」のAI機能を提供

[51CTO.comからのオリジナル記事] 現在、私たちの周りではデジタル変革が起こっています。デジ...

...

このクラウドは、AIが後半にどのように発展するかを知っている

今年はAI技術の導入が話題になっています。 AIは本当に実装されているのでしょうか?真実を語るには実...

...

Python での機械学習アルゴリズムの実装: ニューラル ネットワーク

今日は引き続き、パーセプトロンをベースにしたニューラルネットワークモデルを紹介します。パーセプトロン...

検討すべき5つのスマートホームテクノロジー

今日でも、ほとんどの人はスマートホームテクノロジーを手の届かない贅沢品と見なしています。しかし、家庭...

...