機械学習初心者からマスターまで

機械学習初心者からマスターまで

序文

振り返ってみると、Coursera で Andrew Ng が教えている機械学習コースから多くの恩恵を受けました。このコースでは、機械学習の基礎をシンプルで分かりやすい方法で取り上げ、多くの概念を非常にわかりやすく説明していました。今、私はそのコースウェアとコンテンツを要約し、整理しています。主な理由は、このコースが本当に素晴らしいからです。また、これは学習プロセスのレビューと要約でもあり、私自身の考えもいくつか盛り込むつもりです。興味がある場合は、コースを体系的に学習し、対応する演習やクイズを実行して、より多くの知識を得るのが最善です。コースコードは公開できないため、この記事では実践的な部分については詳しく説明しません。可能であれば、公開されている実践的な例をいくつか追加します。

導入

このセクションでは、主に機械学習の基本的な概念と関連する手法の分類の概要を説明します。この拡張は、詳細な説明をせずに、科学の要約と普及に主に焦点を当てています。今後さらに拡張または要約される予定です。

1. 機械学習の定義

アーサー・サミュエル (1959)。機械学習: 明示的にプログラムしなくてもコンピューターに学習能力を与える研究分野。

トム・ミッチェル (1998) 適切学習問題: コンピュータ プログラムは、タスク T とパフォーマンス測定基準 P に関して経験 E から学習するとされる。これは、P によって測定される T のパフォーマンスが経験 E によって向上する場合に当てはまる。

上記の 2 つの定義のうち、後者が最も一般的に使用されています。機械学習モデリングのプロセスにおいて、最初のタスクは、経験 (E)、タスク (T)、パフォーマンス (P) という 3 つの基本要素を決定することです。学習は過去の経験 (E) に基づいており、これは収集された過去のデータとして直感的に現れます。学習プロセスは、特定のタスク (T)、つまり目的 (たとえば、電子メールを分類する必要性) を対象とする必要があります。与えられた過去のデータに適合する候補モデル仮説は多数あります。適切な仮説を選択するには、評価基準 (P) を定義する必要があります。

たとえば、電子メールを分類する場合、通常の電子メールとスパム メールの 2 つのカテゴリに分けるとします。

E: 事前に収集された一連の電子メール

T: メールを通常のメールとスパムメールの2つのカテゴリに分ける

P: 正常分類の割合

2. 機械学習手法の分類

機械学習の手法は、教師あり学習と教師なし学習に大別されます。両者の主な違いは、学習した対象の分類を達成できるかどうかにあります。

2.1.教師あり学習:

どのサンプルでも、そのターゲット値(一般にクラス ラベルとも呼ばれます)がわかっています。ターゲット値が離散的である場合は、分類問題です。ターゲット値が連続的である場合は、回帰問題です。

任意のインスタンス (x, y) について、x はベクトルであり、通常は特徴ベクトルと呼ばれます。各次元はターゲットの属性を表します。y はターゲット値、つまりインスタンスのクラス ラベルです。y が離散値の場合、分類問題になります。y が連続値の場合、回帰問題になります。

分類問題を図 1 に示します。サンプルインスタンスが一連の患者であると仮定し、患者が癌に罹患しているかどうかを予測するために、x1 (腫瘍のサイズ) と x2 (腫瘍の数) という 2 つの属性を指定したいと考えています。各患者はグラフ内の点として表され、1 つのカテゴリ (非癌患者) と別のカテゴリ (癌患者) を表します。教師あり学習プロセスは、ラベル付けされたデータ (通常はトレーニング セットと呼ばれる) に基づいて分類面 (通常は仮説 h(x)=y と呼ばれる) を生成し、y=1 (がん患者) または y=0 (非がん患者) としてトレーニング セットを 2 つのカテゴリに分割します。新しいデータが到着すると、学習した仮説h(x)に基づいて、患者が癌に罹患しているかどうかを予測できます。

図1

図 2 に示すように、回帰問題では、住宅の価格を予測したいとします。図では、それぞれがサンプルを表す一連のサンプルを収集しています。家の大きさと価格の関係、h(x)=y を学習したいと考えています。ここで、特徴ベクトルには家の大きさという 1 つの値のみがあり、ターゲット値は家の価格です。サンプルに適合する曲線が複数あることがわかります (青い曲線と赤い曲線)。これには、どの仮説が優れているかを判断するという問題が伴い、通常はモデル選択と呼ばれます。

図2

2.2. 教師なし学習

教師なし学習では、サンプルのクラス ラベルを事前に取得することはできません。図 3 に示すように、それぞれがサンプルを表します。明らかに、サンプルは 2 つのクラスターに分割できます。2 つのクラスターは離れていますが、クラスター内のサンプル ポイントは非常に近いです。クラスタリングは教師なし学習の典型的な例であり、その鍵は距離関数の定義、つまりサンプル間の類似性をどのように測定するかにあります。一般的に、同様の距離を持つ 2 つのサンプル ポイントは同じクラスターに属すると考えられています。一般的に使用されるクラスタリング アルゴリズムには、k-mean、dbscan などがあります。


図3

3. その他の概念

ここでは、機械学習におけるいくつかの重要な概念について簡単に紹介します。

[1] 半教師あり学習

半教師あり学習は、教師あり学習と教師なし学習の中間に位置します。教師あり学習のトレーニング セットにはラベルが付けられています。つまり、サンプル内の電子メールがスパムであるかどうかは事前にわかっており、この経験に基づいてモデルをトレーニングします。一方、教師なし学習のトレーニング セットではクラス ラベルがわからないため、特定の類似性または構造的特徴に基づいてサンプルを異なるクラスターに分割することしかできません。現実の世界では、大量のラベル付きデータを入手するのは難しく、大きなカテゴリに手動でラベルを付けるには時間と労力がかかります。そのため、半教師あり学習法が提案されました。その核となる考え方は、まず少量のラベル付きデータでモデルをトレーニングし、次に何らかの方法に基づいてラベルなしデータを使用して、モデルを自動的にさらに最適化するというものです。

[2] アクティブラーニング

能動学習は半教師あり学習に多少似ています。半教師あり学習ではラベルなしデータを自動的に学習に使用することが想定されていますが、能動学習ではラベルなしデータを半自動的に使用すると考えられます。基本的な考え方は、少量のラベル付きデータを使用してモデルをトレーニングし、現在のモデルに基づいてラベルなしデータをラベル付けすることです。モデルが現在のラベル付け結果に確信が持てない場合は、人間にヘルプ リクエストを送信し、現在のサンプルのクラス ラベルについて問い合わせることができます。モデルは人間のフィードバックを通じて最適化され、モデルが確信している結果については問い合わせは行われません。

[3] 強化学習

強化学習は、通常マルコフ決定過程によって記述される対話型の学習プロセスであり、その中核はスコアリング メカニズムにあります。チェスを例に挙げてみましょう。各チェスのゲームは状態を表します。現在の状態でプレイする方法、つまり次のチェスの駒をどのように動かすかはさまざまです。各戦略は、現在の状態を次の状態に変換します (x1、x2、...、xn と仮定)。各変換の結果にスコアを付け、スコアは勝利の可能性を示します。次に、チェスのプロセスで、貪欲戦略を使用して、スコアが最も高い戦略を選択します。

[4] アンサンブル学習

アンサンブル学習の中心的な考え方は、複数の弱い分類器を組み合わせて強い分類器を作成することです。例えば、シャオミンは熱があるかどうか医者に診てもらいたいです。より正確に言うと、シャオミンは5人の医者に診てもらい、そのうち4人はシャオミンに熱はないと言いました。そして、1人の医者だけがシャオミンに熱があると言いました。全体的に、各医者が1票を持ち、少数派が最終的に多数派に従うなら、シャオミンに熱はないはずです。

機械学習でも同じことが言えます。通常は複数の分類器を組み合わせて、各分類器の結果に基づいて最終的な予測を行います。最も単純なのは、少数派が多数派に従う入札メカニズムです。 k 個の分類器がトレーニングされていると仮定します。任意のインスタンスは、k 個の分類器に同時に入力され、k 個の予測結果が得られ、少数派が多数派に従うという原則に従ってインスタンスが分類されます。

[5] モデル選択

機械学習では、過去の経験を反映できるモデルが数多く存在します。図2に示すように、データに適合できる曲線は2つあります。そのため、多くの候補から適切なモデルをどのように選択するかが非常に重要なトピックです。優れたモデルは、トレーニング セット (既知データ) に優れた効果をもたらすだけでなく、未知のデータに対しても優れた予測効果をもたらす、つまり優れた一般化能力を持つことを期待します。ここで重要な用語が 2 つあります。それは、過剰適合と不足適合です。アンダーフィッティングとは、モデルがすべてのデータ(既知および未知のデータ)に対してパフォーマンスが低く、適切な抽象モデルが存在しないことを意味します。オーバーフィッティングとは、モデルが見たことのあるデータに対してはうまく機能するが、見たことのないデータに対してはうまく機能しないことを意味します。言い換えると、モデルは極端なデータをフィッティングすることで良い結果を得ます。学習したモデルはあまりにも具体的であり、見たことのないデータに対しては予測能力がありません。通常、予測結果の品質を測定するには精度を使用します。予測の精度を保証するだけでは十分ではありません。同じ条件下では、シンプルなモデルが好まれます。これは有名なオッカムの剃刀の原則、「データの説明は可能な限りシンプルにすべきだが、シンプルすぎるべきではない」です。

まとめると、モデル選択プロセスで考慮すべき主な側面は、予測結果の品質 (精度など) とモデルの複雑さの 2 つです。

[6] 特徴選択

図 1 の例に示すように、患者が癌に罹患しているかどうかを分類する問題では、腫瘍の大きさと腫瘍の数という 2 つの特徴を考慮します。また、図 2 の例に示すように、住宅価格の予測では、住宅の大きさという特徴を考慮します。特徴の品質とターゲットとの関連性は、モデル学習の有効性に大きく影響します。機能が不十分であったり、ターゲットに関連していない場合、学習したモデルは簡単に適合不足になる可能性があります。無関係な特徴が多すぎると、次元の呪いが発生し、学習プロセスの効率に影響します。ディープラーニングは、その隠れ層が特徴に対して優れた抽象効果を発揮するため、うまく機能します。したがって、モデル学習のプロセスでは、特徴選択も非常に重要なトピックです。一般的に使用される特徴選択方法は、PCA、つまり主成分分析です。

<<:  TensorFlow を使用してロボットに音楽を作曲する方法を教えるにはどうすればよいでしょうか?秘密はこれです

>>:  機械学習におけるよくある間違い

ブログ    

推薦する

AIと自動化により企業のクラウド移行が改善

COVID-19 パンデミックの影響で、2020 年末までに推定 60% の企業がワークロードをクラ...

アルゴリズムエンジニアとして働くために養豚場に行く?月20,000

[[282855]]皆さんご存知の通り、今年の「ブラザーツー」の値段は大変高く、信じられないほど高...

...

新しい5文字描画言語が人気で、ChatGPTはそれを学習しました

たった 5 つの文字でピクセル ペイントを完成させることができます。合計 8 色、最大 256×25...

...

モバイル写真と人工知能が出会うとき

現在では、カメラ機能はスマートフォンの標準機能となり、スマートフォンの大きなセールスポイントとなって...

Google、AIコードエディタIDXをリリース:クラウド仮想マシンで開発環境の構成を簡素化

Googleは8月9日、「Project IDX」プロジェクトを公開し、AI技術を統合したコードエデ...

ヤン・ルカンの最新インタビュー: エネルギーモデルは自律型人工知能システムの出発点

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...

世界中で人気のGPT-3がなぜ人々の仕事を破壊しているのか?

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

フィンテック2022年の技術トレンド:プライバシーコンピューティングが焦点、仮想人間が金融マネージャーを再構築

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

...

...

推奨される 5 つのオープンソースオンライン機械学習環境

[51CTO.com クイック翻訳] 機械学習は、機械が直接プログラムされることなく学習できるように...

クラウド コンピューティングの限界: エッジでの機械学習が必要な理由

機械学習には高い処理要件があり、通信コストがかかることから、最終的にはエッジ(スマートフォン)で動作...