95歳のハーバード大学出身者が、機械学習をゼロから始めるための必読書を執筆しました。本のリソースは現在公開されています。

機械学習を始める最も簡単な方法は何ですか?今年ハーバード大学で統計学の学位を取得したばかりのダニー・フリードマン氏が、基礎知識がなくても簡単に始められる「専攻を変更する学生のための教科書」を執筆しました。すべてのリソースが公開されています。

機械学習の入門書となると、おそらく何百もの選択肢があるでしょう。これらの本のほとんどは、豊富な研究経験を持つ学者によって書かれており、さまざまなトピックを扱っています。

「読書は有益」ということわざがありますが、専攻を変えたい初心者にとっては、この新しい本の方が始めるのに適しているかもしれません。

最近、ハーバード大学を卒業した若者が、機械学習を始めた自身の経験に基づいて「Machine Learning from Scratch」という本を執筆しました。

本のアドレス: https://dafriedman97.github.io/mlbook/content/introduction.html

この本は、機械学習の分野で最も一般的な方法をカバーしており、初心者向けの機械学習エンジニアのツールボックスのようなものです。この記事の目的は、基本的な機械学習アルゴリズムを独自に構築する方法に関する実用的なガイダンスを読者に提供することです。ツールボックスの例えを使うと、ドライバーと巻尺の使い方を読者に教えることになります。この本の各章は機械学習の方法に対応しています。

著者のダニー・フリードマンは、メソッドを学ぶ最良の方法はゼロから始めること（理論でもコードでも）だと言っています。そのため、この本の目的は、これらの導出プロセスを提供することです。各章は 3 つの部分に分かれています。最初に概念を紹介し、数学的なレベルから導出プロセスを示します。次に構築部分で Python をゼロから使用する方法を示します。最後に実装部分で、scikit-learn、statsmodels、tensorflow などの Python パッケージを使用してこれらの方法を適用する方法を紹介します。

この本は、機械学習の分野に不慣れな人や、アルゴリズムをより深く理解したい人を対象としています。本書の推論を読むことは、これまでアルゴリズムに馴染みのない読者が手法の背後にある原理を完全に理解するのに役立つかもしれません。また、モデリング経験のある読者がさまざまなアルゴリズムがどのようにモデル化されるかを理解し、各アルゴリズムの長所と短所を観察するのにも役立ちます。

章の紹介

この本の「概念」の部分を読む前に、読者は微積分学に精通している必要があります。一部の部分では、確率 (最大尤度とベイズの定理) と基本的な線形代数 (行列演算とドット積) の知識が必要になる場合があります。このセクションでは、一般的な機械学習手法（付録で紹介）もいくつか参照しますが、「概念」セクションではプログラミングの知識は必要ありません。

「構造」と「コード」のセクションでは、Python の知識が多少必要になります。「構築」部分では、対応するコンテンツ部分を理解し、Python の作成関数とクラスに精通している必要があります。これらの「コード」部分はいずれも必須ではありません。

書籍の全カタログは次のとおりです。

1. 通常の線形回帰

損失最小化の観点

尤度最大化の観点

2. 線形回帰の拡張

正規化回帰

ベイズ回帰

一般化線形モデル

3. 識別的分類

ロジスティック回帰

パーセプトロンアルゴリズム

フィッシャーの線形判別式

4. 生成的分類

線形および二次判別分析、ナイーブベイズ

5. 決定木

回帰木

分類ツリー

6. ツリーアンサンブル法

袋詰め

ランダムフォレスト

ブースト

7. ニューラルネットワーク

線形回帰は比較的単純な手法であり、用途も幅広いため、必ず習得すべきアルゴリズムの 1 つでもあります。

第 1 章では通常の線形回帰を紹介し、第 2 章では線形回帰の拡張に焦点を当てます。線形回帰は、さまざまなモデリングのニーズに合わせてさまざまな方法で拡張できます。正規化回帰では、過剰適合を避けるために回帰係数のサイズにペナルティが課されます。これは、ベイズ回帰が回帰係数に事前分布を適用して、これらのパラメータに関する既存の信念と新しいデータから得られた情報を調和させる、多数の予測変数を使用するモデルに特に効果的です。最後に、一般化線形モデル (GLM) は、想定される誤差構造を変更し、期待値を考慮することで、従来の線形回帰を拡張します。ターゲット変数は予測変数の非線形関数です。

分類器は教師あり学習アルゴリズムです。観察結果が 2 つ以上のグループのうちの 1 つに属しているかどうかを識別します。言い換えると、分類におけるターゲット変数は、連続した数値ではなく、クラスの有限セットを表します。たとえば、スパムの検出や手書きの数字の認識などです。

第 3 章と第 4 章では、それぞれ識別分類と生成分類について説明します。判別分類は、入力変数に基づいて観測変数を直接モデル化します。生成的分類では、入力変数を観測されたクラスの関数として考慮します。まず、観測値が特定のクラスに属する事前確率をモデル化します。次に、そのクラスに応じて入力変数を観測する確率が計算されます。最後に、ベイズの定理を使用して、特定のクラスに属する事後確率を解きます。ロジスティック回帰は唯一の判別分類器ではありません。この本では、パーセプトロンアルゴリズムとフィッシャーの線形判別法という 2 つの他の分類器も紹介しています。

第 5 章では、意思決定ツリーの構築方法を説明します。最初の部分では、ターゲット変数が定量的である回帰タスクについて説明します。2 番目の部分では、ターゲット変数がカテゴリ的である分類タスクについて説明します。

決定木は、回帰と分類のための解釈可能な機械学習手法です。ツリーは、選択された予測変数の値に基づいて、トレーニングデータのサンプルを繰り返し分割します。各分割の目的は、2 つのサブサンプル (つまり、「子」) を作成することです。ターゲット変数の純度は「父」の純度よりも高くなります。分類タスクの場合、純粋性とは、最初の子供が 1 つのカテゴリを観察し、2 番目の子供が主に他のカテゴリを観察することを意味します。回帰タスクの場合、純度とは、最初の子のターゲット変数値が高く、2 番目の子のターゲット変数値が低くなることを意味します。

以下は、ペンギンデータセットを使用した分類決定木の例です。

決定木は変動が大きいため、通常、他の予測アルゴリズムと同等の精度を達成できません。第 5 章では、剪定やサイズ変更など、単一の決定木の分散を最小限に抑えるためのいくつかの方法を紹介しました。第 6 章では、別のアプローチであるアンサンブル法について説明します。アンサンブル法は、複数の単純なモデルの出力を組み合わせて、分散の少ない最終モデルを作成します。アンサンブル法はツリーベースの学習者のコンテキストで紹介されていますが、さまざまな学習アルゴリズムに使用できます。この本では、著者は、バギング、ランダムフォレスト、ブースティングという 3 つのツリーベースのアンサンブル手法について説明しています。

第 7 章では、機械学習で話題となっている強力で多用途なモデルであるニューラルネットワークについて説明します。ニューラルネットワークは他のモデルよりも優れたパフォーマンスを発揮することが多いですが、思ったほど複雑ではありません。対照的に、ニューラルネットワークは、高度にパラメータ化された非線形構造を最適化することで、他のモデルでは検出が難しい微妙な関係をモデル化できるほど柔軟になります。

この章は次のように構成されています。

1. モデル構造

概要

レイヤー間の相互作用

活性化関数

2. 最適化

バックプロパゲーション

勾配の計算

結果を連鎖律と組み合わせる

3. 観察を組み合わせる

新しい表現

勾配