95歳のハーバード大学出身者が、機械学習をゼロから始めるための必読書を執筆しました。本のリソースは現在公開されています。

95歳のハーバード大学出身者が、機械学習をゼロから始めるための必読書を執筆しました。本のリソースは現在公開されています。

機械学習を始める最も簡単な方法は何ですか?今年ハーバード大学で統計学の学位を取得したばかりのダニー・フリードマン氏が、基礎知識がなくても簡単に始められる「専攻を変更する学生のための教科書」を執筆しました。すべてのリソースが公開されています。

機械学習の入門書となると、おそらく何百もの選択肢があるでしょう。これらの本のほとんどは、豊富な研究経験を持つ学者によって書かれており、さまざまなトピックを扱っています。

「読書は有益」ということわざがありますが、専攻を変えたい初心者にとっては、この新しい本の方が始めるのに適しているかもしれません。

最近、ハーバード大学を卒業した若者が、機械学習を始めた自身の経験に基づいて「Machine Learning from Scratch」という本を執筆しました。

本のアドレス: https://dafriedman97.github.io/mlbook/content/introduction.html

この本は、機械学習の分野で最も一般的な方法をカバーしており、初心者向けの機械学習エンジニアのツールボックスのようなものです。この記事の目的は、基本的な機械学習アルゴリズムを独自に構築する方法に関する実用的なガイダンスを読者に提供することです。ツールボックスの例えを使うと、ドライバーと巻尺の使い方を読者に教えることになります。この本の各章は機械学習の方法に対応しています。

[[344861]]

著者のダニー・フリードマンは、メソッドを学ぶ最良の方法はゼロから始めること(理論でもコードでも)だと言っています。そのため、この本の目的は、これらの導出プロセスを提供することです。各章は 3 つの部分に分かれています。最初に概念を紹介し、数学的なレベルから導出プロセスを示します。次に構築部分で Python をゼ​​ロから使用する方法を示します。最後に実装部分で、scikit-learn、statsmodels、tensorflow などの Python パッケージを使用してこれらの方法を適用する方法を紹介します。

この本は、機械学習の分野に不慣れな人や、アルゴリズムをより深く理解したい人を対象としています。本書の推論を読むことは、これまでアルゴリズムに馴染みのない読者が手法の背後にある原理を完全に理解するのに役立つかもしれません。また、モデリング経験のある読者がさまざまなアルゴリズムがどのようにモデル化されるかを理解し、各アルゴリズムの長所と短所を観察するのにも役立ちます。

章の紹介

この本の「概念」の部分を読む前に、読者は微積分学に精通している必要があります。一部の部分では、確率 (最大尤度とベイズの定理) と基本的な線形代数 (行列演算とドット積) の知識が必要になる場合があります。このセクションでは、一般的な機械学習手法(付録で紹介)もいくつか参照しますが、「概念」セクションではプログラミングの知識は必要ありません。

「構造」と「コード」のセクションでは、Python の知識が多少必要になります。 「構築」部分では、対応するコンテンツ部分を理解し、Python の作成関数とクラスに精通している必要があります。これらの「コード」部分はいずれも必須ではありません。

書籍の全カタログは次のとおりです。

1. 通常の線形回帰

損失最小化の観点

尤度最大化の観点

2. 線形回帰の拡張

正規化回帰

ベイズ回帰

一般化線形モデル

3. 識別的分類

ロジスティック回帰

パーセプトロンアルゴリズム

フィッシャーの線形判別式

4. 生成的分類

線形および二次判別分析、ナイーブベイズ

5. 決定木

回帰木

分類ツリー

6. ツリーアンサンブル法

袋詰め

ランダムフォレスト

ブースト

7. ニューラルネットワーク

線形回帰は比較的単純な手法であり、用途も幅広いため、必ず習得すべきアルゴリズムの 1 つでもあります。

第 1 章では通常の線形回帰を紹介し、第 2 章では線形回帰の拡張に焦点を当てます。線形回帰は、さまざまなモデリングのニーズに合わせてさまざまな方法で拡張できます。正規化回帰では、過剰適合を避けるために回帰係数のサイズにペナルティが課されます。これは、ベイズ回帰が回帰係数に事前分布を適用して、これらのパラメータに関する既存の信念と新しいデータから得られた情報を調和させる、多数の予測変数を使用するモデルに特に効果的です。最後に、一般化線形モデル (GLM) は、想定される誤差構造を変更し、期待値を考慮することで、従来の線形回帰を拡張します。ターゲット変数は予測変数の非線形関数です。

分類器は教師あり学習アルゴリズムです。観察結果が 2 つ以上のグループのうちの 1 つに属しているかどうかを識別します。言い換えると、分類におけるターゲット変数は、連続した数値ではなく、クラスの有限セットを表します。たとえば、スパムの検出や手書きの数字の認識などです。

第 3 章と第 4 章では、それぞれ識別分類と生成分類について説明します。判別分類は、入力変数に基づいて観測変数を直接モデル化します。生成的分類では、入力変数を観測されたクラスの関数として考慮します。まず、観測値が特定のクラスに属する事前確率をモデル化します。次に、そのクラスに応じて入力変数を観測する確率が計算されます。最後に、ベイズの定理を使用して、特定のクラスに属する事後確率を解きます。ロジスティック回帰は唯一の判別分類器ではありません。この本では、パーセプトロン アルゴリズムとフィッシャーの線形判別法という 2 つの他の分類器も紹介しています。

第 5 章では、意思決定ツリーの構築方法を説明します。最初の部分では、ターゲット変数が定量的である回帰タスクについて説明します。2 番目の部分では、ターゲット変数がカテゴリ的である分類タスクについて説明します。

決定木は、回帰と分類のための解釈可能な機械学習手法です。ツリーは、選択された予測変数の値に基づいて、トレーニング データのサンプルを繰り返し分割します。各分割の目的は、2 つのサブサンプル (つまり、「子」) を作成することです。ターゲット変数の純度は「父」の純度よりも高くなります。分類タスクの場合、純粋性とは、最初の子供が 1 つのカテゴリを観察し、2 番目の子供が主に他のカテゴリを観察することを意味します。回帰タスクの場合、純度とは、最初の子のターゲット変数値が高く、2 番目の子のターゲット変数値が低くなることを意味します。

以下は、ペンギン データセットを使用した分類決定木の例です。

決定木は変動が大きいため、通常、他の予測アルゴリズムと同等の精度を達成できません。第 5 章では、剪定やサイズ変更など、単一の決定木の分散を最小限に抑えるためのいくつかの方法を紹介しました。第 6 章では、別のアプローチであるアンサンブル法について説明します。アンサンブル法は、複数の単純なモデルの出力を組み合わせて、分散の少ない最終モデルを作成します。アンサンブル法はツリーベースの学習者のコンテキストで紹介されていますが、さまざまな学習アルゴリズムに使用できます。この本では、著者は、バギング、ランダムフォレスト、ブースティングという 3 つのツリーベースのアンサンブル手法について説明しています。

第 7 章では、機械学習で話題となっている強力で多用途なモデルであるニューラル ネットワークについて説明します。ニューラル ネットワークは他のモデルよりも優れたパフォーマンスを発揮することが多いですが、思ったほど複雑ではありません。対照的に、ニューラル ネットワークは、高度にパラメータ化された非線形構造を最適化することで、他のモデルでは検出が難しい微妙な関係をモデル化できるほど柔軟になります。

この章は次のように構成されています。

1. モデル構造

概要

レイヤー間の相互作用

活性化関数

2. 最適化

バックプロパゲーション

勾配の計算

結果を連鎖律と組み合わせる

3. 観察を組み合わせる

新しい表現

勾配

その他の推奨リソース

さらに、著者は機械学習理論に関する古典的な入門書 3 冊も推奨しており、これらもインターネット上で無料のリソースとして入手できます。

1. 統計学習入門:R に基づくアプリケーション

リソースアドレス: http://faculty.marshall.usc.edu/gareth-james/ISL/

2. 統計学習の要素: データマイニング、推論、予測

リソースアドレス: https://web.stanford.edu/~hastie/ElemStatLearn/

3. パターン認識と機械学習

リソース アドレス: https://www.microsoft.com/en-us/research/publication/pattern-recognition-machine-learning/

<<:  SMOTE アルゴリズムを使用せずに、マルチクラスの不均衡なデータをどのように処理できますか?

>>:  中国 NeurIPS の著者の 54% が米国へ:ケンブリッジ AI パノラマ レポートが発表

ブログ    
ブログ    

推薦する

...

8x7B MoEとFlash Attention 2を組み合わせることで、10行未満のコードで高速推論が可能になります。

少し前に、Mistral AI がリリースした Mixtral 8x7B モデルがオープンソース コ...

人工知能やロボットが新たなスターとなった分野はどこでしょうか?

[[252297]] 8月15日から19日まで、世界ロボット会議が北京市宜荘で成功裏に終了しました...

人工知能、機械学習、アルゴリズムが施設・資産管理に与える影響

急速に進化する今日のテクノロジーの世界では、「人工知能」、「機械学習」、「アルゴリズム」などの用語が...

2021 年の人工知能のトップ 10 トレンド

コロナウイルスのパンデミック以前、AI業界は2020年に大きな成長を遂げると予想されていました。 2...

無人公共交通機関が議題に上がっており、自動運転はまだ改善の余地がある

10月21日、蘇州で5G無人バスの定期運行が開始された。蘇州高速鉄道新城でデビューしたこの無人バスは...

生成 AI、その開発は持続可能か?

シャム・ナンダン・ウパディヤイノアが編集制作:51CTO テクノロジースタック(WeChat ID:...

ChatGPTを旅の途中のプロンプトジェネレーターに変える

ChatGPT は Midjourney 画像生成のテンプレートとして使用できると結論付けられました...

TensorFlow を使用して機械学習モデルを構築する方法

[[432744]] TensorFlow は、Google が開発し、2015 年にオープンソース...

4Paradigm が分子特性予測のための生成型 3D 事前トレーニング済みモデルを開発

論文タイトル: 分子特性予測のための自動 3D 事前トレーニング論文リンク: https://arx...

頻繁にミスを犯す自動運転車は「ドメイン適応」が欠如している可能性がある

6月に開催されるCVPR 2019は、マシンビジョン分野で最も重要な学術会議です。選考結果が発表され...

AIへの幻滅? AIの発展を妨げる8つのトレンド

それは「もし」ではなく「いつ」の問題です。以前の記事では、AI が革新的な可能性においてこれまでのテ...

人間の農業の将来は主にロボットに依存することになるのでしょうか?基本的に人間の介入は必要ありません

予想外のことが起こらなければ、人類は人工知能の時代へと急速に進んでいくだろう。ウェイター、宅配便業者...

インテリジェントロボット:伝染病との戦いを強化し、スマート医療への道を探る

ビッグデータ技術は画像認識や遺伝子配列解析などの分野で先駆的な役割を果たしており、インテリジェントロ...