ここ数か月間、データサイエンスの世界にチャレンジして、機械学習の技術を使って統計パターンを発見し、完璧なデータ駆動型製品を構築したいという熱意を語る人が何人か私に連絡してきました。しかし、有用な結果を得るために必要な数学的な直感と知識の枠組みが実際には欠けている人もいることに気づきました。これが私がこのブログ記事を書こうと決めた主な理由です。最近では、scikit-learn、Weka、Tensorflow など、使いやすい機械学習やディープラーニングのパッケージが数多く登場しています。機械学習理論は、統計、確率、コンピューター サイエンス、アルゴリズムの学際的な分野です。データからの反復学習を通じて、インテリジェントなアプリケーションの構築に使用できる隠れた知識を発見することを目的としています。機械学習とディープラーニングの可能性は無限ですが、アルゴリズムの内部の仕組みをよりよく把握し、より良い結果を得るためには、これらの技術のほとんどを数学的に徹底的に理解することが必要です。 ロジスティック回帰とニューラルネットワークのコスト関数の計算方法 なぜ数学を重視する必要があるのでしょうか? 機械学習における数学は多くの理由で重要ですが、そのいくつかを以下に挙げます。 1. 精度、トレーニング時間、モデルの複雑さ、パラメータの数、機能の数を考慮して、適切なアルゴリズムを選択します。 2. パラメータ設定と検証戦略を選択します。 3. バイアスと分散のトレードオフを理解することで、アンダーフィッティングとオーバーフィッティングを識別します。 4. 正しい信頼区間と不確実性を推定します。 どの程度のレベルの数学が必要ですか? 機械学習 (ML) のような学際的なテーマを理解しようとする場合、主な問題は、これらの技術を理解するために必要な数学的知識の量とレベルです。この質問に対する答えは多面的であり、個人のレベルや興味によって異なります。機械学習における数式や理論の進歩が研究されており、より高度な技術に取り組んでいる研究者もいます。以下では、機械学習の科学者/エンジニアになるために必要な最低限の数学のレベルと、それぞれの数学の概念の重要性について説明します。 1. 線形代数: 私の同僚の 1 人である Skyler Speakman が最近、「線形代数は 21 世紀の数学である」と述べましたが、私もまったく同感です。機械学習の分野では、線形代数はあらゆるところに存在します。主成分分析 (PCA)、特異値分解 (SVD)、行列の固有分解、LU 分解、QR 分解、対称行列、直交化と正規直交化、行列演算、射影、固有値と固有ベクトル、ベクトル空間とノルムはすべて、機械学習で使用される最適化手法を理解するために必要です。線形代数に関するオンライン リソースがこんなにたくさんあるとは驚きです。私は、インターネット上で利用できるリソースが膨大にあるため、伝統的な教室は消滅しつつあると常々言ってきました。私のお気に入りの線形代数コースは、MIT Courseware が提供するコース (Gilbert Strang 教授による) です: http://ocw.mit.edu/courses/mathematics/18-06-linear-algebra-spring-2010/ 2. 確率と統計: 機械学習と統計は完全に異なる分野ではありません。実際、最近、機械学習を「機械で統計を行う」と定義した人がいました。機械学習に必要な確率と統計の理論には、組み合わせ、確率の規則と公理、ベイズの定理、ランダム変数、分散と期待値、条件付き分布と結合分布、標準分布(ベルヌーイ分布、二項分布、多項分布、一様分布、ガウス分布)、モーメント生成関数、最大尤度推定(MLE)、事前分布と事後分布、最大事後推定(MAP)、サンプリング方法などがあります。 3. 多変数微積分: 重要なトピックには、微分と積分、偏微分、ベクトル値関数、方向勾配、ヘッセ行列、ヤコビ行列、ラプラス分布、ラグランジュ分布などがあります。 4. アルゴリズムと複雑な最適化: これは、機械学習アルゴリズムの計算効率とスケーラビリティを理解し、データセットのスパース性を活用するために重要です。必要な知識には、データ構造 (バイナリ ツリー、ハッシュ、ヒープ、スタックなど)、動的プログラミング、ランダム化アルゴリズムとサブ線形アルゴリズム、グラフ理論、勾配/確率的降下法、主双対法などがあります。 5. その他: 上記の 4 つの主要領域でカバーされていない数学のトピックが含まれます。これらは、実数および複素解析 (集合とシーケンス、トポロジー、距離空間、一値連続関数、極限)、情報理論 (エントロピーと情報ゲイン)、関数空間、および多様体学習です。 機械学習に必要な数学のトピックを学習するための MOOC と教材は次のとおりです (リンクは圧縮されています)。
このブログ投稿の主な目的は、機械学習における数学の重要性、いくつかの重要な数学のトピック、およびこれらのトピックを習得するためのいくつかの便利なリソースについて、いくつかの良いアドバイスを提供することです。しかし、機械学習愛好家の中には数学に不慣れな人もいるので、このブログを残念に思う人もいるかもしれません (本当に、そう思うつもりはありません)。初心者の場合、機械学習の研究を始めるのに多くの数学の知識は必要ありません。基本的な受講前提条件は、このブログ記事で説明されているデータ分析であり、学習を進めながら数学を学び、より多くのテクニックとアルゴリズムを習得することができます。 [この記事は、51CTOコラムニストのMachine Heart、WeChatパブリックアカウント「Machine Heart(id:almosthuman2014)」によるオリジナル翻訳です] この著者の他の記事を読むにはここをクリックしてください |
<<: LZ77 圧縮アルゴリズム エンコーディング Python 実装原理図
>>: AI陣営を理解するためのチャート: AIを学んで間違った側に立つと自滅につながる可能性がある
安全性について話すと、誰もが必ずそれに共感します。時代の急速な発展に伴い、人々の個人的な安全がますま...
[[405703]]最近、アメリカの有名なテクノロジー調査・コンサルティング会社であるガートナーは、...
7月4日、OpenAIのチャットボットChatGPTは先週、「Browse with Bing」とい...
[[282830]]視覚的な想像力は人間が生まれながらに持っているものです。AI は同様の能力を持...
最近、P2Pプラットフォームが頻繁に崩壊していることから、インターネット金融プラットフォームの長期的...
研究者たちは人工知能を使って、サンディエゴ郡の地元の高齢者住宅コミュニティの住民の孤独感を正確に予測...
自然言語処理 (NLP) システムのコアコンポーネントとして、言語モデルは単語表現と単語シーケンスの...
この記事の著者は、R、Python、MATLAB、OCTAVE の 4 つの機械学習プログラミング言...
[[324253]] 01 自動運転車社会科学者は、郊外化、汚染、自由、家族旅行、命の喪失、救われ...
[[408715]] 1. はじめに1.1 研究の背景インターネットと個人用スマート端末の普及と幅広...
結核は古代の呼吸器感染症として人類の歴史を通じて存在し、何億人もの命を奪い、「白ペスト」として知られ...
数日前、ChatGPTの最も強力なライバルであるClaudeが第2世代にアップグレードされ、Goog...