7つの主要カテゴリ、40を超える主要概念、機械学習を始める際に習得する必要があるすべての概念がここにあります

7つの主要カテゴリ、40を超える主要概念、機械学習を始める際に習得する必要があるすべての概念がここにあります

勉強すると、学んだことを忘れてしまい、忘れた後にまた学ぶという悪循環に陥ってしまう、そんな気持ちになったことはありませんか。全部学んだのに、思い出せないんです。時々、学びたいことを何でも脳にコピーできるように、頭の中に記憶装置を埋め込みたいと思うことがあります。それはどんなに素晴らしいことでしょう。

[[332174]]

機械学習はその一例です。多くの場合、私たちは学習プロセスで迷子になり、学習を続ける意欲を失ってしまいます。多くの概念を体系化する必要があります。しかし今日は、この分野をより早く理解するのに役立つ機械学習のすべての概念を紹介したいと思います。この投稿は、機械学習を始めたばかりの方にも、すでに実際に機械学習を使い始めている方にも適しています。

概要:

  1. モチベーション
  2. 分類
  3. 質問タイプ
  4. 親切
  5. パフォーマンス分析
  6. アルゴリズム
  7. デバッグ

さっそく始めましょう!

機械学習の概念

これらの各概念は、他のより小さな派生概念につながります。ここで、各用語の最も短くて簡単な定義を示します。

1. 動機

機械学習では、モデルとデータを比較するプロセスが動機によって決まるため、動機が重要です。機械学習の動機付けには 2 つのアプローチがあります。

  • 予測する。非線形モデルでは、ケルプの予測変数を入力として使用して結果を判別できると想定していますが、すべての入力が予測に影響を与えるわけではありません。たとえば、予測重視の観点は、「私の車は過大評価されているのか、過小評価されているのか」といった質問に答えるのに最適です。これに推論を適用すると、モデルの解釈可能性は大幅に低下します。
  • 推測する。線形モデルは、各入力が予測にどのように影響するかを区別するために使用されます。たとえば、「屋根なしで運転できる車の価格はいくらになるか」という質問に対する正確な答えが得られます。モデルの予測を比較することで、非線形予測よりも推論を理解しやすくなります。

2. 分類

他のことと同様に、機械学習アルゴリズムをトレーニングする方法はいくつかあり、それぞれに長所と短所があります。

  • 教師あり学習。タスク駆動型のアプローチでは、入力を出力にマッピングする一般的なルールを学習することを目的として、「教師」によってコンピューターにサンプル入力と望ましい出力が提供されます。
  • 教師なし学習。データ駆動型アプローチは、データ内の基礎となる構造や分布をモデル化することで、データについてさらに詳しく知ることを目的としています。これには、データ内の隠れたパターンを発見することと、目的を達成するための手段(特徴学習)となることの 2 つのタイプがあります。
  • 強化学習。このカテゴリは間違いからの学習に基づいており、報酬とペナルティのシステムを使用してアルゴリズムをトレーニングします。

3. 質問の種類

機械学習のカテゴリをさらに深く掘り下げると、次の 5 つのタイプの問題が存在します。

  • 戻る。連続的な応答値を予測する必要がある教師あり問題があります。回帰はデータに適合し、マップされたすべての特徴点に対する答えを出します。予測値が連続値に近づく傾向がある場合は、その値は下がります。たとえば、地域名、土地面積などを特徴として与え、その土地の予想コストを予測します。
  • 分類。データを分離することが主な目的である教師あり問題。予測値が「はい/いいえ」、「肯定的/否定的」などのカテゴリに分類される傾向がある場合、それは機械学習における分類問題です。たとえば、与えられた文が否定文か肯定文かを予測します。
  • クラスタ。類似するものを指定された数のクラスターにグループ化する教師なし問題。これらのスコアについては回答いたしません。例: 3、4、8、9 が与えられ、クラスターの数が 2 の場合、機械学習システムは指定されたセットをクラスター 1~3、4 とクラスター 2~8、9 に分割できます。
  • 密度推定。これは、観測されたデータに基づいて観測不可能な潜在的な確率密度関数を推定するものです。ある空間における入力の分布を見つけます。
  • 次元削減。入力をより低次元の空間にマッピングすることで簡素化します。

4. クラス

機械学習アルゴリズムは、パラメトリックとノンパラメトリックに分類できます。

  • パラメータ化 - パラメータの数は固定されており、次の 2 つのステップで実行されます。

ステップ 1: 関数 (f) の関数形式または形状、つまり f が線形であると仮定し、線形モデルを選択します。

ステップ 2: モデルを適合またはトレーニングするプログラムを選択します。これは線形関数のベータパラメータを推定することを意味します。一般的なアプローチは(通常の)最小二乗法です。

  • ノンパラメトリック - 柔軟な数のパラメータを使用します。通常、より多くのデータから学習するにつれてパラメータの数が増えていきます。これらの方法では f の推定問題を少数のパラメータに簡略化できないため、f の正確な推定値を得るには大量の観測データが必要になります。たとえば、薄板スプライン モデル。

5. パフォーマンス分析

アルゴリズムのパフォーマンス分析は、アルゴリズムに必要なスペースと時間を計算するプロセスです。アルゴリズムのパフォーマンス分析では、次の基準が使用されます。

  • 混同行列 - 真の値がわかっている一連のテスト データに対する分類モデル (または「分類子」) のパフォーマンスを説明するために一般的に使用される表。
  • 正確さ。正しい予測の一部。データセットのバランスが取れていない場合 (つまり、異なるクラスのサンプル数が大きく異なる場合) は信頼できません。
  • f1 スコア - テスト精度の別の尺度。次のように計算されます: 1) 精度 - 分類器が陽性とラベル付けしたすべての例のうち、正しい割合はどれくらいですか? 2) 再現率。すべての肯定的な例の中で、分類器はどのようなスコアを抽出しましたか?
  • ROC 曲線 - 受信者動作特性。真陽性率(再現率/感度)と偽陽性率(1-特異度)
  • バイアスと分散のトレードオフ - 一連の予測モデルの特性で、パラメータ推定値のバイアスが低いモデルはサンプル間でパラメータ推定値の分散が大きくなり、その逆も同様です。
  • 平均二乗誤差 (MSE) - 測定値の二乗誤差または偏差の平均、つまり推定値と推定値の差。
  • エラー率。分類設定では、推定モデルのエラー率関数はトレーニング観測数の関数になります。

6. アルゴリズム

ここからが機械学習の本当に楽しい部分です。機械学習を実践するためのヒントをいくつか紹介します。

  • 決定木学習 - さまざまな基準に基づいてデータセットを分割する方法を識別するアルゴリズムアプローチを通じて構築されます。
  • 相関ルール学習 - データ セット内の変数または機能間の重要な関係を発見できるルールベースの機械学習およびデータ マイニング手法。
  • 人工ニューラル ネットワーク - 脳などの生物学的神経系が情報を処理する方法にヒントを得た情報処理モデル。
  • ディープラーニング - ネットワークは、監督なしで非構造化データまたはラベルなしデータから学習できます。コンピューターにレイヤーを通して入力をフィルタリングし、情報を予測および分類する方法を学習させます。
  • 帰納的論理プログラミング - 背景知識や仮定などの統一された表現として論理プログラミングを使用します。
  • サポート ベクター マシン - 分類と回帰分析のためにデータを分析します。
  • クラスタリング - 同じグループ (クラスターと呼ばれる) 内のオブジェクトが、他のグループ (クラスター) 内のオブジェクトよりも (ある意味で) 互いに類似するように、一連のオブジェクトをグループ化するタスク。
  • ベイジアン ネットワーク - 有向非巡回グラフを介して変数のセットとその条件依存関係を表す確率的グラフィカル モデル。
  • 強化学習 - 環境と相互作用することで学習します。
  • 特徴学習 - 生データから特徴の検出または分類に必要な表現を発見できます。
  • 類似性とメトリック学習 - 2 つのオブジェクト間の類似性を測定する関数を学習します。
  • スパース辞書学習 - 入力データのスパース表現の基底要素の線形結合を見つけることを目的とします。
  • 遺伝的アルゴリズム - 自然選択プロセスにヒントを得たメタヒューリスティックアルゴリズム。
  • ルールベースの機械学習 - ラベル付けされたテキストとその感情のコーパスを使用して予測を行うデータ駆動型のアプローチ。
  • 学習分類システム - 発見コンポーネントと学習コンポーネントを組み合わせます。

7. デバッグ

デバッグは、学習アルゴリズムに最適なハイパーパラメータのセットを選択する問題です。そのコンポーネントは次のとおりです。

クロス検証 — 統計分析の結果が独立したデータ セットにどの程度一般化できるかを評価するために使用される手法。クロス検証の 1 ラウンドでは、データ サンプルを補完的なサブセットに分割し、一方のサブセット (トレーニング セットと呼ばれる) で分析を実行し、もう一方のサブセット (検証セットまたはテスト セットと呼ばれる) で分析を検証します。

方法: Leave-p-out 交差検証、Leave-one-out 交差検証、k 分割交差検証、ホールドアウト法、および繰り返しランダムサンプリング検証。

ハイパーパラメータ - 学習プロセスを制御するために使用される値を持つパラメータ。対照的に、他のパラメータ(通常はノードの重み)の値はトレーニングを通じて学習されます。以下の方法を使用して最適化できます。

1) グリッド検索。従来のアプローチは、学習アルゴリズムのハイパーパラメータ空間の手動で指定されたサブセットを単純に徹底的に検索することです。

2) ランダム検索。単純にパラメータ設定をサンプリングし、高次元空間ではこれを固定回数実行する方が網羅的な検索よりも効率的であることがわかります。

3) 勾配ベースの最適化。特定の学習アルゴリズムでは、ハイパーパラメータに関する勾配を計算し、勾配降下法を使用してハイパーパラメータを最適化できます。

正規化 (早期停止) - 早期停止ルールは、学習者が過剰適合を開始する前に何回反復を実行できるかをガイドし、その後アルゴリズムを停止します。

過剰適合。これは、モデルがトレーニング データ内の詳細とノイズを学習するときに発生し、新しいデータに対するモデルのパフォーマンスにある程度影響します。

アンダーフィッティング。これは、モデルがトレーニング データから「学習不足」になり、一般化が不十分になり、予測の信頼性が低下する場合です。

ガイド。これは、復元を伴うランダム サンプリングを使用するテストまたは測定であり、より広いカテゴリの再サンプリング方法に該当します。ブートストラップ法は、サンプル推定値に精度の尺度(バイアス、分散、信頼区間、予測誤差など)を割り当てます。

袋詰め。これは、多数の決定木の予測を組み合わせたアンサンブル機械学習アルゴリズムです。

要約する

上記の内容は基本的に機械学習の知識ポイントを全て網羅しています。学んだことを復習しないと、ある日完全に忘れてしまう可能性があります。上記の内容がお役に立てれば幸いです〜

<<:  AI 開発者: AI 分野を選択するには?

>>:  人工知能のシンギュラリティに関する考察: 超知能 AI の倫理的問題は無視できない

ブログ    
ブログ    
ブログ    

推薦する

...

「林季」が中国国際サービス貿易交易会に登場しました! Orange Cloud AIエコシステムが従来の産業の束縛を打ち破る

9月3日午後、「オレンジクラウドテクノロジーイノベーションプラットフォームが産業企業のデジタル変革を...

いつ仕事を辞めるかを予測できる 9 つの AI 活用例

[51CTO.com 速訳] 人工知能は今や脂身の多い肉となり、誰もがそれを利用し、人工知能の真髄を...

プログラミングと数学の基礎が乏しい場合、人工知能を始めるにはどうすればよいでしょうか?

1. AI開発の現状1.1 コンセプトWikipedia によると、人工知能とは、人間や他の動物の...

マイクロソフトアジアリサーチは、知識蒸留を使用して小さなViTを改善するTinyMIMを提案

1. 研究の動機マスクモデリング (MIM、MAE) は、非常に効果的な自己教師ありトレーニング方法...

マイクロソフトのグローバル副社長ハリー・シャム氏:AIは社会変革を極限まで推し進める

[[248704]] 11月6日午前のニュース、第20回「21世紀のコンピューティング」学術セミナー...

...

...

人工知能:今優先すべき7つの役割

近年の退職者の急増は、労働力不足が現実であることを示している。セントルイス連邦準備銀行の調査によると...

...

5Gは19の業界に浸透?これらの5つの分野はもっと注目に値する

2019年、「5G」は大いに期待されるテクノロジーの流行語となり、その人気は間違いなく人工知能に劣り...

...

Weilingsi チームは、グラフ同型性の下での同変性と高い計算効率を備えた「自然グラフ ネットワーク」メッセージ パッシング メソッドを提案しました。

最近、ウェリングスチームによる研​​究では、グラフの局所的な対称性を研究することで新しいアルゴリズム...