5分でトップ10の機械学習アルゴリズムを学ぶ

[[317656]]

機械学習は業界にとって革新的で重要な分野です。機械学習プログラムに選択するアルゴリズムの種類は、達成したい目標によって異なります。

現在、機械学習のためのアルゴリズムは数多く存在します。したがって、このような多数のアルゴリズムは初心者にとっては非常に圧倒的になる可能性があります。今日は、機械学習のこのエキサイティングな世界に慣れていただけるよう、最も人気のある機械学習アルゴリズム 10 個について簡単に説明します。

話を元に戻しましょう！

1. 線形回帰

線形回帰はおそらく最も人気のある機械学習アルゴリズムです。線形回帰は直線を見つけ、その直線を散布図のデータポイントにできるだけ近づけることです。直線の方程式をそのデータに当てはめることによって、独立変数 (x 値) と数値結果 (y 値) を表現しようとします。この線は将来の値を予測するために使用できます。

このアルゴリズムで最も一般的に使用される手法は最小二乗法です。この方法では、線上の各データポイントまでの垂直距離を最小化する最適な線を計算します。合計距離は、すべてのデータポイントの垂直距離 (緑の線) の二乗の合計です。この二乗誤差または距離を最小化することでモデルを適合させるという考え方です。

たとえば、単回帰分析では、独立変数（x軸）が1つと従属変数（y軸）が1つあります。

2. ロジスティック回帰

ロジスティック回帰は線形回帰に似ていますが、出力がバイナリの場合（つまり、結果が 2 つの値しか取れない場合）に使用されます。最終出力の予測は、ロジスティック関数 g() と呼ばれる非線形 S 字型関数です。

このロジスティック関数は、中間結果値を 0 ～ 1 の範囲の結果変数 Y にマッピングします。これらの値は、Y が発生する確率として解釈できます。シグモイドロジスティック関数の特性により、ロジスティック回帰は分類タスクにより適したものになります。

試験に合格する確率と勉強に費やした時間の関係を示すロジスティック回帰プロット。

3. 決定木

決定木は、回帰タスクと分類タスクの両方に使用できます。

このアルゴリズムでは、トレーニングモデルはツリー表現の決定ルールを学習することによって、ターゲット変数の値を予測することを学習します。ツリーは、対応する属性を持つノードで構成されます。

各ノードでは、利用可能な機能に基づいてデータに関する質問をします。左と右の枝は可能な答えを表します。最終ノード（つまり、リーフノード）は予測値に対応します。

各機能の重要性はトップダウンアプローチによって決定されます。ノードが上位になるほど、その属性の重要性が高まります。

レストランで待つかどうかを決めるための意思決定ツリーの例。

4. ナイーブベイズ

ナイーブベイズはベイズの定理に基づいています。各クラスの確率と、x の値が与えられた場合の各クラスの条件付き確率を測定します。このアルゴリズムは分類問題に使用され、バイナリの「はい/いいえ」の回答を生成します。以下の式を見てください。

ナイーブベイズ分類器は、スパムをフィルタリングするために使用できる一般的な統計手法です。

5. サポートベクターマシン (SVM)

サポートベクターマシン (SVM) は、分類問題のための教師ありアルゴリズムです。 SVM は、データポイント間に最大マージンを持つ 2 本の線を描画しようとします。これを行うには、データ項目を n 次元空間内の点としてプロットします。ここで、n は入力特徴の数です。これを基に、サポートベクターマシンは、クラスラベルによって可能な出力を最適に分離する、ハイパープレーンと呼ばれる最適な境界を見つけます。

超平面と最も近いクラスポイント間の距離をマージンと呼びます。最適な超平面は、最も近いデータポイントと両方のクラス間の距離が最大になるようにポイントを分類するためのマージンが最大になります。

たとえば、H1 は 2 つのクラスを分離しません。しかし、H2 はそうしますが、その差はごくわずかです。そして、H3 はそれらを最大のマージンで分離します。

6. K近傍法アルゴリズム（KNN）

K-近傍法 (KNN) アルゴリズムは非常にシンプルです。 KNN は、トレーニングセット全体で K 個の最も類似したインスタンス、つまり K 個の近傍を検索し、これらすべての K 個のインスタンスに共通の出力変数を割り当てることによって、オブジェクトを分類します。

K の選択は重要です。値が小さいとノイズが多くなり、結果が不正確になる可能性がありますが、値が大きいと実行不可能になります。これは分類に最もよく使用されますが、回帰問題にも適用できます。

インスタンス間の類似性を評価するために使用される距離は、ユークリッド距離、マンハッタン距離、またはミンコフスキー距離です。ユークリッド距離は、2 点間の通常の直線距離です。実際には、点の座標間の差の二乗の合計の平方根です。

KNN分類の例

7. K平均法

K-means はデータを分類してクラスタ化します。たとえば、このアルゴリズムを使用して、購入履歴に基づいてユーザーをグループ化できます。データセット内の K 個のクラスターを検出します。 K 平均法は教師なし学習に使用されるため、トレーニングデータ X と識別するクラスターの数 K のみを使用する必要があります。

アルゴリズムは、各データポイントをその特性に基づいて K グループの 1 つに繰り返し割り当てます。各 K クラスターに対して K 個のポイント (重心と呼ばれる) を選択します。類似性に基づいて、最も近い重心を持つクラスターに新しいデータポイントが追加されます。このプロセスは、重心の変化が止まるまで続きます。

8. ランダムフォレスト

ランダムフォレストは、非常に人気のあるアンサンブルマシンラーニングアルゴリズムです。このアルゴリズムの基本的な考え方は、1 人の個人の意見よりも、多数の人の意見の方が正確であるということです。ランダムフォレストでは、決定木のアンサンブルを使用します (決定木を参照)。

新しいオブジェクトを分類するには、各決定ツリーから投票を行い、その結果を組み合わせて、多数決に基づいて最終決定を下します。

(a) トレーニング中、各決定木はトレーニングセットのブートストラップサンプルに基づいて構築されます。

（b）分類中、入力インスタンスに関する決定は多数決に基づいて行われます。

9. 次元削減

機械学習の問題は、今日収集できる膨大な量のデータによってさらに複雑になっています。つまり、トレーニングは非常に遅く、適切な解決策を見つけるのが困難です。この問題はしばしば「次元の呪い」と呼ばれます。

次元削減は、最も重要な情報を失うことなく、特定の特徴をより高いレベルの特徴に結合することによってこの問題に対処しようとします。主成分分析 (PCA) は、最も一般的な次元削減手法です。

主成分分析は、データセットを低次元の線または超平面/部分空間に圧縮することで、データセットの次元を削減します。これにより、元のデータの顕著な特徴が可能な限り保持されます。

すべてのデータポイントを直線に近似することによって実現できる次元削減の例。

10. 人工ニューラルネットワーク（ANN）

人工ニューラルネットワーク (ANN) は、大規模で複雑な機械学習タスクを処理できます。ニューラルネットワークは、本質的には、ニューロンと呼ばれる重み付けされたエッジとノードの相互接続されたレイヤーのセットです。入力層と出力層の間に、複数の隠し層を挿入できます。人工ニューラルネットワークは 2 つの隠れ層を使用します。それ以外にも、ディープラーニングに対処する必要があります。

人工ニューラルネットワークの動作原理は脳の構造に似ています。ニューロンのグループにはランダムな重みが割り当てられ、それによってニューロンが入力データを処理する方法が決まります。ニューラルネットワークは入力データに基づいてトレーニングされ、入力と出力の関係を学習します。トレーニングフェーズでは、システムは正しい回答にアクセスできます。

ネットワークが入力を正確に認識しない場合、システムは重みを調整します。十分なトレーニングを行えば、常に正しいパターンを識別できるようになります。

各円形ノードは人工ニューロンを表し、矢印は 1 つの人工ニューロンの出力から別の人工ニューロンの入力への接続を表します。

次は何ですか？これで、最も人気のある機械学習アルゴリズムの基本的な紹介が完了しました。より複雑な概念を学習し、徹底的な実践を通じてそれを実装する準備が整いました。これらのアルゴリズムの実装方法を学習したい場合は、Educative の Grokking Data Science コースをご覧ください。このコースでは、これらの興味深い理論を明確で実際のアプリケーションに適用します。

楽しい学習をお願いします！

<<: Googleの新しいアルゴリズムのおかげで、ロボットが歩くことを学習するのに平均3.5時間しかかからない。

>>: 2D画像が3Dになる、マイクロソフトの新しいAIフレームワークはゲーム業界に恩恵をもたらすかもしれない