機械学習アルゴリズムに関する 16 のヒント

スイスアーミーナイフについて聞いたことがあるかもしれません。そうでない場合は、下の図をご覧ください。たくさんの刃物や道具が入っています。それぞれが特定のタスクに特化しています。場合によっては、異なるブレードで同じタスクを実行できますが、パフォーマンスは異なります。

> PixabayのPublicDomainPicturesによる画像

私は機械学習アルゴリズムをスイスアーミーナイフだと考えています。さまざまなアルゴリズムが存在します。一部のタスクでは特定のアルゴリズムの使用が必要ですが、一部のタスクはさまざまなアルゴリズムを使用して実行できます。パフォーマンスは、タスクとデータの特性によって異なる場合があります。

この記事では、アルゴリズムをより深く理解するのに役立つと思われる 16 のヒントを紹介します。私の目的は、アルゴリズムがどのように機能するかを詳しく説明することではありません。むしろそれらについていくつかのヒントや詳細を伝えたいと思います。

いくつかのヒントは、アルゴリズム固有のものではなく、より一般的なものになります。たとえば、対数損失はすべての分類アルゴリズムに関連付けられたコスト関数です。

アルゴリズムの基本的な理解があることを前提としています。そうでない場合でも、後で使用するためにいくつかの詳細を選択できます。

始めましょう。

1. サポートベクターマシン（SVM）のCパラメータ

SVM の C パラメータは、誤分類されたデータポイントごとにペナルティを追加します。 c が小さい場合、誤分類されたポイントに対するペナルティは低くなるため、誤分類の数が増える代わりに、より大きなマージンを持つ決定境界が選択されます。

c が大きい場合、SVM は高いペナルティにより誤分類された例の数を最小限に抑えようとし、その結果、決定境界のマージンが小さくなります。ペナルティは、誤分類されたすべての例に対して同じではありません。決定境界までの距離に比例します。

2. RBFカーネルを用いたSVMのガンマパラメータ

RBF カーネルを使用した SVM のガンマパラメーターは、単一のトレーニングポイントの影響距離を制御します。ガンマ値が低いほど類似半径が大きくなり、グループ化されるポイントの数が多くなります。

ガンマ値が高い場合、ポイントが同じグループ (またはクラス) と見なされるには、ポイントが互いに非常に近い必要があります。したがって、ガンマ値が非常に大きいモデルは過剰適合する傾向があります。

3. ロジスティック回帰が線形モデルとなる理由

ロジスティック回帰の基礎は、シグモイド関数とも呼ばれるロジスティック関数であり、任意の実数値を取り、それを 0 から 1 の間の値にマッピングします。

> (著者撮影)

これは非線形関数ですが、ロジスティック回帰は線形モデルです。

シグモイド関数から線形方程式を得る方法は次のとおりです。

> (著者撮影)

両辺の自然対数をとります。

> (著者撮影)

式（1）では、xの代わりに線形方程式zを使用することができます。

> (著者撮影)

すると、式（１）は次のようになる。

> (著者撮影)

y は正の分類の確率であると仮定します。 0.5 の場合、上式の右辺は 0 になります。

これで、解くべき線形方程式ができました。

4. PCAにおける主成分

PCA (主成分分析) は線形次元削減アルゴリズムです。 PCA の目的は、できるだけ多くの情報を保持しながら、データセットの次元 (特徴の数) を削減することです。

情報量は分散によって測定されます。分散の大きい特徴は、データについてより多くの情報を伝えます。

主成分は、元のデータセットの特徴の線形結合です。

5. ランダムフォレスト

ランダムフォレストは、バギングと呼ばれる方法を使用して構築されます。この方法では、各決定木が並列推定器として使用されます。

ランダムフォレストの成功は、相関のない決定木の使用に大きく依存します。同じまたは非常に類似したツリーを使用すると、全体的な結果は単一の決定木の結果と区別がつかなくなります。ランダムフォレストは、ブートストラップと特徴のランダム性を通じて相関のない決定木を実現します。

> (著者撮影)

6. 勾配ブースティング決定木 (GBDT)

GBDT はブースティング方式を使用して個々の決定木を組み合わせます。ブースティングとは、一連の学習アルゴリズムを連続的に連鎖させて、連続的に接続された多数の弱い学習者から強い学習者を取得することを意味します。

各ツリーは、前のツリーの残差に適合されます。バギングとは異なり、ブースティングではブートストラップサンプリングは行われません。新しいツリーが追加されるたびに、そのツリーは初期データセットの修正バージョンに適合されます。

> (著者撮影)

7. ランダムフォレストとGBDTのツリーの数を増やす

ランダムフォレスト内のツリーの数を増やしても、過剰適合は発生しません。ある時点を超えると、ツリーを追加してもモデルの精度は向上しませんが、ツリーを追加しすぎても悪影響はありません。計算上の理由から、不必要なツリーを追加したくはありませんが、ランダムフォレスト内のツリーの数に関連する過剰適合のリスクはありません。

ただし、勾配ブースティング決定木のツリーの数は、過剰適合の観点から非常に重要です。ツリーを追加しすぎると過剰適合につながる可能性があるため、ツリーの追加を停止することが重要です。

8. 階層的クラスタリングとK平均法クラスタリング

階層的クラスタリングでは、クラスターの数を事前に指定する必要はありません。 k-means アルゴリズムではクラスターの数を指定する必要があります。

常に同じクラスターが生成されますが、k-means クラスタリングでは、重心 (クラスターセンター) の開始方法に応じて異なるクラスターが生成される可能性があります。

階層的クラスタリングは、k-means に比べて遅いアルゴリズムです。特に大規模なデータセットの場合、実行に長い時間がかかることがあります。

9. DBSCANアルゴリズムの2つの重要なパラメータ

DBSCAN は、任意の形状のクラスターに適したクラスタリングアルゴリズムです。これは外れ値を検出するための効果的なアルゴリズムでもあります。

DBSCAN の 2 つの主要なパラメータ:

eps: 近傍距離を指定します。 2 つのポイント間の距離が eps 以下の場合、それらのポイントは隣接していると見なされます。
minPts: クラスターを定義するデータポイントの最小数。

10. DBSCANアルゴリズムにおける3つの異なるタイプのポイント

eps および minPts パラメータに応じて、ポイントはコアポイント、境界ポイント、または外れ値として分類されます。

コアポイント: ポイントの周囲に半径 eps のポイントが少なくとも minPts 個 (ポイント自体を含む) ある場合、そのポイントはコアポイントになります。

境界点: コアポイントから到達可能であり、その周囲の領域にあるポイントの数が minPts 未満である場合、そのポイントは境界点となります。

外れ値: ポイントがコアポイントではなく、どのコアポイントからも到達できない場合、そのポイントは外れ値になります。

> 図の出典

この場合、minPts は 4 です。赤い点は、周囲に半径 eps の点が少なくとも 4 つあるため、コアポイントです。この領域は図では円で示されています。黄色の点は、コアポイントから到達可能であり、その近傍に 4 点未満の点があるため、境界ポイントです。到達可能とは、コアポイントの周囲を意味します。ポイント B と C の近傍 (つまり、半径 eps の周囲領域) には 2 つのポイント (ポイント自体を含む) があります。最後に、N はコアポイントではなく、コアポイントから取得できないため、外れ値になります。

11.なぜナイーブベイズは「ナイーブ」と呼ばれるのですか?

ナイーブベイズアルゴリズムでは、特徴は互いに独立しており、特徴間に相関関係がないものと想定します。しかし、現実にはそうではありません。特徴は相関していないというこの単純な仮定が、このアルゴリズムが「単純」と呼ばれる理由です。

すべての特徴が独立しているという仮定により、Naive Bayes アルゴリズムは、より複雑なアルゴリズムに比べて非常に高速になります。場合によっては、正確さよりも速度の方が重要です。

テキスト分類、電子メールスパム検出などの高次元データに適しています。

12. 対数損失とは何ですか?

対数損失 (クロスエントロピー損失とも呼ばれる) は、機械学習やディープラーニングモデルで広く使用されているコスト関数です。

クロスエントロピーは、2 つの確率分布間の比較を定量化します。教師あり学習タスクでは、予測したいターゲット変数があります。クロスエントロピーを使用して、ターゲット変数の実際の分布と予測を比較します。その結果、クロスエントロピー損失（ログ損失とも呼ばれる）が発生します。

13. ログ損失を計算するにはどうすればいいですか?

各予測について、真のクラスの予測確率の負の自然対数が計算されます。これらすべての値の合計は損失の対数になります。

計算をよりわかりやすく説明する例を以下に示します。

4 つのクラスの分類問題があります。特定の観測に対するモデルの予測は次のとおりです。

> (著者撮影)

この特定の観測値（つまり、データポイントまたは行）からのログ損失は -log(0.8) = 0.223 です。

14. 分類精度ではなく対数損失を使用するのはなぜですか?

対数損失を計算するときは、予測される確率の自然対数の負の値を取ります。予測の確実性が高まるほど、対数損失は低くなります (予測が正しかったと仮定した場合)。

たとえば、-log(0.9) は 0.10536 に等しく、-log(0.8) は 0.22314 に等しくなります。したがって、90% と決定すると、80% と決定した場合よりもログ損失が低くなります。

分類、精度、再現率などの従来の指標は、予測されたクラスと実際のクラスを比較してパフォーマンスを評価します。

以下の表は、比較的小規模な 5 つの観測値セットに対する 2 つの異なるモデルの予測を示しています。

> (著者撮影)

どちらのモデルも、5 つの観測値を 5 として正しく分類します。したがって、これらのモデルは分類精度の点で同じパフォーマンスを発揮します。ただし、確率はモデル 1 の予測がより確実であることを示しています。したがって、全体的なパフォーマンスが向上する可能性があります。

対数損失 (別名クロスエントロピー損失) は、分類モデルのより強力で正確な評価を提供します。

15. ROC曲線とAUC

ROC 曲線は、すべてのしきい値での混同行列を組み合わせてパフォーマンスを要約します。 AUC は、ROC 曲線をバイナリ分類器のパフォーマンスの数値表現に変換します。 AUC は ROC 曲線の下の領域であり、その値の範囲は 0 ～ 1 です。 AUC は、モデルが正のクラスと負のクラスをどれだけうまく分離できたかを示します。

16. 精度と再現率

精度と再現率のメトリックにより、分類の精度がさらに向上し、モデル評価をより具体的に理解できるようになります。どちらが好まれるかは、タスクと達成したい目標によって異なります。

精度は、予測が肯定的な場合にモデルがどれだけ優れているかを測定します。精度は肯定的な予測に焦点を当てています。肯定的な予測がいくつ正しかったかを示します。

再現率は、モデルが正のクラスを正しく予測するパフォーマンスをどの程度まで測定します。リコールの焦点は実際の陽性クラスにあります。モデルが正しく予測できた正のクラスの数を示します。

結論は

機械学習アルゴリズムに関する基本的な情報と詳細について説明しました。

対数損失に関する点など、いくつかの点は複数のアルゴリズムに関連しています。モデルを評価することは実装と同じくらい重要であるため、これらも重要です。

すべての機械学習アルゴリズムは、特定のタスクにおいて有用かつ効率的です。実行しているタスクに応じて、いくつかのスキルを習得することができます。

ただし、各アルゴリズムがどのように機能するかを理解することは価値があります。

<<: AIの最高峰：自然言語処理

>>: Google Cloud AI が機械学習にどのように役立つかを包括的に説明します